李宏毅-机器学习2021春-6
李宏毅-机器学习2021春-6
1 GNN
2 Deeep Reinforcement Learning (RL)
当人类也不知道什么是好的输出结果时,可以用RL。
2.1 RL与机器学习的关系
Step 1 Function with unknown parameters
- 用sample产生随机输出

Step 2 Define “Loss”

Step 3 Optimization

2.2 Policy Gradient

加入$A_n$,代表期望执行的程度。

- $\gamma$:learning rate

Policy Gradient的步骤:

On-policy & Off-policy
- On-policy:用于训练的actor和用于交互的actor相同。
- Off-policy:用于训练的actor和用于交互的actor不同。如Proximal Policy Optimization (PPO)。
2.3 Actor-Critic
- Montre-Carlo (MC) based approach

- Temporal-difference (TD) approach

Veresion 3.5


Version 4 —— Advantage Actor-Critic

Actor和Critic的参数可以共享:

只采用Critic的方法:Q-learning(Rainbow)
