李宏毅-机器学习2021春-6


1 GNN

2 Deeep Reinforcement Learning (RL)

当人类也不知道什么是好的输出结果时,可以用RL。

2.1 RL与机器学习的关系

Step 1 Function with unknown parameters

  • 用sample产生随机输出

image-20211027223719227

Step 2 Define “Loss”

image-20211027223918193

Step 3 Optimization

image-20211027224656477

2.2 Policy Gradient

image-20211027225011598

加入$A_n$,代表期望执行的程度。

image-20211027225304667

  • $\gamma$:learning rate

image-20211028100022264

Policy Gradient的步骤:

image-20211028101939454

On-policy & Off-policy

  • On-policy:用于训练的actor和用于交互的actor相同。
  • Off-policy:用于训练的actor和用于交互的actor不同。如Proximal Policy Optimization (PPO)。

2.3 Actor-Critic

  • Montre-Carlo (MC) based approach

image-20211028105840880

  • Temporal-difference (TD) approach

image-20211028105909514

Veresion 3.5

image-20211028133117367

image-20211028133515163

Version 4 —— Advantage Actor-Critic

image-20211028133808379

Actor和Critic的参数可以共享:

image-20211028140419112

只采用Critic的方法:Q-learning(Rainbow)