李宏毅-机器学习2021春-6
李宏毅-机器学习2021春-6 1 GNN 2 Deeep Reinforcement Learning (RL) 当人类也不知道什么是好的输出结果时,可以用RL。
2.1 RL与机器学习的关系 Step 1 Function with unknown parameters
用sample产生随机输出 Step 2 Define “Loss”
Step 3 Optimization
2.2 Policy Gradient 加入$A_n$,代表期望执行的程度。
$\gamma$:learning rate Policy Gradient的步骤:
On-policy & Off-policy
On-policy:用于训练的actor和用于交互的actor相同。 Off-policy:用于训练的actor和用于交互的actor不同。如Proximal Policy Optimization (PPO)。 2.3 Actor-Critic Montre-Carlo (MC) based approach Temporal-difference (TD) approach Veresion 3.5
Version 4 —— Advantage Actor-Critic