Note¶ Paper Reading¶ Reinforcement Learning Model-based RL with uncertainty 蒙特卡罗树搜索(MCTS) - 介绍 Background and decision-time planning Language Modeling Woodpecker: Hallucination Correction for Multimodal Large Language Models Book Reading¶ Reinforcement Learning: An Introduction (Richard S. Sutton and Andrew G. Barto) 强化学习导论(一)- 强化学习问题(略) 强化学习导论(二)- 多臂老虎机 强化学习导论(三)- 有限马尔可夫决策过程 强化学习导论(四)- 动态规划 强化学习导论(五)- 蒙特卡罗方法 强化学习导论(六)- 时序差分学习 强化学习导论(七)- n 步自助法 强化学习导论(八)- 规划与学习 强化学习导论(九)- On-Policy的近似预测 强化学习导论(十)- On-Policy的近似控制 强化学习导论(十一)- Off-Policy的近似方法 强化学习导论(十二)- 资格迹 强化学习导论(十三)- 策略梯度法 Last update: November 2, 2023