强化学习综述

记录一下刚开始学习RL的东西

专有名词

  • 状态、环境
  • 观测
  • 动作
  • 奖励

补充

  • 稀疏奖励/稠密奖励
  • 奖励模型
  • 数据仿真:sim2real,阿里物理AI
  • vibe coding

强化学习算法(RL)

  • Qlearning
  • PPO
  • RLHF
  • DQN

Qlearning

Q就是奖励度

PPO

RLHF

DQN

问题

  • 有监督、无监督、强化学习的区别
  • 强化学习能做的,用正常的分类能不能实现?why?
  • 什么是微调?
  • 难道准确、标准就是最好的吗?