强化学习综述 发表于: 2025年11月17日 分类于: 学习/强化学习记录一下刚开始学习RL的东西专有名词 状态、环境观测动作奖励补充 稀疏奖励/稠密奖励奖励模型数据仿真:sim2real,阿里物理AIvibe coding强化学习算法(RL) QlearningPPORLHFDQNQlearning Q就是奖励度PPO RLHF DQN 问题 有监督、无监督、强化学习的区别强化学习能做的,用正常的分类能不能实现?why?什么是微调?难道准确、标准就是最好的吗?