0%

强化学习综述

发表于： 2025年11月17日分类于：学习/强化学习

记录一下刚开始学习RL的东西

专有名词

状态、环境
观测
动作
奖励

补充

稀疏奖励/稠密奖励
奖励模型
数据仿真:sim2real，阿里物理AI
vibe coding

强化学习算法(RL)

Qlearning
PPO
RLHF
DQN

Qlearning

Q就是奖励度

PPO

RLHF

DQN

问题

有监督、无监督、强化学习的区别
强化学习能做的，用正常的分类能不能实现？why？
什么是微调？
难道准确、标准就是最好的吗？