RT-DETR代码详解(官方pytorch版)——参数配置(1)
樱草22:
你好,请问torch,torchaudio,torchvision和cuda的版本分别是什么呀,我的一直报错说冲突
PPO原理详解 | 公式推导
小小老大MUTA️:
虽然没有让奖励精确落实到每一步,但是llm的本质并不说要反应哪个单词对整个句子的贡献最大,而且反应生成单词后整个序列的评价。所以也就是近似,不需要精确分配。这里将总的回报拆分成多步估算,是为了训练平滑,降低方差,不是为了精确分配每个单词的奖励。
PPO原理详解 | 公式推导
小小老大MUTA️:
其次,如果使用整个轨迹的奖励总值作为监督信号,相当于要等到一整局游戏结束才能够调整训练,也会导致训练慢、并且难明确动作的贡献。但是如果用每一步计算优势,就能够动态调整。
PPO原理详解 | 公式推导
小小老大MUTA️:
首先,为什么不直接用整个轨迹的总奖励作为训练信号?就比如一局马里奥游戏,赢得游戏是我们最终的目的,但是中间的操作过程可以有很多。如果只把游戏结束当作奖励,所有动作都共享一个回报(略过金币和获得金币最后的奖励没有区别),这样没办法区分哪个动作贡献大,哪个贡献小,这会导致训练信号模糊,并且中间过程有很多,很难去学习收敛。
PPO原理详解 | 公式推导
ICUD:
你好,有个疑问想咨询您? “相比于直接使用整个轨迹(一整次游戏结束)的奖励总值,使用每一个时间t对应的奖励值处理,有什么好处?换句话说,如果只是为了使用(Rn - Baseline)这种优势奖励来更好地训练,是否直接求n个样本的奖励均值作为baseline不就OK了?因为就llm中使用来看,将Rn转化为每一时间步级别的优势奖励来计算,也并没有真的让奖励精确落实到每一步的动作上?”