凤凰彩票welcome 破解RL样本效用发愤！让AI一次性提真金不怕火环境学问，后续零调用老本

在经典 RL 经过里，智能体惟有在撞了南墙、遍历海量现象后，才能逐渐学到若何完成任务，样本效用极低。夙昔也有东说念主引入大模子教导，但时常每换一个任务就得从头写 prompt、再调一次 API，既贵又难迁徙。

来自南京大学章宗长俞扬团队和腾讯叶德珩团队的规划者们疑望到，GPT 这类大模子照旧内化了多数日频频识，淌若能一次性让它回归出"在这个环境下遍及有用的行径准则"，那么后续扫数任务皆不错分享合并份知识，省去反复调用。

配景知识是若何"真金不怕火"出来的？

什么是"环境配景知识"？平方来说，等于对通盘环境有用的学问，而不局限于某个具体任务。

举例在迷宫类环境中"不要碰墙壁，绕开龙套物"，在生计游戏中"优先捡取食品保抓存活"等劝诫，皆属于对该环境通用有利的知识。有了这些知识，智能体在本质任何特定任务时皆能更有用率地探索。

规划者用 RND 算法在环境里进行立时探索和学习，快乐飞艇pk10把看到的现象、算作皆存下来当"原料"。这些轨迹不带任何任务标签，保证提真金不怕火出的知识迷漫通用。接下来把轨迹边幅交给 GPT，让它赞理点评："哪些行径更像是合理、灵巧的？" 具体有三种提真金不怕火套路，诀别对应三条技巧道路（论文称BK-CODE、BK-PREF、BK-GOAL）。

BK-CODE 让大模子平直写 Python 奖励函数，规划者迭代开动、再把限定反映给 GPT-4 更正，直到输出一段能雄厚评价"好现象"与"坏现象"的代码。

BK-PREF把两段轨迹丢给 GPT-4 作念"二选一"，随后用基于 Bradley – Terry 模子的偏勤学习步调把这些偏好信息振荡为奖励信号。

BK-GOAL 请 GPT-4 凭据轨迹列出可能的子主张（如"合成木镐"、"遁入熔岩"），并在试验时规划面前现象与这些主张的通常度。

三条道路的共同点是：终末皆会得到一个势函数 [ 数学公式 ] ，凤凰彩票官方网站试验时迥殊加上形如 [ 数学公式 ] 的潜在奖励。凭据经典表面，这么作念不会调动原任务最优战略，而合理的势函数礼聘却能起到加速管理的效用。终末，作家基于经典的 PPO 步调，鄙人游任务上加入奖励重塑（reward shaping）进行 RL 试验。

效用到底有多快？

论文在Minigrid和Crafter两个不同类型环境中进行了多数实验，考证了引入配景知识的奖励塑形对样本效用的提高效用。

在 Minigrid 的四个任务中（包括有的新主张物体类型和神气是知识索要时未出现过的），三种变体均全面突出了现存的探索增强基线步和解基于话语的探索步调（如 RND、NovelD 等）。即使关于 LLM 从未"见过"的新任务类型，愚弄配景知识的智能体依然展现出赫然上风，证明索要的知识如实具有任务无关性，不错泛化到新的主张。更难能宝贵的是，提真金不怕火配景知识只需一次 LLM 调用，后续试验零 LLM 调用老本。