
在经典 RL 经过里,智能体惟有在撞了南墙、遍历海量现象后,才能逐渐学到若何完成任务,样本效用极低。夙昔也有东说念主引入大模子教导,但时常每换一个任务就得从头写 prompt、再调一次 API,既贵又难迁徙。
来自南京大学章宗长俞扬团队和腾讯叶德珩团队的规划者们疑望到,GPT 这类大模子照旧内化了多数日频频识,淌若能一次性让它回归出"在这个环境下遍及有用的行径准则",那么后续扫数任务皆不错分享合并份知识,省去反复调用。

配景知识是若何"真金不怕火"出来的?
什么是"环境配景知识"? 平方来说,等于对通盘环境有用的学问,而不局限于某个具体任务。
举例在迷宫类环境中"不要碰墙壁,绕开龙套物",在生计游戏中"优先捡取食品保抓存活"等劝诫,皆属于对该环境通用有利的知识。有了这些知识,智能体在本质任何特定任务时皆能更有用率地探索。

规划者用 RND 算法在环境里进行立时探索和学习,快乐飞艇pk10把看到的现象、算作皆存下来当"原料"。这些轨迹不带任何任务标签,保证提真金不怕火出的知识迷漫通用。接下来把轨迹边幅交给 GPT,让它赞理点评:"哪些行径更像是合理、灵巧的?" 具体有三种提真金不怕火套路,诀别对应三条技巧道路(论文称BK-CODE、BK-PREF、BK-GOAL)。
BK-CODE 让大模子平直写 Python 奖励函数,规划者迭代开动、再把限定反映给 GPT-4 更正,直到输出一段能雄厚评价"好现象"与"坏现象"的代码。
BK-PREF把两段轨迹丢给 GPT-4 作念"二选一",随后用基于 Bradley – Terry 模子的偏勤学习步调把这些偏好信息振荡为奖励信号。
BK-GOAL 请 GPT-4 凭据轨迹列出可能的子主张(如"合成木镐"、"遁入熔岩"),并在试验时规划面前现象与这些主张的通常度。

三条道路的共同点是:终末皆会得到一个势函数 [ 数学公式 ] ,凤凰彩票官方网站试验时迥殊加上形如 [ 数学公式 ] 的潜在奖励。凭据经典表面,这么作念不会调动原任务最优战略,而合理的势函数礼聘却能起到加速管理的效用。终末,作家基于经典的 PPO 步调,鄙人游任务上加入奖励重塑(reward shaping)进行 RL 试验。
效用到底有多快?
论文在Minigrid和Crafter两个不同类型环境中进行了多数实验,考证了引入配景知识的奖励塑形对样本效用的提高效用。

在 Minigrid 的四个任务中(包括有的新主张物体类型和神气是知识索要时未出现过的),三种变体均全面突出了现存的探索增强基线步和解基于话语的探索步调(如 RND、NovelD 等)。即使关于 LLM 从未"见过"的新任务类型,愚弄配景知识的智能体依然展现出赫然上风,证明索要的知识如实具有任务无关性,不错泛化到新的主张。更难能宝贵的是,提真金不怕火配景知识只需一次 LLM 调用,后续试验零 LLM 调用老本。

更令东说念主惊喜的是,配景知识对新任务和更大边界环境的泛化才调也得到了考证。作家让智能体在 Minigrid 中只检朴单的" Goto "类任务索要知识(即导航去找单一主张物品),然后测试在愈加复杂的新任务上,举例需要按规定找两个主张(Goto-seq)或找到主张后本质拾起算作(Pickup)。
{jz:field.toptypename/}限定败露,无需从头调用 LLM,之前提真金不怕火的知识平直用于这些新任务,依然大幅提高了学习效用:比拟之下,原有基线在这些更难任务上确实学不到任何东西,而有配景知识加抓的智能体很快学会了管理任务。

另外,当将 Minigrid 的舆图边界从 20 × 20 扩大到 30 × 30 时,含配景知识的智能体依旧保抓了高采样效用,而基线步调的性能跟着舆图变大急剧下落。这阐述事前赢得的环境知识具有精采的可推广性,能匡助智能体应付更复杂、更大的环境。

论文鸠集:https://arxiv.org/abs/2407.03964
阵势代码:https://github.com/mansicer/background-knowledge-rl
一键三连「点赞」「转发」「堤防心」
接待在驳斥区留住你的思法!
— 完 —

� � 点亮星标 � �
科技前沿阐述逐日见
上一篇:凤凰彩票官方网站 海淀放大招!90亿资金+近30条政策,重磅开释三大科创重要信号
下一篇:没有了

备案号: