发布日期:2025-04-25 09:03 点击次数:155
无需数据标注初中生系列,在测试时作念强化学习,模子数学能力暴增 159%!
清华和上海 AI Lab 周伯文团队用这么的设施,对模子进行了强化——
终止模子在多个数据集上的获利均大幅提高,尤其是 Qwen-2.5-Math-7B,它作念 AIME 2024 竞赛题的获利径直提高了 159%。
现实经由中,强化学习的数据均由被锻真金不怕火的模子自己生成。
作家还发现,锻真金不怕火后的模子性能,准确性仍是高出了用于锻真金不怕火它的伪标签(测试时强化学习经由中产生)。
DeepMind 工程师评价,这种测试时强化学习的神志将改动 LLM 的步地:
它欺骗预锻真金不怕火模子和特定任务的教唆进行及时自符合,而无需宽绰带标签的数据集,这是上前迈出的蹙迫一步。
模子我方生成强化学习数据
作家漠视的测试时强化学习(TTRL)经由是测试时彭胀和测试时锻真金不怕火的伙同,具体不错分为"生成、投票、强化"三个大才调。
第一步生成的指标,是让模子针对每个输入的 prompt,生成尽可能各类化的候选谜底,该经由通过测试时推理来兑现。
其想路是在推理阶段增多盘算资源以取得更好的性能,具体到 TTRL 吸收的是增多采样数目的神志,即对每个 prompt,让模子采样生成 N 个不同的谜底,而不是只生成一个投降性最高的输出。
作家的现实中,当在 AIME 2024 数据集上应用 TTRL 锻真金不怕火 Qwen2.5-Math-7B 模子时,每个 prompt 采样 64 次 ( N=64 ) ,温度所有设为 1.0,以饱读动模子生成各类化的谜底。
投票经由从上一步生成的 N 个候选谜底动身,通过多数投票的神志来测度正确谜底,并将其手脚伪标签。
初中生系列
TTRL 在本色应用投票机制时还引入了一个参数 Maj@N,示意多数投票的测度准确率。
它预计的是伪标签与真确标签的一致性。通过终端 Maj@N,不错衡量伪标签的质料和数目。
临了一步欺骗强化学习,基于上一步测度出的伪标签,来优化讲话模子的计谋,使其倾向于给出正确谜底。
TTRL 吸收 GRPO 算法,还加入了蹙迫性采样和蒙特卡洛测度等本领,以提高锻真金不怕火着力和领路性。
模子数学能力大幅提高
为了评估 TTRL 的成果,作家在 AIME 2024、AMC 和 MATH-500 三个数据集上对调理前后的三款模子进行了测试。
在 AIME 2024 数据集上,关于 Qwen2.5-Math-7B 基础模子,TTRL 将其准确率从 16.7% 提高到 43.3%,提高幅度高达 159.3%,超过了所有在大边界标注数据上锻真金不怕火的模子。
在 AMC 数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B 和 LLaMA 模子的准确率区分取得了 74.9%、63.1% 和 68.4% 的大幅提高。
MATH-500 数据集上的发达更为凸起,Qwen2.5-Math-7B 和 Qwen2.5-Math-1.5B 区分兑现了 66.4% 和 142.4% 的惊东谈主提高,LLaMA 模子的准确率也提高了 29.3%。
平均而言,TTRL 使 Qwen2.5-Math-7B 模子在三个数据集上的性能提高了 84.1%。
进一步的泛化性现实标明,在一个数据集上应用 TTRL 后,性能的提高不错当然移动到其他数据集,以致是从未参与锻真金不怕火的任务。
为了分析 TTRL 设施有用的原因,作家相比了 TTRL 锻真金不怕火前后模子的多数投票性能。
终止,应用 TTRL 后,模子的多数投票准确率(Maj@64)显赫高于原始的 Qwen 模子,讲明通过多数投票得到的伪标签质料优于单个模子输出。
何况强化学习具备纠错能力。即使伪标签并非全齐准确,强化学习也不错通过赏罚机制指点模子朝着正确场合优化。
从 AIME 2024 上标签准确率和奖励准确率的变化弧线中不错看到,即使在标签准确率较低的阶段,奖励准确率也能保管在 90% 以上。
作家简介
这项究诘的携带者是清华大学 C3I 课题组博士生伸开颜和上海 AI 现实室后生究诘员崔淦渠。
伸开颜的导师是上海东谈主工智能现实室主任、首席科学家周伯文西席;崔淦渠则毕业于清华 NLP 现实室,读博时候导师是刘知远副西席。
本文共归拢作是伸开颜和相同来自清华的 Yuxin Zuo,周伯文和 C3I 课题组博士后丁宁是本文的通信作家。
论文地址:
https://arxiv.org/abs/2504.16084
一键三连「点赞」「转发」「防卫心」
伦理片a在线线2828接待在驳斥区留住你的认识!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见初中生系列