SPAR:融合自对弈与树搜索的高性能指令优化框架
gaoyangw 2025-01-13 12:46 10 浏览 0 评论
大语言模型的指令遵循能力需要模型能够准确识别指令中的细微要求,并在输出中精确体现这些要求。现有方法通常采用偏好学习进行优化,在创建偏好对时直接从模型中采样多个独立响应。但是这种方法可能会引入与指令精确遵循无关的内容变化(例如,同一语义的不同表达方式),这干扰了模型学习识别能够改进指令遵循的关键差异。
针对这一问题,这篇论文提出了SPAR框架,这是一个集成树搜索自我改进的自对弈框架,用于生成有效且具有可比性的偏好对,同时避免干扰因素。通过自对弈机制,大语言模型采用树搜索策略,基于指令对先前的响应进行改进,同时将不必要的变化降至最低。
主要创新点:
- 发现从独立采样响应中获得的偏好对通常包含干扰因素,这些因素阻碍了通过偏好学习提升指令遵循能力
- 提出SPAR,一个创新的自对弈框架,能够在指令遵循任务中实现持续性自我优化
- 构建了包含43K个复杂指令遵循提示的高质量数据集,以及一个能够提升大语言模型指令遵循能力的监督微调数据集
方法论
整体框架
SPAR迭代训练框架如图所示:
- 在形式化定义中,每次迭代时,给定提示集中的指令x,执行模型生成响应y
- 改进模型负责识别未能准确遵循指令的响应,将其标记为负面响应
- 框架的核心目标是将负面响应优化为符合要求的正确响应
- 收集生成的改进对,通过直接偏好优化(DPO)来优化执行模型
- 同时,应用拒绝采样微调(RFT)提升改进模型性能,为下一轮自我优化做好准备
数据构建方法
提示构建
- 种子提示:基于Infinity-Instruct数据集构建初始种子提示集,该数据集包含一千万条高质量对话。经过基于长度、关键词和自我-BLEU的规则过滤,最终获得约50k条种子提示
- 分类法驱动的提示构建:采用基于分类法的机制确保约束类型的全面性和平衡性。在建立约束分类体系后,基于种子提示构建复杂指令遵循任务,最终生成约43k条提示
模型初始化
- 执行模型数据构建: 首先收集高性能语言模型对复杂提示的响应,生成用于执行模型的监督微调(SFT)数据(x, y) ∈ DActor,其中x表示复杂指令,y表示高性能模型的响应。随后对基础模型进行微调,得到初始执行模型M0
- 改进模型数据构建: 为使改进模型具备高质量的判断和改进能力,从初始执行模型M0中采样响应。收集高性能语言模型的判断结果,形成数据集(x, y, j) ∈ DJSFT。识别并收集被判定为未能准确遵循指令的响应作为负面样本。对这些负面响应,使用高性能语言模型进行最小化修正,避免引入无关变化
- 训练策略: 执行模型和改进模型均采用标准监督微调,损失函数定义如下:
其中q代表输入,r代表目标响应,N代表r的长度。执行模型训练中,输入q = x,目标r = y。改进模型训练中,对于DJSFT,输入q = (x, y),目标r = j;对于DRSFT,输入q = (x, ynegative, j),目标r = yrefined。
集成树搜索的自对弈训练机制
a) 负面数据采集流程
- 对每个提示x,首先从执行模型中采样K个响应{y1, y2, . . . , yK}
- 对每组提示-响应对,利用改进模型生成判断结果,包含两个核心要素:指令遵循程度的标签判定和详细的评估说明
- 为提高判断准确性,引入自一致性机制,通过从改进模型获取多个判断结果并采用多数投票确定最终标签
- 在完成多数投票后,随机选取一个与投票标签一致的判断作为最终结果,这使论文提出的方法能够识别出那些会导致指令遵循失败的高难度提示,形成(x, ynegative, j)格式的数据元组,其中ynegative表示不合格响应,j为对应判断结果
b) 树搜索优化方法
- 考虑到直接改进往往导致较低的成功率,本研究采用树搜索方法,实现了广度优先搜索(BFS)和深度优先搜索(DFS)策略
- 以BFS为例,从不合格的指令-响应对及其判断结果作为根节点出发,逐层扩展搜索树,直至找到符合要求的响应
- 在每个中间节点,为当前响应生成潜在的改进方案,并由改进模型评估其正确性。生成的改进方案数量即为分支数
- 在树的每一层,改进模型执行以下操作:1). 为当前层的所有节点生成潜在的改进方案;2). 评估这些改进方案的正确性。由此生成包含新响应及其对应判断的子节点集合
- 搜索过程持续进行,直到获得数据元组(x, ynegative, yrefined),其中yrefined为经过改进的合格响应
c) 执行模型训练方法
- 利用改进对数据进行偏好学习,采用DPO方法优化执行模型
- 在第t次迭代中,使用改进对(ynegative, yrefined)训练执行模型Mt,将ynegative作为被拒绝样本(yl),yrefined作为被选择样本(yw)
- 训练数据集记为Dtdpo,DPO损失函数定义如下:
其中π tθ表示执行模型Mt,参考模型π ref使用Mt初始化并在训练过程中保持不变。这一过程产生新的执行模型Mt+1,用于下一轮迭代
d) 改进模型训练方法
鉴于改进模型的输入具有模板化特征,论文采用拒绝采样微调(RFT)方法获取新的改进模型Rt+1。RFT训练数据包含两个主要组成部分:
(1) 改进训练数据集
- 改进训练数据集由记录不合格响应改进过程的数据元组构成
- 对于树搜索改进过程中的每个不合格响应,收集(x, yp, jp, yrefined)格式的数据元组,其中(x, yp, jp)代表改进树中最终合格响应的父节点,yrefined为经过改进的合格响应
(2) 判断训练数据集
- 判断训练数据来源于负面数据采集过程和树搜索过程中的节点
- 该数据集由(x, yi, ji)格式的元组组成,其中x为提示,yi为对应响应,ji为与多数投票结果一致的判断
- 随后,基于构建的训练数据进行监督微调
- 对于改进数据集Dtrefine,采用数据元组(x, yp, jp, yrefined),输入q = (x, yp, jp),目标r = yrefined。对于判断数据集Dtjudge,采用数据元组(x, yi, ji),输入q = (x, yi),目标r = ji。
实验研究
执行模型评估结果
SPAR在指令遵循能力方面的显著提升
下表展示了经过迭代训练的大语言模型在指令遵循基准测试上的核心性能指标
经过三轮迭代训练后,SPAR-8B-DPO-iter3模型在IFEval评测中的表现超越了GPT-4-Turbo(后者的平均准确率为81.3%)。此外,在推理阶段引入树搜索优化技术后,模型性能获得显著提升
值得注意的是,SPAR在模型规模扩展方面表现出优异的特性,这极大地增强了LLaMA3-70B-Instruct模型的指令遵循能力
SPAR对模型通用能力的影响分析
下表呈现了在通用基准测试上的性能数据
实验数据表明,SPAR不仅保持了模型的通用能力,在某些场景下还带来了性能提升,尤其是在GSM8k和HumanEval基准测试中。这证实了增强的指令遵循能力有助于提升大语言模型的整体对齐效果
SPAR相较于基线方法的优势
下图展示了各轮训练迭代在IFEval评测中的进步情况
在每轮迭代中,SPAR都展现出明显的优势。特别值得注意的是,其他方法即使经过三轮迭代,其性能仍未能达到SPAR首轮迭代的水平
改进模型评估结果
SPAR在判断能力方面的迭代提升
下表展示了经过迭代训练的大语言模型在LLMBar评测中的判断能力表现
实验结果显示,SPAR迭代训练显著提升了模型评估指令遵循任务的能力
在第三轮迭代后,改进模型SPAR-8B-RFT-iter3的性能超越了用于构建判断SFT数据集的GPT-4o-Mini模型
SPAR在改进能力方面的持续优化
下表呈现了改进能力的评估结果。其中Acc-GPT采用GPT-4o作为评判标准;Acc-SPAR则使用SPAR-8B-RFT-iter3进行评估
数据显示,LLaMA3-8B-Instruct模型的改进准确率在每轮训练迭代中均呈现稳定提升趋势,最终达到了与用于SFT数据构建的高性能模型GPT-4o-Mini相当的水平
总结
本研究提出了创新性的自对弈框架SPAR,通过改进对训练提升大语言模型的指令遵循能力。研究发现,与传统方法采用独立采样响应构建偏好对相比,通过最小化外部因素并突出关键差异的改进对方法,能在指令遵循任务上实现显著性能提升。采用本框架进行迭代训练的LLaMA3-8B-Instruct模型在IFEval评测中展现出超越GPT-4-Turbo的性能。通过推理计算能力的扩展,模型性能还有进一步提升的空间
作者:SACHIN KUMAR
相关推荐
- 教你一招,快速制作多张照片组成的心形图片
-
我是E客先生。...
- 微信推出自己动手制作表情包,10秒能DIY专属表情包(附教程)
-
近日,微信上线一款“微信创意表情”小程序,这是一款表情包制作工具,通过此小程序可以自己动手,以搭积木的方式制作个性化的创意表情包,堪称斗图必备神器。...
- 二维码电子画册制作教程,教你如何做出高端作品!
-
当今社会,二维码已经成为了信息传递的重要方式之一,其在电子商务、广告营销、活动推广等领域广泛应用。而如何将二维码巧妙地融入电子画册中,制作出高端、具有吸引力的作品,成为了许多设计师和营销人员关注的焦点...
- 用ps制作水晶字的教程,你知道什么是ps吗?
-
ps的全名是什么?ps的全称是AdobePhotoshop。它是美国Adobe公司旗下最著名的图像处理软件系列之一。它主要是一款集图像扫描、广告创意、图像制作、编辑修改、图像输入输出于一体的图形...
- PS教程!制作鹿灵海报(鹿灵图片唯美)
-
今天的作业算是很常见的特效,留心国外的一些初级教程,经常会看到运用在一些海报和片头中。素材链接→https://pan.baidu.com/s/1c1EqkZu-----作者:JennyLe优设小...
- 表单制作教程:可生成二维码分享,可嵌入公众号文章或菜单使用
-
表单问卷作为小正方助手的通用功能之一,可用于收集格式统一的数据。你可以通过组合单选、多选、下拉、文本、地址、日期、时间、打分、打卡、多级联动等题型搭建出电子表单,关联到二维码或者公众号上,扫码或点击直...
- 手把手教你|如何从0到1创建个人公众号
-
我是严大,点击右上方“关注”,每天为你分享【个人品牌】与【自媒体运营】干货。...
- 零基础动画视频制作教程:DeepSeek AI + 剪映全流程
-
适用人群:短视频博主、新手创作者工具需求:手机/电脑、DeepSeekAI(网页版)、剪映APP(免费版即可)一、前期准备:用DeepSeekAI生成动画素材作用:快速生成视频脚本、分镜、角色或场...
- 如何制作微课视频教程(如何制作微课视频教程下载)
-
现在微课很受欢迎,很多老师都开始在课堂上播放微课,不仅可以让学生对课堂感兴趣,也能提高教学效果。对于不会制作微课的老师来说,他们更想知道的是如何才能将微课视频制作出来,是否有教程。那么,如何制作微...
- iPhone隐藏超深的12个神技能,教你1秒制作最美证件照
-
分享最实在的玩机技巧,洞察最前沿的科技资讯!大家好,这里是手机科技园!...
- 创建合集,创建多个合集和。方法在这
-
首先打开浏览器,点击我的进入我的界面,点击右上方的设置界面进入设置界面,选择网页进入网页,选择浏览器标识将标识(ua)选择为电脑版搜索头条号进入头条号官网点击后登录(这里我已经登录了)。圈住的左上角的...
- 我老爸得了mvp!同款视频制作教程(我爸爸得缸)
-
大家好,我是岁辉姬。最近,小明剑魔的“我老爸得了mvp!”非常的火,今天我来教大家如何制作这类视频。第一步:下载原素材找到小明剑魔的视频原素材和音频原素材,并对其进行切割和压缩,这一步是很麻烦的,因为...
- 儿童创意手工 大嘴恐龙动态折纸的做法图解教程
-
一只花哨的大恐龙张开血盆大口小朋友们会爱不释手的玩一天,终于可以放下手机了哦。大嘴恐龙动态折纸效果。看下侧面。嘴巴合起来的样子。大嘴恐龙动态折纸的做法图解教程开始:第一步:首先将上图保存并用A4纸去...
- 【适合新手】ComfyUI制作AnimateDiff动画,保姆级教程
-
AI动画制作,ComfyUI新手教程。这些被全网刷爆的AI动画,是用ComfyUl制作的。很多伙伴给我留言想学,但光它的操作界面,估计就会劝退大部分人,更何况,它对电脑硬件配置有较高的要求,还需要各种...
- 家庭家谱,就该这么制作,既简单又美观,每个家庭都需要
-
继文章发布以来《...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 网站建设 (107)
- 网站开发 (47)
- 网络推广哪个平台好 (47)
- 百度收录 (50)
- 搜索引擎排名优化 (49)
- 关键词优化工具 (51)
- 外贸网站建设 (56)
- seo整站优化吧 (50)
- 广州seo (47)
- 苏州网站建设 (59)
- 百度搜索推广 (61)
- 关键词优化公司 (51)
- 网页制作 (47)
- 广州网站建设 (48)
- 电商网站建设 (49)
- 百度站长平台 (48)
- 网站模板 (51)
- 厦门网站建设 (52)
- 百度快照推广 (51)
- 免费网页在线客服系统 (53)
- 雷神代刷网站推广 (53)
- 长尾关键词 (47)
- 手机网站建设 (53)
- 网站维护 (53)
- 网页制作教程 (66)