昆仑万维发布全新大模型奖励模型Skywork-Reward,登顶RewardBench

2024-10-07 15:31:22 围观 : 218 次 0 评论

近日,昆仑万维发布了两款全新的奖励模型Skywork-Reward-Gemma-2-27BSkywork-Reward-Llama-3.1-8B。在权威奖励模型评估基准 RewardBench 上,这两款模型表现卓越,分别位列 RewardBench 排行榜上的第一和第三位。特别是 Skywork-Reward-Gemma-2-27B 荣登榜首,赢得了 RewardBench 官方的高度认可和点赞转发。

昆仑万维发布的两款全新奖励模型在权威奖励模型评估基准 RewardBench 上表现卓越,分别位列第一和第三位(来源:RewardBench排行榜https://huggingface.co/spaces/allenai/reward-bench)


奖励模型(Reward Model)是强化学习(Reinforcement Learning)中的核心概念和关键组成,它用于评估智能体在不同状态下的表现,并为智能体提供奖励信号以指导其学习过程,让智能体能够学习到在特定环境下如何做出最优选择。奖励模型在大语言模型(Large Language Model,LLM)的训练中尤为重要,可以帮助模型更好地理解和生成符合人类偏好的内容。

RewardBench 是专用于评估大语言模型中奖励模型有效性而设计的基准测试榜单。它通过多项任务对奖励模型的表现进行综合评估,涵盖了对话、推理和安全性等领域。RewardBench 的基准测试数据集由提示词、被选响应和被拒绝响应组成的三元组构成,旨在测试奖励模型是否能在给定提示词的情况下,将被选响应排在被拒绝响应之前。

这意味着,想要在RewardBench基准测试中脱颖而出,奖励模型不仅需在对话、安全性和推理所有领域上表现出色,还必须在具有挑战性的对抗性案例中展现稳健的应对能力,证明其具备全面的理解能力并能准确识别细微偏好差异

昆仑万维Skywork-Reward-Gemma-2-27B 荣登榜首,赢得了 RewardBench 官方的高度认可和点赞转发

此前,最先进的奖励模型是由 NVIDIA 开发的 Nemotron-4-340B-Reward,该模型基于 HelpSteer2 偏好数据集上进行训练,该数据集包括大约 10,000 个人工标注的样本。然而,由于其模型规模庞大,使用成本较高。

Skywork-Reward 通过从公开数据中精心挑选小而精的偏序数据集,并使用相对较小的基座模型,来开发最先进的奖励模型。与现有奖励模型不同,Skywork-Reward 的偏序数据仅来自于网络公开数据,采用特定的筛选策略,以获得针对特定能力和知识领域的高质量的偏好数据集

这些偏好数据包括由人类标注和合成生成的(问题、被选回答、被拒回答),涵盖了广泛的主题,例如来自 WildGuard 的安全性和来自 Magpie 的数学与代码。数据源包括:HelpSteer2(7K)、OffsetBias(8K)、WildGuard(对抗性)(9K),以及 Magpie DPO 系列:Ultra、Pro(Llama-3.1)、Pro、Air(350K)。

为了进一步优化数据集,昆仑万维团队利用数据集的统计信息来进行筛选,在不牺牲整体性能的情况下,实现RewardBench各领域之间的性能平衡提升:









  1. 团队基于数据集中提供的 ArmoRM 平均得分,从 Magpie 综合数据集中独立选择数学、代码和其他类别的最优样本。将 Magpie-Air 子集和 Magpie-Pro 子集的 ArmoRM 平均得分分别减去 0.1 和 0.05,以优先选择 Magpie-Ultra 和 Magpie-Pro-Llama-3.1 样本。

  2. 对于 WildGuard,并未包括所有的偏好数据,而是首先在另外三个数据源上训练一个27B奖励模型(RM)。然后(1)使用该 RM 对 WildGuard 中所有样本的被选回答和被拒回答进行评分,(2)仅选择那些被选回答的 RM 得分高于被拒回答的样本。团队观察到,这种方法在提升安全性的同时,基本保留了对话、复杂对话和推理领域的性能。

  3. 最后还进行了全面的人工验证,以剔除数据中客观不正确以及奖励差距较小的样本。




最终,Skywork-Reward 偏序训练数据集包含约 80,000 个样本,通过在这些样本上微调 Gemma-2-27B-it 和 Llama-3.1-8B-Instruct 基座模型,获得最终的 Skywork-Reward 奖励模型。

在测试过程中,昆仑万维奖励模型在对话、安全性等领域表现出色,例如在对话、安全、代码推理、数据推理等方向的困难样本中,只有 Skywork-Reward-Gemma-2-27B 模型给出了正确的预测(对比模型包括:ArmoRM 和 InternLM2-20B-Reward)。


示例一丨Skywork-Reward-Gemma-2-27B 模型在安全领域上的表现优异

示例二丨Skywork-Reward-Gemma-2-27B 模型在数据推理领域上的表现优异

更多关于昆仑万维推出的两款全新奖励模型,可查看:



27B模型地址:

https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B模型地址:

https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B

偏序数据地址:

https://huggingface.co/collections/Skywork/skywork-reward-data-collection-66d7fda6a5098dc77035336d







往期推荐
01
 AI短剧平台SkyReels正式发布
02
 全球首个AI流媒体音乐平台Melodio发布
03
 昆仑万维宣布天工AI DAU超过100
04
 中国首个音乐SOTA模型今日公测
05

天工SkyMusic音乐大模型今日启动邀测

相关文章

  • 技术 | 当背包侠邂逅3D高斯,数字孪生迎来“瞬时”革命
    技术 | 当背包侠邂逅3D高斯,数字孪生迎来“瞬时”革命

    在数字化的浪潮中,我们渴望在数字虚拟的世界中复刻出现实的每一个细节。然而,对于仓库、地下工事、码头等结构复杂且无GNSS信号的“信息孤岛”,传统的三维重建技术往往面临效率低下、模型笨重、真实感不足的困境。其生成的数字孪生模型,常常只是空有点...

    2025-07-28 13:01:06 立得空间
  • 携手越南BW Industrial集团,共建高标准TPO屋面系统
    携手越南BW Industrial集团,共建高标准TPO屋面系统

    近年来,东方雨虹以产业基础、科创平台、资源优势及实践探索经验为支撑,积极抢抓国际发展新机遇、探索全球发展新路径、加速全球化布局,陆续在美国、加拿大、马来西亚、越南、菲律宾等多国开设海外分公司及办事处,为夯实海外发展基础、拓展海外发展空间奠定...

    2025-07-28 11:09:19 东方雨虹
  • SNEC2025开展首日| 利珀科技在2.1H-D110展位等你
    SNEC2025开展首日| 利珀科技在2.1H-D110展位等你

    6月11日,SNEC第十八届国际太阳能光伏与智慧能源(上海)大会暨展览会在上海盛大开幕,利珀科技携光伏电池端通用解决方案,BC电池与组件端视觉解决方案亮相。利珀展位 2.1H-D110 leapers合影展会现场,利珀科技的技术团...

    2025-07-27 21:02:52 新能源杭州利珀科技
  • 用友BIP:打造企业数智化的战略级“操作系统”
    用友BIP:打造企业数智化的战略级“操作系统”

    来源:新华网客户端yonyou在新一代信息技术持续突破、人工智能加速应用落地、产业体系深度重构的时代背景下,软件已从传统的“辅助工具”跃升为“新型生产力”。国家持续推进《“十四五”数字经济发展规划》《数字中国建设整体布局规划》等顶层设计落地...

    2025-07-23 10:31:02 用友
  • 捷昌驱动:以科技重构适老化生活,赋能银发经济新未来
    捷昌驱动:以科技重构适老化生活,赋能银发经济新未来

    在人口老龄化趋势加速的当下,如何让老年群体享有更有尊严、更具品质的生活,已成为社会发展的重要命题。2025年6月11日至13日,上海国际养老、辅具及康复医疗博览会(AID)上,线性驱动领域领军企业捷昌驱动(展位号:W5F32)以"从零部件供...

    2025-07-22 22:16:10 捷昌驱动
  • 数智服务·智慧运营——用友四川用户企业报表赋能培训圆满结束!
    数智服务·智慧运营——用友四川用户企业报表赋能培训圆满结束!

    yonyou为助力客户企业加速财务数字化转型,深化数智应用能力,用友网络科技股份有限公司四川分公司于6月13日在蓉成功举办“数智服务·智慧运营——四川用户系统操作与价值提升培训会”。本次培训聚焦企业报表核心场景,通过系统化赋能,助力客户高效...

    2025-07-22 11:48:19 软件用友四川
  • 正式介绍美团闪购,欢迎10亿消费者来购物!
    正式介绍美团闪购,欢迎10亿消费者来购物!

    正式向大家介绍新一代购物平台——美团闪购!我们把“等快递”升级为“30分钟送达”海量商品,吃的用的,应有尽有24小时随时随地陪伴大家更有每日神价,就是便宜就是快为大家打造下一代购物体验诚邀全国10亿消费者,随时来美团闪购逛逛我们特地准备了开...

    2025-07-20 18:16:00 美团Meituan
  • 数智焕新进行时,用友BIP助力企业跨越周期、迈向高质量发展
    数智焕新进行时,用友BIP助力企业跨越周期、迈向高质量发展

    用友BIP全球经济波动加剧、技术迭代加速,当关税战如迷雾般笼罩全球贸易航道、AI 大模型开始重塑整个行业生态,全球范围内的企业都面临着关税壁垒、政策合规、AI技术落地难以及全球化运营复杂性等多重挑战。加速推进数智化转型成为企业突破困境、实现...

    2025-07-19 15:46:37 用友
  • 国际权威认证!凌云光通过CMMI四级评估
    国际权威认证!凌云光通过CMMI四级评估

    近期,凌云光成功通过国际公认最权威的软件研发管理体系认证——CMMI(软件能力成熟度模型集成)DEV四级评估,这标志着公司在软件研发过程管理能力、项目交付质量等方面持续进阶,目前已具备高成熟度的量化管理能力,将为客户提供更高确定性的交付保障...

    2025-07-19 07:17:55 软件凌云光技术
  • 北京市科委报道双鹤创新平台:AI驱动药物研发全链条  塑造医药创新“国家队”新范式
    北京市科委报道双鹤创新平台:AI驱动药物研发全链条 塑造医药创新“国家队”新范式

          在创新药物研发领域,面对漫长的周期、高昂的成本以及巨大的风险,北京双鹤润创科技有限公司(以下简称“双鹤润创”),作为华润双鹤旗下的科技创新平台,提出了一种创新的解决方案。该平台以“人工智能...

    2025-07-18 21:33:57 药品华润双鹤药业
发表评论