昆仑万维今天宣布的 Skywork - OR1(Open Reasoner 1)系列模型 可真是个大惊喜,这可是它在 中文逻辑推理大模型领域 的一次超重要升级呢!它是基于首款中文逻辑推理大模型 Skywork - o1 精心迭代优化而来的哦。下面就带大家一起来看看这个系列模型的核心信息以及超亮眼的亮点吧!
一、核心亮点与升级
性能突破: 在 逻辑理解 和 复杂任务求解 方面,这个系列模型的表现那叫一个显著提升呀!特别是在 数学推理 和 代码生成 这两个领域,达到了同参数规模下的 SOTA(最优性能) 呢。 就说 Skywork - OR1 - 32B - Preview 吧,在数学推理(AIME24/25)和代码生成(LiveCodeBench)上,它的表现直接超越了同规模模型,甚至性能都快接近 DeepSeek - R1(671B 参数) 啦!可它的参数仅仅只有后者的 1/20,这性价比简直高到飞起,是不是超厉害!
完全开源: 模型权重、训练数据集 还有 完整训练代码 全都开源咯!这下开发者们可以自由自在地使用、修改,甚至用于商业用途,简直不要太方便。 这些资源都托管在 GitHub 和 Hugging Face 平台上,技术文档(像数据处理、训练方法这些)则发布在 Notion 平台,为大家提供了可复现的实践参考,真的太贴心啦。
多场景适配: 这次推出了 三款细分模型,可以满足不同的需求哟: Skywork - OR1 - Math - 7B:它可是专注于数学推理的,同时代码能力也很不错呢。在 AIME24/AIME25 上的得分达到了 69.8/52.3,远远超过主流的 7B 模型,是不是超牛! Skywork - OR1 - 7B - Preview:这是个通用型模型,巧妙地融合了数学与代码能力,推理和泛化能力都兼顾到啦。 Skywork - OR1 - 32B - Preview:它可是旗舰版本哦,特别适合那些高复杂度的任务,比如竞赛级数学、深度代码生成这些,性能都快赶上 DeepSeek - R1 啦。
创新评估指标: 引入了一个超厉害的 avg@k 指标,它主要是衡量模型在 k 次尝试中解决问题的平均成功率。和传统的 pass@k(只统计是否成功一次)相比,这个指标更能体现模型的 稳定性 和 推理连贯性,是不是很有创意!
二、技术细节与优势
数据优化: 在构建高质量数学和代码数据集方面,团队可是下了大功夫呢: 数学领域:精心筛选了 11 万道题目,其中还包含 AIME、Olympiads 等高难度题库,保证题目既有可验证性又有挑战性。 代码领域:收集了 13.7k 条高质量代码问题,像 LeetCode、TACO 这些,还特意保留了带单元测试的优质案例。 然后通过 LLM 自动判题 和人工审核这双重把关,把低质量数据都剔除掉,确保数据的高质量。
训练策略: 多阶段 GRPO(Group Relative Policy Optimization):这个方法优化了强化学习过程,让模型在跨模态任务上的表现更出色啦。 混合式训练(Iterative SFT + GRPO):通过分阶段对齐视觉 - 文本表征,大大增强了多模态推理能力,就像 Skywork R1V 的视觉推理能力迁移一样。
开源透明度: 提供了 完整技术报告,里面涵盖了数据处理流程、训练代码和关键发现,大大降低了复现的门槛,让更多人能够参与进来。
三、应用场景与对比
数学推理: Skywork - OR1 - Math - 7B 在 AIME24/AIME25 上的表现远远超过同规模模型,特别适合教育、科研这些场景,简直就是数学领域的得力助手。 32B 版本 在处理复杂数学问题(比如竞赛级题目)时,性能接近 DeepSeek - R1,但参数更少,成本也就更低啦,性价比超高。
代码生成: 7B 和 32B 模型 在 LiveCodeBench 上的表现都非常优异,在自动化编程、代码纠错等场景中都能大显身手。
多模态推理(结合 Skywork R1V): 能够处理 视觉逻辑推理,像科学现象分析、医学影像诊断这些。在 MMMU 和 MathVista 基准测试中,分别取得了 69/67.5 的好成绩呢。
对比竞品: 性能:32B 版本直接超越了 阿里 QwQ - 32B,在 AIME25 上和 DeepSeek - R1 基本持平,实力超强。 性价比:参数规模仅仅只有 DeepSeek - R1 的 5%,但性能却接近,对于那些资源受限的场景来说,简直就是福音呀。
四、获取与部署
开源地址: GitHub 和 Hugging Face 上已经上传了模型权重和代码,大家可以去那里获取哦。 Notion 技术文档 里有详细的训练流程和数据集说明,方便大家深入了解。
部署建议: 7B 模型:适合在消费级显卡(比如 RTX 3090/4090)或者服务器上进行部署,普通设备也能轻松驾驭。 32B 模型:则需要多 GPU 集群或者云服务的支持,可以通过 DeepSpeed 或 Megatron - LM 来实现并行推理,对设备要求会高一些啦。
未来计划: 两周内就会发布正式版本(现在还是 Preview 版哦),到时候会进一步优化性能并且完善文档,是不是超期待! 还会推出更详细的 技术报告,分享训练策略和优化经验,感觉又能学到好多新知识啦。
五、总结
Skywork - OR1 系列模型 真的是昆仑万维在推理大模型领域的一次重大突破呀!凭借 开源策略、高性能 和 多场景适配性,为开发者和企业提供了一套低成本、高效率的解决方案。不管是数学教育、代码开发,还是多模态推理任务,这个系列模型都展现出了显著的优势,真的非常值得大家关注和尝试呢!
