研究人员以不到50美元的价格研发出与OpenAI o1相媲美的模型
访问:https://github.com/simplescaling/s1s1背后的团队表示,他们从一个现成的基础模型开始,然后通过蒸馏对其进行微调,蒸馏是一种通过训练答案从另一个 AI 模型中提取“推理”能力的过程。研究人员表示,s1是从Google的推理模型之一 Gemini 2.0 Flash Thinking Experimental 中提炼出来的。蒸馏与伯克利研究人员上个月以大约 450 美元的价格创建 AI 推理模型的方法相同。对一些人来说,少数没有数百万美元的研究人员仍然可以在 AI 领域进行创新的想法令人兴奋。但s1提出了关于AI模型商品化的真正问题。如果有人可以用相对零钱来接近复制数百万美元的模型,那么护城河在哪里?不出所料,大型AI实验室对此并不开心。OpenAI指责DeepSeek不正当地从其API中收集数据以进行模型蒸馏。s1背后的研究人员正在寻找最简单的方法来实现强大的推理性能和“测试时扩展”,或者允许AI模型在回答问题之前进行更多思考。这些是OpenAI的o1中的一些突破,DeepSeek和其他AI实验室试图通过各种技术复制这些突破。s1论文建议,可以使用称为监督微调 (SFT) 的过程,通过相对较小的数据集来提炼推理模型,其中明确指示 AI 模型模仿数据集中的某些行为。SFT 往往比DeepSeek用于训练其竞争对手使用OpenAI的 o1 模型 R1 的大规模强化学习方法更便宜。Googl 通过其Google AI Studio 平台免费提供对Gemini 2.0 Flash Thinking Experimental的访问,尽管有每日速率限制。然而,Google的条款禁止对其模型进行逆向工程,以开发与公司自己的人工智能产品竞争的服务。我们已经联系了Google寻求回复。S1基于阿里巴巴拥有的中国AI实验室 Qwen 的小型现成AI模型,可免费下载。为了训练s1,研究人员创建了一个仅包含1000个精心策划的问题的数据集,并附有这些问题的答案,以及Google的 Gemini 2.0 Flash Thinking Experimental 中每个答案背后的“思考”过程。据研究人员称,在使用16个 NVIDIA H100 GPU 训练s1后,s1在某些AI基准测试中取得了出色的性能。参与该项目的斯坦福大学研究员尼克拉斯·穆尼霍夫 (Niklas Muennighoff) 告诉 TechCrunch,他现在可以以大约 20 美元的价格租用必要的计算设备。研究人员使用了一个巧妙的技巧让s1仔细检查它的工作并延长它的 “思考” 时间:他们告诉它等待。根据该论文,在s1的推理中添加“等待”一词有助于模型得出更准确的答案。2025 年,Meta Google和Microsoft计划在AI基础设施上投资数千亿美元,其中部分将用于训练下一代AI模型。这种水平的投资对于推动AI创新的发展可能仍然是必需的。蒸馏已被证明是一种以低成本重新创建AI模型功能的好方法,但它并没有创建比现在可用的AI模型好得多的新 AI 模型。 ...
PC版:https://www.cnbeta.com.tw/articles/soft/1476558.htm
手机版:https://m.cnbeta.com.tw/view/1476558.htm
via cnBeta.COM中文业界资讯站 - Telegram Channel
访问:https://github.com/simplescaling/s1s1背后的团队表示,他们从一个现成的基础模型开始,然后通过蒸馏对其进行微调,蒸馏是一种通过训练答案从另一个 AI 模型中提取“推理”能力的过程。研究人员表示,s1是从Google的推理模型之一 Gemini 2.0 Flash Thinking Experimental 中提炼出来的。蒸馏与伯克利研究人员上个月以大约 450 美元的价格创建 AI 推理模型的方法相同。对一些人来说,少数没有数百万美元的研究人员仍然可以在 AI 领域进行创新的想法令人兴奋。但s1提出了关于AI模型商品化的真正问题。如果有人可以用相对零钱来接近复制数百万美元的模型,那么护城河在哪里?不出所料,大型AI实验室对此并不开心。OpenAI指责DeepSeek不正当地从其API中收集数据以进行模型蒸馏。s1背后的研究人员正在寻找最简单的方法来实现强大的推理性能和“测试时扩展”,或者允许AI模型在回答问题之前进行更多思考。这些是OpenAI的o1中的一些突破,DeepSeek和其他AI实验室试图通过各种技术复制这些突破。s1论文建议,可以使用称为监督微调 (SFT) 的过程,通过相对较小的数据集来提炼推理模型,其中明确指示 AI 模型模仿数据集中的某些行为。SFT 往往比DeepSeek用于训练其竞争对手使用OpenAI的 o1 模型 R1 的大规模强化学习方法更便宜。Googl 通过其Google AI Studio 平台免费提供对Gemini 2.0 Flash Thinking Experimental的访问,尽管有每日速率限制。然而,Google的条款禁止对其模型进行逆向工程,以开发与公司自己的人工智能产品竞争的服务。我们已经联系了Google寻求回复。S1基于阿里巴巴拥有的中国AI实验室 Qwen 的小型现成AI模型,可免费下载。为了训练s1,研究人员创建了一个仅包含1000个精心策划的问题的数据集,并附有这些问题的答案,以及Google的 Gemini 2.0 Flash Thinking Experimental 中每个答案背后的“思考”过程。据研究人员称,在使用16个 NVIDIA H100 GPU 训练s1后,s1在某些AI基准测试中取得了出色的性能。参与该项目的斯坦福大学研究员尼克拉斯·穆尼霍夫 (Niklas Muennighoff) 告诉 TechCrunch,他现在可以以大约 20 美元的价格租用必要的计算设备。研究人员使用了一个巧妙的技巧让s1仔细检查它的工作并延长它的 “思考” 时间:他们告诉它等待。根据该论文,在s1的推理中添加“等待”一词有助于模型得出更准确的答案。2025 年,Meta Google和Microsoft计划在AI基础设施上投资数千亿美元,其中部分将用于训练下一代AI模型。这种水平的投资对于推动AI创新的发展可能仍然是必需的。蒸馏已被证明是一种以低成本重新创建AI模型功能的好方法,但它并没有创建比现在可用的AI模型好得多的新 AI 模型。 ...
PC版:https://www.cnbeta.com.tw/articles/soft/1476558.htm
手机版:https://m.cnbeta.com.tw/view/1476558.htm
via cnBeta.COM中文业界资讯站 - Telegram Channel