🔥李飞飞团队S1模型引热议:低成本高性能背后有玄机

* 核心观点: 李飞飞团队发布的S1模型,以低成本和在特定测试中超越OpenAI o1-preview的性能引发关注,但其训练成本、性能优势及技术核心仍存在争议。
* 成本争议:
* 论文称S1-32B模型使用16张英伟达H100 GPU,耗时26分钟,成本不到50美元。
* 但该模型基于阿里通义千问Qwen2.5-32B-Instruct进行微调,50美元成本可能不包含前期研究、消融实验及基座模型的训练费用。
* 性能分析:
* S1-32B在特定数学和编码能力测试中表现出色,竞赛数学问题上比o1-preview高出27%。
* 但在AIME 2024和MATH 500测试集中,仅超越o1-preview,未超过“满血版”o1正式版和DeepSeek-R1。
* 技术核心:
* 论文核心在于研究“测试时拓展”(test-time scaling),通过多步推理提高模型性能。
* 构建了包含1000个样本的高质量数据集s1K,覆盖50个领域,降低了模型训练成本。
* 专家观点:
* 复旦大学郑骁庆认为,高质量数据的微调和强化学习将是未来投入重点。
* Databricks研究员奥马尔·哈塔布认为,该论文是关于Qwen模型的某种发现。
* 谷歌DeepMind研究员Wenhu Chen认为,Qwen模型才是真正神奇之处。

(IT业界资讯)

via 茶馆 - Telegram Channel
 
 
Back to Top