🔥李飞飞团队S1模型引热议：低成本高性能背后有玄机* 核心观点：李飞飞团队发布的S1模型，以低成本和在特定测试中超越OpenAI o1-preview的性能引发关注，但其训练成本、性能优势及技术核心仍存在争议

🔥李飞飞团队S1模型引热议：低成本高性能背后有玄机

* 核心观点： 李飞飞团队发布的S1模型，以低成本和在特定测试中超越OpenAI o1-preview的性能引发关注，但其训练成本、性能优势及技术核心仍存在争议。
* 成本争议：
* 论文称S1-32B模型使用16张英伟达H100 GPU，耗时26分钟，成本不到50美元。
* 但该模型基于阿里通义千问Qwen2.5-32B-Instruct进行微调，50美元成本可能不包含前期研究、消融实验及基座模型的训练费用。
* 性能分析：
* S1-32B在特定数学和编码能力测试中表现出色，竞赛数学问题上比o1-preview高出27%。
* 但在AIME 2024和MATH 500测试集中，仅超越o1-preview，未超过“满血版”o1正式版和DeepSeek-R1。
* 技术核心：
* 论文核心在于研究“测试时拓展”（test-time scaling），通过多步推理提高模型性能。
* 构建了包含1000个样本的高质量数据集s1K，覆盖50个领域，降低了模型训练成本。
* 专家观点：
* 复旦大学郑骁庆认为，高质量数据的微调和强化学习将是未来投入重点。
* Databricks研究员奥马尔·哈塔布认为，该论文是关于Qwen模型的某种发现。
* 谷歌DeepMind研究员Wenhu Chen认为，Qwen模型才是真正神奇之处。

(IT业界资讯)

via 茶馆 - Telegram Channel