Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。

根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。

报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元,MT-Bench 得分 8.35。

IT之家ArxivMedium

📮投稿 ☘️频道 🌸聊天

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
admin@oaibest.com