🚀 大模型新进展：DeepSeek R1性能评测与应用前景DeepSeek R1模型近期在多个基准测试中表现突出，引发关注

🚀 大模型新进展：DeepSeek R1性能评测与应用前景

DeepSeek R1模型近期在多个基准测试中表现突出，引发关注。该模型分为两个极端配置：一是需要496GB显存（64*7+48）的4bit量化版本，可视为“家用AGI”配置；二是可在浏览器运行的R1数据蒸馏版Qwen 1.5B小模型，每秒可输出60个tokens。在LiveBench测试中，R1表现与o1-preview相当，但成本仅为o1的1/30。在ARC-AGI测试中，R1在私有数据上解决问题比例较DeepSeek-V3翻倍，公开数据上提升约46%，整体表现与o1-preview接近。在PlanBench任务规划测试中，R1甚至超过了o1-preview。R1数据蒸馏的Qwen 32B模型与DeepSeek-V3、GPT-4o和Gemini Flash处于同一水平。此外，R1在特定任务上通过正确数据和微调方法，性能有大幅提升潜力，这为构建基于R1的OpenAI风格强化微调平台提供了新的创业机会。

(IT业界资讯)

via 茶馆 - Telegram Channel