🚀 大模型新进展:DeepSeek R1性能评测与应用前景
DeepSeek R1模型近期在多个基准测试中表现突出,引发关注。该模型分为两个极端配置:一是需要496GB显存(64*7+48)的4bit量化版本,可视为“家用AGI”配置;二是可在浏览器运行的R1数据蒸馏版Qwen 1.5B小模型,每秒可输出60个tokens。在LiveBench测试中,R1表现与o1-preview相当,但成本仅为o1的1/30。在ARC-AGI测试中,R1在私有数据上解决问题比例较DeepSeek-V3翻倍,公开数据上提升约46%,整体表现与o1-preview接近。在PlanBench任务规划测试中,R1甚至超过了o1-preview。R1数据蒸馏的Qwen 32B模型与DeepSeek-V3、GPT-4o和Gemini Flash处于同一水平。此外,R1在特定任务上通过正确数据和微调方法,性能有大幅提升潜力,这为构建基于R1的OpenAI风格强化微调平台提供了新的创业机会。
(IT业界资讯)via
茶馆 - Telegram Channel