🤖 杭州深度求索发布DeepSeek-V3：低成本高性能大模型惊艳亮相杭州人工智能公司深度求索上周发布了其新一代大模型DeepSeek-V3

🤖 杭州深度求索发布DeepSeek-V3：低成本高性能大模型惊艳亮相

杭州人工智能公司深度求索上周发布了其新一代大模型DeepSeek-V3。该模型在知识类任务上的表现显著优于前代DeepSeek-V2.5，接近Anthropic的Claude-3.5-Sonnet-1022。DeepSeek-V3在数学竞赛中也大幅领先其他模型。其生成速度从20TPS提升至60TPS。令人瞩目的是，DeepSeek-V3的总训练成本仅为557.6万美元，远低于GPT-4o等模型的约1亿美元。尽管拥有6710亿参数，并使用了14.8万亿token的数据进行训练，但其训练时间仅为2个月，消耗了280万GPU小时，远低于Llama 3的3080万GPU小时。如果通过最终测试，DeepSeek-V3将成为资源受限环境下AI模型研发的一大突破。

(科技情报)

via 茶馆 - Telegram Channel