🤖 杭州深度求索发布DeepSeek-V3:低成本高性能大模型惊艳亮相
杭州人工智能公司深度求索上周发布了其新一代大模型DeepSeek-V3。该模型在知识类任务上的表现显著优于前代DeepSeek-V2.5,接近Anthropic的Claude-3.5-Sonnet-1022。DeepSeek-V3在数学竞赛中也大幅领先其他模型。其生成速度从20TPS提升至60TPS。令人瞩目的是,DeepSeek-V3的总训练成本仅为557.6万美元,远低于GPT-4o等模型的约1亿美元。尽管拥有6710亿参数,并使用了14.8万亿token的数据进行训练,但其训练时间仅为2个月,消耗了280万GPU小时,远低于Llama 3的3080万GPU小时。如果通过最终测试,DeepSeek-V3将成为资源受限环境下AI模型研发的一大突破。
(科技情报)
via 茶馆 - Telegram Channel
杭州人工智能公司深度求索上周发布了其新一代大模型DeepSeek-V3。该模型在知识类任务上的表现显著优于前代DeepSeek-V2.5,接近Anthropic的Claude-3.5-Sonnet-1022。DeepSeek-V3在数学竞赛中也大幅领先其他模型。其生成速度从20TPS提升至60TPS。令人瞩目的是,DeepSeek-V3的总训练成本仅为557.6万美元,远低于GPT-4o等模型的约1亿美元。尽管拥有6710亿参数,并使用了14.8万亿token的数据进行训练,但其训练时间仅为2个月,消耗了280万GPU小时,远低于Llama 3的3080万GPU小时。如果通过最终测试,DeepSeek-V3将成为资源受限环境下AI模型研发的一大突破。
(科技情报)
via 茶馆 - Telegram Channel