微软开源1bit大模型推理框架,现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。
传统大模型参数以16位浮点数(如FP16或BF16)形式的存储,而BitNet b1.58将其统统变成了三进制,也就是 {-1, 0, 1}。转换之后,矩阵中的计算就只会涉及到加法,因此会让大模型在保持一定精度的同时,显著减少所需的存储空间和计算资源,也显著提升了在本地设备上运行LLM的可能性。
量子位|Github
📮 热点投稿 @ZaiHuabot
京东淘宝无门槛红包 m.fanli.me
via 科技圈🎗在花频道📮 - Telegram Channel