无需重新训练过程,通过模型压缩技术实现2比特精度媲美FP16全精度。
近期,北京大学研究团队推出了一种通用框架——Fairy2i,可直接基于现有预训练模型进行极低比特量化。
该框架通过广泛线性表示将实数模型无损转换为复数形式,并结合相位感知量化与递归残差量化,在仅2比特的情况下实现了性能接近全精度模型的重大进展。
以下为详细内容介绍。
众所周知,大型模型在推理时,由于参数存储和计算需求庞大,很难在手机、汽车等边缘设备上高效部署。
传统量化方法在将模型压缩到极低比特(如1-2比特)时,常遇到性能大幅下降的问题,特别是在直接使用预训练模型的情况下,难以平衡压缩与精度。
Fairy2i针对这一痛点提供了解决方案,具体体现在:
1、广义线性表示:低成本无损继承,连接实数与复数
在架构方面,Fairy2i通过解决实数模型转换为复数模型的问题,显著降低了训练成本。
与iFairy等需要从头预训练的高算力方式不同,Fairy2i采用了一种更高效的“继承”策略。
团队证明了数学等价性:任何偶数维的实数线性层都可以无损地重参数化为等价的“广义线性复数形式”。
这意味着可以直接加载LLaMA等模型的预训练权重,转换为复数形式,而不改变参数规模。
这种策略不仅避免了从零构建复数模型的大量算力消耗,而且在量化前保持推理结果不变,为超低比特量化提供了理想起点。
2、相位感知量化:采用{±1, ±i}高效编码
在量化方面,Fairy2i继承了iFairy的核心优势。
它使用单位圆上的四个四次单位根{+1, -1, +i, -i}作为码本,与实数域的二值或三值量化相比,复数域的这四个点充分利用了2比特编码空间,具有更高的信息密度和对称性。
3、递归残差量化:以极低代价消除误差
为了进一步逼近全精度性能,团队提出了递归残差量化机制。
既然一次量化会产生误差,就对误差进行再次量化,Fairy2i将权重表示为几个低比特项的和。
实验显示,仅需T=2的递归阶段(等效2比特),就能显著减少量化噪声。
此外,与iFairy类似,Fairy2i在推理时具备“无乘法”特性。
由于权重被量化为{±1, ±i}的组合,推理时的矩阵乘法转化为简单的加法、减法和数据交换操作。
更巧妙的是,Fairy2i的递归残差计算是数据独立的,这意味着多个阶段的计算可以并行处理,在提高精度的同时,几乎不增加推理延迟。
实验结果表明,Fairy2i在LLaMA-2 7B模型上取得了突出成绩。
在语言建模能力(C4数据集PPL)上,Fairy2i (2比特)获得了7.85的极低困惑度。
这一表现不仅明显优于现有2比特量化方法,甚至超过部分3比特量化模型,性能直追全精度FP16水平 (6.63)。
在下游任务(零样本准确率)评测中,Fairy2i同样表现优秀,平均准确率达到62.00%。
这显示Fairy2i几乎弥补了超低比特量化带来的性能差距,与全精度模型(64.72%)仅差少许,实现了在极低比特预算下的性能提升。
Fairy2i的出现,不仅解决了预训练实数大模型难以高效量化的问题,还通过复数域技术充分挖掘超低比特量化的潜力,使大模型在边缘设备上流畅运行成为可能。
需要注意的是,由于算力限制,当前Fairy2i仅使用300亿token进行训练。
团队相信,复数表示具有尚未完全开发的卓越能力。未来在更大规模数据集上训练,Fairy2i有望不仅匹配,甚至在精度上超越原始全精度基座模型。
目前,相关论文已公开,这项技术可能成为大模型在边缘设备普及的关键推动力。
团队特别致谢:该研究获得了九章云极www.alayanew.com和大湾区大学的大力支持。
论文链接:https://arxiv.org/abs/2512.02901
HuggingFace:https://huggingface.co/PKU-DS-LAB/Fairy2i-W2
GitHub: https://github.com/PKULab1806/Fairy2i-W2
modelscope:https://modelscope.cn/models/PKULab1806/Fairy2i-W2
本文由主机测评网于2026-02-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260223448.html