line icon

华为SINQ量化技术发布:大语言模型显存需求直降60%至70%

微信号:

联系方式:

简介:

华为苏黎世计算系统实验室近日宣布推出一项革命性的开源量化技术——SINQ(Sinkhorn归一化量化),该技术专为优化大语言模型(LLM)的硬件资源利用而设计。通过创新性的压缩算法,SINQ显著降低了模型运行所需的显存空间和计算成本,为人工智能领域的高效部署提供了新方案。

实验室测试数据显示,SINQ技术对不同规模的大语言模型均展现出强大的压缩能力。在保持模型性能的前提下,显存占用可减少60%至70%。例如,原本需要超过60GB显存才能运行的复杂模型,经SINQ优化后仅需约20GB显存即可部署,大幅降低了硬件门槛。

这项技术的突破性在于其归一化量化机制,通过Sinkhorn算法对模型权重进行高效重构,在压缩过程中最大程度保留了原始模型的信息密度。与传统的量化方法相比,SINQ不仅减少了资源消耗,还维持了模型的推理精度,为大规模语言模型的商业化应用开辟了新路径。

目前,SINQ已作为开源项目对外发布,研究人员和开发者可自由获取相关代码并应用于实际场景。随着人工智能模型规模持续扩大,这项技术有望缓解高算力需求带来的硬件压力,推动更高效的AI系统落地。

 
 
更多>同类资讯
  • 日本“妻子”机器人引关注:拟真设计融合情感需求,“生育模拟”成新焦点

    日本“妻子”机器人引关注:拟真设计融合情感需求,“生育模拟”成新焦点

  • 科技赋能娱乐新体验:自助KTV如何以创新技术重塑未来场景

    科技赋能娱乐新体验:自助KTV如何以创新技术重塑未来场景

  • 汉王科技:从技术先锋到“风口”追逐者,持续亏损下如何寻回初心?

    汉王科技:从技术先锋到“风口”追逐者,持续亏损下如何寻回初心?

  • 科技赋能自助KTV:创新解决方案与未来娱乐新体验探索

    科技赋能自助KTV:创新解决方案与未来娱乐新体验探索

  • 华为SINQ量化技术发布:大语言模型显存需求直降60%至70%

    华为SINQ量化技术发布:大语言模型显存需求直降60%至70%

  • 苹果高层人事变动在即 硬件主管特纳斯或成CEO热门继任者

    苹果高层人事变动在即 硬件主管特纳斯或成CEO热门继任者