您現在的位置是:綜合 >>正文
十亿参数一键瘦身!模型减重WhatsApp%E3%80%90+86%2015855158769%E3%80%91crane%20plumbing%20vernon%20ny神器 SmoothQuant让大模型狂掉 3/4
綜合2413人已圍觀
簡介 作者:英特爾公司陸崟彤 何欣 郭恒 程文華 王暢 王夢妮 沈海豪編輯:編輯部【新智元導讀】Sam Altman 曾表示,語言模型不是越大越好。不斷煉大的模型,若想實現高效訓練和 ...
?
作者:英特尔公司
陆崟彤 何欣 郭恒 程文华 王畅 王梦妮 沈海豪
编辑:编辑部
【新智元导读】Sam Altman 曾表示,亿参语言模型不是数键瘦身神器越大越好。不断炼大的模型WhatsApp%E3%80%90+86%2015855158769%E3%80%91crane%20plumbing%20vernon%20ny模型,若想实现高效训练和部署还得需要「量化」。减重英特尔增强型 SmoothQuant 给出了解决方案。大模掉
本文介绍了可提升大语言模型的型狂训练后量化表现的增强型 SmoothQuant 技术,说明了这项技术的亿参用法,并证明了其在准确率方面的数键瘦身神器优势。此方法已整合至英特尔? Neural Compressor(1) 中。模型
英特尔? Neural Compressor 是减重一个包含量化、剪枝(稀疏性)、大模掉蒸馏(知识提炼)和神经架构搜索等多种常用模型压缩技术的型狂开源 Python 库。
目前,亿参诸如 TensorFlow、数键瘦身神器WhatsApp%E3%80%90+86%2015855158769%E3%80%91crane%20plumbing%20vernon%20ny英特尔? Extension for TensorFlow(2)、模型PyTorch、英特尔? Extension for PyTorch(3)、ONNX Runtime 和 MXNet等主流框架,都能与之兼容。
英特尔? Neural Compressor 已经支持多款英特尔? 架构的硬件,比如英特尔? 至强? 可扩展处理器(4)、英特尔? 至强? CPU Max 系列(5) 、英特尔? 数据中心 GPU Flex 系列(6) 和英特尔? 数据中心 GPU Max 系列(7)。
本文涉及的实验基于第四代英特尔? 至强? 可扩展处理器(8) 进行。
大语言模型
大语言模型 (Large Language Model, LLM) 需基于海量數據集進行訓練,可能擁有數十億權重參數。
其先进的网络结构和庞大的参数量,使它们能够很好地应对自然语言本身的复杂性。
完成訓練后的大语言模型,可針對各種下游的自然語言處理 (NLP) 和自然語言生成 (NLG) 任務進行調優,讓其更適合對話式聊天機器人(如 ChatGPT)、機器翻譯、文本分類、欺詐檢測和情感分析等任務場景。
大语言模型部署面臨的挑戰
大语言模型在執行自然語言處理和自然語言生成任務方面表現出色,但其訓練和部署頗為復雜,主要面臨以下挑戰:
AI 與內存墻(9) 瓶頸問題:算力每兩年提高 3.1 倍,內存帶寬卻只提高 1.4 倍;網絡帶寬挑戰:訓練大语言模型需要采用分布式系統,這對網絡帶寬提出了較高要求;系統資源有限:訓練后的模型往往會部署在算力和內存資源均有限的系統上。因此,采用訓練后量化的方法來為大语言模型瘦身,對于實現低時延推理至關重要。
大语言模型的量化
量化是一種常見的壓縮操作,可以減少模型占用的內存空間,提高推理性能。采用量化方法可以降低大语言模型部署的難度。具體來說,量化是將浮點矩陣轉換為整數矩陣:

其中 X_fp32、S 和 Z 分别为输入矩阵、比例因子和整数零点。
有关每通道 (per-channel) 量化策略虽然可能会减少量化损失,但不能用于激活值量化的原因,请参看 SmoothQuant 相关文档(10) 。
不过,激活值量化误差损失却是导致模型量化准确率下降的重要因素。为此,人们提出了很多方法来降低激活值量化损失,例如:SPIQ(11) 、Outlier Suppression(12) 和 SmoothQuant(13) 。
这三种方法思路相似,即把激活值量化的难度转移到权重量化上,只是三者在转移难度的多少上有所不同。
增强型 SmoothQuant
SmoothQuant 引入了一个超参数 α 作为平滑因子来计算每个通道的量化比例因子,并平衡激活值和权重的量化难度。

其中 j 是输入通道索引。

对于期权定价模型 (OPT) 和 BLOOM 等大多数模型来说,α=0.5 是一个能够较好实现权重和激活值量化难度分割的平衡值。
模型的激活异常值越大,就越需要使用更大的 α 值来将更多的量化难度转移到权重上。
原始的 SmoothQuant 旨在通过针对整个模型使用一个固定值 α 来分割权重和激活值的量化难度。
然而,由于激活异常值的分布不仅在不同模型之间存在差异,而且在同一模型的不同层之间也不尽相同,因此,本文推荐使用英特尔? Neural Compressor 的自动调优能力,逐层获取最佳 α 值。
相关方法包括以下五个主要步骤(伪代码如下所示):
通过特殊的回调函数 register_forward_hook 捕获 (hook) 模型各层的输入和输出值。根据用户定义的 α 范围和步长生成一个 α 值列表。根据给定的 α 值重新计算平滑因子并调整参数(权重值和激活值)。对权重执行每通道量化与反量化 (quantization_dequantization),对输入值执行每张量 (per-tensor) 量化与反量化,以预测与给定 α 值对应的每层输出值。计算相对实际输出值的均方损失,将调整后的参数恢复回来,并保存每层的最佳 α 值。
本文提出的方法支持用多个标准(如最小值、最大值和平均值)来确定 Transformer 块的输入层归一化 (LayerNorm) 操作的 α 值。
实验发现,将 α 范围设为 [0.3, 0.7],步长设为 0.05,对大多数模型来说都能达到很好的平衡。
这一方法有两个显著特点:一是全自动化,二是比原始方法支持的融合模式多。
下图提供了在 BLOOM-1b7 模型上执行 SmoothQuant α 值自动调优的样例代码:

啟用增强型 SmoothQuant 的樣例代碼
用户只需传递一个模型名称 (model_name) 和一个数据加载器。
值得注意的是,模型分析主要依靠的是 Torch JIT。用户可以在加载 Hugging Face 模型(14) 时将 torchscript 设置为 True,或将 return_dict 设置为 False。更多信息请参阅英特尔? Neural Compressor 文档(10)。
结果
本文提出的增强型 SmoothQuant 的主要優勢在于提高了準確率。
經過對多種主流大语言模型的評估,具備自動調優能力的 INT8 SmoothQuant 最后一個詞元 (last-token) 的預測準確率要高于原始 INT8 SmoothQuant 和 FP32 基線方法。詳見下圖:

FP32 基線方法、INT8(啟用和不啟用 SmoothQuant)以及 INT8(啟用本文提出的增强型 SmoothQuant)的準確率對比
從上圖可以看出,在 OPT-1.3b 和 BLOOM-1b7 模型上,本文提出的增强型 SmoothQuant 的準確率比默認的 SmoothQuant 分別高 5.4% 和 1.6%。
量化后的模型也缩小到 FP32 模型的四分之一,大大减少了内存占用空间,从而有效地提升大模型在英特尔? 平台上的推理性能。
更全面的结果請見 GitHub 存儲庫(10) 。同時,也歡迎您創建拉取請求或就 GitHub 問題(15) 發表評論。期待聽到您的反饋意見和建議。
作者
英特尔公司人工智能资深架构师沈海豪、英特尔公司人工智能资深软件工程师程文华、英特尔公司人工智能软件工程师陆崟彤、何欣、郭恒、王畅、王梦妮,他们都在从事模型量化及压缩的研究与优化工作。
注释:
1. 英特尔? Neural Compressor
https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/neural-compressor.html
2. 英特尔? Extension for TensorFlow
https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-tensorflow.html
3. 英特尔? Extension for PyTorch
https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-pytorch.html
4. 英特尔? 至强? 可扩展处理器
https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/scalable.html
5. 英特尔? 至强? CPU Max 系列
https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/max-series.html
6. 英特尔? 数据中心 GPU Flex 系列
https://www.intel.cn/content/www/cn/zh/products/details/discrete-gpus/data-center-gpu/flex-series.html
7. 英特尔? 数据中心 GPU Max 系列
https://www.intel.com/content/www/us/en/products/details/discrete-gpus/data-center-gpu/max-series.html
8. 第四代英特尔? 至强? 可扩展处理器
https://www.intel.cn/content/www/cn/zh/events/accelerate-with-xeon.html
9. AI 与内存墙
https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8
10. SmoothQuant 相关文档 / 英特尔? Neural Compressor 文档 / GitHub 存储库
https://github.com/intel/neural-compressor/blob/master/docs/source/smooth_quant.md
11. SPIQ
https://arxiv.org/abs/2203.14642
12. Outlier Suppression
https://arxiv.org/abs/2209.13325
13. SmoothQuant
https://arxiv.org/abs/2211.10438
14. Hugging Face 模型
https://huggingface.co/models
15. GitHub 问题
https://github.com/intel/neural-compressor/issues
举报/反馈Tags:
轉載:歡迎各位朋友分享到網絡,但轉載請說明文章出處“呼來喝去網”。http://www.44eee.cn/html/86e31999594.html
相關文章
@梅州车主,4月1日零时起,92号汽油每升下调0.27元!
綜合掌上梅州讯 31日,记者从中国石化梅州石油分公司了解到,从4月1日零时起,国内成品油调价窗口开启,梅州地区92号汽油每升下调0.27元。按照国家发展改革委调价消息,从4月1日零时起,汽、柴油最高零售价 ...
【綜合】
閱讀更多霞浦为省运会青少部跳水项目提供优质参赛环境
綜合9月11日,在霞浦县游泳馆内,志愿者在学习计分。当天,志愿者们开展计分、礼仪接待、协助裁判员检录等志愿服务演练,进一步熟悉工作流程,确保比赛顺利开展。清澈见底,水光潋滟。9月11日,在霞浦县游泳馆里, ...
【綜合】
閱讀更多南平一市民花9.9元买到发霉肉松饼 商家赔了他1000元
綜合本报讯 花了9.9元买来一包发霉的肉松饼,日前经松溪12315服务台工作人员调解,商家不仅退还小胡9.9元,还赔偿了他1000元。原来,小胡花9.9元,在松溪一家超市购买了一包金丝肉松饼,不料回家拆开 ...
【綜合】
閱讀更多
熱門文章
最新文章
友情鏈接
- 横尾太郎获赠Switch2 粉丝呼吁用《尼尔》新作当回礼
- 仅因V社不愿删除标签 日本21点rpg再遭三国禁售
- 曝《寂静岭》重制版将亮相TGA!但纯播片没有实机
- 身材火辣! 美女coser透露自己是《漫威争锋》罗刹女的体模
- TGA现场票价高昂 提名开发者称:太贵 只能挑剩下的
- 《怪物猎人:崛起》开发成本曝光!SE管理层被怒骂破防
- 格斗游戏大赛EVO日本2026比赛游戏公布 明年5月举行
- 不用担心AI取代人类 黄仁勋:淘汰的是最辛苦重复的工作
- 不用担心AI取代人类 黄仁勋:淘汰的是最辛苦重复的工作
- 成为“御前带爪”侍卫,去故宫当“公务员”!放置休闲游戏《喵喵宫廷》将于12月17日正式发售
- 索尼2026年PS5必玩大作宣传片 唯独《GTA6》缺席
- 内存成本飙升冲击任天堂!股价暴跌蒸发近千亿元
- 曝《生化危机》曾备选17个名称!开发初期险被取消
- PS Plus十二月新加入游戏:《刺客信条:幻景》&《卧龙》领衔
- 《寻秦记》电影版定档预告 将于12月31日上映
- 《怪物猎人:崛起》开发成本曝光!SE管理层被怒骂破防
- Ultra X9 388H跑分泄露 多核性能比Arrow Lake高出21%
- 曝《生化危机》曾备选17个名称!开发初期险被取消
- 《博德之门3》语音量统计曝光:总时长超236小时!
- 《赛博朋克2077》发售五周年!从争议发行到成熟完善
- 问题百出!玩家怒喷《上古卷轴5》NS2版:十分钟闪退一次
- 《博德之门3》语音量统计曝光:总时长超236小时!
- 22年了!NVIDIA FX 5950原装显卡重出江湖
- 一张原价1美元的化石盔宝可梦卡牌竟卖到5万美元
- 大的要来了!TGA神秘雕像图标与《神界:原罪》新商标完美符合
- TGA和杰夫是对的?外网热议:该不该给玩家投票权
- 身材火辣! 美女coser透露自己是《漫威争锋》罗刹女的体模
- Ultra X9 388H跑分泄露 多核性能比Arrow Lake高出21%
- 《博德之门3》语音量统计曝光:总时长超236小时!
- 曝《生化危机》曾备选17个名称!开发初期险被取消
- 小岛秀夫专访称:无意游戏是否畅销 只想永远做游戏!
- 中世纪沙盒生存建造游戏《颂钟长鸣》大型免费更新正式上线,新增 10KM2「哈尔玛尔群岛」——史低折扣同步开启中
- 又惊又喜! 《燕云十六声》制作人称两周900万玩家是责任的象征
- 从21到51岁!《生化危机》男神里昂角色成长史
- 是重制还是新作?曝《战神》系列相关内容将亮相TGA
- 50v50!多人FPS《人间地狱:越南》首曝实机宣传片
- 传奇不灭,热爱永续!KK官方对战平台庆祝CNCS二十周年,致敬巅峰荣光!
- 《上古卷轴5:天际》Switch2版今日发售 可免费升级
- 成为“御前带爪”侍卫,去故宫当“公务员”!放置休闲游戏《喵喵宫廷》将于12月17日正式发售
- 《生化危机:安魂曲》图片再泄露 毛骨悚然的恐怖角色
- 小伙酒店住1个月屋内垃圾堆成山 网友调侃:老鼠都要开导航
- “云端警务”开讲了 黔西南公安全警实战大练兵拉开序幕
- 龙岩漳平上门服务强化渔业安全生产
- 女子出门坐网约 上车后发现车内饰比较异类十分瘆人
- 恰尔汗奥卢加盟国米以来各赛事打进30球,意甲中场同期第二多
- 龙岩长汀县河田合作社带动村民同奔致富路
- 龙岩漳平加快轻纺基地发展
- 本田雅阁不小心与一只老母鸡发生碰撞 触发行人保护装置
- 2020年“千企改造”工程省级龙头和高成长性企业名单出炉 黔西南24家企业入选
- 龙岩众商家“各显神通” 挖掘暑期“亲子经济”