COPAL: Continual Pruning in Large Language Generative Models

论文链接:

https://arxiv.org/abs/2405.02347

一、 弁言
目前以GPT和LLaMA家族为代表的大型措辞模型(LLMs)为各种领域都带来了全新的活力,这些预演习的LLMs为各种NLP任务供应了前所未有的能力,包括措辞理解和天生。
但是将这些预演习的LLMs适应到不同领域时,目前仍旧面临两个紧张寻衅:
(1)打算需求高:
考虑到模型和数据集的大规模性子,重新演习过程须要大量打算资源。
这种高打算需求在资源受限的环境中非常难办理,限定了LLMs的广泛运用。
(2)模型的适应能力有限:
模型一旦更新以适应某些任务或领域,在面对不同目标域的新数据时可能无法保持原有同等水平的性能。
这种征象被称为\"大众灾害性遗忘\公众(catastrophic forgetting),是持续学习中的一个关键问题。

目前已有研究者考试测验基于持续学习框架来缓解上述问题,例如[1]考试测验在持续学习环境中对模型进行剪枝处理,鉴于持续学习本身的局限性,这种方法无法担保剪枝后模型的泛化能力。
针对上述问题,本文提出了COPAL框架,COPAL首次引入了“持续剪枝”(Continual Pruning)的观点,并且提出了一种新的敏感度剖析方法,用于衡量模型对新数据集引入的扰动的鲁棒性。
这种策略使模型能够无缝适应新信息,同时保留先前的知识。

ICML 2024  COPAL三星提出持续剪枝新概念仅需16个样本即可实现大年夜模型高效瘦身

COPAL可以灵巧地在模型性能和打算繁芜性之间保持平衡,上图展示了本文方法与其他剪枝baseline的效果比拟。
可以看到,本文方法在不同剪枝稀疏密度下均得到了优胜的性能。
二、本文方法
COPAL是一种全新的持续剪枝算法,其旨在办理LLMs不才游适应过程中的“权重结束(weight stasis)”和“遗忘(forgetting)”问题,详细如下图左侧所示。
本文作者认为,在持续模型自适应的设置下,直接对模型进行剪枝具有一定的风险,如果一些知足特定阈值的剪枝权重始终保持不变,会导致模型在迁移到新数据时无法实现有效的激活。
因此COPAL提出了一种基于敏感性剖析的辅导策略来进行剪枝,无需重新演习模型即可实现模型适应性和资源效率的平衡。
2.1 理论框架
COPAL的核心在于如何针对给定的LLMs进行连续敏感性剖析,我们可以首先考虑神经网络中的标准层,其输出

打算如下:

个中

是层函数,

是根本模型的权重矩阵,

是基于数据集

中第

个输入的特色向量。
为了剖析输出对输入和权重变革的敏感性,这里直接考虑

的眇小变革

,得到:

由于直接打算无穷小变革在详细实现时并不可行,因此这里直接考虑近似值


于是敏感性度量可以表示为:

在详细实现时,作者利用有限差分近似来打算这些偏导数:

结合这两个敏感性度量,可以将模型输出的眇小变革量

重新表述:

2.2 关键权重的识别
为了剪除LLMs中的冗余权重,须要对关键权重进行识别,可以直接根据当前数据集

中第

个输入向量的输出变革量

的欧氏间隔平方来得到丢失函数:

,我们利用上一节得到的公式可以将该丢失函数重写为:

为了搜索最小化

的最优权重扰动(即要剪枝的权重),这里须要打算

相对付

的梯度:

作者进一步引入

来捕获所有

个数据集中得到的各个梯度的绝对值之和:

个中

仅表示数据集

的丢失函数。
末了,可以利用

沿

方向的方向导数

的幅度作为权重主要性的度量,表示为

:

这样打算得到的

可以作为权重

对丢失函数影响的主要性或敏感性的度量,

值表示丢失函数对沿

方向的权重变革高度敏感,这表明剪枝过程中要重点保留这些权重来保留模型整体的性能。

2.3 剪枝过程
COPAL的剪枝算法过程如下图所示,首先须要打算模型的输出敏感性,并根据该敏感性来打算丢失函数梯度以选择要保留的关键权重。
详细的剪枝操作通过布局一组基于阈值的剪枝掩码来实现,这一过程会在多个数据集序列中不断重复,确保模型只保留对其功能最关键的权重。
三、实验效果
本文的实验在Wikitext-2、Penn Treebank (PTB)、Colossal Clean Crawled Corpus (C4)等在NLP领域广泛利用的措辞数据集上进行。
实验所用的LLMs紧张是LLaMA模型家族,包含了从LLaMA-7B到LLaMA-65B[2]四种参数规模。
作者选取了标准幅度剪枝、SparseGPT和WANDA等方法作为比拟baseline。
实验评估指标紧张利用困惑度(Perplexity, PPL)和反向迁移(Backward Transfer, BWT),个中前者可以评估措辞模型的综合性能,后者紧张用来反响模型在学习新任务后保留先前知识的能力。
上表展示了本文方法在LLaMA-7B和LLaMA-30B上的剪枝性能比拟,作者紧张探索了三种不同的稀疏剪枝类型,包括非构造化稀疏性(有一半的权重被剪枝)、半构造化稀疏性(4:8,每8个权重中保留4个)、半构造化稀疏性(2:4,每4个权重中保留2个),这些剪枝紧张运用于LLM的线性层,不包括初始嵌入层和终极分类头。
从上表中可以看出,COPAL在非构造化稀疏性和半构造化稀疏性(2:4)两种实验设置上均实现了最佳性能,尤其是在均匀BWT上显著优于其他方法,达到0.016,比较先前最佳基线Wanda的0.569提升了97.2%。
除此之外,COPAL还表现出了很高的样本效率,纵然在校准样本量很小(如16个样本)时也能达到稳定且优胜的性能。
上图展示了不同校准样今年夜小对模型剪枝性能的影响,可以看到,随着样本量增加,COPAL的均匀情形和最坏情形表现都保持稳定,且二者之间的差距很小。
比较之下,其他方法如SparseGPT和Wanda在样本量较小时表现不稳定,且随样本量增加,性能提升不如COPAL显著。
四、总结
本文提出了一种新颖的持续剪枝方法COPAL,COPAL成功办理了大型措辞模型在持续适应过程中面临的打算效率温柔应性寻衅。
COPAL的核心上风在于它能够在不须要重新演习的情形下,动态调度模型构造以适应新的数据分布,同时保持对先前数据集的良好性能。
作者通过大量的实验表明,COPAL为大型措辞模型的优化供应了一个新的范式,其在各种规模的LLaMA模型(从7B到65B参数)上都表现出色,具有很强的下贱扩展能力。
参考资料

[1] Dekhovich, A., Tax, D. M., Sluiter, M. H., and Bessa, M. A.Continual prune-and-select: class-incremental learning with specialized subnetworks. Applied Intelligence, pp. 1–16, 2023.

[2] Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Roziere, B., Goyal, N., Hambro, E., Azhar, F., et al. Llama: Open and efficient foundation lan- guage models. arXiv preprint arXiv:2302.13971, 2023.
llustration From IconScout By Delesign Graphic
-The End-

扫码不雅观看!

本周上新!

“AI技能流”原创投稿操持

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。
社区上线500+期talk视频,3000+篇技能干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上互换活动,不定期举办技能人线下聚会互换活动。
我们正在努力成为AI人才喜好的高质量、知识型互换平台,希望为AI人才打造更专业的做事和体验,加速并陪伴其发展。

投稿内容

// 最新技能解读/系统性知识分享 //

// 前沿资讯讲授/心得经历讲述 //

投稿须知

稿件须要为原创文章,并标明作者信息。

我们会选择部分在深度技能解析及科研心得方向,对用户启示更大的文章,做原创性内容褒奖

投稿办法

发送邮件到

chenhongyuan@thejiangmen.com

或添加事情职员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”"大众号,后台回答“投稿”二字,得到投稿解释。

关于我“门”
将门是一家以专注于数智核心科技领域的新型创投契构,也是北京市标杆型孵化器。
公司致力于通过连接技能与商业,发掘和造就具有环球影响力的科技创新企业,推动企业创新发展与家当升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技能型创业公司。
如果您是技能领域的初创企业,不仅想得到投资,还希望得到一系列持续性、有代价的投后做事,欢迎发送或者推举项目给我“门”: