第一作者陶超凡(Chaofan Tao)是喷鼻香港大学(HKU)的四年级博士生,导师是黄毅教授和罗平教授。
他本科毕业于电子科技大学的英才名誉学院。
他的研究论文揭橥在ACL、EMNLP、ECCV、NeurIPS、ICML、T-NNLS等期刊和会议上。
他得到了 ACL 2022 年的精彩论文奖。
陶超凡的研究兴趣包括:1) 高效机器学习与模型加速:以低本钱对模型进行高效调优和支配。
2) 支持多种任务的通用大型模型,涵盖不同模态。

本文是一篇揭橥在 NeurIPS 2024 上的论文,单位是喷鼻香港大学、Sea AI Lab、Contextual AI 和俄亥俄州立大学。
论文紧张磋商了大型措辞模型(LLMs)的词表大小对模型性能的影响。

论文:https://arxiv.org/abs/2407.13623代码:https://github.com/sail-sg/scaling-with-vocab/Demo (快速估量得当的词表大小):https://huggingface.co/spaces/sail/scaling-with-vocab-demo

择要

研究大型措辞模型(LLMs)的扩展法则(scaling laws)时,以前的事情紧张关注模型参数和演习数据的大小,而忽略了词表大小的浸染。
本研究通过演习包含不同词表配置的模型(参数范围从 33M 到 3B,字符数最多 500B),提出了三种方法来预测打算最优的词表大小:基于 FLOPs 的、基于导数的和基于丢失函数参数拟合的估计方法。
研究结果表明,更大的模型该当配备更大的词表,且在给定算力的情形下,最优的词表大小是有上限的。
例如,预测 Llama2-70B 的最优词表大小该当是至少 216K,远大于其实际的 32K。
通过在不同 FLOPs 预算下演习 3B 参数的模型验证了这些预测,创造仅仅把原始词表的大小更换成预测的最优词表大小,就可以提高模型在多个下贱任务的性能。

NeurIPS 2024  大年夜模型的词表大年夜小同样适用于Scaling Law

第 1 章 弁言

LLMs 通过在大量文本语料库上进行预演习,利用巨大的打算资源,已经取得了显著的性能。
以往的研究紧张集中在模型参数、演习数据量和打算资源(如 FLOPs)的变革对模型性能的影响,而忽略了词表大小这一主要成分。
事实上,词表大小对措辞模型的性能有着不小的影响。
以是,本研究旨在补充这一空缺,磋商词表大小对 LLMs 性能的影响,并提出预测最优词表大小的方法。

如图,我们提出 3 种预测最优词表大小的方法 (基于 FLOPs 的、基于导数的和基于丢失函数参数拟合的估计方法),并且列出了当前主流的大型措辞模型(LLMs)的词表参数和预测最优词表参数的关系。
当前大多数 LLMs 的词表参数由于词表大小小于预测的最优值而处于次优状态。

第 3 章 剖析:为什么最优词表大小受打算限定

较小的 V:增加词表大小可以提高标记化分词的效率,也便是用更短的词元去表示文本,从而提高模型性能。

较大的 V:逐渐增加词表大小的时候,分词效率提高的收益会逐渐减少,且可能导致词表有关参数的欠拟合,特殊是针对低频词的词表征。

进一步地,我们研究了在固定 FLOP 预算下,词表如何影响丢失,并创造对付每个 FLOPs 预算,存在一个使丢失最小化的最优词表大小。

图上是在不同 FLOP 预算下,不同词表大小的丢失曲线。
对付每个预算,都存在一个最小化丢失的最优词表大小。
并且随着 FLOPs 预算的增加,这个最优词表大小也会增加(向右移动)。

第 4 章:估计模型的最优词表大小

第 5 章 进一步谈论

5.1 预测措辞模型的空想词表大小

在这一节中,本文报告了基于三种方法预测的最优词表参数和大小,屈服以前的关于 scaling laws 中数据量和模型参数的算力分配有关事情 [1],演习数据的量与非词表参数等比例地随 FLOPs 预算缩放。

预测结果显示,随着非词表参数的增加,最优的词表参数和词表大小也随之增加。
这表明对付更大的模型,更大的词表是必要的,以充分利用模型的容量。

值得把稳的是,主流 LLMs 常日分配给词表参数偏少。
然而,学界和工业界已经开始转向更大的词表大小。
例如 Llama3 的词表大小从 Llama2 的 32K 增加到 128K。
然而,扩展数据仍旧是最关键的部分,办理数据稀缺问题应成为未来事情的重点。

为了验证这些预测,本文在 3B 参数的模型上进行了实验,这些模型在不同的 FLOPs 预算下进行了演习。
实验中,本文比较了利用常规词表大小(例如 32K)与利用预测的最优词表大小的模型性能。
性能通过多个下贱任务进行评估,包括 ARC-Challenge、Hellaswag 等。
实验结果表明,利用预测的最优词表大小的模型在多个任务上同等地优于利用常规词表大小的模型。

5.2 演习数据量对最优词表大小的影响

第 6 章 结论

本文通过实验验证了词表大小对措辞模型性能有显著影响。
他们创造,对付给定的打算预算,存在一个最优的词表大小,能够最大化模型性能。
词表大小是影响模型性能的关键成分之一。
更大的模型受益于更大的词表,由于它们须要更丰富的词表来表达更繁芜的措辞模式。
另一方面,词表参数该当比非词表参数增长得慢,但仍旧对性能至关主要。
论文提出了三种方法来预测最优词表大小,这些方法都基于打算预算和模型性能之间的关系,论文强调了在设计和演习 LLMs 时,须要综合考虑模型参数、演习数据和词表大小。
本文建议在分配打算资源时,该当考虑到词表大小的影响。

引用

[1] Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. 2022. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556