日本語タイトル#
SpeLLM:文字レベルのマルチヘッドデコーディング
英文タイトル#
SpeLLM: Character-Level Multi-Head Decoding
日本語要約#
大規模言語モデルの語彙を拡張することは、通常、入力シーケンスの長さを短縮し、注意メカニズムの二次コストを軽減するために使用されます。しかし、現在の大規模言語モデルのアーキテクチャは、このプロセスに重要なボトルネックをもたらします:出力投影層は語彙サイズの増加に伴い線形にスケールし、大規模な拡張を非現実的にします。私たちは、複数の出力ヘッドを通じて文字レベルの文字列を予測することにより、入力と出力の語彙をデカップリングする方法である SpeLLM を提案します。SpeLLM では、k 個の線形ヘッドが同時に 1 つの文字を予測し、モデルがより小さく独立した線形ヘッドを使用してより大きな出力空間を表現できるようにします。私たちは、標準の大規模言語モデルを SpeLLM に変換するための自己蒸留アプローチを提示します。4 つの事前訓練された大規模言語モデルを用いた実験では、それらの SpeLLM バリアントが下流タスクで競争力のある性能を達成し、モデル間で平均 5.1% の実行時間を削減することが示されました。私たちのアプローチは、大規模言語モデルのコストを削減するための潜在的な手段を提供し、過小評価された言語や分野へのサポートを増加させます。
英文要約#
Scaling LLM vocabulary is often used to reduce input sequence length and alleviate attention's quadratic cost. Yet, current LLM architectures impose a critical bottleneck to this procedure: the output projection layer scales linearly with vocabulary size, rendering substantial expansion impractical. We propose SpeLLM, a method that decouples input and output vocabularies by predicting character-level strings through multiple output heads. In SpeLLM, each of the k linear heads predicts a single character simultaneously, enabling the model to represent a much larger output space using smaller, independent linear heads. We present a self-distillation approach for converting a standard LLM to a SpeLLM. Our experiments with four pre-trained LLMs show their SpeLLM variants achieve competitive performance on downstream tasks while reducing runtime by 5.1% on average across models. Our approach provides a potential avenue for reducing LLM costs, while increasing support for underrepresented languages and domains.
PDF 入手#
抖音でスキャンしてさらに素晴らしいコンテンツを見る