中文标题#
SpeLLM:字符級多頭解碼
英文标题#
SpeLLM: Character-Level Multi-Head Decoding
中文摘要#
擴展大語言模型的詞彙表通常用於減少輸入序列長度並緩解注意力機制的二次成本。 然而,當前的大語言模型架構對此過程造成了關鍵瓶頸:輸出投影層隨著詞彙量的增加而線性增長,使得大規模擴展變得不切實際。 我們提出了 SpeLLM,一種通過多個輸出頭預測字符級字符串來解耦輸入和輸出詞彙的方法。 在 SpeLLM 中,k 個線性頭同時預測一個字符,使模型能夠使用更小、獨立的線性頭表示更大的輸出空間。 我們提出了一種自蒸餾方法,將標準的大語言模型轉換為 SpeLLM。 我們在四個預訓練的大語言模型上進行了實驗,結果顯示它們的 SpeLLM 變體在下游任務中表現出色,同時在模型間平均減少了 5.1% 的運行時間。 我們的方法為降低大語言模型的成本提供了一條潛在途徑,同時增加了對欠代表語言和領域的支持。
英文摘要#
Scaling LLM vocabulary is often used to reduce input sequence length and alleviate attention's quadratic cost. Yet, current LLM architectures impose a critical bottleneck to this procedure: the output projection layer scales linearly with vocabulary size, rendering substantial expansion impractical. We propose SpeLLM, a method that decouples input and output vocabularies by predicting character-level strings through multiple output heads. In SpeLLM, each of the k linear heads predicts a single character simultaneously, enabling the model to represent a much larger output space using smaller, independent linear heads. We present a self-distillation approach for converting a standard LLM to a SpeLLM. Our experiments with four pre-trained LLMs show their SpeLLM variants achieve competitive performance on downstream tasks while reducing runtime by 5.1% on average across models. Our approach provides a potential avenue for reducing LLM costs, while increasing support for underrepresented languages and domains.
PDF 獲取#
抖音掃碼查看更多精彩內容