日本語タイトル#
TorchAO:PyTorch ネイティブのトレーニングからサービスへのモデル最適化
英文タイトル#
TorchAO: PyTorch-Native Training-to-Serving Model Optimization
日本語摘要#
私たちは TorchAO を紹介します。これは、量子化とスパース性を利用して AI モデルのエンドツーエンドのトレーニングからサービスへのワークフローを提供する、PyTorch に基づくモデル最適化フレームワークです。TorchAO は、FP8 量子化トレーニング、量子化認識トレーニング(QAT)、トレーニング後量子化(PTQ)、および 2:4 スパース性を含む、さまざまな人気のあるモデル最適化技術をサポートし、INT4、INT8、FP8、MXFP4、MXFP6、MXFP8 を含む、さまざまな広く使用されているバックエンド非依存の低精度データ型を表現するための新しいテンソルサブクラス抽象を活用しています。TorchAO は、事前トレーニング(TorchTitan)から微調整(TorchTune、Axolotl)、サービス(HuggingFace、vLLM、SGLang、ExecuTorch)まで、モデル最適化パイプラインの各ステップでより広範なエコシステムと密接に統合されており、分散していた空間を単一の統一されたワークフローに接続します。TorchAO は、最近発表された量子化 Llama 3.2 1B/3B および LlamaGuard3-8B モデルの立ち上げを可能にし、https://github.com/pytorch/ao/ でオープンソースとして提供されています。
英文摘要#
We present TorchAO, a PyTorch-native model optimization framework leveraging quantization and sparsity to provide an end-to-end, training-to-serving workflow for AI models. TorchAO supports a variety of popular model optimization techniques, including FP8 quantized training, quantization-aware training (QAT), post-training quantization (PTQ), and 2:4 sparsity, and leverages a novel tensor subclass abstraction to represent a variety of widely-used, backend agnostic low precision data types, including INT4, INT8, FP8, MXFP4, MXFP6, and MXFP8. TorchAO integrates closely with the broader ecosystem at each step of the model optimization pipeline, from pre-training (TorchTitan) to fine-tuning (TorchTune, Axolotl) to serving (HuggingFace, vLLM, SGLang, ExecuTorch), connecting an otherwise fragmented space in a single, unified workflow. TorchAO has enabled recent launches of the quantized Llama 3.2 1B/3B and LlamaGuard3-8B models and is open-source at https://github.com/pytorch/ao/.
PDF 获取#
抖音でスキャンしてさらに素晴らしいコンテンツを見る