日本語タイトル#
GraSP:SFT および DPO のためのスケーラブルな生成、品質タグ付け、合成データ管理のための統一グラフベースフレームワーク
英文タイトル#
GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO
日本語要約#
大規模言語モデル(LLMs)の進展は、監視微調整(SFT)、直接的な好みの最適化(DPO)などのための高品質データセットの可用性に大きく依存しています。本研究では、これらのトレーニングパラダイムに特化したスケーラブルで構成可能かつ高忠実度の合成データ生成を実現する包括的な合成データ生成フレームワークを提案します。我々のアプローチは、最小限の手動介入で複雑な対話フローをモデル化できるモジュール式および構成ベースのパイプラインを採用しています。このフレームワークは、ヒューリスティックルールと LLM ベースの評価を組み合わせた二段階の品質タグ付けメカニズムを使用し、OASST 形式の会話から抽出されたデータを自動的にフィルタリングおよびスコアリングし、高品質な対話サンプルのキュレーションを保証します。生成されたデータセットは、SFT および DPO のユースケースをサポートする柔軟なスキーマの下で構造化され、さまざまなトレーニングワークフローにシームレスに統合できます。これらの革新は、スケールで合成対話データを生成および管理するための強力なソリューションを提供し、LLM トレーニングパイプラインにおけるデータ準備のオーバーヘッドを大幅に削減します。
英文要約#
The advancement of large language models (LLMs) is critically dependent on the availability of high-quality datasets for Supervised Fine-Tuning (SFT), alignment tasks like Direct Preference Optimization (DPO), etc. In this work, we present a comprehensive synthetic data generation framework that facilitates scalable, configurable, and high-fidelity generation of synthetic data tailored for these training paradigms. Our approach employs a modular and configuration-based pipeline capable of modeling complex dialogue flows with minimal manual intervention. This framework uses a dual-stage quality tagging mechanism, combining heuristic rules and LLM-based evaluations, to automatically filter and score data extracted from OASST-formatted conversations, ensuring the curation of high-quality dialogue samples. The resulting datasets are structured under a flexible schema supporting both SFT and DPO use cases, enabling seamless integration into diverse training workflows. Together, these innovations offer a robust solution for generating and managing synthetic conversational data at scale, significantly reducing the overhead of data preparation in LLM training pipelines.
文章ページ#
GraSP:SFT および DPO のためのスケーラブルな生成、品質タグ付け、合成データ管理のための統一グラフベースフレームワーク
PDF 入手#
抖音で QR コードをスキャンしてさらに素晴らしいコンテンツを確認