日本語タイトル#
LinkedIn における弱いリンク:LLM 時代における偽プロフィール検出の強化
英文タイトル#
Weak Links in LinkedIn: Enhancing Fake Profile Detection in the Age of LLMs
日本語要約#
大規模言語モデル(LLMs)は、LinkedIn などのプラットフォーム上でリアルな偽プロフィールを作成することを容易にしました。これは、テキストベースの偽プロフィール検出器にとって重大なリスクをもたらします。本研究では、既存の検出器が LLM 生成のプロフィールに対してどれだけ頑健であるかを評価します。手動で作成された偽プロフィールの検出には非常に効果的ですが(誤受理率:6-7%)、既存の検出器は GPT 生成のプロフィールを識別できません(誤受理率:42-52%)。我々は、誤受理率を 1-7% に戻すための対策として GPT 支援の敵対的トレーニングを提案し、誤拒否率(0.5-2%)には影響を与えません。アブレーション研究では、数値とテキストの埋め込みを組み合わせてトレーニングされた検出器が最も高い頑健性を示し、次に数値のみの埋め込みを使用した検出器、最後にテキストのみの埋め込みを使用した検出器が続きました。プロンプトベースの GPT-4Turbo と人間の評価者の能力に関する補完的な分析は、本研究で提案されたような強力な自動検出器の必要性を裏付けています。
英文要約#
Large Language Models (LLMs) have made it easier to create realistic fake profiles on platforms like LinkedIn. This poses a significant risk for text-based fake profile detectors. In this study, we evaluate the robustness of existing detectors against LLM-generated profiles. While highly effective in detecting manually created fake profiles (False Accept Rate: 6-7%), the existing detectors fail to identify GPT-generated profiles (False Accept Rate: 42-52%). We propose GPT-assisted adversarial training as a countermeasure, restoring the False Accept Rate to between 1-7% without impacting the False Reject Rates (0.5-2%). Ablation studies revealed that detectors trained on combined numerical and textual embeddings exhibit the highest robustness, followed by those using numerical-only embeddings, and lastly those using textual-only embeddings. Complementary analysis on the ability of prompt-based GPT-4Turbo and human evaluators affirms the need for robust automated detectors such as the one proposed in this study.
PDF 取得#
抖音でスキャンしてさらに素晴らしいコンテンツを見る