日本語タイトル#
最初を見つけ、次を追跡する:ビデオオブジェクトセグメンテーションにおける識別と伝播のデカップリング
英文タイトル#
Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation
日本語要約#
参照ビデオオブジェクトセグメンテーションは、自然言語プロンプトを使用してビデオ内のターゲットオブジェクトをセグメント化し、追跡することを目的としています。既存の方法は通常、視覚的およびテキスト的特徴を高度に絡み合った方法で融合し、マルチモーダル情報を一緒に処理して各フレームのマスクを生成します。しかし、このアプローチは、特に複数の類似オブジェクトが存在するシーンにおいて、あいまいなターゲット識別に苦労し、フレーム間でのマスク伝播の一貫性を確保できません。これらの制限に対処するために、私たちは FindTrack を導入します。これは、ターゲット識別とマスク伝播を分離する効率的なデカップルフレームワークです。FindTrack はまず、セグメンテーションの信頼度と視覚 - テキストの整合性をバランスさせることによって、適応的にキーフレームを選択し、ターゲットオブジェクトの堅牢な参照を確立します。この参照は、その後、専用の伝播モジュールによってビデオ全体でオブジェクトを追跡し、セグメント化するために利用されます。これらのプロセスをデカップリングすることにより、FindTrack はターゲット関連のあいまいさを効果的に減少させ、セグメンテーションの一貫性を向上させます。FindTrack は公共ベンチマークで既存のすべての方法を大幅に上回り、その優位性を証明しています。
英文要約#
Referring video object segmentation aims to segment and track a target object in a video using a natural language prompt. Existing methods typically fuse visual and textual features in a highly entangled manner, processing multi-modal information together to generate per-frame masks. However, this approach often struggles with ambiguous target identification, particularly in scenes with multiple similar objects, and fails to ensure consistent mask propagation across frames. To address these limitations, we introduce FindTrack, an efficient decoupled framework that separates target identification from mask propagation. FindTrack first adaptively selects a key frame by balancing segmentation confidence and vision-text alignment, establishing a robust reference for the target object. This reference is then utilized by a dedicated propagation module to track and segment the object across the entire video. By decoupling these processes, FindTrack effectively reduces ambiguities in target association and enhances segmentation consistency. FindTrack significantly outperforms all existing methods on public benchmarks, demonstrating its superiority.
PDF 取得#
抖音でスキャンしてさらに素晴らしいコンテンツを見る