多尺度ビデオ変換器は自動運転におけるカテゴリ非依存のセグメンテーションに使用されます

2508.14729v1

日本語タイトル#

自動運転におけるクラス非依存セグメンテーションのためのマルチスケールビデオトランスフォーマー

英文タイトル#

Multiscale Video Transformers for Class Agnostic Segmentation in Autonomous Driving

日本語要約#

自動運転の安全性を確保することは、未知の物体や予期しない運転シナリオを扱う必要があるため、複雑な課題です。私たちは、運動の手がかりのみを使用して未知の物体を検出できるマルチスケールビデオトランスフォーマーを開発しました。ビデオのセマンティックおよびパノプティックセグメンテーションは、通常、トレーニング中に見られた既知のクラスに依存し、新しいクラスを無視します。最近の大規模言語モデルによる視覚的グラウンディングは、特にピクセルレベルの出力において計算コストが非常に高いです。私たちは、光フローなしでクラス非依存のセグメンテーションのためにエンドツーエンドでトレーニングされた効率的なビデオトランスフォーマーを提案します。私たちの方法は、効率性と精度を確保するために、マルチステージのマルチスケールクエリ - メモリデコーディングとスケール特有のランダムドロップトークンを使用し、共有可能な学習メモリモジュールを介して詳細な時空間特徴を保持します。従来のデコーダーが特徴を圧縮するのとは異なり、私たちのメモリ中心の設計は、複数のスケールで高解像度情報を保持します。私たちは DAVIS'16、KITTI、Cityscapes で評価を行いました。私たちの方法は、GPU メモリと実行時間の面で効率的でありながら、マルチスケールベースラインを一貫して上回り、安全性が重要なロボティクスにおけるリアルタイムで堅牢な密な予測の有望な方向性を示しています。

英文要約#

Ensuring safety in autonomous driving is a complex challenge requiring handling unknown objects and unforeseen driving scenarios. We develop multiscale video transformers capable of detecting unknown objects using only motion cues. Video semantic and panoptic segmentation often relies on known classes seen during training, overlooking novel categories. Recent visual grounding with large language models is computationally expensive, especially for pixel-level output. We propose an efficient video transformer trained end-to-end for class-agnostic segmentation without optical flow. Our method uses multi-stage multiscale query-memory decoding and a scale-specific random drop-token to ensure efficiency and accuracy, maintaining detailed spatiotemporal features with a shared, learnable memory module. Unlike conventional decoders that compress features, our memory-centric design preserves high-resolution information at multiple scales. We evaluate on DAVIS'16, KITTI, and Cityscapes. Our method consistently outperforms multiscale baselines while being efficient in GPU memory and run-time, demonstrating a promising direction for real-time, robust dense prediction in safety-critical robotics.

記事ページ#

自動運転におけるクラス非依存セグメンテーションのためのマルチスケールビデオトランスフォーマー

PDF 取得#

日本語 PDF を表示 - 2508.14729v1

スマート達人の抖音 QR コード

抖音でさらに素晴らしいコンテンツを見るには QR コードをスキャンしてください