zikele

zikele

人生如此自可乐

Text2Stereo:一貫性報酬を利用して安定した拡散を立体生成に使用する

2506.05367v2

日本語タイトル#

Text2Stereo:一貫性報酬を利用して安定した拡散を立体生成に再利用する

英文タイトル#

Text2Stereo: Repurposing Stable Diffusion for Stereo Generation with Consistency Rewards

日本語摘要#

本稿では、テキストプロンプトを与えて立体画像を生成する新しい拡散ベースのアプローチを提案します。大きなベースラインを持つ立体画像データセットは稀少であるため、拡散モデルをゼロから訓練することは実現不可能です。したがって、Stable Diffusion によって学習された強い先行知識を活用し、立体画像データセットで微調整を行い、立体生成タスクに適応させることを提案します。立体の一貫性とテキストから画像への整合性を向上させるために、プロンプトの整合性と提案した立体一貫性報酬関数を使用してモデルをさらに調整します。包括的な実験により、我々のアプローチが多様なシナリオで高品質な立体画像を生成する上で既存の方法を上回ることが示されました。

英文摘要#

In this paper, we propose a novel diffusion-based approach to generate stereo images given a text prompt. Since stereo image datasets with large baselines are scarce, training a diffusion model from scratch is not feasible. Therefore, we propose leveraging the strong priors learned by Stable Diffusion and fine-tuning it on stereo image datasets to adapt it to the task of stereo generation. To improve stereo consistency and text-to-image alignment, we further tune the model using prompt alignment and our proposed stereo consistency reward functions. Comprehensive experiments demonstrate the superiority of our approach in generating high-quality stereo images across diverse scenarios, outperforming existing methods.

PDF 获取#

查看日本語 PDF - 2506.05367v2

スマート達人の抖店 QR コード

抖音でスキャンしてさらに素晴らしいコンテンツを見る

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。