zikele

zikele

人生如此自可乐

バッカロー:直接操作可能な視覚的データ整理ツール

2507.16073v1

日本語タイトル#

Buckaroo:直接操作の可視化データ整理ツール

英文タイトル#

Buckaroo: A Direct Manipulation Visual Data Wrangler

日本語摘要#

データセットの準備 —— この重要な段階はデータ整理として知られ —— データサイエンス開発の主要な段階を構成し、総プロジェクト時間の 80%以上を消費します。この段階には、データの解析、分析のための再構築、不正確さの修正、ソースの統合、重複の削除、全体的なデータの完全性の確保など、さまざまなタスクが含まれます。従来のアプローチは、通常、Python などのプログラミング言語での手動コーディングやスプレッドシートの使用を通じて行われるため、時間がかかるだけでなく、エラーが発生しやすいです。これらの問題は、欠落したエントリやフォーマットの不一致からデータ型の不正確さまで多岐にわたり、適切に修正されない場合、下流のタスクの品質に影響を与える可能性があります。これらの課題に対処するために、私たちは Buckaroo を提案します。これは、データ内の不一致を強調し、視覚オブジェクトの直接操作を通じてリアルタイムで修正を実現する可視化システムです。Buckaroo は(1)残りのグループと比較して異常を示す「興味深い」データグループを自動的に見つけ、検査を推奨します;(2)異常を修正するためにユーザーが選択できる整理操作を提案します;(3)ユーザーが整理操作の効果を表示し、これらの操作を元に戻したりやり直したりする能力を提供することで、データを視覚的に操作できるようにし、データ整理の反復的な性質をサポートします。動画の補足コンテンツはhttps://youtu.be/iXdCYbvpQVE でご覧いただけます。

英文摘要#

Preparing datasets -- a critical phase known as data wrangling -- constitutes the dominant phase of data science development, consuming upwards of 80% of the total project time. This phase encompasses a myriad of tasks: parsing data, restructuring it for analysis, repairing inaccuracies, merging sources, eliminating duplicates, and ensuring overall data integrity. Traditional approaches, typically through manual coding in languages such as Python or using spreadsheets, are not only laborious but also error-prone. These issues range from missing entries and formatting inconsistencies to data type inaccuracies, all of which can affect the quality of downstream tasks if not properly corrected. To address these challenges, we present Buckaroo, a visualization system to highlight discrepancies in data and enable on-the-spot corrections through direct manipulations of visual objects. Buckaroo (1) automatically finds "interesting" data groups that exhibit anomalies compared to the rest of the groups and recommends them for inspection; (2) suggests wrangling actions that the user can choose to repair the anomalies; and (3) allows users to visually manipulate their data by displaying the effects of their wrangling actions and offering the ability to undo or redo these actions, which supports the iterative nature of data wrangling. A video companion is available at https://youtu.be/iXdCYbvpQVE

PDF 获取#

查看中文 PDF - 2507.16073v1

智能达人抖店二维码

抖音扫码查看更多精彩内容

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。