zikele

zikele

人生如此自可乐

ミンコフスキー距離を用いた言語検出:文字の二元組と頻度分析による識別

2507.16284v2

日本語タイトル#

ミンコフスキー規範による言語検出:文字のバイグラムと頻度分析による識別

英文タイトル#

Language Detection by Means of the Minkowski Norm: Identification Through Character Bigrams and Frequency Analysis

日本語要約#

言語識別に関する議論は、特に AI 駆動の言語モデルの急速な進化に伴い、近年再び注目を集めています。しかし、非 AI ベースの言語識別アプローチは影を潜めています。本研究は、確立された言語学研究から得られた単語と二語の頻度ランキングを活用することで、言語決定論のための数学的アルゴリズムの実装を探求します。使用されるデータセットは、短編小説、童話、詩など、長さ、歴史的な時代、ジャンルが異なるテキストで構成されています。これらのバリエーションにもかかわらず、この方法は 150 文字未満のテキストで 80%以上の精度を達成し、より長いテキストでは 100%の精度に達しました。これらの結果は、古典的な頻度ベースのアプローチが AI 駆動のモデルに対する効果的でスケーラブルな代替手段であることを示しています。

英文要約#

The debate surrounding language identification has gained renewed attention in recent years, especially with the rapid evolution of AI-powered language models. However, the non-AI-based approaches to language identification have been overshadowed. This research explores a mathematical implementation of an algorithm for language determinism by leveraging monograms and bigrams frequency rankings derived from established linguistic research. The datasets used comprise texts varying in length, historical period, and genre, including short stories, fairy tales, and poems. Despite these variations, the method achieves over 80% accuracy on texts shorter than 150 characters and reaches 100% accuracy for longer texts. These results demonstrate that classical frequency-based approaches remain effective and scalable alternatives to AI-driven models for language detection.

PDF 入手#

中文 PDF を見る - 2507.16284v2

スマートな達人の抖店 QR コード

抖音でスキャンしてさらに素晴らしいコンテンツを見る

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。