日本語タイトル#
特権的自己アクセスは AI における内省に重要である
英文タイトル#
Privileged Self-Access Matters for Introspection in AI
日本語要約#
AI モデルが内省できるかどうかは、ますます重要な実際の問題です。しかし、内省がどのように定義されるべきかについては合意がありません。最近提案された「軽量」定義から出発し、私たちはより重厚な定義を採用すべきだと主張します。私たちの提案によれば、AI における内省とは、第三者が利用可能な計算コストと同等またはそれ以下のコストでより信頼性の高いプロセスを通じて内部状態情報を得るプロセスを指します。実験を通じて、LLM が内部の温度パラメータについて推論する際、軽量な内省を示すように見えるが、私たちの提案した定義に従うと、実際には意味のある内省を実現していないことがわかりました。
英文要約#
Whether AI models can introspect is an increasingly important practical question. But there is no consensus on how introspection is to be defined. Beginning from a recently proposed ''lightweight'' definition, we argue instead for a thicker one. According to our proposal, introspection in AI is any process which yields information about internal states through a process more reliable than one with equal or lower computational cost available to a third party. Using experiments where LLMs reason about their internal temperature parameters, we show they can appear to have lightweight introspection while failing to meaningfully introspect per our proposed definition.
文章ページ#
PDF 取得#
抖音でスキャンしてさらに素晴らしいコンテンツを確認