以下は
の翻訳です。
『Nature』掲載記事のロングバージョン
私たちの主張はシンプルです。統計的近似は、知能とは別物であるということです。
ベンチマークで高いスコアを出していても、未知の状況や不確実性、あるいは目標が変化する場面でLLM(大規模言語モデル)がどのように振る舞うかについては、ほとんど何も説明できていないことが多々あります。
さらに重要なのは、「似たような振る舞い」が、根本的に異なるプロセスから生じうるという点です。私たちは別の論文で、人間とLLMの間にある「7つの認識論的な断層(fault lines)」を特定しました。
例えば、LLMは「何が真実か」という内部表現を持っていません。そのため、特に長いやり取りにおいて、しばしば自信満々に矛盾した内容を生成します。それは、彼らが「何が実際に正しいか」を追跡していないからです。
もう一つの例を挙げましょう。確かにLLMはいくつかの数学の未解決問題を解きましたが、それらのケースは通常、「定義の明確な問題」に対して「既知の手法」を適用したものです。LLMは、真に新しく、かつ同時に真実であるものを発明することはできません。なぜなら、彼らには何が真実かを判断するための認識論的な仕組みが欠けているからです。
これらは、LLMが役に立たないという意味ではありません。むしろその逆で、LLMは驚くほど有用です。
しかし、私たちはLLMが「何であり、何でないのか」について慎重であるべきです。
もっともらしい文章を作成することは、理解することと同義ではありません。
統計的な予測は、知能と同義ではありません。
したがって、いつもの顔ぶれによる喧伝(ハイプ)に反して、AGI(汎用人工知能)はまだ実現されていないのです。
==Statistical approximation is not general intelligence==
==【Lay Summary】==
- ==[何が課題だったのか?] 膨大な文章データから確率的に言葉を紡ぐ大規模言語モデル(LLM)が特定の試験で高得点を取る現象を、未知の状況にも柔軟に適応できる真の知能である汎用人工知能(AGI)の完成だと誤解していることです。==
- ==[何をしたのか?] 人間とAIの判断プロセスを比較し、AIは情報の不確実性を考慮できず、単に確率的にもっともらしい文章(Linguistic plausibility)を生成しているだけだという構造的欠陥を明らかにしました。==
- ==[何がわかったのか?] 表面的な回答が人間に似ていても内部の思考過程は全く異なり、現在のAIには不確実な状況下での信頼性や自己修正能力といった真の知能の要件が決定的に欠けていることがわかりました。==
==【意義と実用性】==
==この発見はAIの能力評価を表面的な試験の点数から内部の思考過程の信頼性へと転換させます。現在のAIは根拠が薄くても自信ありげに回答する性質を持つため、医療や行政など確実性が求められる意思決定にAIを導入する危険性に警鐘を鳴らしています。柔軟で適応力のある汎用人工知能(AGI)と単なる統計的な近似計算を明確に区別することで、社会がAIに過剰な権限や信頼を与えることを防ぐ重要な指針となります。==




免責事項
記事は、一般的な情報提供のみを目的としてのみ作成したものであり、投資家に対する有価証券の売買の推奨や勧誘を目的としたものではありません。また、記事は信頼できると判断した資料およびデータ等により作成しておりますが、その正確性および完全性について保証するものではありません。また、将来の投資成果や市場環境も保証されません。最終的な投資決定は、投資家ご自身の判断でなされますようお願いします。

