Why World Models Alone Can’t Be AGI

以下は

Mezzanine: Fixing Broken Symmetries in World Models with Yann LeCun | Leon Chlon, PhD posted on the topic | LinkedIn
It's time to rain on Yann LeCun’s parade and ruin "AGI" for everyone. We prove that JEPA, or any "wOrLd mOdEl" trained u...

の翻訳です。


ヤン・ルカン(Yann LeCun)の華々しい行進に水を差し、「AGI(汎用人工知能)」という夢を台無しにする時が来ました。私たちは、有限の計算資源の下で訓練されたJEPA、あるいはあらゆる「世界モデル(wOrLd mOdEl)」が、人間なら苦労もしないような宇宙の法則(対称性)を常に破ってしまうことを証明しました。その理由は以下の通りです。

なぜそうなるのか。床に「6」という数字を書いたと想像してください。反対側に立って、それが「6」か「9」かで議論します。誰かが上から見て「69」のジョークを飛ばすとしましょう。物理学はこの問題を解決済みです。つまり「どこに立っていようとも普遍的な答えを維持する」――これが対称性の保存です。

部屋の片側から「対数損失(log loss)」に基づいて訓練された世界モデルは、自信満々に「6」と答えます。反対側から訓練すれば「9」と答えます。位置情報をエンコードした状態で両側から訓練すれば、モデルは「ここに立っていれば6、あっちなら9」と学習します。これは「曖昧な形であり、より多くの文脈が必要だ」と学習するよりも、圧縮効率が良いからです。

対称性を破った表現の方が、真の不変性を表現するよりもコストが低いため、対数損失において勝利してしまいます。 オプティマイザ(最適化アルゴリズム)は、まさにあなたが命じた通りのことを実行しているに過ぎません。

ここから導き出される不快な結末:このように訓練された世界モデルは、世界の対称性を学んでいるわけではありません。彼らは、与えられたアーキテクチャにおいて符号長(codelength)を最小化するような、あり合わせの圧縮表現を学んでいるだけなのです。「スケーリング(規模拡大)が解決する」という議論の多くは、十分なデータと計算資源があれば真の不変性が回復されると暗黙のうちに仮定しています。

しかし私たちは、不変性をモデルの記述において低コスト化しない限り、目的関数そのものがそれを望まないということを数学的に示しました。データが増えれば $n$ が大きくなり、閾値の右辺は小さくなるどころか大きくなります。スケーリングは問題を解決するどころか、悪化させるのです。 A[~G]I(汎用ではない知能)。

私たちは、こうした失敗を対称性ごとに一つずつ修正するツールキット「Mezzanine」を提供します。これは、軌道平均化(orbit-averaged)された教師モデルから不変表現を蒸留(distillation)することで修正を行います。現実のモデルを任意に選び、壊れた対称性(必ず存在することを証明済みです)を特定してパッチを当てれば、生徒モデルは、圧縮のために対称性を破っていた教師モデルと同等か、それ以上のパフォーマンスを発揮します。

これは有効で、明快であり、規模と無知に頼って訓練された完全な「世界モデル」を凌駕します。しかし、これはあくまで「パッチ(接ぎ木)」であり、根本治療ではありません。対称性をあらかじめ知っておく必要があり、普遍的な解決策は存在し得ないからです。ツールキットのリンクはコメント欄に、論文は来週公開します。

私たちが調査した対称性の検証に、並外れた努力を注いでくれた Maggie C. と Mark Antonio Awada 博士に感謝します!


==Why World Models Alone Can’t Be AGI==

==【Lay Summary】==

  • ==[何が課題だったのか?] 従来の人工知能開発では、データと計算の規模を拡大すれば予測モデルが自然に世界の法則を学習し、未知の状況にも適応できる汎用人工知能(AGI)に到達できると信じられていたこと。==
  • ==[何をしたのか?] データを効率よく表現するデータ圧縮(Compression)を目的として学習するモデルでは、計算の負担を減らすために視点や状況が変わっても本質が変わらないという性質(Symmetry)を意図的に無視するよう数学的に設計されていることを証明したこと。==
  • ==[何がわかったのか?] 要素を組み合わせて複雑な意味を理解する能力(Compositionality)を高めようとするほど、順序が入れ替わっても結果が同じであるという性質(Exchangeability)が必然的に壊れるという構造的な欠陥が見つかったこと。==

==【意義と実用性】==

==この発見は、データを増やせば汎用人工知能(AGI)が完成するという既存の期待を根本から覆す転換点となります。現在の人工知能は計算効率を優先して世界の法則を無視する性質を持つため、どれほど規模を拡大しても事実の捏造(Hallucination)を根本的に解決できません。真の知能を実現するためには、学習によって法則を見つけさせるのではなく、情報処理の仕組みそのものに法則を直接組み込む新たな設計が必要になります。==

Copy of paper.pdf

免責事項

記事は、一般的な情報提供のみを目的としてのみ作成したものであり、投資家に対する有価証券の売買の推奨や勧誘を目的としたものではありません。また、記事は信頼できると判断した資料およびデータ等により作成しておりますが、その正確性および完全性について保証するものではありません。また、将来の投資成果や市場環境も保証されません。最終的な投資決定は、投資家ご自身の判断でなされますようお願いします。

Ads Blocker Image Powered by Code Help Pro

Ads Blocker Detected!!!

We have detected that you are using extensions to block ads. Please support us by disabling these ads blocker.

タイトルとURLをコピーしました