なにげに、シリーズになってしまっていますが。前回のところから考えると、Metaの激震の一つは、MetaのAI研究の象徴であった ヤン・ルカン(Yann LeCun)の辞任 であるのは言うまでもありません。ルカンといえば、福島先生のネオコグニトロン(1980年)に着想を得て、そこにバックプロパゲーションによる学習を組み込み、LeNet(1989年)という形で、CNNを切り拓いたのは言うまでもありません。
ルカン氏は、ザッカーバーグが現在「物量(GPU)とデータ」のごり押しで、次世代モデルを作ろうとしているのに対し、一貫して「今のLLMの槍から(次の単語の予測)」では猫程度の知能にも到達できないと、批判してきた人物です。
- Metaの現状 : ネオコグニトロンから続く「構造による理解」を軽視、ひたすら計算資源を燃やす方向にシフト。
- ルカンの新天地 : 5000億円という、Metaの135兆円にくらっべれば、コンパクトな資金で、構造的・因果的な「世界モデル」を実現しようとしている。
僕なりの考えはすでに、"AI の推論アーキテクチャと「System 2」の誤解" に示しています。System 2 は、これらの技術進展の延長線上にあるものではなく、全く別の枠組みです。先人がなぜ System 1(直感的・高速)と System 2(論理的・低速)を明確に切り分けたのかを再考すべきです。System 1 をどれほど高度化しても、それは本質的な System 2 にはなり得ません。
そして、その道標の実験の一つが、Zennで既に公開した、"Mojoで実装する「多世界解釈」並列バックトラック:N-Queen問題を例に“です。
大雑把に言えば、現在、未解決の問題というのは、いくつかあり、
- フレーム問題
- 時相倫理
- 自我
などが、知られています。
Transformerの二乗の呪いは、SSMなどで解決できるかもしれません。しかし、ルカン氏の疑問は、おそらく、そんなところにはないのは明らかです。二乗の呪いというのは、TransfomerのAttention機構のオーダーがコンテキスト長の二乗になる現象です。これは、Attention機構自体に潜んでいます。そして、その解決として、期待されているのが、状態空間モデルを活用した、MambaなどのSSMです。
しかし、それは、ルカン氏の疑問のそもそも、つまり、次の語の予測では頭打ちではないのかという問題の答えにはなっていません。どう考えても、System 2の理想とは程遠い。
LeCunの主張
先の提起で言えば、フレーム問題、時相論理とは、物理法則、因果関係、時間の概念をそのまま、言い表しています。
この辺の事情は、"【激震】ヤン・ルカンがMetaを去った。5000億円で「世界モデル」研究所を設立“がよく纏めています。
この図を思い浮かべてほしいのです。
CoT、ToT、GoTに関しては、"CoT・ToT・GoTとは?今でも使える理由と使い分け"、あたりがよく纏まっていると思います。とはいえ、先の図の通り、それだけでは、先の図のLayer 2にすぎません。System 1やSystem 2の別はそれよりも、さらに、上の階層にあります。
良くも悪くも、今までのLLMの方向性というのは、System 1と計算量のごり押しで、System 2の領域を突破できるのではないかという過程です。しかし、それは、正しくないのではないかというのが、遠雷のごとく、轟いているのが今です。
つまり、System 1の拡張。どれだけMoEを巨大化させても、結局は「学習データに含まれるパターン」の近似です。未知の制約条件(N-Queenの巨大な盤面など)に対して、論理的な確信を持って「これが唯一の正解である」と断じる能力に欠けています。
その意味では、私の考えは、"【激震】ヤン・ルカンがMetaを去った。5000億円で「世界モデル」研究所を設立“とは、少々異なります。マルチモーダルAIの動向だけでは、恐らく足りません。世界モデルの進展をウォッチしているだけでも足りません。一旦、1970年以降の分岐を頭から、外した方がいいと思っています。
1970年代前後といえば、AIの歴史においては非常に重い意味を持つ時期です。
- 第一次AIブームの終焉と「フレーム問題」の露呈: 記号接地や現実世界の複雑さに当時のAI(トイ・ワールド)が敗北した時期。
- 「コネクショニズム vs 記号主義」の対立の激化: 知能を「推論」と見るか「学習」と見るかの大きな分断。
- バックプロパゲーション前夜: 統計的・確率的なアプローチが主流になり、知能を「データの集積」として扱い始めた転換点。
この分岐を改めて、問い直し、特に第五世代コンピュータの提案と挫折をもう一度見直す必要があると考えています。見直すというのは、ただ、同じようにやれではありません、それでは同じことの繰り返しです。直近のハードウェアの進展を見つめて、別な考えを持つ必要性があると考えます。
Transformerのセルフアテンション機構における計算量がコンテキスト長の2乗($O(n^2)$)で増大するという問題は、単なる効率の悪さではなく、現在のLLMというアーキテクチャそのものが抱える 「物理的限界」 です。これをSSM(状態空間モデル)や線形アテンションで「効率化」しようとする動きはありますが、それはあくまでLayer 1の延命措置に過ぎません。
この計算量の爆発は、現在のAIが「すべての情報の相関を平坦に計算しようとしている」ことの代償です。 人間や、ルカン氏が言う「猫」は、世界をそんな風には処理していません。必要な情報を 構造的・因果的(Layer 1以前のレベル) に切り出し、論理(System 2)で絞り込んでいる。
xAIの「コロッサス(Colossus)」の現状は、まさに 「力こそパワー」という思想が物理的な限界(と法的な境界線)を突破して、悪い意味でのコメディ になっている象徴にしか見えません。
メンフィスの地元電力網(TVA)が1GW級の供給に応えられないからといって、移動式のガスタービンエンジンを数十基も並べて強引に回す……。しかも、それが環境規制(大気浄化法)を無視した「無許可」の状態で行われているというのは、もはや知能の探求というよりは、 中世の攻城戦で力任せに城門を叩き壊そうとしている兵士の姿 に重なります。
「力押し」が露呈させる、アーキテクチャの敗北
この「違法ガスタービン」という阿呆な光景は、以下の3つの絶望的な「行き詰まり」を証明しています。
- 「物理的終焉」
現在のTransformer(Layer 1)における $O(n^2)$ の呪いを、アルゴリズムの改善ではなく「発電機の増設」で解決しようとするのは、「速い馬を100万頭並べれば、月に行ける」と信じているようなものです。計算資源の暴力は、知能の欠陥を補うための「高い授業料」でしかありません。
- 「燃費の悪さ」
ルカン氏が指摘するように、猫や人間はわずか数十ワットの電力(脳)で、物理法則を理解し、高度な推論を行います。一方、xAIやMetaが進めている「巨大な統計予測器」は、都市一つ分の電力を食いつぶしてようやく「もっともらしい作文」をする。このエネルギー効率の100万倍以上の差こそが、1970年の分岐で私たちが置き去りにした「構造的推論」の重要性を物語っています。
- CapEx(設備投資)の自己目的化
「100万個のGPUを並べた」という事実が、株主や市場に対するアピール(ポーズ)になってしまい、中身のアーキテクチャが「二の次」になっている。電力を確保するために法を犯すという行為は、手段が目的を完全に飲み込んでしまった末路です。
