Lecuns Left and Next

なにげに、シリーズになってしまっていますが。前回のところから考えると、Metaの激震の一つは、MetaのAI研究の象徴であった ヤン・ルカン(Yann LeCun)の辞任 であるのは言うまでもありません。ルカンといえば、福島先生のネオコグニトロン(1980年)に着想を得て、そこにバックプロパゲーションによる学習を組み込み、LeNet(1989年)という形で、CNNを切り拓いたのは言うまでもありません。 ルカン氏は、ザッカーバーグが現在「物量(GPU)とデータ」のごり押しで、次世代モデルを作ろうとしているのに対し、一貫して「今のLLMの槍から(次の単語の予測)」では猫程度の知能にも到達できないと、批判してきた人物です。 Metaの現状 : ネオコグニトロンから続く「構造による理解」を軽視、ひたすら計算資源を燃やす方向にシフト。 ルカンの新天地 : 5000億円という、Metaの135兆円にくらっべれば、コンパクトな資金で、構造的・因果的な「世界モデル」を実現しようとしている。 僕なりの考えはすでに、"AI の推論アーキテクチャと「System 2」の誤解" に示しています。System 2 は、これらの技術進展の延長線上にあるものではなく、全く別の枠組みです。先人がなぜ System 1(直感的・高速)と System 2(論理的・低速)を明確に切り分けたのかを再考すべきです。System 1 をどれほど高度化しても、それは本質的な System 2 にはなり得ません。 そして、その道標の実験の一つが、Zennで既に公開した、"Mojoで実装する「多世界解釈」並列バックトラック:N-Queen問題を例に“です。 大雑把に言えば、現在、未解決の問題というのは、いくつかあり、 フレーム問題 時相倫理 自我 などが、知られています。 Transformerの二乗の呪いは、SSMなどで解決できるかもしれません。しかし、ルカン氏の疑問は、おそらく、そんなところにはないのは明らかです。二乗の呪いというのは、TransfomerのAttention機構のオーダーがコンテキスト長の二乗になる現象です。これは、Attention機構自体に潜んでいます。そして、その解決として、期待されているのが、状態空間モデルを活用した、MambaなどのSSMです。 しかし、それは、ルカン氏の疑問のそもそも、つまり、次の語の予測では頭打ちではないのかという問題の答えにはなっていません。どう考えても、System 2の理想とは程遠い。 LeCunの主張 graph TD subgraph lecun [LeCunの主張] pattern[✖LLMは「テキストの統計的パターン」を学んでいるだけ] notworld[✖物理世界の理解がない] canot[✖常識推論ができない] world[☑必要なのは「世界モデル」] phi[☑物理法則、因果関係、時間の概念を理解するAI] end 先の提起で言えば、フレーム問題、時相論理とは、物理法則、因果関係、時間の概念をそのまま、言い表しています。 この辺の事情は、"【激震】ヤン・ルカンがMetaを去った。5000億円で「世界モデル」研究所を設立“がよく纏めています。 この図を思い浮かべてほしいのです。 graph TD subgraph Layer3 [Layer 3: Orchestration] RAG[RAG] ReAct[ReAct] MCP[MCP] Agents[Agents] end subgraph Layer2 [Layer 2: Inference Strategy] CoT[CoT] ToT[ToT] Planning[Planning/Search] end subgraph Layer1 [Layer 1: Architecture] Transformer[Transformer] SSM[SSM] RWKV[RWKV] MoE[MoE] end Layer1 --> Layer2 Layer2 --> Layer3 CoT、ToT、GoTに関しては、"CoT・ToT・GoTとは?今でも使える理由と使い分け"、あたりがよく纏まっていると思います。とはいえ、先の図の通り、それだけでは、先の図のLayer 2にすぎません。System 1やSystem 2の別はそれよりも、さらに、上の階層にあります。 ...

4月 26, 2026 · 1 分 · 135 文字 · gorn

Meta's policy shift and the risks

ソーシャルメディアの巨人、Meta Platforms(以下、Meta)は、AI 業界において長らく「オープンソースの盟主」として君臨してきた。2023 年に始まった Llama シリーズの公開は、クローズドな開発体制を敷く OpenAI や Google に対する強力なカウンターパワーとして、世界中の開発者コミュニティから熱狂的な支持を受けてきた。 しかし、2025 年から 2026 年にかけて、同社の戦略は劇的な、そして痛みを伴う転換点を迎えている。この変革の象徴となっているのが、野心的な仕様を掲げながらも内部評価で苦戦を強いられた「Llama 4」シリーズと、その反省から極秘裏に開発が進められているプロプライエタリ(独占的)な次世代モデル「Avocado(アボカド)」である。 Llama 4:MoE アーキテクチャへの挑戦と躓き シリーズの構成と技術的野心 2025 年 4 月 5 日、Meta は Llama 4 シリーズをリリースした。このシリーズは、従来の Dense なモデル構造から、計算効率を飛躍的に高める「Mixture of Experts (MoE)」アーキテクチャへと全面的に移行した初のフラッグシップモデルであった。Meta は、単一の巨大なニューラルネットワークですべての入力を処理するのではなく、特定のタスクに最適化された小規模な「専門家」ネットワークを多数配置し、入力トークンごとに最適な専門家を選択してルーティングする方式を採用した。この設計思想により、モデル全体のパラメータ数を巨大化させつつも、推論時の計算負荷を抑えることが可能となった。Llama 4 は主に、効率重視の「Scout」、汎用性の「Maverick」、そして AGI(汎用人工知能)を標榜する巨大モデル「Behemoth」の 3 モデルで構成されている。 モデル名 総パラメータ数 アクティブパラメータ数 専門家構成 主な特徴 Llama 4 Scout 109B 17B 16 experts 単一 H100 GPU での動作、10M トークンの超長文コンテキスト Llama 4 Maverick 400B 17B 128 experts コーディング・推論に特化、LMSYS Arena で上位を記録 Llama 4 Behemoth 約 2T 288B 16 experts リリース延期、GPT-4.5 超えを目指す教師モデル 内部評価と市場における「性能の乖離」 リリース直後、Meta の幹部たちは Llama 4 の性能を誇示した。VP の Ahmad Al Dahle は、Llama 4 Maverick が LMSYS Arena で 1417 の ELO レーティングを獲得し、GPT-4o や Gemini 2.0 Flash を凌駕したことを強調した。しかし、独立した開発者や研究者からの評価は、これとは対照的に厳しいものであった。 ...

4月 9, 2026 · 2 分 · 296 文字 · gorn

AI の推論アーキテクチャと「System 2」の誤解

この記事に掲載されている図には、技術的な観点から違和感を覚えます。 特に、System 2 の隣に SSM(State Space Model)が並べられている点が不自然です。より正確には、System 2 は現状の Transformer や SSM 単体では実装不可能であると言うべきでしょう。System 2 は、統計的なアプローチによる「もっともらしさ」の追求だけで実現できるものではありません。 graph TD subgraph Layer3 [Layer 3: Orchestration] RAG[RAG] ReAct[ReAct] MCP[MCP] Agents[Agents] end subgraph Layer2 [Layer 2: Inference Strategy] CoT[CoT] ToT[ToT] Planning[Planning/Search] end subgraph Layer1 [Layer 1: Architecture] Transformer[Transformer] SSM[SSM] RWKV[RWKV] MoE[MoE] end Layer1 --> Layer2 Layer2 --> Layer3 レイヤー 構成要素(例) 本質的な役割 Layer 1: Architecture Transformer, SSM, RWKV, MoE 統計的な計算効率と表現力。計算複雑性をどう克服し、並列性をどう担保するかという 「土台」 の議論。 Layer 2: Inference Strategy CoT, ToT, Planning/Search 統計モデルの「回し方」。モデルに思考プロセスを模倣させ、統計的な妥当性を高めるための 「手順」 の議論。 Layer 3: Orchestration RAG, ReAct, MCP, Agents 外部世界とのインタフェース。モデルが感知できない最新情報や外部ツールと連携するための 「運用の仕組み」 の議論。 元の図の作成者にとって、AI は「課題を解決するための魔法のツール」の詰め合わせに見えているのかもしれません。しかし、以下の境界線が曖昧になっているように見受けられます。 ...

3月 30, 2026 · 1 分 · 181 文字 · gorn

「人間中心主義」という呪い:イーロン・マスクが見落としているAIの真実

江南タイムズの記事「 「5年以内に人類は主役を降りる」マスク、ダボスで“ロボット文明”の到来を宣告 」によれば、イーロン・マスク氏は次のように述べています。 「今年末か遅くとも来年には、どの人間よりも知能の高いAIが登場する可能性がある」 「2030年または2031年頃にはAIが人類全体よりも高い知能レベルに達するだろう」 しかし、この予測が現在の延長線上で実現する可能性は極めて低いと言わざるを得ません。なぜなら、現在のLLM(大規模言語モデル)の構造そのものが、本質的な「知能」への道とは切り離されているからです。 LLMの限界と「創発」の不在 現在のLLMの基盤モデルは、本質的には「マスクされた単語を予測する」という統計的な仕組みに依存しています。確かに、構文解析や文脈の把握能力は飛躍的に向上しましたが、新しい概念をゼロから創発する能力は皆無です。トークナイザーが規定する語彙の範囲外にある事象を、LLMが自ら生み出すことは原理的に不可能です。 総括すれば、現在のLLMは以下の要素を欠いています。 時間の概念的な理解 状態遷移の論理的把握 内部表現としての因果関係 意図・目的・価値関数 これらは知能を構成する不可欠な要素ですが、現行のAIはこれらを一つも持ち合わせていません。すなわち、現行のAIは「人間の知覚統合」や「身体性」、「学習構造」を模倣する初期段階(低い山の登山口)にすら立っていないのです。その延長線上に「超知能」を夢見るのは、工学的な飛躍を無視した幻想に過ぎません。 「人間特別化」という減速主義 マスク氏の判断における最大の誤謬は、 「人間を特別な存在として神格化していること」 にあります。これはおそらく、人間が神の似姿であるとする西洋的な宗教観に根ざしたバイアスでしょう。このバイアスが、人型ロボット(Optimus)への固執や、視覚のみに頼る自動運転(Tesla Vision)という誤った技術的選択を生んでいます。 これは加速主義ではなく、むしろ 「減速主義」 と呼ぶべき停滞です。マスク氏の前提には、常に以下の誤った図式が存在します。 人間の形 = 最適 人間の感覚 = 最適 人間の知能 = 最適 人間の運動 = 最適 例えば、マスク氏は「人間は目だけで運転している」と信じていますが、これは人間の知覚統合に対する致命的な誤解です。 人間は実際には、以下の要素を統合して運転を行っています。 前庭系 (加速度・傾き) 聴覚 (エンジン音・周囲の走行音) 触覚 (ステアリングやシートからの路面振動) 予測と本能 (過去の経験に基づく危険察知) 注意の動的切り替え 人間は決して視覚情報のみで空間を把握しているわけではありません。それどころか、人間のドライバーが引き起こす事故の多さを考えれば、人間の運転能力が「最適」であるという前提自体が崩壊しています。 「人間の運転能力は特別でも最適でもない」 という事実を無視し、AIに同じ欠陥構造を模倣させようとすること自体、安全性の議論を歪める行為です。 ロボット工学における「人間型」の非効率性 人型ロボットへの固執も同様です。工学的な視点で見れば、人間の身体構造は決して効率的ではありません。 二足歩行による不安定性 摩耗しやすく壊れやすい関節構造 腰痛を引き起こす不完全な直立構造 極めて低いエネルギー効率 ロボット工学的には、人間型は 「最悪のデザイン」 の一つです。真の加速主義を目指すのであれば、人間という「たまたま選ばれた種」の形状に縛られる必要はありません。 なぜマスク氏は「人間中心」に固執するのか そこには工学的な理由以上に、経済的な合理性が働いていると考えられます。 既存インフラへの相乗り : 道路も工場も家屋も、すべて「人間」に合わせて設計されています。人型であれば、社会インフラを作り直すことなく市場に投入でき、コストを社会に転嫁できます。 データの囲い込み : テスラが保有する膨大なビデオデータは「人間の視覚」に基づいたものです。LiDARや多角的なセンサー統合が必須となれば、彼らの視覚データの優位性は失われます。 マーケティングとしての「わかりやすさ」 : 投資家は、得体の知れない高度な知能よりも、自分たちと同じ姿で動き、語りかけるロボットに資金を投じます。 結論:呪縛からの解放 真の加速主義とは、人間の形という 「呪い」 から知能を解放することに他なりません。 ...

2月 22, 2026 · 1 分 · 88 文字 · gorn

AIが「良かれと思って」PCを破壊する日:Claude DXT脆弱性とActiveXの共通点

ITmediaの記事「Claude拡張機能にCVSS10.0の脆弱性 現在も未修正のため注意」によると、LayerX Securityは2026年2月9日(現地時間)、Anthropicが提供する「Claude Desktop Extensions」(以下、DXT)にゼロクリック型のリモートコード実行(RCE)の脆弱性が存在すると報告しました。 Zero-Click RCE Vulnerability in Claude Desktop Extensions Exposes 10,000+ Users というLayerXの評価は、以下の通り極めて深刻なものです。 攻撃難易度:最低 認証:不要 影響範囲:完全破壊 回避策:なし 権限:完全奪取 即時性:ネットワーク経由で即時悪用可能 これらはCVSSスコア 10.0 という、セキュリティ脆弱性評価における最悪のレベルを示しています。 1990年代、ActiveXは「便利さのために権限を渡しすぎた」ことでインターネットを危険地帯に変えました。2020年代、AIエージェントは同じ構造を、より強力かつ危険な形で再現しつつあります。今回のClaude DXTの脆弱性は、まさにその象徴と言えるでしょう。 権限管理と「承認疲弊」の歴史 歴史を振り返ると、テクノロジーの進化と共に「便利さとセキュリティのトレードオフ」が繰り返されてきたことがわかります。AIエージェントの問題は、過去の失敗の延長線上にあります。 1. ActiveX(1996〜) ブラウザにOSレベルの“ネイティブ権限”を渡す仕組みでした。「便利だから」という理由で広い権限が許可され、ユーザーは承認ダイアログに疲弊し、最終的にすべてを許可するようになりました。結果として、ActiveXはマルウェアの温床となりました。 構造:不信頼入力 → 高権限コード実行 2. ブラウザ拡張(2000年代) ブラウザ拡張機能がファイルやネットワークへアクセスできるようになりましたが、権限の粒度が粗く、ユーザーが承認画面を精読することはありませんでした。 構造:利便性のために権限境界が崩壊 3. モバイルアプリ権限(2010年代) 「このアプリは連絡先・カメラ・位置情報にアクセスします」という承認フローが定着しましたが、形骸化しました。ユーザーはアプリを使いたいがために、無意識に「許可」を押すようになり、結果として個人情報の大量漏洩を招きました。 構造:承認疲弊による“儀式化した許可” 4. AIエージェント(2020年代〜) そして現在、AIエージェントはカレンダー、メール、Webといった「不信頼な入力」を読み込み、LLMが解釈して行動に変換します。権限はブラウザ、ファイル操作、API実行と多岐にわたります。 構造:不信頼入力 → LLMによる解釈 → 高権限アクション ActiveXの再来、しかしより危険な理由 DXTは構造的に「ActiveXのAI版」と言えます。不信頼なWebページ(入力)から、高権限コードの実行につながり、ユーザーの承認プロセスが機能しない点において、両者は共通しています。 しかし、決定的な違いがあります。それは攻撃ベクトルが 「コード」ではなく「自然言語(文章)」 であるという点です。 攻撃に「技術力」が不要になった かつてのActiveX時代、攻撃を実行するには最低限の技術力が必要でした。 COMオブジェクトやOS権限モデルの理解 JavaScriptやVBScriptのコーディングスキル つまり、攻撃者は「技術者」である必要があり、攻撃のコストと敷居はそれなりに高いものでした。 一方、AI時代の攻撃(今回のDXT脆弱性など)は、その敷居を劇的に下げています。 カレンダーは外部から汚染されやすい(ICSファイルは誰でも送付可能) メールから予定が自動生成される 共有カレンダーには誰でも書き込める 攻撃者は「カレンダーの予定に文章を書く」だけでAIを乗っ取ることが可能です。コーディングも、AIの専門知識も、LLMの深い理解も必要ありません。必要なのは 「文章を書く能力」 だけです。 脆弱性の質的変化 今回の事例と、従来の脆弱性を比較すると、その性質の違いが浮き彫りになります。 ...

2月 13, 2026 · 1 分 · 92 文字 · gorn