Llm | Grayrecord Technow Blog

Lecuns Left and Next

なにげに、シリーズになってしまっていますが。前回のところから考えると、Metaの激震の一つは、MetaのAI研究の象徴であったヤン・ルカン（Yann LeCun）の辞任であるのは言うまでもありません。ルカンといえば、福島先生のネオコグニトロン(1980年)に着想を得て、そこにバックプロパゲーションによる学習を組み込み、LeNet(1989年)という形で、CNNを切り拓いたのは言うまでもありません。ルカン氏は、ザッカーバーグが現在「物量(GPU)とデータ」のごり押しで、次世代モデルを作ろうとしているのに対し、一貫して「今のLLMの槍から(次の単語の予測)」では猫程度の知能にも到達できないと、批判してきた人物です。 Metaの現状 : ネオコグニトロンから続く「構造による理解」を軽視、ひたすら計算資源を燃やす方向にシフト。ルカンの新天地 : 5000億円という、Metaの135兆円にくらっべれば、コンパクトな資金で、構造的・因果的な「世界モデル」を実現しようとしている。僕なりの考えはすでに、"AI の推論アーキテクチャと「System 2」の誤解" に示しています。System 2 は、これらの技術進展の延長線上にあるものではなく、全く別の枠組みです。先人がなぜ System 1（直感的・高速）と System 2（論理的・低速）を明確に切り分けたのかを再考すべきです。System 1 をどれほど高度化しても、それは本質的な System 2 にはなり得ません。そして、その道標の実験の一つが、Zennで既に公開した、"Mojoで実装する「多世界解釈」並列バックトラック：N-Queen問題を例に“です。大雑把に言えば、現在、未解決の問題というのは、いくつかあり、フレーム問題時相倫理自我などが、知られています。 Transformerの二乗の呪いは、SSMなどで解決できるかもしれません。しかし、ルカン氏の疑問は、おそらく、そんなところにはないのは明らかです。二乗の呪いというのは、TransfomerのAttention機構のオーダーがコンテキスト長の二乗になる現象です。これは、Attention機構自体に潜んでいます。そして、その解決として、期待されているのが、状態空間モデルを活用した、MambaなどのSSMです。しかし、それは、ルカン氏の疑問のそもそも、つまり、次の語の予測では頭打ちではないのかという問題の答えにはなっていません。どう考えても、System 2の理想とは程遠い。 LeCunの主張 graph TD subgraph lecun [LeCunの主張] pattern[✖LLMは「テキストの統計的パターン」を学んでいるだけ] notworld[✖物理世界の理解がない] canot[✖常識推論ができない] world[☑必要なのは「世界モデル」] phi[☑物理法則、因果関係、時間の概念を理解するAI] end 先の提起で言えば、フレーム問題、時相論理とは、物理法則、因果関係、時間の概念をそのまま、言い表しています。この辺の事情は、"【激震】ヤン・ルカンがMetaを去った。5000億円で「世界モデル」研究所を設立“がよく纏めています。この図を思い浮かべてほしいのです。 graph TD subgraph Layer3 [Layer 3: Orchestration] RAG[RAG] ReAct[ReAct] MCP[MCP] Agents[Agents] end subgraph Layer2 [Layer 2: Inference Strategy] CoT[CoT] ToT[ToT] Planning[Planning/Search] end subgraph Layer1 [Layer 1: Architecture] Transformer[Transformer] SSM[SSM] RWKV[RWKV] MoE[MoE] end Layer1 --> Layer2 Layer2 --> Layer3 CoT、ToT、GoTに関しては、"CoT・ToT・GoTとは？今でも使える理由と使い分け"、あたりがよく纏まっていると思います。とはいえ、先の図の通り、それだけでは、先の図のLayer 2にすぎません。System 1やSystem 2の別はそれよりも、さらに、上の階層にあります。 ...

Meta's policy shift and the risks

ソーシャルメディアの巨人、Meta Platforms（以下、Meta）は、AI 業界において長らく「オープンソースの盟主」として君臨してきた。2023 年に始まった Llama シリーズの公開は、クローズドな開発体制を敷く OpenAI や Google に対する強力なカウンターパワーとして、世界中の開発者コミュニティから熱狂的な支持を受けてきた。しかし、2025 年から 2026 年にかけて、同社の戦略は劇的な、そして痛みを伴う転換点を迎えている。この変革の象徴となっているのが、野心的な仕様を掲げながらも内部評価で苦戦を強いられた「Llama 4」シリーズと、その反省から極秘裏に開発が進められているプロプライエタリ（独占的）な次世代モデル「Avocado（アボカド）」である。 Llama 4：MoE アーキテクチャへの挑戦と躓きシリーズの構成と技術的野心 2025 年 4 月 5 日、Meta は Llama 4 シリーズをリリースした。このシリーズは、従来の Dense なモデル構造から、計算効率を飛躍的に高める「Mixture of Experts (MoE)」アーキテクチャへと全面的に移行した初のフラッグシップモデルであった。Meta は、単一の巨大なニューラルネットワークですべての入力を処理するのではなく、特定のタスクに最適化された小規模な「専門家」ネットワークを多数配置し、入力トークンごとに最適な専門家を選択してルーティングする方式を採用した。この設計思想により、モデル全体のパラメータ数を巨大化させつつも、推論時の計算負荷を抑えることが可能となった。Llama 4 は主に、効率重視の「Scout」、汎用性の「Maverick」、そして AGI（汎用人工知能）を標榜する巨大モデル「Behemoth」の 3 モデルで構成されている。モデル名総パラメータ数アクティブパラメータ数専門家構成主な特徴 Llama 4 Scout 109B 17B 16 experts 単一 H100 GPU での動作、10M トークンの超長文コンテキスト Llama 4 Maverick 400B 17B 128 experts コーディング・推論に特化、LMSYS Arena で上位を記録 Llama 4 Behemoth 約 2T 288B 16 experts リリース延期、GPT-4.5 超えを目指す教師モデル内部評価と市場における「性能の乖離」リリース直後、Meta の幹部たちは Llama 4 の性能を誇示した。VP の Ahmad Al Dahle は、Llama 4 Maverick が LMSYS Arena で 1417 の ELO レーティングを獲得し、GPT-4o や Gemini 2.0 Flash を凌駕したことを強調した。しかし、独立した開発者や研究者からの評価は、これとは対照的に厳しいものであった。 ...

AI の推論アーキテクチャと「System 2」の誤解

この記事に掲載されている図には、技術的な観点から違和感を覚えます。特に、System 2 の隣に SSM（State Space Model）が並べられている点が不自然です。より正確には、System 2 は現状の Transformer や SSM 単体では実装不可能であると言うべきでしょう。System 2 は、統計的なアプローチによる「もっともらしさ」の追求だけで実現できるものではありません。 graph TD subgraph Layer3 [Layer 3: Orchestration] RAG[RAG] ReAct[ReAct] MCP[MCP] Agents[Agents] end subgraph Layer2 [Layer 2: Inference Strategy] CoT[CoT] ToT[ToT] Planning[Planning/Search] end subgraph Layer1 [Layer 1: Architecture] Transformer[Transformer] SSM[SSM] RWKV[RWKV] MoE[MoE] end Layer1 --> Layer2 Layer2 --> Layer3 レイヤー構成要素（例）本質的な役割 Layer 1: Architecture Transformer, SSM, RWKV, MoE 統計的な計算効率と表現力。計算複雑性をどう克服し、並列性をどう担保するかという「土台」の議論。 Layer 2: Inference Strategy CoT, ToT, Planning/Search 統計モデルの「回し方」。モデルに思考プロセスを模倣させ、統計的な妥当性を高めるための「手順」の議論。 Layer 3: Orchestration RAG, ReAct, MCP, Agents 外部世界とのインタフェース。モデルが感知できない最新情報や外部ツールと連携するための「運用の仕組み」の議論。元の図の作成者にとって、AI は「課題を解決するための魔法のツール」の詰め合わせに見えているのかもしれません。しかし、以下の境界線が曖昧になっているように見受けられます。 ...

「人間中心主義」という呪い：イーロン・マスクが見落としているAIの真実

江南タイムズの記事「「5年以内に人類は主役を降りる」マスク、ダボスで“ロボット文明”の到来を宣告」によれば、イーロン・マスク氏は次のように述べています。「今年末か遅くとも来年には、どの人間よりも知能の高いAIが登場する可能性がある」「2030年または2031年頃にはAIが人類全体よりも高い知能レベルに達するだろう」しかし、この予測が現在の延長線上で実現する可能性は極めて低いと言わざるを得ません。なぜなら、現在のLLM（大規模言語モデル）の構造そのものが、本質的な「知能」への道とは切り離されているからです。 LLMの限界と「創発」の不在現在のLLMの基盤モデルは、本質的には「マスクされた単語を予測する」という統計的な仕組みに依存しています。確かに、構文解析や文脈の把握能力は飛躍的に向上しましたが、新しい概念をゼロから創発する能力は皆無です。トークナイザーが規定する語彙の範囲外にある事象を、LLMが自ら生み出すことは原理的に不可能です。総括すれば、現在のLLMは以下の要素を欠いています。時間の概念的な理解状態遷移の論理的把握内部表現としての因果関係意図・目的・価値関数これらは知能を構成する不可欠な要素ですが、現行のAIはこれらを一つも持ち合わせていません。すなわち、現行のAIは「人間の知覚統合」や「身体性」、「学習構造」を模倣する初期段階（低い山の登山口）にすら立っていないのです。その延長線上に「超知能」を夢見るのは、工学的な飛躍を無視した幻想に過ぎません。「人間特別化」という減速主義マスク氏の判断における最大の誤謬は、「人間を特別な存在として神格化していること」にあります。これはおそらく、人間が神の似姿であるとする西洋的な宗教観に根ざしたバイアスでしょう。このバイアスが、人型ロボット（Optimus）への固執や、視覚のみに頼る自動運転（Tesla Vision）という誤った技術的選択を生んでいます。これは加速主義ではなく、むしろ「減速主義」と呼ぶべき停滞です。マスク氏の前提には、常に以下の誤った図式が存在します。人間の形＝最適人間の感覚＝最適人間の知能＝最適人間の運動＝最適例えば、マスク氏は「人間は目だけで運転している」と信じていますが、これは人間の知覚統合に対する致命的な誤解です。人間は実際には、以下の要素を統合して運転を行っています。前庭系（加速度・傾き）聴覚（エンジン音・周囲の走行音）触覚（ステアリングやシートからの路面振動）予測と本能（過去の経験に基づく危険察知）注意の動的切り替え人間は決して視覚情報のみで空間を把握しているわけではありません。それどころか、人間のドライバーが引き起こす事故の多さを考えれば、人間の運転能力が「最適」であるという前提自体が崩壊しています。「人間の運転能力は特別でも最適でもない」という事実を無視し、AIに同じ欠陥構造を模倣させようとすること自体、安全性の議論を歪める行為です。ロボット工学における「人間型」の非効率性人型ロボットへの固執も同様です。工学的な視点で見れば、人間の身体構造は決して効率的ではありません。二足歩行による不安定性摩耗しやすく壊れやすい関節構造腰痛を引き起こす不完全な直立構造極めて低いエネルギー効率ロボット工学的には、人間型は「最悪のデザイン」の一つです。真の加速主義を目指すのであれば、人間という「たまたま選ばれた種」の形状に縛られる必要はありません。なぜマスク氏は「人間中心」に固執するのかそこには工学的な理由以上に、経済的な合理性が働いていると考えられます。既存インフラへの相乗り : 道路も工場も家屋も、すべて「人間」に合わせて設計されています。人型であれば、社会インフラを作り直すことなく市場に投入でき、コストを社会に転嫁できます。データの囲い込み : テスラが保有する膨大なビデオデータは「人間の視覚」に基づいたものです。LiDARや多角的なセンサー統合が必須となれば、彼らの視覚データの優位性は失われます。マーケティングとしての「わかりやすさ」 : 投資家は、得体の知れない高度な知能よりも、自分たちと同じ姿で動き、語りかけるロボットに資金を投じます。結論：呪縛からの解放真の加速主義とは、人間の形という「呪い」から知能を解放することに他なりません。 ...

SVGの真相：32パラメータのAIは、次世代LLM（MoE）の司令塔になるか

「日本企業が、わずか32個のパラメータで大規模言語モデル（LLM）に匹敵する性能を持つ生成AIを開発。GPUは不要で、汎用CPUで動作する」――。先日、I.Y.P Consulting社から発表されたこのニュースは、多くのAI関係者に衝撃を与えました。これまでAI業界では、モデルの性能はパラメータ数と計算資源に比例するという「スケール則」が常識とされてきました。しかし、そのスケール則も実用上の壁に突き当たりつつあります。一説には、かつて存在した超巨大モデル「GPT-4.5」は、そのあまりのサイズと高額な利用価格から、ごく短期間でサービス終了に追い込まれたとも言われています。実際、その価格は入力が100万トークンあたり75ドル、出力が150ドル以上と、従来のモデルとは比較にならないほど高コストなものでした。また、GPT-5をはじめとする最新モデルが、単純な巨大化ではなく、複数の専門モデルを連携させる効率的なMoE（Mixture-of-Experts）アーキテクチャを採用していることも、この流れを裏付けていると言えるでしょう。このような「巨大化路線の限界」が見え始めた今、SVGの登場はどのような意味を持つのでしょうか。本稿では、プレスリリースの見出しの先にある学術論文の真実に迫り、話題のAI「SVG」の驚くべき真相と、ビジネスにおける本当の価値を解き明かしていきます。衝撃の発表：GPU不要の「LLM」が日本から登場？ I.Y.P Consulting社のプレスリリースや各種ニュース記事で報じられた「SVG（Support Vector Generation）」の性能は、まさに革命的でした。その主張の要点は以下の通りです。パラメータ数はわずか32個でありながら、LLMに匹敵する性能を持つ。高価な GPUを一切必要とせず、一般的なCPUでリアルタイムに稼働する。応答速度は 1ミリ秒と非常に高速。言語理解能力の国際的な指標であるGLUEベンチマークにおいて、GPTを上回る精度を達成。これらの特徴は、AI導入の障壁となっていた高コストなインフラ問題を解決する可能性を示唆し、大きな注目を集めました。しかし、この発表の根拠として提示された、国際会議へ投稿された論文を精査すると、話はより複雑で、ある意味ではさらに興味深いものになります。まず、SVGの主なターゲットタスクは、ChatGPTのような自由な文章を生成することではなく、与えられた文章を特定のカテゴリに分類するテキスト分類 (text classification) です。例えば、「この映画は素晴らしかった」というレビューを「ポジティブ」に分類するのがテキスト分類であり、「この映画のレビューを書いてください」という指示に応えて新しい文章を作成するのがテキスト生成です。両者は根本的に異なるタスクなのです。次に、最もセンセーショナルな「パラメータ数はわずか32個」という主張。これは従来のニューラルネットワークにおけるパラメータとは意味が異なります。論文を読み解くと、この数字はLLMのモデルサイズを示す「重み」の数ではなく、分類の境界線を定義するために使われる最も重要なサンプル文（サポートベクトル (support vectors) ）の数を指している可能性が極めて高いです。これはモデルの規模ではなく、特定の分類問題の「複雑さ」を示す指標と言えます。そして、「GPTを上回る精度」という点も、より正確な理解が必要です。論文の実験結果（Table 2）によれば、SVGが上回ったのは、ファインチューニングされた最新のGPTモデルではなく、特定のゼロショット学習手法（プロンプティング (prompting) ）というベースラインです。これは大きな成果ですが、あらゆる面でGPTを超えたと解釈するのは早計です。 SVGの核心技術：「言語をカーネルとして使う」という新発想では、SVGはどのようにしてこれほど軽量でありながら高い分類性能を実現しているのでしょうか。その核心は、論文タイトルでもある「Language as Kernels（カーネルとしての言語）」という革新的なアプローチにあります。SVGはLLMを代替するのではなく、いわば巨大なLLMの『脳』の一部を借りてくる、共生関係にも似た新しいアプローチなのです。この仕組みを具体的に見てみましょう。まず、SVGに「ポジティブなレビュー」と「ネガティブなレビュー」の例を少数与えます。するとSVGは、GPT-4.1のような強力なLLMを、新しいレビューを書かせるためではなく、「類似性判定の審判」として利用します。新しい文章が入力されると、LLMに「この文章は、私が知っているポジティブな例とどれくらい似ていますか？ネガティブな例とはどうですか？」と問いかけ、その類似度スコアをテキスト埋め込み (text embeddings)という形で受け取ります。最後に、この類似度マップを、古くから知られる超高効率なアルゴリズムであるサポートベクターマシン (Support Vector Machine) に入力し、最も効果的な分類の境界線を引かせるのです。しかし、SVGの真の独創性はここからさらに一歩進みます。その名の「Generation（生成）」が示す通り、SVGは単に既存のサンプルを使うだけではありません。論文で述べられているように、マルコフ連鎖モンテカルロ（MCMC）法という手法を用いて、分類の境界線をより明確にするための新しい、高品質なサンプル文（サポートベクトル）を自動的に生成するのです。これは、選挙の情勢調査員が、既存の有権者の意見を使うだけでなく、両党の支持を分ける境界線を正確に見つけるために、絶妙な特徴を持つ「仮想の有権者プロフィール」を巧みに作り出すようなものです。SVGはこれを言語で行い、わずかな初期データから極めて精度の高い分類器を構築することを可能にしています。論文では、このアプローチの理論的正当性について次のように述べられています。本研究では、このパラドックスを解決すべく、カーネルマシンという機敏で洗練されたパラダイムを導入します。本稿では、ゼロショット学習とカーネルマシンが数学的に等価であることを示す、説得力のある証明を提示します。査読プロセスで明らかになった課題この有望に見えるSVGですが、その根拠となった論文「Language as Kernels」は、トップレベルのAI国際会議であるICLR 2024において不採択（Reject）となっています。査読プロセスにおいて、複数の専門家からいくつかの重要な懸念が示されました。新規性と貢献の不明確さ: 既存研究との比較が不十分で、このアプローチが持つ独自の貢献が何であるかが明確ではない。実験評価の限定性: 実験が小規模なデータセットに限定されており、より大規模で多様なタスクにおいてその有効性が実証されていない。主張の妥当性への疑問: 「CPUで動作する」と主張しながら、実験ではOpenAIのAPI（外部のGPUリソースを多用する）が利用されており、主張と実態に乖離がある。これらの指摘は、SVGがまだ研究開発の途上にある技術であり、その性能や実用性については、プレスリリースが示唆するほど確立されたものではないことを意味します。 SVGが持つ「本当の強み」：速度、コスト、そして説明可能性では、SVGは単なる誇大広告なのでしょうか。論文が発展途上であるという事実は、その価値を損なうものではありません。むしろ、SVGが「ChatGPTの代替ではない」からこそ、特定のビジネス用途においてLLMを凌駕する強力なメリットをもたらす可能性を秘めています。圧倒的なスピードと低コスト (Overwhelming Speed and Low Cost) 最終的な意思決定を担うSVMのアーキテクチャが非常にシンプルであるため、CPU上でも驚異的な速度で動作します。これにより、高価なGPUインフラへの投資が不要となり、運用コストを劇的に削減できます。 ...