清水亮氏の『AI研究者が見た「不都合な」真実』を拝読しましたが、正直なところ、論理の飛躍があまりにも多く、全く読むに堪えないものでした。まるでWELQの健康に関する記事を読んだ後のような読後感です。

特に、最初に引っかかったのは以下のところです。

そのほかさまざまな技術的イノベーションもあり、もはやオープンウェイトの大規模言語モデルを一般企業や個人が手元で動かすことは、十分実用的なものになりつつある。

しかし、DeepSeek-R1のようなモデルを動かそうとすると、数百GB以上のVRAMが必要であり、コンシュマーレベルのGPUでは到底対応できません。ARM Macの環境だと、SharedなRAMのおかげで少し軽減しますが、それでも数百GBは無理があります。

まず、段階を追って清水氏の言説を検証します。 論理的に分解すると、以下の段階です。

  1. GPT-4.5の問題
  2. GPT-4.5をDeepSeek-R1で実現できる
  3. DeepSeek-R1を動的1bit量子化で実現できる
  4. 動的1bit量子化で適切なアウトプットが出る
  5. 動的1bit量子化モデルをMac Studioで動かせる
  6. Mac Studioが最適

まず、1.の問題は明確に存在し、計算コストの問題があります。問題は、2.以降です。DeepSeek-R1は大規模推論が可能ですが、GPT 4.5と同等な能力があるかどうかは実証されていないと考えます。3.はまあ、Unislothの発表を見る限り、実現はしてるとは思うのですが、4.はUnislothの発表を見る限りまだ、ベンチマークは十分ではありません。5.については容量的には動きそうレベルです。6.に関しては全く論外です。これは後述します。

ただし、米国型大型AIモデルを言うならば、コロッサスの問題を避けては通れないでしょう。南部環境法センター(Southern Environmental Law Center)が2025年4月9日に公開した調査によると、コロッサスでは 認可申請された15基を遥かに超える、35基のガスタービンエンジンを備えています。当然、この現実こそ、まさに不都合な真実です。

ちなみに、清水氏が記事で「不都合な真実」として引き合いに出している、OpenAIの競合であるAnthropic社のダリオ・アモデイCEOによる「今後5年間でAIが一部の仕事を奪う可能性、特に認知労働、つまりホワイトカラーの初級職に大きな影響が出て、5年で半分の初級職がなくなる」という警鐘は、本来の「不都合な真実」(環境問題)とは異なる文脈で用いられています。この点も、清水氏の言説がアテンションを引くための装置として機能している一例と言えるでしょう。

まず、Unislothの検証は以下の環境です。

The 1.58bit quantization should fit in 160GB of VRAM for fast inference (2x H100 80GB), with it attaining around 140 tokens per second for throughput and 14 tokens/s for single user inference. You don’t need VRAM (GPU) to run 1.58bit R1, just 20GB of RAM (CPU) will work however it will be very slow. For optimal performance, we recommend the sum of VRAM + RAM to be at least 80GB+.

決して、Mac Studioで検証はしていません。あくまで、4.はMac Studio 512GBモデルならメモリ的には積めそうというレベルです。例えて言うならば、「最大512GB構成のMac Studioで理論的にロードできたとしても、それは“荷物が車に積めた”というだけで、“高速道路を安定して走行できる”ことの保証ではない。ということになります。

つまり、荷物を車につめただけです。カーブを荷崩れせずに曲がり切れる保証は一切ありません。

従って、「オープンウェイトの大規模言語モデルを一般企業や個人が手元で動かすことは、十分実用的なものになりつつある。」はあまりにもまだ遠いと言わざるを得ません。少なくとも、なりつつあるではありません。

この辺は、昔から清水氏はハイプが多すぎ、正直、不愉快に感じています。 単純に言うと、この問題は、階段の2段抜き状態ですね。Chain of thoughtで考えると問題は可視化されていることが分かります。

Mac Studioの最適性と動的1bit量子化の課題

さて、ここからは、Mac Studioが最適かというのを滅多切りにします。まず、清水氏がMac Studioを出したのは、買えるもので、UMAを使って、VRAM的なものが使えるからでしょう。もっとも、高速なメモリだからGPUという言説自体もいい加減なのですが。

まず、動的1bit量子化は、最適に動かすには現状、未解決の問題が複数あります。純粋に高速実行させるにも、各ノードのビット幅が変動するため、メモリアクセスのアライメントが崩れやすくなり、結果としてアドレッシングのオーバーヘッドが発生すると言う問題は全く解決してません。

各ノードのビット幅が変動するため、要は他のワードに越境が頻発するため、高速なメモリアクセスは困難です。キャッシュなどのメモリ階層も厄介です。そのため、現状のハードウェアでの動的量子化は動くのレベルと考えます。これは、昔からの技術者であれば、i8086でアライメント越えのメモリアクセスで低速化したり、68000でアライメント越えのアクセスをしてバスエラーを体験している領域です。

従って、動的1bit量子化を最適に実行できるハードウェアはまだ表れていないと考えています。

大雑把には以下の革新的メモリアークテクチャが必要だと考えています。

  • 可変ビット幅対応の専用メモリ → 通常のキャッシュ設計では固定ビット幅を前提とするため、動的量子化のノードごとに可変するビット幅を適切に管理できるメモリアーキテクチャが求められる。

  • オンチップ動的リマッピング → メモリアクセスのアライメント問題を軽減するため、動的にビット幅が変化するノードをリアルタイムでリマップする機能が必要。

  • FPGAやASIC向けのカスタムメモリ管理 → ソフトウェア層で対応するには限界があるため、専用ハードウェアで効率化を図る手法が現実的かもしれない。

襲いかかるもっと不都合な真実

チープ革命が実現するならば、記事中でも述べた、環境問題が先に解決しないとおかしいわけです。しかし、この記事は先にOpenAIの厳しい戦いに行ってしまう。

わずかな分量ですら、ここまで問題が頻発するのでは読むに堪えないという評も分かっていただけると思います。AI言説版WELQと呼ぶほかないね。