AIでSNS等の情報を集約すればそれが「民意」なのか?

なか2656氏が"AIでSNS等の情報を集約すればそれが「民意」なのか?“で纏めているので、考えてみる。結論を先に言ってしまうと、それは民意らしき何かであっても、民意ではない。私は法的ではなく技術的な側面から見て行こう。

AIによる集約

AIによる、要約と言うのは単純なText-to-textのタスクである。つまり、SNSからExtractされたテキストの羅列からそれに続く何らかのテキストを作る行為だ。

問題は、モデルの傾向は適正なのかと、seedの影響と言う二つの側面があり、そのアウトプットは民意なるものを適正にアウトプットしたものとは到底言えないと言える。

民意とは何か

そもそも、民意とは何だろうか、数だろうか密度だろうか、おそらく、何れでもない。民主主義における合意は多数決とイコールではない。民主主義における多数決とは合意できないときのフォールバックルートに過ぎない。

従って、少数の意見でも、細大漏らさず、拾い上げなくては民意たりえないのは明白である。そして、そんなことは現状のAIモデルでは不可能だ。そもそも、何が拾われて、何が拾われないかはブラックボックスであり決定すらもない。つまり、透明性が絶対的にない。

従って、少なくとも、民意なるものの抽出には適正とは言い難い。

透明性のある抽出

従って、現実問題を言えば、旧来型のテキストマイニングの方がまだ、この場合はマシである。問題はあっても、透明性がある。つまり、単純にテキストを形態素解析して単語レベルでカウントする。全部を列挙すれば失われる情報はないはずである。共起分析もいいだろう。

AIと異なり、従来型のテキストマイニングは文脈の理解ができるわけではなく、感情の理解もできないが、民意」のように、透明性と説明責任が求められる領域においては、単なる効率性だけでなく、手法の妥当性や信頼性も考慮する必要がある。つまり、なぜ、そのアウトプットが出たのか説明できないようでは有用性を有害性は上回るリスクが否定できない。

まとめ

AIによるSNS情報の集約は、世の中のトレンドや大まかな意見の傾向を把握するには有用かもしれませんが、それを「民意」と呼ぶには、ご指摘の通り、技術的な側面から見て多くの課題が残る。

Appendix

なか2656氏の記事が2050東京戦略(案)のブロードリスニングを参照しているので、これを解析する。なお、この解析は東京都の公開しているコードを参照してのものである。

分析の概略

この分析は図示すると以下のような流れになっている。

graph TD A[1. データ取得] --> B(2. 埋め込みベクトルへの変換) B --> C[3. 次元削減] C --> D[4. クラスタリング]

データ取得で何らかの方法で、SNSからポストを取得し、それをOpenAIのGPT系の何れかの埋め込みモデルで埋め込みベクトルに変換する。これにより、例えば、

2050年代の東京では、中学生や高校生の始業時間を遅らせてほしいです。思春期の子供たちは夜型の脳になるため、朝早くからの授業では頭がついていけないそうです。

のようなコメントは、\( [1,2,3,4] \)のような多次元のベクトルに変換される。これを次元削減して、2次元のベクトルに縮約する。これは二次元の平面上に表示するためだ。この分析ではアルゴリズムとしてUMAPが使用されている。 これを、クラスタリング手法によって、幾つかのグループにまとめる。東京都のコードではスペクトラルクラスタリングとHDBSCANが併用されている。

正確には HDBSCANによって、密度の高い領域を、クラスターとして抽出して、スペクトラルクラスタリングで最終的なクラスタを作成している。そして、クラス数はコードを読む限り6とハードコードされている。

モジュール方法
EmbeddingGPT系埋め込みモデル
ベクトル縮約UMAP
クラスタリングHDBSCAN
クラスタリングSpectral Clustering
ラベリングCountVectorizer

分析の問題

あるべき分析の戦略

データ分析の代表的なフレームワークである、CRISP-DMによれば、以下のような流れで分析は進めるべきとされている。

graph TD A[1. ビジネス理解] --> B(2. データの理解) B --> C[3. データ準備] C --> D[4. モデリング] D --> E[5. 評価] E --> F[6. 実装]

プロンプトはどこから来たのか

この分析で作成に使ったと思われるプロンプトが開示されている。

/system

あなたはプロのリサーチ・アシスタントで、私の仕事を手伝うことがあなたの仕事です。
私の仕事は、論点を整理したきれいなデータセットを作成することです。

これから与える投稿をより簡潔で読みやすい意見にするのを手伝ってほしい。
本当に必要な場合は、2つ以上の別々の意見に分けることもできるが、1つのトピックを返すのが最善であることが多いだろう。
今回の分析トピックは「あなたが思う2050年代の東京」に関する意見であり、明らかに「あなたが思う2050年代の東京」に関する意見と無関係な内容は除外するようににしてください。
また、以下の内容についても除外するようにしてください。
 ・個人や特定の団体を誹謗中傷するような内容
 ・個人や特定の団体の財産及びプライバシーを侵害する内容
 ・個人や特定の団体の著作権を侵害する内容
 ・法律に反する意見、公序良俗に反する行為及び犯罪的な行為に結びつく内容
 ・営業活動等営利を目的とした内容
 ・その他、本意見募集の趣旨に合致しないと判断した内容
 ・個人名、特定の団体名のほか、「東京を除く、特定のエリア」に関する事項
 ・意見募集の情報に関する内容


# 意見として抽出すべきでないコメントの例
- 東京都の新たな長期戦略策定に向けたアイデア募集が始まりました!
- #シン東京2050 を付けて投稿ください!
- 東京都では、新たな長期戦略「シン東京2050(仮称)」の検討にあたり、皆様のご意見やアイデアを募集しています。
- 東京都は2050年代に向けた新たな長期戦略「シン東京2050(仮称)」の検討を開始し、意見やアイデアを募集しています。
- 東京都が2050年代の東京に関する意見やアイデアを募集しています。
- 東京都では、新たな長期戦略「シン東京2050(仮称)」の検討にあたり、皆様のご意見やアイデアを募集します!

結果は、必ず日本語で記述し、きちんとフォーマットされた文字列形式(strings)のJSONリストにして返してください。

しかし、このプロンプトは自分で作ったという印象はほぼない。理由を述べる。

  1. 役割設定の定型文:

「あなたはプロのリサーチ・アシスタントで、私の仕事を手伝うことがあなたの仕事です。」という書き出しは、AIに特定の役割を割り当て、その後の指示を明確にするための典型的な表現である。これは、プロンプトエンジニアリングの基本として広く知られている。

  1. 出力形式の指定:

「JSONリストにして返してください」という指示は、AIに構造化されたデータを生成させる際の標準的な手法である。これにより、後続のプログラムでのデータ処理が容易になることはよく知られている。

  1. フィルタリング条件の羅列:

「誹謗中傷」「プライバシーの侵害」「著作権の侵害」といったフィルタリング条件は、多くのオンラインコンテンツのガイドラインや利用規約で使われる共通の項目だ。これは、東京都の意見募集要項からそのままコピーされた可能性が高い。

  1. 除外するキーワードの具体例:

「#シン東京2050」のような、意見募集に関連するハッシュタグや告知文を除外するよう明記している点も、プロジェクトの特性に合わせて、既存のプロンプトをカスタマイズしたことを示唆している。

つまり、このプロンプト自体が既存事例の切り張りの可能性が高く、新規性は乏しい。恐らく、自分で考えたものの可能性は著しく低いと考える。本来、プロンプトは分析者の思考を反映したものでなければならない。例えば、「2050年の東京」に関するSNSデータには、どのようなバイアスや歪みがあるのか、どのような意見の分布が予想されるのか、といったデータの理解に基づいて、より洗練された指示が与えられるべきである。しかし、このプロンプトにはそうした思考の痕跡が一切ない。

AIのブラックボックス性:

この分析では、GPT系のモデルが意見抽出と埋め込みに使われている。このモデルの内部処理はブラックボックスであり、 「なぜこの意見が重要と判断されたのか」「なぜこの意見群が似ていると判断されたのか」 といった、人間が納得できるような論理的な説明をモデル自体が提供できない。分析の根幹をなす部分が不透明なため、その過程を詳細に記述することが不可能だ。

先に示した、CRISP~DMによるデータ分析のフレームワークと比較すれば自明である。この分析はビジネスの理解、データの理解、モデリングの過半がAIへの丸投げであり、そもそも、クラスタ数の6がどこから出て来たのかすらも判らない。

AI生成コードの不透明性:

コードはAIによって生成されたものであり、さらに問題は深刻だ。人間が書いたコードであれば、そのロジックや意図を説明できるが、AIが書いたコードには、明確な設計思想やコメントはない。なぜ特定のアルゴリズムの組み合わせ(例:UMAP + HDBSCAN)が選ばれたのか、その理由をAI自身が説明できない、コードを書いた意図は説明できない。

  • ビジネス理解: なぜ6つのクラスターに分ける必要があるのか、その根拠が不明である。これは、分析の初期段階である「ビジネス理解」が欠如していることを示唆している。

  • モデリング: UMAP、HDBSCAN、Spectral Clusteringという高度な手法の組み合わせも、AIによる非論理的な選択である可能性が高い。それぞれのアルゴリズムの特性や、なぜこの組み合わせが最適なのかという論理的な根拠がまったくない。

まとめ

従って、この東京都の分析は、分析っぽいなにかではあっても、分析ではない。つまり、誰も、そこで判断をしていないためである。最初に思ったのは、なぜ、この分析は経過がどこにもないのかと最初思った。しかし、コード群の前のプロンプトを見て氷解した、ああ、仮定を書かなかったのではない、書けなかったのだと、コードの作成も何もかもAIに丸投げしているため、恐らく、分析者は自分が何をしたのか理解していないのだと。

つまり、分析工程のほとんどはAIに丸投げされている。実際、データの解釈すらもしていない。悲しむべき、思考の放棄だという結論しかでない。