古代ギリシャの哲学者プラトンは、私たちが見ている世界は真の実在(イデア)の影にすぎないと説いた。このイデア論では、例えば、個々の美しいものの背後には完全な「美のイデア」が存在し、全ての犬の背後には永遠不変の「犬のイデア」が存在し、目に見える「美しい花」も「犬」もそのイデアの影にずぎないという考えだ。この2300年以上前の洞察が、現代の人工知能研究に新たな光を投げかけている。
米コーネル大学の研究チームが発表した論文「Harnessing the Universal Geometry of Embeddings」は、まさにこのイデア論を人工知能の世界に適用したものだ。
異なる企業や研究機関が開発したAIモデルは、それぞれ独自の方法で言葉を数値化しているが、実は全て同じ「意味のイデア界」を捉えようとしているのではないか。この仮説を実証し、さらにその普遍的構造を利用可能にしたのが「vec2vec」という今回提案する技術だ。
「猫」「cat」「chat」「Katze」これらは全て異なる音の連なりだが、同じ概念を指している。同様に、自然言語処理モデルである米Googleの「BERT」も、米OpenAIの「CLIP」も、米Metaの「RoBERTa」も、それぞれ異なる数値ベクトルで単語や文章を表現するが、その根底では同じ意味構造を共有しているはずだ。vec2vecは、この共通の意味空間を発見し、活用する。
技術的には、vec2vecは敵対的学習とサイクル一貫性という手法に触発されている。これは「影から実在を推測する」過程を数学的に実現したようなもので、あるモデルの埋め込みベクトル(影)から、普遍的な潜在表現(イデア)を経由して、別のモデルの埋め込みベクトル(別の角度からの影)へと変換する。この変換は元の文章を一切見ることなく、ベクトルの幾何学的パターンだけから学習される。
実験結果は、AIモデルがデータをどのように表現・処理するかの研究「プラトニック表現仮説」の正しさを示している。
全く異なるアーキテクチャを持つモデル間でも、vec2vecによる変換後のベクトルは最大92%の類似度を達成。さらに、ウィキペディアで訓練したモデルが、SNSの投稿や医療記録といった全く異なる種類のテキストでも同様の性能を発揮したことが分かった。これは発見された意味構造が特定のドメインに依存しない、真に普遍的なものであることを示唆している。