「グーグルのジェミニ」-ジェネレーティブAIブームの本当の始まり

グーグルの新しいAIモデル「ジェミニ」は、OpenAIの「ChatGPT」の新たな競争相手だ。AIのライバルたちは今、さらに先鋭的なアイデアに取り組んでいる。

Will Knight
WIRED
Dec 7, 2023 11:08 AM

人工知能の歴史には、技術が行き詰まり、資金が枯渇する、いわゆる「AIの冬」と呼ばれる時期があった。そのたびに、機械に真の知能を持たせることは人間にはあまりにも難しいという宣言がなされてきた。

グーグルが発表したジェミニは、根本的に新しいタイプのAIモデルであり、これまでで最も強力なものだと主張しているが、これは新しいAIの冬がすぐには来ないことを示唆している。実際、ChatGPTの立ち上げから12カ月間はAIにとって飛躍の年となったが、現在のAIブームはまだ始まったばかりだと考える十分な理由がある。

OpenAIが2022年11月にChatGPTと呼ばれる「控えめな研究プレビュー」を開始したとき、大きな期待はしていなかった。テキストを生成する大規模言語モデル(LLM)の新しいインターフェースのテストに過ぎなかった。しかし、エッセイや詩の合成からコーディング問題への回答まで、このチャットボットの能力は非常に幅広く、多くの人々に感動と不安を与え、テック業界を燃え上がらせた。OpenAIが新しいGPT-4 LLMをChatGPTに追加したとき、一部の専門家はあまりの恐ろしさに同社に減速するよう懇願した。

その警鐘に誰かが耳を傾けたという証拠は、すでに乏しい。グーグルがジェミニを発表することで、その前段階を引き上げ、そしておそらくゲームのルールを変えたことは、今では考えられない。

グーグルはすでに今年初め、バードという形でChatGPTへの直接的な対応を急いでおり、OpenAIよりも早く開発していたが非公開にしていたLLMチャットボット技術をついに発表した。ジェミニによって、主にテキストに固定されたLLMを超える新しい時代を開いたと主張している。

グーグルはジェミニを「ネイティブなマルチモーダル」モデルと呼んでいるが、これはテキスト以外のデータからも学習できることを意味し、音声、ビデオ、画像からも洞察を得ることができる。ChatGPTは、十分なテキストが提供されれば、AIモデルがいかに世界について驚くべき量を学習できるかを示している。AI研究者の中には、言語モデルをより大きくするだけで、その能力は人間に匹敵するほど向上すると主張する者もいる。

しかし、人間が書いたテキストというフィルターを通して物理的な現実について学べることは限られており、GPT-4のようなLLMが持つ、情報の幻覚や推論能力の低さ、奇妙なセキュリティ上の欠陥など、取り除くことが難しい限界は、既存のテクノロジーを拡張することには限界があることを示唆しているようだ。

昨日のジェミニの発表に先立ち、『WIRED』はジェミニの開発を率い、超人的な囲碁ボットAlphaGoの開発チームを率いるなどの実績を持つデミス・ハサビスに話を聞いた。ハサビスは、ジェミニが最終的にグーグル製品を際立たせる新機能を導入すると主張し、ジェミニについて予想通り熱弁をふるった。しかしハサビスは、現在のチャットボットにはできない方法で世界を理解できるAIシステムを提供するには、LLMを他のAI技術と組み合わせる必要があるとも述べた。

ハサビスはOpenAIと積極的な競争を繰り広げているが、ライバル同士は根本的な新しいアプローチが必要だという点で意見が一致しているようだ。オープンAIで進行中の「Q*」と呼ばれる謎めいたプロジェクトは、同社がGPT-4のようなシステムのスケールアップ以上のアイデアを模索していることを示唆している。

これは4月にオープンエイのCEOサム・アルトマンがマサチューセッツ工科大学(MIT)で行った発言と一致する。彼はChatGPTの成功にもかかわらず、AIの分野がさらに大きく進歩するには、大きな新しいアイデアが必要だと明言した。「私たちは、巨大な、巨大なモデルになる時代の終わりにいると思います。私たちは他の方法でより良いものを作るでしょう」とアルトマンは語った。

グーグルは、ChatGPTを超えるアプローチを示したのかもしれない。しかし、おそらくジェミニの発表から最も注目すべきメッセージは、Googleが今日のチャットボットよりももっと重要なものを目指しているということだ。

www.wired.com