ChatGPTのようなチャットボットの背後にある技術は、ドライバーレスカーがより人間のドライバーのように推論し、行動するのを助けるかもしれない。
Alice Plebe
Asia Times
July 31, 2024
インターネットで検索すると、運転手のいない車の災難を紹介する動画が数多く見つかり、しばしば笑いを誘う。しかし、なぜ私たちはこれらの行動を面白いと感じるのだろうか?それは、人間のドライバーが同じような状況に対処する方法と対照的だからかもしれない。
私たちにとっては些細なことに思える日常的な状況でも、自動運転車にとっては重大な課題となりうる。これは、人間の心の働きとは根本的に異なる工学的手法を用いて設計されているためだ。しかし、最近のAIの進歩は新たな可能性を開いている。
ChatGPTのようなチャットボットを支える技術のような、言語機能を備えた新しいAIシステムは、自動運転車をより人間のドライバーのように推論し行動させる鍵となるかもしれない。
自律走行に関する研究は、2010年代後半、人間の脳にヒントを得た方法でデータを処理する人工知能(AI)の一種であるディープ・ニューラル・ネットワーク(DNN)の登場によって大きく勢いを増した。これは、人間の脳にヒントを得た方法でデータを処理する人工知能(AI)の一種である。これにより、交通シナリオの画像やビデオを処理して、障害物などの「重要な要素」を特定することが可能になる。
多くの場合、障害物の検出には、障害物のサイズ、向き、位置を決定するための3Dボックスの計算が必要となる。このプロセスは、例えば、車両、歩行者、自転車に適用され、クラスと、自動運転車との相対的な距離と速度を含む空間的な特性に基づいて、世界の表現を作成する。
これは、「sense-think-act」として知られる、自律走行に最も広く採用されている工学的アプローチの基礎である。このアプローチでは、まずセンサーデータがDNNによって処理される。次に、センサーデータを使って障害物の軌道を予測する。最後にシステムが車の次の行動を計画する。
このアプローチには、デバッグが容易といった利点がある一方で、センス・シンク・アクト・フレームワークには決定的な限界がある。
脳からの教訓
脳の機能については未知の部分が多く、人間の脳から得た直感を自動運転車両に応用するのは難しい。それでも、神経科学、認知科学、心理学からヒントを得て、自律走行を改善しようとするさまざまな研究が行われている。
古くから確立されている理論によれば、「感覚」と「行動」は連続したプロセスではなく、密接に関連し合っている。人間は、環境に対して行動できるかどうかという観点から環境を認識する。
例えば、交差点で左折の準備をするとき、ドライバーは曲がることに関連する環境の特定の部分や障害物に集中する。対照的に、センス・シンキング・アクト・アプローチは、現在の行動意図とは無関係にシナリオ全体を処理する。
人間とのもうひとつの決定的な違いは、DNNは主に訓練されたデータに依存するということだ。DNNは、あるシナリオのわずかな異常なバリエーションにさらされると、失敗したり、重要な情報を見落としたりする可能性がある。
「ロングテール・ケース」と呼ばれる、このような稀で、十分に表現されていないシナリオは、大きな課題となる。現在の回避策としては、より大きなトレーニングデータセットを作成することが挙げられるが、現実の状況は複雑で多様であるため、すべての可能性をカバーすることは不可能である。
その結果、センス・シンキング・アクトのようなデータ駆動型アプローチは、未知の状況への一般化に苦戦する。一方、人間は新しい状況を扱うことに長けている。
世界についての一般的な知識のおかげで、私たちは「常識」を使って新しいシナリオを評価することができる。常識とは、実践的な知識、推論、そして生涯の経験から築かれた、一般的に人がどのように行動するかについての直感的な理解のミックスである。
実際、人間にとって運転とは社会的相互作用の一形態であり、常識は道路利用者(他のドライバー、歩行者、自転車利用者)の行動を解釈する鍵となる。この能力によって、私たちは予期せぬ状況でも的確な判断と決断を下すことができるのだ。
常識のコピー
DNNで常識を再現することは、過去10年にわたる重要な課題であり、学者たちはアプローチの根本的な変更を求めてきた。最近のAIの進歩により、ようやく解決策が見えてきた。
大規模言語モデル(LLM)は、ChatGPTのようなチャットボットの背後にある技術であり、人間の言語を理解し、生成することに顕著な熟練度を示している。彼らの素晴らしい能力は、様々な領域にわたる膨大な量の情報に基づいて訓練されたことに起因しており、それにより彼らは私たちの常識に似た形を開発することができた。
さらに最近では、GPT-4oやGPT-4o-miniのようなマルチモーダルLLM(テキスト、視覚、ビデオでユーザーの要求に応答できる)が、言語と視覚を組み合わせ、広範な世界知識と視覚入力についての推論能力を統合している。
これらのモデルは、複雑な未知のシナリオを理解し、自然言語による説明を提供し、適切な行動を推奨することができ、ロングテール問題に対する有望な解決策を提供している。
ロボット工学では、言語処理と視覚処理をロボットの行動と組み合わせた視覚=言語=行動モデル(VLAM)が出現しつつある。VLAMは、言語命令によるロボットアームの制御において、初期の段階で目覚ましい成果を示している。
自律走行では、初期の研究では、マルチモーダルモデルを使用して、運転解説や運動計画決定の説明を提供することに焦点が当てられている。例えば、「前方に自転車がおり、減速を開始している」とモデルが示すことで、意思決定プロセスへの洞察を提供し、透明性を高めることができる。
Wayve社は、言語駆動型ドライバーレス・カーの商業レベルでの応用において、有望な初期成果を示している。
ドライビングの未来
LLMはロングテールのケースに対応できる一方で、新たな課題を提示している。その信頼性と安全性の評価は、センス・シンキング・アクトのようなモジュール式アプローチよりも複雑である。統合されたLLMを含む自律走行車の各コンポーネントを検証する必要があり、これらのシステムに合わせた新しいテスト手法が必要となる。
さらに、マルチモーダルLLMはサイズが大きく、コンピュータのリソースに負荷がかかるため、レイテンシ(コンピュータからの動作や通信の遅延)が大きくなる。
ドライバーレスカーはリアルタイムの操作を必要としており、現在のモデルでは十分な速さで応答を生成することができない。また、LLMを実行するには多大な処理能力とメモリが必要であり、自動車の限られたハードウェア制約と相反する。
現在、LLMを自動車で使用するために最適化する研究が複数進められている。常識的な推論を備えた商用ドライバーレス車が路上で見られるようになるまでには、数年はかかるだろう。
しかし、自律運転の未来は明るい。言語能力を備えたAIモデルには、限界に近づきつつあるセンス・シンキング・アクト・パラダイムに代わる確かな選択肢がある。
LLMは、より人間のように推論し行動できる自動車を実現する鍵であると広く考えられている。交通事故が原因で毎年約119万人が亡くなっていることを考えれば、この進歩は極めて重要である。
交通事故による負傷は、5~29歳の子供と若年成人の死因の第1位である。人間のような理性を備えた自律走行車の開発は、この数字を大幅に減らし、無数の命を救う可能性がある。
アリス・プレブはUCLの 機械知能研究員 である。