OpenAIの最新モデルo3を徹底解説:凄い点、限界、o2と何が違うのか

Kaname
2024/12/21
OpenAIが新しいモデルo3とo3-miniを発表しました。東京大学でAGIを研究していた者としてはChatGPTのリリースを超える重大発表であるように捉えています。
AGIが達成されたと騒いでいる方も多いですが、この記事ではo3の凄い点・限界・何が違うのかを可能な限りバランス良くまとめてみました。
最後にモデル名がo2ではなくo3になった理由についても触れます。
従来の生成AIとは一線を画す性能
IQテストに近いベンチマークで人間レベルのスコア(~5%→87.5%)
OpenAIの「o3」は、AGIの実現を測る一つのベンチマークであるARC-AGIにおいて大きな進展を示しました。ARC-AGIはインプットのグリッドとアウトプットとなるグリッドの関係を当てるIQテストのようなベンチマークです。問題のパターンを大量生成できるため、予め学習しておくことが困難であるため純粋な推論能力とされてきました。

GPT-4oなど従来モデルのスコアは長らく0%~5%程度が多かったが、o3は87.5%を記録しました。人間平均が85%とされているので人間を超えたとして注目を集めています。また、ARC-AGIには計算量に上限が設けられていて、上限に準拠した場合のスコアは75.7%です。
しかし、o3が失敗した問題には人間にとって簡単な問題が含まれるためこの結果に懐疑的な意見もあります。

Frontier Math(数学系ベンチマーク関連)
Frontier Mathは、数学の権威Terry Tao氏が「数年はAIに解けない」としていた非常に難度の高い数学問題集です。
従来のLLMの最高スコアは2.0%にとどまっていたが、o3は25.2%という大幅な記録更新を実現しました。

コード性能・競技プログラミング(Codeforcesなど)
o3は競技プログラミングにおいてElo 2727を達成しました。Elo 2727とは競技プログラミングはコミュニティの一つのCodeforcesで175位相当と報告されており、さらにプログラミングオリンピックではゴールドメダリストの中央値(2469)を上回る。
o3が人間の専門家プログラマーを凌駕する水準に到達しているとして多くのソフトウェアエンジニアが自分の将来を真剣に危惧し始めたようです。

o3は従来の生成AIとは違う技術を用いる
OpenAI関係者の数々のインタビューや技術発表をもとに、o3は従来モデル(GPT4oなど)とは異なるアプローチを実装していると推測されています。
従来のモデルは人間の「直感」に近い方法で回答を生成します。o3ではこの「直感」と「直感」の評価を何千回も繰り返すことで人間の思考に近い形で確からしい直感を選択します。
碁で世界一になり話題になったAlphaZeroも同様の手法を用いています。単一の推論パスではなく、大量のChain of Thought(CoT)を試行し、それらを評価モデルによってフィルタする方式です。
この過程で億単位のトークンを生成する必要があるため、高いコストが発生します。探索時間を縮小することで、直感が間違っている可能性が高まる分、生成時間とコストの削減が見込めるということです。
利用開始日とo3-mini について
o3の軽量版としてo3-miniも発表されました。知識蒸留(distillation)といって、o3に小型化したo3-miniの教師になってもらうことで、高速化やコスト削減が実現できる。
o3-miniは2025年1月を目処に利用可能になる予定です。o3フル版の公開はまだ予定されていません。
o3-miniは推論時の思考時間をlow・medium・highの3段階で調整できるようです。モードの変更により生成完了までの時間と性能のトレードオフを調整することができます。
簡単なタスクに15万円のコスト
o3の高い性能は極めて多くの計算資源を利用することで実現されています。人間の場合、数秒で解ける問題にo3は15万円のコストがかかります。

推論時の思考時間を調整するモードが存在するが、最も短い低計算モードでもタスクあたり2000~3000円のコストがかかるようです。
現時点では経済性に問題があるのは明らかですが、o3-miniのような知識蒸留によりそのコストが大幅に削減されることが予想できます。
AGIに関する言及・議論
一部ではARC-AGIスコアが人間水準を超えたという理由から「AGIが達成された」との主張もありますが、基本的にAGIは達成されていないと思っても問題はありません。
ARC-AGIの開発元もARC-AGIがAGIの決定的試験ではないと断言されています。また、o3が簡単なタスクで失敗するケースもあり、人間知能との本質的な違いが依然存在しているようです。
一方で、思考時間の拡大による性能の大幅向上が証明されたことは明らかなため、近い将来AGIに到達する可能性は高いと言えます。AGIの達成は必ずしも人間を超越する知能の達成を意味する訳ではないのですが、AGIの達成だけでも人間社会・経済に前代未聞の変化をもたらすことは容易に想像できますね。
最後に
o3は現時点で利用可能ではなく、公開情報も限られています。ベンチマークを更新する新しいモデルが発表され、騒がれることはこれまで何度もありました。その度に追加検証と実際の利用によりモデルの限界が明らかになること熱りも冷めてきました。
o3も例外ではなく、技術的なパラダイムシフトをもたらすという意味で歴史に残るのは間違いないですが、検証・利用が進むにつれて多くの限界が見つかる可能性は高いです。
ちなみに、前世代のo1に次いでo2とならなかったのは商標権の問題が理由である噂されています。