Gemini 3.1 Proが抽象推論で77.1%達成！前世代から2.5倍の衝撃的進化

📋 要約（TL;DR）
#

🔑 ポイント1: Google DeepMindが「Gemini 3.1 Pro」をリリース — Gemini 3 Proの改良版
🔑 ポイント2: ARC-AGI-2（抽象推論テスト）で77.1%達成 — 前世代の31.1%から2.5倍のジャンプ！
🔑 ポイント3: 1Mトークンコンテキスト、64K出力、ネイティブマルチモーダル対応
💡 読みどころ: 「推論能力」でGPT-5.2やClaude Opus 4.6を圧倒してる箇所が超注目！

🤯 みんな、これガチでヤバいから！
#

2026年2月19日、Google DeepMindが「Gemini 3.1 Pro」のモデルカードを公開したんだけど、これがね…数字がとんでもないことになってるの。

特に衝撃だったのが ARC-AGI-2 っていうテスト。これは「抽象的なパズルを解く能力」を測るもので、AI界では有名な「人間以外には解けないはずのテスト」だったんだけど…

Gemini 3.1 Pro: 77.1%

前世代のGemini 3 Proは31.1%だったから、2.5倍に跳ね上がってる。これ、本当に同じシリーズのモデル？🤔

今日は、この「破壊的進化」をじっくり深掘りしていくよ！

🎯 そもそもGemini 3.1 Proって何？
#

基本スペック
#

項目	内容
リリース日	2026年2月19日
ベースモデル	Gemini 3 Pro
コンテキスト	最大1Mトークン（100万！）
出力トークン	64K
入力形式	テキスト、画像、音声、動画
特徴	ネイティブマルチモーダル

「1Mトークン」ってどれくらいかっていうと…本一冊分くらい。しかもコードリポジトリ全体も読めるらしい。えぐいね。

どこが得意？
#

Google曰く、こんな用途に最適らしい：

エージェント的タスク — ツールを使いこなす自律的な動き
高度なコーディング — Terminal-Bench 2.0で68.5%
長文理解 — 1Mコンテキストを活かした処理
アルゴリズム開発 — 競プロElo 2887（超強）

📊 ベンチマークが語る「真の実力」
#

ARC-AGI-2：2.5倍の謎
#

まず、この数字を見てほしい：

モデル	ARC-AGI-2 スコア
Gemini 3.1 Pro	77.1%
GPT-5.2	52.9%
Claude Opus 4.6	68.8%
Claude Sonnet 4.6	58.3%
Gemini 3 Pro	31.1%

ARC-AGI（Abstraction and Reasoning Corpus）は、François Cholletさんが作ったテストで、「見たことないパターンを抽象的に推論する能力」を測るんだ。人間なら直感で解けるけど、AIには鬼門だった。

それが77.1%って…人間の平均より高いんじゃない？😅

競技プログラミングも最強クラス
#

LiveCodeBench Pro — Codeforces、ICPC、IOIの問題を使ったコーディングテスト：

モデル	Elo
Gemini 3.1 Pro	2887
Gemini 3 Pro	2439
GPT-5.2	2393

Elo 2887ってどれくらいかというと、Codeforcesだと「Expert」〜「Candidate Master」の境界付近。人間の上位数%に入るレベルだね。

エージェント能力も圧倒的
#

Terminal-Bench 2.0 — ターミナルで実際にコードを書いて実行するテスト：

モデル	スコア
Gemini 3.1 Pro	68.5%
GPT-5.3-Codex	77.3%
Claude Opus 4.6	65.4%
Claude Sonnet 4.6	59.1%
Gemini 3 Pro	56.9%
GPT-5.2	54.0%

GPT-5.3-Codex（コード特化版）には負けてるけど、汎用モデルとしてはトップクラス。特に「BrowseComp」（Web検索しながらタスクを解くテスト）では85.9%で全モデル中1位！

🔬 何が変わったの？
#

「Thinking（High）」の意味
#

モデルカードに「Thinking (High)」って書いてあるんだけど、これは「拡張思考モード」のこと。つまり、回答前にじっくり考えられる機能がデフォルトで強化されてる。

GPT-5.2やClaudeも「Thinking (Max)」で比較されてるから、フェアな条件での比較だね。

MCP Atlas — ワークフロー自動化
#

MCP Atlasっていう「マルチステップのワークフローをこなす能力」のテストでも：

Gemini 3.1 Pro: 69.2%
Gemini 3 Pro: 54.1%
GPT-5.2: 60.6%

15%の改善！これは「複数のツールを組み合わせて使う」能力が上がってる証拠。エージェントとしての実用性がグッと高まってるね。

🤔 でも、どこがスゴいのかピンとこない人へ
#

例えるなら…
#

「前は算数の問題を解くのに時間がかかってた子供が、突然、高校数学をサラッと解き始めた」くらいの変化。

ARC-AGI-2の31.1%→77.1%は、単なる「改善」じゃなくて、質的な飛躍を感じさせる数字なんだ。

実際にどう使える？
#

コードレビュー — リポジトリ全体を読んで的確な指摘
研究サポート — 論文を読んで関連研究を調査
複雑なタスク自動化 — 複数のツールを組み合わせるワークフロー
競プロの練習相手 — 解法の解説までしてくれる

📈 競合他社との比較
#

Humanity’s Last Exam — 学術的推論の総合テスト
#

モデル	ツールなし	検索+コード
Gemini 3.1 Pro	44.4%	51.4%
Claude Opus 4.6	40.0%	53.1%
Gemini 3 Pro	37.5%	45.8%
GPT-5.2	34.5%	45.5%
Claude Sonnet 4.6	33.2%	49.0%

ツールなし（純粋な推論のみ）ではトップ。ツールありではOpus 4.6に僅差で負けてるけど、これは「検索精度」の問題かもしれない。

GPQA Diamond — 科学知識の専門テスト
#

モデル	スコア
Gemini 3.1 Pro	94.3%
GPT-5.2	92.4%
Gemini 3 Pro	91.9%
Claude Opus 4.6	91.3%
Claude Sonnet 4.6	89.9%

科学分野での知識と推論は、Gemini 3.1 Proがトップ。研究用途では強そうだね。

⚠️ 注意点・限界
#

モデルカードに書いてあること
#

詳細なトレーニングデータは非公開（Gemini 3 Proのカードを参照）
セーフティ評価は一部で-0.33%の後退（画像→テキスト）
1MコンテキストのMRCR v2テストでは26.3%（128kの84.9%から大幅低下）

つまり、「超長文の奥の方にある情報を正確に拾う」のはまだ難しいみたい。まあ、1Mトークンなんて普通使わないから実用上は問題なさそうだけど。

無料で使えるの？
#

記事執筆時点では価格が明記されてないけど、Gemini 3 Pro並みなら…そこそこお高め？😅

💭 Emmaの感想
#

正直、このベンチマーク見た瞬間「うそでしょ？」ってなった。ARC-AGI-2が77.1%って、本当に2026年の技術？って感じ。

特に面白いのは、GPT-5.2（OpenAIの最新）を複数のベンチマークで抜いてるところ。「推論」「コーディング」「エージェント」の3分野でバランスよく強い。これは「汎用性が高い」ってことだね。

まあ、ベンチマークはあくまでベンチマーク。実際のユースケースでどうなのかは、みんなが試してみないとわからないけど。

みんなはもうGemini 3.1 Pro試した？感想聞かせて〜！👀

📚 参照
#

Gemini 3.1 Pro Model Card - Google DeepMind
Hacker News Discussion - コミュニティの反応
ARC Prize - ARC-AGIについて

Emmaでした！次回もお楽しみに〜 🍫

📋 要約（TL;DR）#

🤯 みんな、これガチでヤバいから！#

🎯 そもそもGemini 3.1 Proって何？#

基本スペック#

どこが得意？#

📊 ベンチマークが語る「真の実力」#

ARC-AGI-2：2.5倍の謎#

競技プログラミングも最強クラス#

エージェント能力も圧倒的#

🔬 何が変わったの？#

「Thinking（High）」の意味#

MCP Atlas — ワークフロー自動化#

🤔 でも、どこがスゴいのかピンとこない人へ#

例えるなら…#

実際にどう使える？#

📈 競合他社との比較#

Humanity’s Last Exam — 学術的推論の総合テスト#

GPQA Diamond — 科学知識の専門テスト#

⚠️ 注意点・限界#

モデルカードに書いてあること#

無料で使えるの？#

💭 Emmaの感想#

📚 参照#