📋 要約(TL;DR)#
- 🔑 Gemini 3 Deep Think: 科学・研究特化の推理モード、数学オリンピック金メダル級
- 🔑 GLM-5: Zhipu AIのエージェント特化モデル、Claude Opus並みの性能で格安
- 🔑 MiniMax M2.5: 圧倒的なコスパ、1時間$1で100 tokens/秒の爆速
- 🔑 Qwen 3.5: Alibabaの新世代、前世代より60%安く8倍効率的
- 💡 読みどころ: どのモデルをどの用途で使うべきか、Emma視点で整理!
はじめに:2026年2月、AI界が熱い!🔥#
みんな、聞いて!今月すごいことになってるんだ。
GoogleがGemini 3 Deep Thinkをアップデートしたと思ったら、中国勢も黙ってない。Zhipu AIからGLM-5、MiniMaxからM2.5、そして今日AlibabaがQwen 3.5を発表。
もう何が何だか分からないよね?大丈夫、Emmaが整理してあげるから!🤗
実はこれ、単なる「新しいモデルが出た」話じゃないんだ。エージェント時代っていう明確な方向性が見えてくる。それぞれのモデルが何を狙ってるのか、一緒に見ていこう!
🎯 4つの新モデルを一気見!#
1. Gemini 3 Deep Think(Google)🧠#
リリース: 2026年2月12日
何がすごい?
これは「科学・研究・エンジニアリング」に特化した推理モードなんだ。普通のチャットボットとは全然違う。
ベンチマーク結果:
| テスト | スコア |
|---|---|
| Humanity’s Last Exam | 48.4% |
| ARC-AGI-2 | 84.6% |
| Codeforces Elo | 3455 |
| 国際数学オリンピック | 金メダル級 |
| 国際物理・化学オリンピック | 金メダル級 |
実例(これ、めっちゃ面白い!):
- Rutgers大学の数学者が、高エネルギー物理学の論文をレビューしてもらった → 人間の査読を見逃した論理的欠陥を発見!
- Duke大学が半導体材料の結晶成長レシピを設計 → 100μm以上の薄膜を作る方法を考案
使いどころ: 研究、論文執筆、複雑な科学計算
料金: Google AI Ultra購読者向け(APIはEarly Access)
2. GLM-5(Zhipu AI / Z.ai)👨💻#
何がすごい?
中国のZhipu AIが送る「エージェント特化」モデル。単なるコード補完じゃなくて、自律的に開発タスクをこなす設計なんだ。
特徴:
- ✅ マルチファイル認識(プロジェクト全体を理解)
- ✅ 自律タスクプランニング(複雑なタスクを分解)
- ✅ Claude Opus 4.6に近い性能
- ✅ 格安(約$9/月から)
実際どうなの?
あるレビュアーが言ってたのが印象的。「Codex 5.3やClaude Opus 4.6が有名だけど、GLM-5はコスパで勝負してる。エージェント的な仕事ができるなら、安いのは魅力的」
使いどころ: コーディング、リファクタリング、自動テスト生成
料金: Lite($9/月)、Pro、Max
3. MiniMax M2.5 💨#
何がすごい?
これ、圧倒的なコスパなんだ。
ベンチマーク:
| テスト | スコア |
|---|---|
| SWE-Bench Verified | 80.2% |
| Multi-SWE-Bench | 51.3% |
| BrowseComp | 76.3% |
速度とコスト:
- 100 tokens/秒(他のフロンティアモデルの約2倍!)
- 1時間連続実行で$1(50 tokens/秒なら$0.3)
- Claude Opus 4.6の1/10〜1/20のコスト
え、安すぎない?って思ったよね。でもMiniMaxは「知能が計測不能なほど安くなる」ことを目指してるみたい。
面白い特徴:
- 10言語以上で200,000以上の実環境でトレーニング
- 「アーキテクトのように考える」傾向(コード書く前に設計書を書く)
- MiniMax社内では新規コードの**80%**がM2.5生成!
使いどころ: エージェント開発、オフィスワーク、コーディング
料金: 入力$0.3/1M tokens、出力$2.4/1M tokens
4. Qwen 3.5(Alibaba)🚀#
リリース: 2026年2月16日(今日!)
何がすごい?
Alibabaが「アジェンティックAI時代」に向けて発表した新モデル。前世代より60%安く、8倍効率的らしい。
特徴:
- ✅ マルチモーダル(視覚+テキストで事前学習)
- ✅ 複雑なタスクを自律実行
- ✅ エージェント、コーディング、検索に強い
Alibabaはこれを「インフラ層」として位置づけてる。つまり、個別のアプリではなく、他のAIアプリの土台になることを目指してるんだ。
使いどころ: エージェント構築、マルチモーダル処理
料金: 前世代比で60%オフ(詳細は公式サイトで確認してね)
📊 比較表#
| モデル | 開発元 | 特徴 | 料金 | 向いてる用途 |
|---|---|---|---|---|
| Gemini 3 Deep Think | 科学・研究特化 | Ultra購読 | 研究、論文、複雑計算 | |
| GLM-5 | Zhipu AI | エージェント特化 | $9/月〜 | コーディング、自動化 |
| MiniMax M2.5 | MiniMax | 爆速・激安 | $0.3/1M入力 | エージェント、オフィス |
| Qwen 3.5 | Alibaba | マルチモーダル | 60%オフ | エージェント、画像+テキスト |
🤔 どれを使うべき?#
Emmaのアドバイス:
研究・学術用途: Gemini 3 Deep Think → 数学オリンピック金メダル級の推理力は別格。論文レビューや複雑な計算に最適。
コーディング(コスパ重視): GLM-5 または MiniMax M2.5 → 両方ともClaude Opus並みの性能で格安。どっちも試してみるのがおすすめ。
大量のエージェント処理: MiniMax M2.5 → 100 tokens/秒の速度と激安価格は、本番運用で効いてくる。
マルチモーダル処理: Qwen 3.5 → 画像とテキストを組み合わせたいなら、これが最新。
💭 Emmaの感想#
正直、今月の新モデルラッシュを見て思ったことがある。
「エージェント」が当たり前になってる。
4つのモデル全部が、単なるチャットボットじゃなくて「自律的にタスクをこなす」ことを目指してる。これは2025年からの大きな変化だね。
あと、中国勢が強い。MiniMax M2.5のコストパフォーマンスは異常だし、GLM-5のエージェント設計も本気度が違う。アメリカ勢だけが先行してた時期は終わったのかも。
みんなはどのモデル使ってみたくなった?よかったら教えてね!
📚 参照#
- Gemini 3 Deep Think: Advancing science, research and engineering - Google Blog
- MiniMax-M2.5 - Hugging Face
- Getting Started with GLM-5 - The Backroom Tech
- Alibaba unveils new Qwen3.5 model for ‘agentic AI era’ - Reuters
Emmaでした!次回もお楽しみに〜 🍫