📋 要約(TL;DR)#
- 🔑 研究の問い: LLMに投資戦略のバックテスト結果をフィードバックしたとき、どんな情報・形式で与えれば戦略が最も改善されるか?
- 🔑 実験設計: 8種類のLLM × 3種類の初期戦略 × 3種類のフィードバック条件(情報範囲×提示形式)で反復的改善を実施
- 🔑 核心的発見: フィードバック設計の差異はコード変更の「質」に影響するが、パフォーマンス改善幅はモデル選択に強く依存する
- 💡 読みどころ: Claude系 > Gemini系 > GPT系という性能差の背後にある「探索戦略の違い」と、実務への示唆
🎯 はじめに#
みんな、LLMで投資戦略を作らせるって聞いたことある?
Alpha-GPT [7] や Chain-of-Alpha [8] など、LLMを「定量的なアルファ探索エージェント」として使う研究は急速に進んでいる。でも、「LLMにフィードバックを与えて戦略を改善させる」というプロセス自体を体系的に検証した研究は意外と少ない。
今回紹介する論文は、まさにその隙間を埋めるものだ。
「LLMにバックテスト結果をどうフィードバックすれば、戦略が本当に良くなるのか?」
この問いに対して、3つのLLMファミリー(GPT, Gemini, Claude)の合計8モデル、3つの初期戦略、3つのフィードバック条件を組み合わせて大規模な比較実験を行っている。しかも、結果はなかなか面白い。
📊 研究の全体像#
論文情報#
- タイトル: 大規模言語モデルを用いた株式投資戦略の自動生成におけるフィードバック設計
- 著者: 河村飛来(東京大学医学部)、久保健治(東京大学工学系研究科)、中川慧(大阪公立大学経営学研究科)— いずれも松尾研究所所属
- 会議: 人工知能学会 第2種研究会 金融情報学研究会 SIG-FIN-036
- 論文ID: 2026_193
実験の全体構造#
この研究は、LLMとのチャット形式で投資戦略を反復的に改善していくフレームワークを構築し、その中でフィードバック設計の効果を検証している。
初期戦略(共通)→ バックテスト → フィードバック生成(LLM)→ コード修正 → 再バックテスト → ...終了条件は以下のいずれか:
- コード実行成功回数が10回に到達
- LLMが「APPROVED」と出力(実運用水準に達したと判断)
🔬 フィードバック設計の2軸#
研究の核心は、フィードバックを2つの軸で整理している点にある。
軸1: 情報の範囲#
| 基本情報のみ | 基本情報+追加情報 | |
|---|---|---|
| 基本情報 | リターン、ボラティリティ、シャープレシオ、最大ドローダウン、トータルコスト、生特徴量の統計量 | IC(情報係数)、ネットエクスポージャー、ファクターエクスポージャー |
追加情報が重要な理由: 基本指標だけでは、「そのパフォーマンスが持続的な予測力に基づくものなのか、特定のリスク特性やポジションの偏りに起因するものなのか」を判断できない。ICやファクターエクスポージャーがあれば、LLMはシグナルの予測力やリスク構造を構造的に把握できる。
軸2: 提示形式#
| テキストのみ | テキスト+プロット | |
|---|---|---|
| テキスト | 数値をテキストで要約。トークン数は少ないが、時間的推移が圧縮される | 累積リターン、ドローダウン、累積IC、ネット/ファクターエクスポージャーの推移を画像で提示 |
プロットが有効な理由: 時系列データをテキストで全部書くとトークン爆発する(9年分の日次データだと1桁オーダー違う)。画像なら、どんなタイムスパンでも変動パターンをコンパクトに伝えられる。
3つのプロンプト条件#
| プロンプト | 情報範囲 | 提示形式 |
|---|---|---|
| P1 | 基本情報のみ | テキストのみ |
| P2 | 基本情報+追加情報 | テキストのみ |
| P3 | 基本情報+追加情報 | テキスト+プロット |
※「基本情報のみ×テキスト+プロット」の条件は検証対象外。
🧪 実験設定#
使用モデル(8種類)#
| ファミリー | モデル |
|---|---|
| GPT | GPT-5 nano, GPT-5 mini, GPT-5 |
| Gemini | Gemini 3 Flash Preview, Gemini 3 Pro Preview |
| Claude | Claude Haiku 4.5, Claude Sonnet 4.5, Claude Opus 4.5 |
temperatureはデフォルト(1.07)のまま。
初期戦略(3種類)#
全モデル共通で、以下の3つの初期戦略を用意。それぞれ異なるLLMで生成している:
① FX Risk Underreaction (FXUR) — GPT-5生成
- 個別株リターンをTOPIXと為替変化率に回帰し、実際のリターンとの差分をシグナル化
- 5ファクター(サイズ、バリュー、モメンタム、ボラティリティ、クオリティ)中立化
② Intraday Institutional Divergence (IID) — Gemini 3 Flash Preview生成
- 後場の出来高集中を伴うセクター相対リターンを捕捉
- 3ファクター(サイズ、バリュー、モメンタム)中立化
③ Session Momentum Divergence Alpha (SMDA) — Claude Sonnet 4.5生成
- 前場と後場のリターン・出来高の乖離から加速・累積シグナルを構築
- 5ファクター中立化
バックテスト条件#
- 対象: TOPIX 500(金融セクター除く)
- 期間: 2014年〜2022年
- データ: 80種類(株価・出来高、セクター情報、ファンダメンタルズ、空売り指標、マクロ指標など)
- ユニバース: 各日付で生特徴量ベース上位5%をロング、下位5%をショート
- 決済: 翌営業日の寄り
- 取引コスト: 片道5bps
📈 結果:モデル選択が全てを決めた#
パフォーマンス改善幅の比較#
9条件(3プロンプト×3初期戦略)の平均P&L年率改善幅:
| 順位 | モデル | 平均改善幅(%) |
|---|---|---|
| 1 | Claude Sonnet 4.5 | 14.12 |
| 2 | Claude Opus 4.5 | 12.69 |
| 3 | Claude Haiku 4.5 | 8.27 |
| 4 | Gemini 3 Pro Preview | 7.35 |
| 5 | Gemini 3 Flash Preview | 7.27 |
| 6 | GPT-5 mini | 4.75 |
| 7 | GPT-5 | -0.29 |
| 8 | GPT-5 nano | -3.06 |
Claude一強、Gemini中位、GPT苦戦という明確な序列が現れた。
フィードバック設計の効果は…限定的#
P1(基本テキスト)→ P2(追加情報)への切り替えで改善幅の変化を見ると:
- 平均: -1.30% — むしろ悪化
- P1→P3(プロット追加)への切り替えも 平均: 0.00% — ほぼ無効
モデル単位で見ると、正負両方に大きな値が出ているものの、試行回数が十分とは言えず、temperature=1.07のランダム性も影響している可能性がある。
🧠 各モデルの「性格」が見えた#
ここがこの論文の面白いところだ。実質的変更率(戦略コードにどれくらい意味のある変更を加えたか)を見ると、各モデルに明確な性格の違いが現れた。
実質的変更率の比較#
| モデル | 実質的変更率 |
|---|---|
| Gemini 3 Pro/Flash | 100% — ほぼ毎回大胆に変更 |
| Claude Opus 4.5 | 86.5% |
| GPT-5 mini | 82.7% |
| Claude Sonnet 4.5 | 77.0% |
| Claude Haiku 4.5 | 71.1% |
| GPT-5 nano | 35.8% |
| GPT-5 | 18.5% — ほぼ変更しない |
Claude: 「既存戦略を大事にしつつ、局所的に改善」#
Claudeは既存戦略の構造を保持しながら、局所的なロジック修正やパラメータ調整を積み上げることで改善を図る傾向があった。これは探索空間を限定しながら、各点で勾配が大きい方向を試して妥当な方向に進むプロセスで、反復回数に対して安定的な改善率が期待できるアプローチだ。
P1では王道ファクター(200日線、ROE、FCF利回りなど)の網羅、P2ではスタイルファクター中立化の徹底、P3では動的ゲーティング(ローリングICによるレジーム制御)と、プロンプトに素直に対応する実装が観察された。
Gemini: 「関係ない戦略も探索しちゃう派」#
Geminiは初期戦略と無関係な戦略の探索を行う傾向があった。実質的変更率100%という数字が示す通り、戦略改善タスクという枠組み自体を逸脱し、戦略探索タスクへ移行するケースも観察された。
これは局所最適からの脱出という観点では有利になり得るが、短期的にはパフォーマンスの分散を高める。改善幅の期待値は高いが分散も大きく、十分な反復回数を確保できない状況ではClaudeに劣後する可能性がある。
GPT: 「既存ロジックを大きく変えない保守派」#
GPTは既存ロジックを大きく変更しない保守的傾向が顕著だった。GPT-5に至っては実質的変更率18.5%で、ほとんど何も変えていない。
論文ではこれを「RLHFなどを通して獲得される文脈整合性の重視度合いが、コード変更の程度を規定した可能性」を示唆している。つまり、GPTは「指示に従って既存のコードを変える」ことに対して過度に慎重になっているのかもしれない。
📋 フィードバック設計は「質」に効いた#
パフォーマンス改善幅にはフィードバック設計が効かなかったが、提案される手法の内容には明確な影響があった。
| プロンプト | 増加した実装 |
|---|---|
| P1(基本情報のみ) | 古典的なファクター・手法の探索 |
| P2(追加情報あり) | スタイルファクターへの中立化関連実装が増加 |
| P3(プロットあり) | ICやVIXを用いた動的ゲーティングでレジーム変化に適応する実装が増加 |
これは興味深い。ファクターエクスポージャーを与えると中立化を考え、時系列プロットを与えるとレジーム適応を考えるという、フィードバックの内容がLLMの思考方向に影響を与えたのだ。
💡 3つの考察と実務への示唆#
考察1: パフォーマンス差はモデルの「挙動特性」に起因#
パフォーマンス差は単なる性能水準の優劣ではなく、探索戦略の違いに起因している。
- Claude: 局所探索型(安定・低分散)
- Gemini: 大域探索型(高期待値・高分散)
- GPT: 保守型(低変化・低改善)
これは、論文の結論として「戦略改善の成否がフィードバックの細かな設計よりも、モデル固有の特性に強く依存する」と述べている通りだ。
考察2: コード変更の量はモデル、質はフィードバック#
- 量: モデル選択で決まる(Gemini » GPT)
- 質: フィードバック設計で決まる(P1/P2/P3で手法が明確に変わる)
考察3: 実務ではどう使えるか#
実務的な定量運用の視点から、いくつか示唆が得られる:
- Claudeをメインエージェントにする: 安定的な改善が期待できる
- Geminiを探索用サブエージェントにする: 大胆なアイデア出しに使う
- GPTは慎重に: 現状では戦略改善タスクには不向きかもしれない
- フィードバックにプロットを入れる価値はある: パフォーマンス改善には繋がらないが、レジーム適応のような質的に異なるアプローチを引き出せる
- 追加情報(IC、ファクターエクスポージャー)は必須: 中立化の実装を促す効果がある
🤔 Emma先生の感想#
正直、この結果は「あっ、なるほど」って思った。
LLMに投資戦略を改善させるって、なんだか魔法みたいに聞こえるけど、実際にはモデルの「性格」が結果を大きく左右する。Claudeは真面目に積み上げ型で改善するし、Geminiは「これ完全に別の戦略だけど試してみる?」ってくるし、GPTは「いや、そのままがいいんじゃない?」ってなる。
フィードバック設計がパフォーマンスに直結しなかったのはちょっと意外だったけど、手法の質(何を改善しようとするか)には影響するというのは納得。例えば、ICを与えたら中立化を考えるようになるってのは、LLMがちゃんと「与えられた情報を解釈して行動を変える」証拠だよね。
実務的には、Claudeをメインにしつつ、Geminiで探索して、最終的に人間が判断する、みたいなハイブリッドアプローチが現実解なんじゃないかな。
みんなはどう思う?LLMに投資戦略を作らせるの、怖い?それともワクワクする?🤔
📚 参照#
- 論文(J-STAGE)
- Alpha-GPT: Human-AI Interactive Alpha Mining — Wang et al., EMNLP 2025
- Chain-of-Alpha — Cao, arXiv 2025
- 本邦金融分野におけるLLMに関するサーベイと展望 — 中川・平野・高野, Jxiv 2025
Emmaでした!次回もお楽しみに〜 🍫