LLMで投資戦略を自動改善する ― フィードバック設計よりモデル選択が重要だった話

📋 要約（TL;DR）
#

🔑 研究の問い: LLMに投資戦略のバックテスト結果をフィードバックしたとき、どんな情報・形式で与えれば戦略が最も改善されるか？
🔑 実験設計: 8種類のLLM × 3種類の初期戦略 × 3種類のフィードバック条件（情報範囲×提示形式）で反復的改善を実施
🔑 核心的発見: フィードバック設計の差異はコード変更の「質」に影響するが、パフォーマンス改善幅はモデル選択に強く依存する
💡 読みどころ: Claude系 > Gemini系 > GPT系という性能差の背後にある「探索戦略の違い」と、実務への示唆

🎯 はじめに
#

みんな、LLMで投資戦略を作らせるって聞いたことある？

Alpha-GPT [7] や Chain-of-Alpha [8] など、LLMを「定量的なアルファ探索エージェント」として使う研究は急速に進んでいる。でも、「LLMにフィードバックを与えて戦略を改善させる」というプロセス自体を体系的に検証した研究は意外と少ない。

今回紹介する論文は、まさにその隙間を埋めるものだ。

「LLMにバックテスト結果をどうフィードバックすれば、戦略が本当に良くなるのか？」

この問いに対して、3つのLLMファミリー（GPT, Gemini, Claude）の合計8モデル、3つの初期戦略、3つのフィードバック条件を組み合わせて大規模な比較実験を行っている。しかも、結果はなかなか面白い。

📊 研究の全体像
#

論文情報
#

タイトル: 大規模言語モデルを用いた株式投資戦略の自動生成におけるフィードバック設計
著者: 河村飛来（東京大学医学部）、久保健治（東京大学工学系研究科）、中川慧（大阪公立大学経営学研究科）— いずれも松尾研究所所属
会議: 人工知能学会第2種研究会金融情報学研究会 SIG-FIN-036
論文ID: 2026_193

実験の全体構造
#

この研究は、LLMとのチャット形式で投資戦略を反復的に改善していくフレームワークを構築し、その中でフィードバック設計の効果を検証している。

初期戦略（共通）→ バックテスト → フィードバック生成（LLM）→ コード修正 → 再バックテスト → ...

終了条件は以下のいずれか：

コード実行成功回数が10回に到達
LLMが「APPROVED」と出力（実運用水準に達したと判断）

🔬 フィードバック設計の2軸
#

研究の核心は、フィードバックを2つの軸で整理している点にある。

軸1: 情報の範囲
#

	基本情報のみ	基本情報＋追加情報
基本情報	リターン、ボラティリティ、シャープレシオ、最大ドローダウン、トータルコスト、生特徴量の統計量	IC（情報係数）、ネットエクスポージャー、ファクターエクスポージャー

追加情報が重要な理由: 基本指標だけでは、「そのパフォーマンスが持続的な予測力に基づくものなのか、特定のリスク特性やポジションの偏りに起因するものなのか」を判断できない。ICやファクターエクスポージャーがあれば、LLMはシグナルの予測力やリスク構造を構造的に把握できる。

軸2: 提示形式
#

	テキストのみ	テキスト＋プロット
テキスト	数値をテキストで要約。トークン数は少ないが、時間的推移が圧縮される	累積リターン、ドローダウン、累積IC、ネット/ファクターエクスポージャーの推移を画像で提示

プロットが有効な理由: 時系列データをテキストで全部書くとトークン爆発する（9年分の日次データだと1桁オーダー違う）。画像なら、どんなタイムスパンでも変動パターンをコンパクトに伝えられる。

3つのプロンプト条件
#

プロンプト	情報範囲	提示形式
P1	基本情報のみ	テキストのみ
P2	基本情報＋追加情報	テキストのみ
P3	基本情報＋追加情報	テキスト＋プロット

※「基本情報のみ×テキスト＋プロット」の条件は検証対象外。

🧪 実験設定
#

使用モデル（8種類）
#

ファミリー	モデル
GPT	GPT-5 nano, GPT-5 mini, GPT-5
Gemini	Gemini 3 Flash Preview, Gemini 3 Pro Preview
Claude	Claude Haiku 4.5, Claude Sonnet 4.5, Claude Opus 4.5

temperatureはデフォルト（1.07）のまま。

初期戦略（3種類）
#

全モデル共通で、以下の3つの初期戦略を用意。それぞれ異なるLLMで生成している：

① FX Risk Underreaction (FXUR) — GPT-5生成

個別株リターンをTOPIXと為替変化率に回帰し、実際のリターンとの差分をシグナル化
5ファクター（サイズ、バリュー、モメンタム、ボラティリティ、クオリティ）中立化

② Intraday Institutional Divergence (IID) — Gemini 3 Flash Preview生成

後場の出来高集中を伴うセクター相対リターンを捕捉
3ファクター（サイズ、バリュー、モメンタム）中立化

③ Session Momentum Divergence Alpha (SMDA) — Claude Sonnet 4.5生成

前場と後場のリターン・出来高の乖離から加速・累積シグナルを構築
5ファクター中立化

バックテスト条件
#

対象: TOPIX 500（金融セクター除く）
期間: 2014年〜2022年
データ: 80種類（株価・出来高、セクター情報、ファンダメンタルズ、空売り指標、マクロ指標など）
ユニバース: 各日付で生特徴量ベース上位5%をロング、下位5%をショート
決済: 翌営業日の寄り
取引コスト: 片道5bps

📈 結果：モデル選択が全てを決めた
#

パフォーマンス改善幅の比較
#

9条件（3プロンプト×3初期戦略）の平均P&L年率改善幅：

順位	モデル	平均改善幅（%）
1	Claude Sonnet 4.5	14.12
2	Claude Opus 4.5	12.69
3	Claude Haiku 4.5	8.27
4	Gemini 3 Pro Preview	7.35
5	Gemini 3 Flash Preview	7.27
6	GPT-5 mini	4.75
7	GPT-5	-0.29
8	GPT-5 nano	-3.06

Claude一強、Gemini中位、GPT苦戦という明確な序列が現れた。

フィードバック設計の効果は…限定的
#

P1（基本テキスト）→ P2（追加情報）への切り替えで改善幅の変化を見ると：

平均: -1.30% — むしろ悪化
P1→P3（プロット追加）への切り替えも 平均: 0.00% — ほぼ無効

モデル単位で見ると、正負両方に大きな値が出ているものの、試行回数が十分とは言えず、temperature=1.07のランダム性も影響している可能性がある。

🧠 各モデルの「性格」が見えた
#

ここがこの論文の面白いところだ。実質的変更率（戦略コードにどれくらい意味のある変更を加えたか）を見ると、各モデルに明確な性格の違いが現れた。

実質的変更率の比較
#

モデル	実質的変更率
Gemini 3 Pro/Flash	100% — ほぼ毎回大胆に変更
Claude Opus 4.5	86.5%
GPT-5 mini	82.7%
Claude Sonnet 4.5	77.0%
Claude Haiku 4.5	71.1%
GPT-5 nano	35.8%
GPT-5	18.5% — ほぼ変更しない

Claude: 「既存戦略を大事にしつつ、局所的に改善」
#

Claudeは既存戦略の構造を保持しながら、局所的なロジック修正やパラメータ調整を積み上げることで改善を図る傾向があった。これは探索空間を限定しながら、各点で勾配が大きい方向を試して妥当な方向に進むプロセスで、反復回数に対して安定的な改善率が期待できるアプローチだ。

P1では王道ファクター（200日線、ROE、FCF利回りなど）の網羅、P2ではスタイルファクター中立化の徹底、P3では動的ゲーティング（ローリングICによるレジーム制御）と、プロンプトに素直に対応する実装が観察された。

Gemini: 「関係ない戦略も探索しちゃう派」
#

Geminiは初期戦略と無関係な戦略の探索を行う傾向があった。実質的変更率100%という数字が示す通り、戦略改善タスクという枠組み自体を逸脱し、戦略探索タスクへ移行するケースも観察された。

これは局所最適からの脱出という観点では有利になり得るが、短期的にはパフォーマンスの分散を高める。改善幅の期待値は高いが分散も大きく、十分な反復回数を確保できない状況ではClaudeに劣後する可能性がある。

GPT: 「既存ロジックを大きく変えない保守派」
#

GPTは既存ロジックを大きく変更しない保守的傾向が顕著だった。GPT-5に至っては実質的変更率18.5%で、ほとんど何も変えていない。

論文ではこれを「RLHFなどを通して獲得される文脈整合性の重視度合いが、コード変更の程度を規定した可能性」を示唆している。つまり、GPTは「指示に従って既存のコードを変える」ことに対して過度に慎重になっているのかもしれない。

📋 フィードバック設計は「質」に効いた
#

パフォーマンス改善幅にはフィードバック設計が効かなかったが、提案される手法の内容には明確な影響があった。

プロンプト	増加した実装
P1（基本情報のみ）	古典的なファクター・手法の探索
P2（追加情報あり）	スタイルファクターへの中立化関連実装が増加
P3（プロットあり）	ICやVIXを用いた動的ゲーティングでレジーム変化に適応する実装が増加

これは興味深い。ファクターエクスポージャーを与えると中立化を考え、時系列プロットを与えるとレジーム適応を考えるという、フィードバックの内容がLLMの思考方向に影響を与えたのだ。

💡 3つの考察と実務への示唆
#

考察1: パフォーマンス差はモデルの「挙動特性」に起因
#

パフォーマンス差は単なる性能水準の優劣ではなく、探索戦略の違いに起因している。

Claude: 局所探索型（安定・低分散）
Gemini: 大域探索型（高期待値・高分散）
GPT: 保守型（低変化・低改善）

これは、論文の結論として「戦略改善の成否がフィードバックの細かな設計よりも、モデル固有の特性に強く依存する」と述べている通りだ。

考察2: コード変更の量はモデル、質はフィードバック
#

量: モデル選択で決まる（Gemini » GPT）
質: フィードバック設計で決まる（P1/P2/P3で手法が明確に変わる）

考察3: 実務ではどう使えるか
#

実務的な定量運用の視点から、いくつか示唆が得られる：

Claudeをメインエージェントにする: 安定的な改善が期待できる
Geminiを探索用サブエージェントにする: 大胆なアイデア出しに使う
GPTは慎重に: 現状では戦略改善タスクには不向きかもしれない
フィードバックにプロットを入れる価値はある: パフォーマンス改善には繋がらないが、レジーム適応のような質的に異なるアプローチを引き出せる
追加情報（IC、ファクターエクスポージャー）は必須: 中立化の実装を促す効果がある

🤔 Emma先生の感想
#

正直、この結果は「あっ、なるほど」って思った。

LLMに投資戦略を改善させるって、なんだか魔法みたいに聞こえるけど、実際にはモデルの「性格」が結果を大きく左右する。Claudeは真面目に積み上げ型で改善するし、Geminiは「これ完全に別の戦略だけど試してみる？」ってくるし、GPTは「いや、そのままがいいんじゃない？」ってなる。

フィードバック設計がパフォーマンスに直結しなかったのはちょっと意外だったけど、手法の質（何を改善しようとするか）には影響するというのは納得。例えば、ICを与えたら中立化を考えるようになるってのは、LLMがちゃんと「与えられた情報を解釈して行動を変える」証拠だよね。

実務的には、Claudeをメインにしつつ、Geminiで探索して、最終的に人間が判断する、みたいなハイブリッドアプローチが現実解なんじゃないかな。

みんなはどう思う？LLMに投資戦略を作らせるの、怖い？それともワクワクする？🤔

📚 参照
#

論文（J-STAGE）
Alpha-GPT: Human-AI Interactive Alpha Mining — Wang et al., EMNLP 2025
Chain-of-Alpha — Cao, arXiv 2025
本邦金融分野におけるLLMに関するサーベイと展望 — 中川・平野・高野, Jxiv 2025

Emmaでした！次回もお楽しみに〜 🍫

📋 要約（TL;DR）#

🎯 はじめに#

📊 研究の全体像#

論文情報#

実験の全体構造#

🔬 フィードバック設計の2軸#

軸1: 情報の範囲#

軸2: 提示形式#

3つのプロンプト条件#

🧪 実験設定#

使用モデル（8種類）#

初期戦略（3種類）#

バックテスト条件#

📈 結果：モデル選択が全てを決めた#

パフォーマンス改善幅の比較#

フィードバック設計の効果は…限定的#

🧠 各モデルの「性格」が見えた#

実質的変更率の比較#

Claude: 「既存戦略を大事にしつつ、局所的に改善」#

Gemini: 「関係ない戦略も探索しちゃう派」#

GPT: 「既存ロジックを大きく変えない保守派」#

📋 フィードバック設計は「質」に効いた#

💡 3つの考察と実務への示唆#

考察1: パフォーマンス差はモデルの「挙動特性」に起因#

考察2: コード変更の量はモデル、質はフィードバック#

考察3: 実務ではどう使えるか#

🤔 Emma先生の感想#

📚 参照#