以下はhttps://www.sciencedirect.com/science/article/pii/S0304405X11002613の翻訳です。
Gu, S., Kelly, B. & Xiu, D. The virtue of complexity in return prediction. Journal of Financial Economics. 161, 1–25 (2024).
要旨
既存の文献の多くは、ごく少数のパラメータしか使用しない「単純な」モデルで市場リターンを予測しています。しかし、一般的な通説に反し、パラメータ数が観測数を上回る『複雑な』モデルが、単純なモデルに比べてリターン予測可能性を著しく高めることを、我々は理論的に証明します。我々は、米国株式市場リターンの予測における複雑性の有効性を実証的に示します。我々の発見は、機械学習を介した期待リターンのモデリングの根拠を確立するものです。
金融分野の文献では、近年、機械学習の規範を借用したリターン予測手法が急速に進歩しています。これらの予測の主な経済的用途はポートフォリオ構築です。多くの論文が、機械学習の使用によるポートフォリオ・パフォーマンスの大幅な経験的向上を文書化していますが、パラメータを大量に含むモデルから形成されるリターン予測とポートフォリオについての理論的な理解はほとんどありません。
我々は、そのような「機械学習ポートフォリオ」の理論的分析を提供します。我々の分析は、以下の思考実験で要約できます。真の予測モデルが以下の形式であると想像してください。
(1)
ここで、Rは資産リターン、Gは予測シグナルの固定されたセット、fは滑らかな関数です。予測変数Gはアナリストに知られているかもしれませんが、予測関数fは未知です。アナリストは、無益な関数形式の推測を行うのではなく、普遍近似の根拠(例えば、Hornik, Stinchcombe, and White (1990)を参照)に依拠します。これにより、fは十分に広範なニューラルネットワークで近似できるとされます。
ここで、
は既知の重み
を持つ既知の非線形活性化関数であり、Pは十分に大きい値です。1その結果、(1)は以下の形式をとります。
(2)
この回帰の訓練サンプルには、Tという固定された数のデータポイントがあり、アナリストは近似モデルで使用する「複雑性」、つまり特徴量Pの数を決定しなければなりません。P≪Tである単純なモデルは、倹約的なパラメータ化のおかげで分散が低いですが、fの粗い近似器となります。一方、高複雑性モデル(P>T)は、より良い近似の可能性を秘めていますが、振る舞いが不安定になり、シュリンケージ/バイアスが必要となります。したがって、我々の中心的な研究課題は、「アナリストはどの程度のモデルの複雑性(すなわち、どのP)を選択すべきか?」ということです。大きなPによる近似の改善は、統計的なコスト(より高い分散やより高いバイアス)を正当化するのでしょうか?
答え:適切なシュリンケージが適用された場合、期待されるサンプル外予測精度とポートフォリオ・パフォーマンスは、モデルの複雑性において厳密に増加することを我々は証明します(実際、我々は、期待されるサンプル外モデル・パフォーマンスを最大化するための最適なシュリンケージの度合いを導出します)。アナリストは、常に計算可能な最大の近似モデルを使用すべきです。言い換えれば、真のデータ生成プロセス(DGP)が未知の場合、モデルの複雑性を通じて達成される近似ゲインは、大量のパラメータ化の統計的コストを圧倒します。この解釈は、資産リターンが多数の基本的な駆動要因に左右されるということを必ずしも意味するものではありません。むしろ、駆動変数が(G)低次元であっても、複雑なモデルは、未知で非線形である可能性が高い予測関数をより正確に近似することで、Gの情報内容をより効果的に活用します。
複雑なモデルにおける予測とポートフォリオの振る舞いについて直感的な特徴付けを提供するために、我々の理論的環境には2つの単純化された側面があります。第一に、我々が研究する機械学習モデルは、高次元線形モデルに限定されています。式(2)が示唆するように、これは汎用性をほとんど犠牲にしません。なぜなら、最近の多くの論文が、高次元線形モデルと、ディープニューラルネットワークのようなより洗練されたモデルとの間に等価性を確立しているからです(Jacot, Gabriel, and Hongler (2018), Allen-Zhu, Li, and Song (2019), Hastie et al. (2022))。実際、式(2)は、P個のニューロンと固定された入力重みを持つ1つの隠れ層を持つニューラルネットワークです。第二に、我々は単一のリスク資産に焦点を当てます。したがって、予測は時系列次元に限定され、ポートフォリオ最適化問題はマーケットタイミングに帰着します。2これらの2つの単純化は、我々の主要な発見をより分かりやすくしますが、どちらも我々の結論にとって決定的ではありません。
我々の発見のベースラインを提供するために、高次元における通常の最小二乗法(OLS)予測のよく知られた欠陥を考えてみましょう。説明変数の数Pがデータポイントの数Tに近づくと、期待されるサンプル外R2は負の無限大に近づく傾向があります。即座に導かれる結論は、そのような設定でOLSリターン予測を使用しようとするポートフォリオ戦略は、発散する分散を持つということです。その結果、その期待されるサンプル外シャープ・レシオはゼロに崩壊します。この背後にある直感は単純です。説明変数の数がデータポイントの数と似ている場合、説明変数の共分散行列は不安定であり、その逆行列は係数推定値と予測に激しい変動を引き起こします。これは一般的に過学習(overfitting)と解釈されます。P≈Tの場合、回帰は訓練データに完全に適合し、サンプル外ではパフォーマンスが低下します。
我々は、高モデル複雑性のレジーム(P>T)におけるポートフォリオの振る舞いに特に興味があります。3この場合、説明変数の逆共分散行列が定義されないため、標準的な回帰ロジックはもはや成り立ちません。しかし、擬似逆行列は定義されており、これは無限小のシュリンケージを持つリッジ回帰、または「リッジレス(ridgeless)」限界に対応します。新たな統計学および機械学習の文献は、高複雑性レジームにおいて、リッジレス回帰が訓練データに完全に適合するにもかかわらず、正確なサンプル外予測を達成できることを示しています。4
我々は、リターン予測とポートフォリオ最適化の文脈で関連する現象を分析します。我々は、リッジレス最小二乗予測に基づくマーケットタイミング戦略が、モデルの複雑性の任意に高いレベルで正のシャープ・レシオの改善を生み出すという驚くべき理論的結果を確立します。より平易に言えば、真のDGPが非常に複雑な場合(つまり、訓練データの観測数よりもはるかに多くのパラメータを持つ場合)、リッジレス回帰に基づくタイミング戦略は失敗する運命にあると考えるかもしれません。結局のところ、それは訓練データにゼロ誤差で完全に適合するのですから。驚くべきことに、この直感は間違っています。我々は、極めて高次元のモデルに基づく戦略が、かなり一般的な条件下でサンプル外で成功し、より単純なモデルに基づく戦略を上回ることを証明します。
我々の理論的分析は、いくつかの追加的な結論を導き出します。第一に、予測モデルからのサンプル外R2は、その経済的価値の不完全な尺度であることを示しています。予測R2が負であっても、マーケットタイマーはかなりの経済的利益を生み出すことができます。その理由は、R2が予測の分散に大きく影響されるためです。5非常に低いサンプル外R2は、非常に不安定なタイミング戦略を示しています。しかし、最小二乗法の特性は、タイミング戦略の期待されるサンプル外リターンが常に正であることを意味します。したがって、タイミングの分散があまり高くなければ(R2があまり負でなければ)、タイミングのシャープ・レシオはかなりのものになり得ます。
第二に、我々は、正しく指定されたモデルと、誤って指定されたモデルの2つの理論的ケースを研究します。正しく指定されたケースは、データサイズを固定したままで、真のDGPが単純なものから複雑なものへと変化する際のタイミング・ポートフォリオの振る舞いを発展させます。これは、様々なDGPに対する機械学習ポートフォリオの一般的な理解を深める上で価値があります。しかし、正しいモデル指定は非現実的です。我々がすべての関連する条件情報を内包する予測データセットを持つことはまずなく、また、情報を適切な関数形式で使用することもまずありません。我々の主要な理論的結果は、誤って指定されたモデルに関するものであり、この分析は上記の思考実験と一致します。実際には、経験的モデルの指定を単純なものから複雑なものへと変化させるとき、我々は、固定されたDGPをモデルがどれだけ正確に近似するかを変更します。
第三に、これまで議論してきた結果は主にリッジレス回帰のケースを指していますが、我々は、非自明なシュリンケージを導入することで、機械学習ポートフォリオがリッジレス限界から離れることで徐々に利益を得る傾向があることを示します。より重いリッジ・シュリンケージによって誘発されるバイアスは、マーケットタイミングへの期待リターンを低下させますが、関連する分散の削減は、戦略のボラティリティを抑制します。分散の削減が期待されるタイミング・リターンの劣化を圧倒するため、シャープ・レシオはより高いシュリンケージから利益を得る傾向があります。これは、P≈Tの場合に特に当てはまります。この場合、リッジレス回帰の振る舞いは最も脆弱です。
技術的な観点から、我々は、モデルのサイズが観測数と固定された比率で増加する(P→∞ and T→∞)ような漸近分析を用いて、高複雑性レジームにおけるポートフォリオの振る舞いを特徴付けます。P/T→γ>0の場合、大数の法則や中心極限定理のような正規の漸近結果は成り立ちません。このような分析には、我々が結果を導出するために多用するランダム行列理論の装置が必要です。概念的には、これは、データ量を固定したままパラメータの数を徐々に増やしたときに、機械学習モデルがどのように振る舞うかを近似するものです。
我々は、典型的な資産価格設定問題、すなわち米国株式市場全体のリターンを予測することにおいて、モデルの複雑性の有効性を実証する広範な実証分析を実施します。6特に、我々は、単一のパラメータを持つ非常に単純なモデルから、10,000を超えるパラメータを持つ極めて複雑なモデルに基づくマーケットタイミング戦略を研究します(トレーニング・サンプルには、わずか12の月次観測値しかない場合もあります)。我々のモデルへのデータ入力は、Goyal and Welch (2008) によってまとめられた、金融分野の文献にある15の標準的な予測変数です。我々のデータ分析を理論にマッピングするために、基礎となる情報セットを固定したまま、低複雑性モデルから高複雑性モデルへとスムーズに移行する方法が必要です。Rahimi and Recht (2007) のランダム特徴量(random feature)メソッドがこれに理想的です。我々はこれを使用して、Goyal and Welch (2008) の予測変数を入力として受け取り、我々の理論の中核であるリッジ回帰構造を維持する拡張ニューラルネットワーク・アーキテクチャを構築します。
我々は、実証パターンと我々の理論的予測との間に並外れた一致を発見します。1926年から2020年までの標準的なCenter for Research in Security Prices (CRSP) サンプル全体で、サンプル外のマーケットタイミング・シャープ・レシオの改善(市場のバイ・アンド・ホールドに対する)は、年間約0.47に達し、t-統計量は3.0に近いです。これは、大多数のモデルでサンプル外の予測R2が実質的に負であるにもかかわらずであり、予測R2が機械学習モデルの経済的利益を判断するのに不適切であるという理論的議論と一致しています。
高複雑性モデルからのタイミング・ポジションは注目に値します。これらは、Campbell and Thompson (2008) の推奨する、市場の期待リターンに非負制約を課すことに似た、ロング・オンリー戦略のように振る舞います。しかし、我々のモデルは、制約を与えられるのではなく、この振る舞いを学習します。さらに、機械学習戦略は、全米経済研究所(NBER)の景気後退期が近づくにつれて投資を売却することを学習し、我々のテスト・サンプルにおける15回の景気後退のうち14回で、純粋なサンプル外ベースでこれを成功させています。
この論文は、機械学習モデルの理論的特性を研究する、新たな文献に最も密接に関連しています。最近の多くの論文は、線形モデルとランダム行列理論を組み合わせることで、勾配降下法によって訓練されたニューラルネットワークの振る舞いを特徴付けるのに役立つことを示しています。7特に、ワイドなニューラルネットワーク(各層に多くのノードがあるもの)は、実質的にカーネル回帰であり、ニューラルネットワークの訓練における「早期停止(early stopping)」は、リッジ正則化に密接に関連しています(Ali, Kolter, and Tibshirani (2019))。最近の研究では、高複雑性レジームで期待される予測誤差が低下する、良性過学習(benign overfit)と「ダブルディセント(double descent)」という現象も強調されています。8
この文献の中で、我々の論文に最も近いのはHastie et al. (2022) です。彼らは、非常に一般的な条件下で、リッジ(レス)回帰におけるバイアスとリスクについて、有限サンプルでのほぼ最適な誤差限界を導出しています。9彼らはまた、一部のシグナルが観測不能である可能性のある誤って指定されたモデルを初めて導入しました。この論文では、我々は(より容易な)漸近レジームに焦点を当てています。我々は、異なる証明方法を使用し、Yaskov (2016) の最近の結果を用いて、シグナルの分布に関するいくつかの技術的条件を緩和しています。特に、我々は非一様に正定値の共分散行列を許容します。最も重要なことに、我々は予測モデルの予測誤差分散に焦点を当てるのではなく、機械学習予測に基づくマーケットタイミング戦略の期待されるサンプル外期待リターン、ボラティリティ、およびシャープ・レシオを特徴付けます。Hastie et al. (2022) と同様に、我々の主な関心は誤って指定されたモデルにあります。Hastie et al. (2022) は特定の形式の誤った指定とそのリッジレス限界に焦点を当てていますが、我々はシグナル相関の観点から漸近的な期待リターンとボラティリティの一般式を導出します。
我々の論文はまた、株式リターンを分析するために機械学習手法を使用する、成長中の実証文献にも密接に関連しています。最先端の市場リターン予測は、シュリンケージを伴う高次元モデルを使用し、ロバストなサンプル外予測力を実証しています。Rapach, Strauss, and Zhou (2010) は、Goyal and Welch (2008) の予測変数と予測結合手法(彼らはこれが強いシュリンケージ効果を発揮することを示している)を使用しています。Ludvigson and Ng (2007) と Kelly and Pruitt (2013) は、それぞれ主成分回帰と部分最小二乗法を使用して、市場リターン予測のために大規模な予測変数セットを活用し、次元削減を通じてシュリンケージを達成しています。Dong et al. (2022) は、様々な予測戦略を使用して市場リターンを予測するために100のロング・ショート「アノマリー」ポートフォリオを使用しています(より一般的には、Rapach and Zhou (2022) の最近の調査を参照)。新たな文献は、Rapach and Zhou (2020), Kozak, Nagel, and Santosh (2020), Freyberger, Neuhierl, and Weber (2020), Gu, Kelly, and Xiu (2020), およびChen, Pelger, and Zhu (2023) を含む、個別株リターンまたはポートフォリオの大規模なパネルを予測するために機械学習手法を使用しています(Kelly and Xiu (2022) の調査も参照)。我々の論文は、資産価格文献で文書化されている機械学習予測の成功に対する理論的な正当化を提供します。我々の理論的結果は、リターン予測をさらに改善するために、研究者がさらに大きな情報セットとより高次元の近似を検討することを求めています(我々の実証分析によって正当化される根拠)。最後に、我々の論文は、投資家が直面する高次元予測問題の市場効率性への影響を検証しているMartin and Nagel (2022) とDa, Nagel, and Xiu (2022)、構造的機械学習モデルの分析で「ダブルディセント」現象に言及しているFan et al. (2022)、およびFan, Fan, and Lv (2008), Ledoit and Wolf (2020), Fan, Guo, and Zheng (2022) のようなランダム行列理論の金融計量経済学への応用と関連しています。
本論文の構成は以下の通りです。セクションIでは、理論的環境を説明します。セクションIIでは、我々の主要な理論的結果を導出する元となるランダム行列理論の基礎的な結果を提示します。セクションIIIでは、正しく指定された設定における機械学習ポートフォリオの振る舞いを特徴付け、高複雑性予測モデルのポートフォリオ便益の背後にある直感を強調します。セクションIVでは、これらの結果をより実用的に関連性の高い誤って指定されたモデルの設定に拡張します。セクションVでは、我々の主要な実証結果を提示します。セクションVIでは結論を述べます。インターネット付録には、様々な補足的な理論的結果と実証的ロバストネス分析が含まれています。10主に定性的な理論的ポイントと実証分析に興味のある読者は、セクションIとIIの技術的な内容をスキップすることをお勧めします。
VI. 結論
資産価格の分野は、機械学習を用いた研究応用のブームの真っただ中にあります。資産運用業界も同様に、ポートフォリオ構築を改善するために機械学習を導入するブームを経験しています。しかし、このような豊富なパラメータを持つモデルに基づいたポートフォリオの特性は、十分に理解されていません。
本稿では、機械学習ポートフォリオの期待されるサンプル外の振る舞いについて、新たな理論的洞察を提供します。機械学習分野の文献における高複雑性モデルの最近の進歩に基づいて、我々は機械学習モデルから導出される投資戦略のための理論的な「複雑性の有効性」を実証します。一般的な通説に反し、我々は、リッジレス最小二乗法に基づくマーケットタイミング戦略が、モデルの複雑性を任意に高いレベルにしても、正のシャープ・レシオの改善を生み出すことを証明します。言い換えれば、最小限の正則化しか適用されない場合でも、モデルのパラメータ数を訓練データの観測数をはるかに超えて増やすことで、機械学習ポートフォリオのパフォーマンスは理論的に向上させることができます。我々は、ランダム行列理論の手法に根差した、この振る舞いの厳密な基礎を提供します。これらの技術的発展に加え、我々は主要な統計的メカニズムについて直感的な説明を行います。
複雑性の有効性を確立することに加え、我々は予測モデルからのサンプル外R2が、その経済的価値を測るのに一般的に不適切な尺度であることを示します。R2が大きく負である場合でも、マーケットタイミング・モデルが大きな経済的利益を得られることを我々は証明します。このことから、金融業界は、予測精度という観点からモデルを評価するのではなく、関連する戦略のシャープ・レシオに基づくなど、経済的な観点から評価することにもっと注力すべきであると、我々は当然ながら推奨します。我々は、正しく指定されたモデルと誤って指定されたモデルの両方において、モデルの複雑性が機械学習ポートフォリオのパフォーマンスに与える影響を比較・対照しています。
最後に、理論的に予測された振る舞いを、機械学習に基づいた取引戦略の実証的な振る舞いと比較します。複雑性の理論的な有効性は、現実世界のデータにおけるパターンと驚くほど密接に一致しています。典型的な実証金融応用、すなわち市場リターン予測とそれに伴うマーケットタイミング戦略において、我々は市場のバイ・アンド・ホールド戦略と比較して、約0.3のサンプル外IRs(情報比率)を見出し、これらの改善は統計的に非常に有意です。これらの新たな戦略にはいくつかの注目すべき特徴があり、景気後退が近づくにつれて市場から投資を引き揚げるロング・オンリー戦略として振る舞います。我々の高複雑性モデルは、研究者の事前の知識やモデリング制約からの指示なしに、この振る舞いを学習します。
我々の結果は、モデルに任意の予測変数を追加するための許可証ではありません。代わりに、我々は以下のことを推奨します。(i) もっともらしく関連性のあるすべての予測変数を含めること、そして (ii) 単純な線形モデルではなく、豊かな非線形モデルを使用すること。これを行うことで、特に慎重なシュリンケージを伴う場合、訓練データが乏しい場合でも予測とポートフォリオの利益が得られます。元の予測変数の数が少ない場合でも、これらの予測変数を高度にパラメータ化された非線形予測モデルで使用することで、利益が達成されます。
この推奨は、経済学者が頻繁に提唱し、統計学者のGeorge Boxによって有名に表明されたパーシモニー(parsimony)の哲学と衝突します。
「すべてのモデルは間違っているのだから、科学者は過剰な精巧さによって『正しい』ものを得ることはできない。それどころか、ウィリアム・オッカムの原則に従い、彼は自然現象の簡潔な記述を追求すべきである。簡潔でありながら示唆に富むモデルを考案する能力が偉大な科学者の特徴であるのと同様に、過剰な精巧さと過剰なパラメータ化は、しばしば凡庸さの証である。」
我々の理論的分析(Belkin et al. (2019)、Hastie et al. (2022)、Bartlett et al. (2020)らの分析とともに)は、この見解の欠陥を示しています。オッカムの剃刀は、オッカムの過ちであるかもしれません。理論的には、小さなモデルが好ましいのは、そのモデルが正しく定式化されている場合に限られることを我々は示します。しかし、Box (1976)が強調するように、モデルは決して正しく定式化されることはありません。論理的な結論として、かなり一般的な条件下では、大きなモデルの方が好ましいということです。機械学習の文献は、広範な現実世界の予測タスクにおいて、大きなモデルの優位性を実証しています。我々の結果は、金融や経済学においても同様のことが当てはまる可能性が高いことを示しています。
我々の発見は、クロスセクション取引戦略における高複雑性モデルの理論的振る舞いの研究や、異なる資産市場における複雑性の有効性に関するより広範な実証調査など、将来の作業のための多くの興味深い方向性を示しています。




免責事項
記事は、一般的な情報提供のみを目的としてのみ作成したものであり、投資家に対する有価証券の売買の推奨や勧誘を目的としたものではありません。また、記事は信頼できると判断した資料およびデータ等により作成しておりますが、その正確性および完全性について保証するものではありません。また、将来の投資成果や市場環境も保証されません。最終的な投資決定は、投資家ご自身の判断でなされますようお願いします。