定量運用における「データリーク」の罠── バックテストを歪める誤り
リサーチ

定量運用における「データリーク」の罠── バックテストを歪める誤り

M. チェン

バックテストで好成績を示した戦略が、実運用では全く機能しない──定量運用に携わる人なら誰もが経験する「バックテスト・オーバーフィッティング」問題。その主要な原因の一つが、データリーク(look-ahead bias)です。未来の情報が学習データに混入することで、本来得られないはずの予測精度が達成されてしまいます。

見落とされやすいリークのパターンは3つあります。第一に「データ集計のタイムスタンプずれ」。企業の財務データは決算期末日で記録されますが、実際に市場参加者がその情報を入手できるのは決算発表日以降です。この時間差を無視すると、発表前の株価に将来の業績情報を適用するリークが生じます。

第二に「特徴量エンジニアリングにおける全期間集計」。移動平均や標準偏差の算出にテスト期間のデータを含めてしまうケースです。特にPythonのpandasでrolling()を使用する際、デフォルトのmin_periods設定に注意が必要です。

第三に「宇宙生存バイアスの見落とし」。バックテスト対象銘柄リストを「現在上場している銘柄」で構成すると、過去に上場廃止となった(多くの場合パフォーマンスが悪い)銘柄が除外され、戦略の成績が過大評価されます。

当研究所で開発した「リーク検出フレームワーク」では、時系列分割の自動検証、特徴量の未来参照チェック、銘柄ユニバースの時点再構成を統合的に行います。オープンソースツールとしての公開も準備中です。

記事一覧に戻る