Skip to content

Latest commit

 

History

History
163 lines (112 loc) · 11.6 KB

scoring.md

File metadata and controls

163 lines (112 loc) · 11.6 KB

スコアリング

現在、支払いに使用されている主なスコアは2つあります。

  • 特徴ニュートラル相関 (FNCv4):中和された予測とターゲットとの相関

    • このために使用されるターゲットは target_factor_feat_neutral_20(一般的な特徴と因子に対して中和されたリターン、「残差リターン」を生成)です。
  • メタモデル貢献度MMC)に置き換えられます。

また、支払いには使用されない情報提供用のスコアもあります。

  • 相関 (CORRv4):予測とターゲットとの相関
  • 情報係数 (ICv2):予測と未調整リターンとの相関
  • 残差情報係数 (RIC):予測と残差リターン(一般的な因子に中和されたリターン)との相関

詳細な説明については、定義ドキュメントをご覧ください。

中和

信号やターゲットは、既存の信号と相関がゼロであるとき「ニュートラル」と見なされます。中和の目的は、既存の信号に含まれていないオリジナルまたは直交成分を抽出することです。

既知の単一信号に対する中和の可視化

{% hint style="warning" %} よく知られた信号の単純な線形結合を提出すると、中和後には直交成分がほとんど残らない場合があります。 {% endhint %}

Numeraiには、サイズ、価値、モメンタムなどのBarra因子、国やセクターのリスク因子、カスタム株式特徴など、さまざまな既存の信号があります。これらの既存の信号は提供されないため、このプロセスは「ブラックボックス」となります。信号を中和するためのコードはオープンソースであり、このプロセスについてはこちらの例のノートブックで学ぶことができます。

スコアリングの前に信号を中和することで、Numeraiはターゲットを中和し、データを提供せずにそのパフォーマンスを向上させる可能性があります。たとえば、信号が国のリスクに対して中和されていない場合、Numerai Signalsはスコアリング前にその信号を国のリスクに対して中和します。これにより、国のリスクの中和を気にせずオリジナルな信号を作成することに専念できます。

信号が単独では強力な予測力を持っていても、Numerai Signalsでのスコアが低くなることがあり、Signalsのユニークな特徴を際立たせています:Numerai Signalsは株価リターンの予測ではなく、Numeraiがまだ持っていないオリジナルな信号を見つけることです。

特徴のエクスポージャーや中和の広範な影響について理解を深めるには、こちらのフォーラム投稿をご覧ください。

ターゲット

Signalsは、Numeraiが作成したカスタムブラックボックスのターゲットに対して評価されます。このターゲットもNumeraiトーナメントと同様に20D2L(20日後、2日のラグ)のターゲットですが、既存の信号に対して中和されています。

短い期間のターゲットは使用しません。短期的な期間でのみ機能する信号は、大規模なヘッジファンドにとって実用化が難しいからです。たとえば、1時間の株価リターンを正確に予測できる信号があっても、ヘッジファンドがそのポジションを完全に取引するのに24時間かかる場合、それはあまり役に立ちません。大規模なヘッジファンドにとって有用な信号は、長期的に予測力を持ち、「低アルファ減衰」としても知られます。

診断

信号の履歴診断を使用して、パフォーマンスを確認し、将来の信号に対する中和の影響を見積もることができます。重要なのは、履歴期間でスコアが強い信号でも、現在や将来のラウンドで高いスコアを得られるとは限らないことです。

診断ツールは、スコアページのモデル横にあるビーカーのアイコンから開くことができます。過去のvalidation期間にわたる信号をアップロードすると、パフォーマンス、リスク、潜在的な収益などのvalidationメトリクスが計算されます。validation期間は 20130104 からvalidationデータの最新日までです。

validation期間にわたるアップロードには、次の追加列が必要です:

  • date列 - 履歴データは週単位で、診断ツールは特定の週の予測がその週の最新の金曜日の市場終値データを使用していると仮定します。

アップロードが確認されると、診断が開始されます。通常、これには5~10分かかりますが、提出する週数やティッカーの数に依存します。

これらの診断は、信号がステーキングする価値があるかどうかを判断するための指標です。validation期間での診断が良好であっても、現在または将来のlive期間で高いスコアを得られるとは限らないことに注意が必要です。

{% hint style="warning" %} この履歴評価ツールを繰り返し使用すると、すぐに過学習を引き起こします。診断は信号作成プロセスの最終確認としてのみ使用してください。 {% endhint %}

チャーンとは?

チャーンとは、信号が時間とともにどれだけ変化するかを示す統計です。Signalsで使用しているチャーンを計算するコードはオープンソースで公開されており、こちらで確認できます。

簡潔に示すと以下の通りです。

churn(t0, t1) = 1 - correlation(s(t0), s(t1))

ここで、s(t) は時点 t における信号の提出物を表します。

チャーンを計算する理由

Signalsの提出物に高いチャーンがある場合、Numeraiはその信号を取引できません。もともとNumeraiトーナメントデータを基にした多くのモデルは、自然に低いチャーンを持っていますが、Signalsモデルは高いチャーンを持つ傾向があります。

Signalsメタモデルのチャーンは、個別のSignalsモデルの平均チャーンと強い相関があるため、Numeraiは高チャーンのSignalsモデルを許可できません。

チャーンの閾値

前週に提出していないモデルはステークが0に設定されます。これは、毎週提出していないモデルは自動的にメタモデルの高いチャーンを引き起こすためです。

モデルが先週以内に提出している場合、新しい提出物のアップロード時に、前週の提出物との最大チャーンを計算します。現在のアップロード期間を時点 t とした場合、最大チャーンは次のように定義されます:

max_churn = max([churn(t, t-1), churn(t, t-2), ..., churn(t, t-5)])

もし max_churn が15%以上であれば、その提出物のステークは0に設定されます。

各種指標の定義

用語説明

D: 土日を除いた日数。20Dならば土日を除いた20日(土日を含めて28日)を表す。

L: ラグ。2Lならば2日ラグがあることを表す。

ビン数: targetの値が何個ビン化されているか。5なら5つの数字にビン化されていることを表す。

均一性: ビン化されている数字の分布。均一性が10%、40%、50%は0と1が5%ずつ、0.25と0.75が20%ずつ、0.5が50%を表す。

ターゲット

  • target_20d
    • タイムライン:20D2L
    • ビン数=5、均一性=10%、40%、50%
    • ニュートラライザー:標準因子およびその他の未リスト化の因子
  • target_20d_factor_neutral
    • タイムライン:20D2L
    • ビン数=5、均一性=10%、40%、50%
    • ニュートラライザー:標準因子およびその他の未リスト化の因子
  • target_20d_factor_feat_neutral
    • タイムライン:20D2L
    • ビン数=5、均一性=10%、40%、50%
    • ニュートラライザー:標準因子およびその他の未リスト化の特徴

メタモデル

  • Signalsの提出物は以下の手順でクリーンアップされます:
    • 各提出物をtie-keptランクにする
    • 各提出物のnanを0.5で埋める
    • 各提出物をtie-keptランクにする
    • 各提出物を正規化する(ガウス化)
  • Signals ステーク加重メタモデル(最小ステークあり)(SSWMM)
    • クリーンアップされたSignals提出物のステーク加重平均
  • Signals ナイーブ加重メタモデル(最小ステークあり)(SNWMM)
    • クリーンアップされたSignals提出物の平均
  • Signals ナイーブ加重メタモデル(最低10 NMRのステークあり)(SNWMMmin10)
    • 最低10 NMRのステークを持つクリーンアップされたSignals提出物の平均

スコア

  • スコアリングで使用する前に提出物がクリーンアップされます:
    • 無効なティッカーを削除
    • 提出物をtie-keptランクにする
    • nanを0.5で埋める
  • MMC - メタモデルへの貢献度
    • 提出物、SNWMMmin10、target_20d_factor_neutralとの相関による貢献度
    • タイムライン:20D2L(データ遅延2日)
  • CORRV4 - 相関v4
    • 提出物とtarget_20d_factor_feat_neutralの相関
    • スコア日数20日、リターン遅延2日(+ データ遅延2日)
  • ICV2 - 情報係数V2
    • ビン化されたリターンと提出物のスピアマン相関
    • スコア日数20日、リターン遅延2日(+ データ遅延2日)
  • RIC - 残差情報係数
    • target_20d_factor_neutralと提出物のスピアマン相関
    • スコア日数20日、リターン遅延2日(+ データ遅延2日)
  • FNCV4 - 特徴ニュートラル相関v4
    • 提出物をtie-keptランク化、正規化、ニュートライズする
    • target_20d_factor_feat_neutralと提出物のtie-brokenランク相関
    • ニュートラライザー:標準因子とV4中間セーフ特徴
    • スコア日数20日、リターン遅延2日(+ データ遅延2日)
  • CWSNMM - Signalsナイーブメタモデルとの相関
    • s' = 提出物sをtie-keptランク化、正規化、1.5乗
    • s'とSNWMMのピアソン相関を計算
    • タイムライン:データ遅延4日 / リターンに依存しない
  • MCWSM - Signalsモデルとの最大相関
    • 提出物の他のSignals提出物との最大ピアソン相関
    • 同ラウンドで行われた他の提出物と比較
    • タイムライン:データ遅延4日 / リターンに依存しない
  • APCWSM - Signalsモデルとの平均ペア相関
    • 提出物と他のSignals提出物の平均ピアソン相関
    • 同ラウンドで行われた他の提出物と比較
    • タイムライン:データ遅延4日 / リターンに依存しない