マインドマップギャラリー 数量 CFA レベル 2
数量 CFA レベル 25% ~ 10% のマインド マップ。線形回帰、重回帰、時系列分析、機械学習、ビッグ データの概要を含みます。
2023-09-13 19:57:14 に編集されました量 5%-10%
線形回帰の概要
基本的な仮定
x、y の線形関係
x は残差とは何の関係もありません
残りの期待値は 0 です
残差項の分散はすべての観測値で一定です
残余期間は独立して分配されます
正規分布した残差
残留仮定
回帰モデル
「^」は予測値を示します
インターセプト、リスク調整後アルファ後のリターンを表す
傾き係数、市場リスク
SSE: 平方誤差の合計 残差の標準偏差 (推定値 - 実際の値)、線形回帰は SSE を最小にする直線です
回帰直線が通る
パラメトリックテスト
索引
標準誤差参照
推定値の標準誤差、標準誤差、y と合計の変化の度合いを測定、適合度を測定、小さいほど良い
複数のサンプリングにおけるサンプル平均間の分散の程度は、全体の平均に対するサンプル平均の代表性を反映します。
決定係数: x によって説明できる y の変化の割合
線形回帰の場合、相関係数の 2 乗に等しくなります。
重回帰には当てはまりません
ANOVA、分散分析
SST、総二乗和は、実際の値と平均値の間の合計の変化を測定し、実際の値の二乗和 - 平均値
RSS、回帰二乗和は、x によって説明できる y の変化を測定します。予測値 - 平均二乗和を説明できます。
SSE、二乗誤差の合計: 説明のつかない変化を測定します。実際の値 - 予測値の二乗の合計です。実際の値と予測値の差は回帰式では説明されないため、偏差が形成されます。
SST=RSS SSE
残差標準偏差、実際の観測値が回帰直線からどの程度乖離しているのか
回帰分析のデメリット
パラメータは不安定で、線形関係は時間の経過とともに変化する可能性があります
同じモデルを使用する他の市場参加者がモデルの有効性を制限する
回帰分析の仮定を確立する必要があります。そうでないと、不均一分散 (残差分散が一定ではない) と自己相関 (残差項が独立していない) が発生します。
重線形回帰
モデル
切片: x がすべて 0 の場合の y
傾き: 他の x は変化せず (xxx を一定に保持)、x の変化によって引き起こされる y の変化の大きさを決定します。
パラメータの有意性検定
テスト統計
仮説検定、t(n-k-1) に従う
n→観測値の数、k→xの数、1→切片の数。
計算されたテスト統計量と、テーブルを参照して得られた臨界値を比較して結論を導き出します。
p値
臨界値と p 値を比較します。p 値 < 臨界値の場合、帰無仮説を棄却します。検定に p 値がある場合は、最初に p 値を使用します。
信頼区間
F(k, n-k-1) 検定
主に重回帰に使用され、少なくとも 1 x が Y を有意に説明することをテストします。
シングルテール
重線形回帰では、回帰式内の x の数が増加するにつれて値も増加します。
ダミー変数
「はい」、「いいえ」などの特定の値を取得します。
ダミー変数トラップ、n 値、n-1 個の変数のみが必要です
切片は省略されたカテゴリの値を表します
傾きは、ダミー変数と省略されたカテゴリの差によって生じる y 従属変数の変化を表します。
前提条件の違反
不均一分散性
定義: 残差分散はサンプル点間で異なります
タイプ
無条件不均一分散性: x の変化とは何の関係もなく、回帰にも重大な影響を与えません。
条件付き不均一分散性: x が変化すると残差も変化し、統計的推論に大きな影響を与えます。
影響
検出
方法 1: 散布図
方法 2: カイ二乗検定
正しい
方法 1: ロバスト/不均一分散性一貫性標準誤差とも呼ばれる白色補正標準誤差を計算する
方法 2: 一般化最小二乗を計算する
シリアル相関(つまり、自己相関) 自己相関
定義: 時系列で一般的な残差間の相関
タイプ
正のシリアル相関: 現在の期間で正の回帰誤差があると、次の期間で正の回帰誤差が発生する可能性が高くなります。
負のシリアル相関: 現在の期間で正の回帰誤差があると、次の期間で負の回帰誤差が発生する可能性が高くなります。
影響
検出
散布図残差プロット
DW (ダービン-ワトソン) 統計
r は、現在の期間と前の期間の残差の間の相関係数です。
正しい
方法 1: 標準誤差を調整する: 不均一分散性のみがある場合は、白色補正された標準誤差を使用します。または、自己相関がある場合は、ハンセン法を使用します。
方法 2: 季節などの時間特性を追加するなど、モデルを改善します。
多重共線性 多重共線性
定義: 独立変数間の相関または独立変数の組み合わせ
タイプ
完全な多重共線性
変数は他の説明変数の線形結合で表現できます
OLS 法を使用して係数を推定できません
不完全多重共線性
2 つ以上の独立変数間に高度の相関関係がある
OLS 法の使用には影響しませんが、少なくとも 1 つの独立変数係数推定器に大きなバイアスが発生します。
影響
β1 の不偏性に影響を与えないため、var(β1) が大きくなります。
経済モデルで一般的なタイプ II エラーが発生します
検出
t 検定では 0 から有意に異なる係数はありませんでしたが、F 検定では有意であることが示され、R 二乗が高かった
x 間の相関が高い場合は多重共線性の可能性が高いことを示しますが、x 間の相関が低い場合は多重共線性がないことを示しません。x 間の線形結合に相関がある可能性があります。
正しい
1 つ以上の関連する独立変数を無視し、段階的回帰を実行します。
モデルの仕様の間違い
影響
推定係数の統計的推論が間違っている
推定された係数は一貫していません
タイプ
関数形式エラー
重要な変数が欠落している
関数の形式が間違っています
異なるサンプルデータの間違った融合
独立変数は残差項に関連します
独立変数には従属変数の遅れ項が含まれています
独立変数は、従属変数の関数形式です。
独立変数の測定には偏りがある
時系列設定エラー
モデル設定の原則
データマイニングのバイアスを回避するには、一定の根拠が必要です。
変数関数の形式は、変数データの実際の特性に適合する必要があります。
緩やかな倹約: 効果的かつシンプル
6 つの主要な前提条件を満たしている
サンプル外データの監視に合格しました
質的従属変数
ダミー変数
回帰法
プロビットモデル プロビットモデル
ロジットモデル ロジットモデル
従属変数が 1 をとる確率を推定します。
判別分析判別モデル
Zスコアなど
時系列分析
トレンドモデル
線形トレンドモデル(インフレ)
線形モデルを使用して変数が一定量ずつ増加する
対数直線トレンドモデル(株価&株価指数)
対数モデルを使用して変数が一定の割合で増加する
制限
対数線形モデルは自己相関データへの適用には適していません
自己回帰モデル、AR
意味
1 つ以上の過去の y を使用して現在の y を予測します
共分散定常
設立条件
期待は一定かつ有限である
分散は一定かつ有限である
先行値と遅行値の間の共分散は一定で有限です
周期的な
シリアル相関テスト
回帰の仮定を満たす必要があります: 残差項には系列相関はありません
自己相関係数 自己相関
k 次自己相関係数: 時刻 t と時刻 t-k における時系列 y 間の相関係数
残差項間の各次数の自己相関係数が 0 から大きく異なるかどうかをテストします。
AR(1) モデルの構築と推定
残差項間の相関係数を計算する
残差の各次数の相関係数が 0 から大きく異なるかどうかをテストします。
T は期間番号 -1
平均復帰 平均復帰
平均を下回ると平均まで上昇し、平均を上回ると平均まで低下します
平均復帰レベル平均復帰レベル
モデル予測
RMSE (二乗平均平方根誤差) 平均二乗誤差は低いほど優れています。
選択期間も違うし、係数も違うし、不安定です。
ランダムウォーク
平均回帰特性を持たない
意味
ドリフト付きランダムウォーク ドリフト付きランダムウォーク
自然
無限への平均復帰レベル
単位根
定常的な不共分散
共分散定常性の検出
サブトピック
解決する
最初の差分 最初の差分
自己回帰モデル AR(1) を y に適用する
単位根
時系列が定常かどうかを判断する
AR(1) モデルでは、β1 の絶対値は 1 以上であり、時系列は定常ではありません。
ディッキー・フラー・テスト
差分時系列が定常である場合、AR(1) モデルを通じて得られる統計的推論の結論は信頼できます。
帰無仮説: 単位根がある
季節的要因
毎年繰り返されるパターン AR モデルに季節要因を追加する必要がある
Lag4 t 統計量は 0 とは大きく異なり、lag4 には季節性があるため、モデルに追加する必要があることを示しています。
まだ AR(1) ではなく AR(2)
条件付き不均一分散性自己回帰モデル ARCH モデル
現在の期間の残差の分散は、前の期間の残差の分散に依存します。 この時点では、AR モデル係数の標準誤差と仮説検定はいずれも不正確です。
この問題を解決するには、ARCH モデルを導入します
ARCH(1) 回帰モデル: t-1 での残差分散を使用して、t での残差分散を予測します。
帰無仮説: a1=0
共統合された
2 つの時系列は共通のマクロ変数に関連しており、同じで変化のない傾向を持っています。
長期的な関係
ある時系列を使用して別の時系列を予測する
DF-EG 検定を使用して共積分をテストします。帰無仮説は次のとおりです。帰無仮説を棄却すると、共積分では共分散が定常であり、線形回帰を使用して 2 つの時系列間の関係をモデル化できます。
機械学習
分類
教師あり学習: 教師あり学習
ペナルティ付き回帰 ペナルティ付き回帰
正則化正則化
LASSO が返す
サポートベクターマシンSVM
回帰および分類問題に適しています
アイデア: クラス間のマージンが最大となり、分離超平面を形成します。
K が近づいています、K の最近隣
アイデア: ターゲット x に近い最も一般的なカテゴリは x と同じカテゴリです
分類および回帰ツリー、CART
分岐した枝
アンサンブル学習とランダムフォレスト アンサンブル学習とランダムフォレスト
投票の分類
ブートストラップ集約、バギング
n 回サンプリングして n 個のモデルトレーニングを形成する
過剰適合を防止し、小さな確率のイベントを n 回削除します。
ランダムフォレスト
複数の CART 投票
教師なし学習: 教師なし学習
主成分分析 PCA、主成分分析
次元削減、直交分解
階層的クラスタリング
分割クラスタリング/階層クラスタリング、トップダウンクラスタリング
凝集クラスタリング、ボトムアップクラスタリング
類似したサンプル間の距離はできるだけ小さくする必要があり、異なるカテゴリ間の距離はできるだけ大きくする必要があります。
K 平均法、K 平均法
トップダウンクラスタリング
ステップ
k 個の重心を選択してください
各データ ポイントと重心の間の距離を計算し、最も近いクラスに分類します。
前のステップでさまざまなクラスの平均点として定義された重心を更新します。
変更が小さい場合は更新を停止する
ディープラーニング ディープラーニング
層状の
入力層
出力層
隠れ層
特徴
活性化関数 活性化関数
各層の重み値
ハイパーパラメータ
強化学習: 自分の間違いから学ぶ
行動結果に対する賞罰制度、育成モデル
アルファ碁
モデルの評価
過学習
アンダーフィッティング
エラー率を評価する
データセット
トレーニングセット(トレーニングモデル)
サンプル内
検証セット (検証およびデバッグ モデル)
テストセット (新しいデータでモデルを評価)
サンプル切れ
間違い
バイアス誤差
インサンプル、トレーニングセット、アンダーフィッティング
分散分散誤差
サンプル外、検証セット、オーバーフィッティング
モデルの複雑さ ↑、分散 ↑、バイアス ↑
基本偏差ベース誤差
ランダムノイズの残留物
ビッグデータ
特徴
3V: 大容量、多様なソース、高速データ生成、およびおそらく正確な正確性。
構造化データモデリング
モデル化するタスクについてのアイデアを得る
データ収集
データの準備とラングリング
準備する
データの不完全性
欠損値 欠損値
データの不正確さ
データに一貫性がありません
一貫性のない
非標準誤差不均一性
形式が統一されていない
重複データ
きちんとした
データ抽出
新しい変数を構築する
集計
追加して新しい変数を取得します
フィルター
不要なデータ列を削除する
選ぶ
不要なデータ行を削除する
変換する
適切なデータ型に変換する
外れ値の処理 外れ値
標準偏差の3倍を超える
IQRの3倍を超える
IQR: 75% と 25% の分位数の差
識別する
対処する
トリミング: 外れ値を削除します
Winsorization: 外れ値を非外れ値の最大値と最小値に置き換えます。
データの正規化
正規化
標準化
データ探索
探索的データ分析EDA
データの視覚化
平均、分散など。
機能の選択
最も影響力のある機能を繰り返し選択する
モデルの説明力とアルゴリズムの速度の選択
特徴エンジニアリング
ビルド機能
ワンホット エンコーディングのカテゴリ データがデータのバイナリ表現に処理されます (ダミー)
トレーニングモデル
機種選定
教師あり/教師なし、データ型、データ型、データサイズを考慮する
数値タイプ - CART、テキストタイプ - 一般化線形モデル GLM/SVM 画像データ - ディープモデル
性能評価
チューニング
不均衡なデータセット。オーバーサンプリングまたはダウンサンプリングを使用します。
非構造化データモデリング
テキスト分析: 入力と出力の決定
データキュレーションデータキュレーション
テキストデータの準備と整理
準備する
HTML タグ、句読点、数字、空白文字を削除します。
整理整頓
テキストを小文字に変換する
ストップワードを削除する
ステミング
根を張る
見出し語化
する→する
Bags-of-words、BOW 順序付けされていない単語の集合
テキストの特徴分析
文書用語行列: 行は文書、列は単語、グリッドは文書内で単語が出現する回数です。
N-gram: 文中の n 語が 1 つに分割され、2-gram が 2 つに分割され、3 語の文から 2 グラムが生成されます。
テキスト探索
エダ
単語の頻度など。
機能の選択
特徴エンジニアリング
トレーニングモデル
モデルの評価
エラー分析
混同行列 混同行列
ROC、受信機動作特性
RMSE、二乗平均平方根誤差
モデルのチューニング
分散/バイアスのバランス、正則化、グリッド検索、天井分析 (天井分析は、最適化モデリングプロセスのすべてのステップを特定します)