心智圖資源庫 數量 CFA Level 2
數量 CFA Level 25%-10%的心智圖,內容包含線性迴歸介紹、多元線性迴歸、時間序列分析、機器學習、大數據。
編輯於2023-09-13 19:57:14Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
數量 5%-10%
線性迴歸介紹
基礎假設
x, y線性關係
x和殘差無關
殘差期望為0
所有觀察值殘差項變異數為常數
殘差項分佈獨立
殘差常態分佈
殘差假設
迴歸模型
“^”表示預測值
截距intercept,表示風險調整後效益,ex-post alpha
斜率slope coefficient, 市場性風險
SSE: sum of squared errors 殘差(估計值-實際值)的標準差,線性迴歸是使得SSE最小的線
迴歸線過
參數檢驗
指標
標準誤SEE
standard error of estimate ,標準誤,衡量y和的變化程度,計量擬合程度,越小越好
多次抽樣中樣本平均數間的離散程度,反映樣本平均數對總體平均數的代表性
決定係數(coefficient of determination): y的變動能被x解釋的百分比
對於一元線性迴歸,等於相關係數平方
多元迴歸時不成立
變異數分析(ANOVA, analysis of variance)
SST, total sum of squares 衡量實際值與平均值之間的總變動,實際值-平均值的平方和
RSS, Regression sum of squares 衡量能被x解釋的y變動,用迴歸求出的部分是能被解釋的,預測值-平均值平方和
SSE, Sum of squared errors殘差平方和:衡量不可解釋的變動,實際值-預測值平方和,實際值和預測值有差異的部分是沒被迴歸方程式所解釋的,所以形成偏差
SST=RSS SSE
殘差標準差,實際觀測值偏離迴歸線程度
迴歸分析缺點
參數不穩定,線性關係可能隨時間變化
其他市場參與者也使用相同模型會限制模型的有效性
迴歸分析假設需成立,不然有heteroskedastic(殘差變異數非常數)和autocorrelation(殘差項不獨立)
多元線性迴歸
模型
截距:x都為0時的y
斜率:其他x不變(holding xxx constant),制定x變化導致y的變化幅度
參數顯著性檢定
檢定統計量
假設檢驗,服從t(n-k-1)
n→觀測值數量;k→x的數量;1→截距數量
將計算得出的檢定統計量與查表得到的critical value作比較得出結論
p-value
將critical value與p-value作比較,p-value< critical value拒絕原假設,考試中有p-value優先用p-value
信賴區間
F(k, n-k-1)檢驗
主要用於多元線性迴歸,檢定至少有1個x顯著解釋了Y
單尾
多元線性迴歸中,數值隨迴歸方程中x數量增加而增加
啞變數dummy variables
取“是”,“否”等特定值
啞變數陷阱,n個取值,只需要n-1個變數
截距代表omitted category的值
斜率代表由啞變量和omitted category差異引起的y-dependent variable的變動
違反假設的情形
Heteroskedasticity 異方差
定義:樣本點間殘差變異數不同
類型
unconditional heteroskedasticity:與x變化無關,對回歸無重大影響
conditional heteroskedasticity:殘差隨x的變而變,對統計推論產生重大影響
影響
偵測
方法1:散點圖
方法2:卡方檢驗
修正
方法1:計算white-corrected standard error also called robust/heteroskedasticity-consistent standard error
方法2:計算generalized least squares
Serial correlation(i.e., autocorrelation) 自相關
定義:殘差之間相關,在時間序列中常見
類型
正自相關positive serial correlation:當前一期正回歸錯誤增加下一期正回歸錯誤機率
負自相關negative serial correlation:當前一期正回歸錯誤增加下一期負回歸錯誤機率
影響
偵測
散點圖residual plot
DW(Durbin-Watson) statistic
r是當前和之前一期殘差相關係數
修正
方法1:調整標準誤:只有異方差,用white-corrected標準誤;有自相關或兩者都有用Hansen method
方法2:改進模型,如加入時間特性項,如季節
Multicollinearity 多重共線性
定義:自變數之間or自變數組合之間相關
類型
完全多重共線性
一個變數能由其他解釋變數的線性組合表達
無法用OLS方法估計係數
不完全多重共線性
兩個or兩個以上自變數之間高度相關
不影響OLS方法使用,但會導致至少一個自變數係數估計量有較大偏差
影響
不影響β1的無偏性,導致較大的var(β1)
產生type II錯誤,經濟模型中常見
偵測
t-test發現沒有係數顯著不同於0,但F-test顯示顯著,且R方高
x之間高相關,表示多重共線性可能性高;但x之間低相關不能表示多重共線性不存在,可能是x之間的線性組合有相關性
修正
忽略1個or多個相關的自變量,逐步迴歸stepwise regression
模型設定偏誤model misspecification
影響
對估計係數的統計推論有誤
估計係數不具備一致性
類型
函數形式錯誤
遺漏重要變數
錯誤函數形式
錯誤融合不同樣本數據
自變數與殘差項相關
自變數中包含因變數的滯後項
自變數是因變數的某種函數形式
自變數的量測存在偏誤
時間序列設定錯誤
模型設定原則
需有一定依據,避免資料探勘偏差
變數函數形式必須符合該變數資料的實際特徵
疏鬆parsimonious:有效且簡單
符合6大假設
樣本外數據監測透過
定性因變數qualitative dependent
啞變數
迴歸方法
機率單位模型probit model
對數單位模型logit model
估計因變數取1的機率
判別分析法discriminant models
如Z-score
時間序列分析
趨勢模型
線性趨勢模型(通貨膨脹)
變數以固定數量增長用線性模型
對數線性趨勢模型(股價&股指)
變數以固定比率成長用對數模型
限制
對數線性模型不適合應用於自相關數據
自迴歸模型autoregressive model, AR
定義
用一個或多個過去的y預測當前y
協方差平穩
成立的條件
期望是常數且有限
方差是常數且有限
leading和lagging value之間的協方差是常數且有限
週期性
序列相關性檢定
需滿足迴歸假設:殘差項不存在序列相關
自相關係數autocorrelation
k階自相關係數:時間序列y在t時刻與t-k時刻之間相關係數
檢定殘差項間的各階自相關係數是否顯著不為0
建構並估計AR(1)模型
計算殘差項之間相關係數
檢定殘差的各階相關係數是否顯著不為0
T是期數-1
均值復歸mean reversion
低於均值漲到均值,高於均值跌到均值
均值回歸水準mean-reverting level
模型預測
RMSE(root mean squared error)均方誤差越低越好
選取時間週期不同,係數不同,不穩定
隨機遊走
不具備均值復歸特性
定義
帶有漂移的隨機遊走 random walk with drift
性質
均值回歸水準無窮
單位根(unit root )
不協方差平穩
偵測協方差平穩
子主題
解決
一階差分 first differencing
對y應用自迴歸模型AR(1)
單位根
判斷時間序列是否平穩
AR(1)模型中β1絕對值大於等於1,則時間序列不平穩
Dickey Fuller test
如果差分後的時間序列平穩,那麼透過AR(1)模型得到的統計推論結論是可靠的
原假設:有單位根
季節性因素
每年重複的pattern 需要將季節性因素加入AR model中
Lag4 t統計量顯著不為0,表示lag4有季節性,需要加入到模型
仍為AR(1)不是AR(2)
條件異方差自迴歸模型ARCH model
當期殘差的方差依賴前一期殘差的方差 此時AR model 係數的標準誤與假設檢定都不準
解決←問題,引進ARCH model
ARCH(1) regression model:以t-1時殘差變異數預測t時殘差方差
原假設:a1=0
協整cointegrated
兩個時間序列相關於共同的宏觀變量,趨勢相同且不變
長期關係
用一個時間序列預測另一個時間序列
使用DF-EG test 檢定協整,原假設:unit root,拒絕原假設表示協方差平穩且協整,協整就可以使用線性迴歸model兩個時間序列關係
機器學習
分類
有監督學習:supervised learning
懲罰回歸penalized regression
正規化regularization
LASSO回歸
支援向量機SVM
適用回歸和分類問題
思想:類間margin最大,形成分隔超平面
K臨近,K-nearest neighbor
思想:目標x附近最多的類別與x是同一類
分類回歸樹classification and regression tree,CART
分支bifurcate
整合學習與隨機森林ensemble learning and random forest
投票分類
Bootstrap aggregation,Bagging
抽樣n次形成n個模型訓練
有助於防止過擬合,n次去除小機率事件
隨機森林
多個CART投票
無監督學習:unsupervised learning
主成分分析PCA,principal component analysis
降維,正交分解
分層聚類
分裂聚類divisive clustering/hierarchical clustering,由上而下聚類
合併聚類agglomerative clustering,自下而上聚類
同類樣本間距離盡可能小,不同類別間距離盡量大
K均值,k-means
由上而下聚類
步驟
選k個質心
計算每個數據點到質心距離,歸為距離最近的類
更新質心,定義為上一步不同類別的平均值點
變化小的話停止更新
深度學習 deep learning
分層
輸入層
輸出層
隱藏層
特徵
啟動函數activation function
每層權重值
超參數
增強學習 reinforced learning:從自身錯誤中學習
行動結果的獎懲制度,訓練模型
alphaGo
模型評估
過擬合overfitting
欠擬合underfitting
評估錯誤率
數據集
訓練集(訓練模型)
樣本內
驗證集(驗證偵錯模型)
測試集(新資料評估模型)
樣本外
錯誤
偏差bias error
樣本內,訓練集,欠擬合
方差 variance error
樣本外,驗證集,過擬合
模型複雜度↑,方差↑,偏差↑
基本偏差 base error
隨機噪音的殘差
大數據
特徵
3V:volume大量,variety來源廣,velocity資料產生速度快;可能還有準確veracity
結構化資料建模
對要建模的task有概念
收集數據
資料準備與整理wrangling
準備
資料不完整incompleteness
缺失值missing value
數據不準確inaccuracy
數據不一致
前後不一致
非標準錯誤non-uniformity
格式不統一
重複數據
整理
數據提煉extraction
建構新變數
加總aggregation
相加得出新變數
濾
去除不需要的數據 列
選擇
去掉不需要的資料 行
轉換
轉換為合適的資料類型
異常值處理outlier
3倍標準差之外
3倍IQR之外
IQR:75%-25%分位數的差值
認定
處理
截尾trimming:刪除異常值
縮尾winsorization:將異常值以非異常值的最大最小值取代
數據標準化
正規化normalization
標準化standardization
數據探索
探索性資料分析EDA
數據視覺化
均值、變異數等
特徵選擇
反覆迭代選擇最有影響力特徵
模型解釋力和演算法速度的抉擇
特徵工程
建構特徵
one-hot encoding分類資料處理為二進位表示的資料(dummy)
訓練模型
模型選擇
考慮監督/非監督、資料類型、資料類型、資料大小
數值型-CART;文字型-廣義線性模型GLMs/SVM;影像資料-深度模型
性能評估
調優tuning
不平衡資料集,使用過採樣或降採樣
非結構化資料建模
文字分析:確定輸入輸出
數據護理data curation
文字資料準備與整理
準備
移除HTML標籤、標點、數字、空白符
整理wrangling
文字轉小寫
刪除停用詞
詞幹提取steamming
取字根
詞形還原lemmatization
doing→do
詞袋bags-of-words, BOW 字的無序集合
文本特徵分析
document term matrix: 行是文檔,列是單字,格子是字出現在某文檔出現次數
N-gram: 一個句子中n個字一分割,2-gram 兩兩分隔,3個單字的句子產生2個gram
文字探索
EDA
字頻term frequency;詞雲等
特徵選擇
特徵工程
訓練模型
模型評估
error analysis
混淆矩陣confusion matrix
ROC, receiver operating characteristic
RMSE, root mean square error
模型調優tuning
平衡變異數/偏差、正則化、網格搜尋、上限分析(ceiling analysis辨識最佳化建模過程中的每一步)