心智圖資源庫 CFA心智圖
CFA指特許註冊金融分析師,是全球投資業裡最嚴格與含金量最高的資格認可。下圖講述了統計與機率的知識內容,包括統計基本概念、機率、機率分佈、假設檢定、抽樣與估計。
編輯於2021-08-01 21:33:31統計與機率
抽樣與估計
sampling
type
1. stratified random sampling
2. simple random sampling
先分組再簡單抽樣
Data
1. time-series data
如果期間發生了結構性變化,則有可能導致偏差
2. cross-sectional data
error
1. data mining bias
統計學上有顯著性不等於有經濟理論支撐
2. sample selection bias
surviorship bias
倖存者偏差
3. look-ahead bias
使用了尚不可取得的數據來預測
4. time-period bias
只能在特定時間內成立,沒有推廣到所有時期
estimate
point estimate
利用估計量來估計總體參數
Desirable properties of estimator 估計量的評判標準
unbiasedness
統計量的期望值等於總體參數
efficiency
無偏樣本統計量中,變異數最小
consistency
樣本容量增大時,樣本統計量逼近總體參數的機率上升
用樣本平均值來估計總體參數最優
Central limit theorem
對統計量平均值的機率分佈進行描述
條件
n >= 30
總體的平均值,變異數為已知且有限
為簡單隨機抽樣
結論
樣本統計平均值服從【常態分配】
樣本統計量【平均數】為總體【平均數】
樣本統計量平均數的方差
樣本統計量平均值的標準誤 standard error =
注意區分【標準差】與【標準誤】
confidence interval estimate
衡量點估計給出的估計數值的可信程度
5%顯著性的置信區間 = 95% 置信度的置信區間
信賴因子的選擇 Z分佈(平均值0,變異數1) & T分佈(以樣本的變異數來取代)
假設檢定
步驟
null hypothesis & alternative hypothesis
確定統計量
樣本平均數標準化後服從常態分佈
significance & critical value
關鍵值是判斷是否拒絕原假設的臨界值
two-tailed test & one-tailed test
其檢定統計量均相同,主要差異在拒絕域
p-value
拒絕原假設的最小顯著性水平
則,拒絕原假設,反之亦然
Type 1 error & Type 2 error
決策
statistical signigicance & economic significance
常態總體的假設檢定
平均值
單一
與某個常數進行對比
根據情況選擇 z檢定 或 t檢定(自由度n-1)
兩個
相互獨立
變異數未知,假設 【變異數1】與【變異數2】相等
自由度為 n1 n2-2
變異數未知,假設 【變異數1】與【變異數2】不相等
自由度非常複雜
paired comparison test
檢驗是否存在某種關係
抽樣為兩個樣本當中平均值相減, n1-m1=U1, U1=U0, U1不等於U0, U0通常為0
採用 t檢驗,自由度為n-1
相關係數
p=0, 沒有線性關係, p不等於0, 存在線性關係
(-1 ~ 1)
服從 t檢驗,自由度為 n-2,因為有兩個變量
變異數
單一
是否等於某個常數
卡方統計Chi-Square
自由度為 n-1
兩個
兩個變異數是否相等
F分佈, 自由度為 n1-1, n2-1
方差大的為分子,第一個自由度為分子的。因此,F值為>=1
參數檢驗與非參數檢驗
參數
都與總體參數相關
都假定總體服從某種特定分佈
非參數
總體分佈未知,樣本資料也不服從特定分佈
依等級rank分類都數據,無法加減乘除
不涉及總體參數
機率分佈
連續型隨機變數
取任一單點都機率均為0
probability density function PDF; 在機率密度函數當中,關注的是某一區間的值
累積分佈函數cummulative distribution function CDF
有界限的
離散型隨機變數的應用
bernouli distribution
做了一次實驗,只有兩種結果
binomial random variable
做了多次實驗,只有兩種結果
結果都是獨立都,機率一樣
連續均勻分佈
shortfall risk
是一個機率
Roy's safety-first ratio
比值越高越好
當Shorfall risk R等於無風險利率R時,SF ratio就是 Sharp ratio
Lognormal distribution
描述資產價格
非負數
正偏(常態分佈右移)
隨機變數服從常態分佈,則對數x也服從
t-分佈
小樣本推測總體
df=n-1
信賴區間比常態分佈寬
低峰肥尾 均值=0,變異數>1,峰度>3
multivariate distribution多元分佈
多個資產
3個參數:每個資產的平均值,方差,不同資產間的相關係數
假設n個資產,相關係數為
monte carlo simulation
假設r服從常態分佈,對r的可能取值進行取樣,然後進行模擬,得出最終機率,再進行情境分析
缺點:複雜,如果假設不正確,得出的結論也不正確
historial / back simulation
根據過去歷史資料來預測
缺點:如果有結構性改變,就難以準確,畢竟是歷史數據
機率
odds
joint probability
P(AB) = P(A|B)*P(B)
Addition rule
P(A or B)=P(A) P(B)-P(AB)
total probability rule
互斥且遍歷
P(成功)=努力複習成功90% * 80% 不努力複習成功10%*10%
Bayes' formula
因果互推
修正機率,當有新訊息
期望 E(x)
隨機變數都方差其實也是一種期望
covariance
兩種資產間都會變動方向
cov=0時,不存在線性關係
取值為負無窮至正無窮,不考慮量綱
correlation
(-1 ~ 1)
<0 負相關
>0正相關
絕對值越大,相關性越明顯
=0沒有線性關係
排列與組合
有順序
無順序
統計基本概念
四種measurement scales
nominal sale
男,女
ordinal sale
第一名,第二名
interval scale
一年級,二年級
ratio scale
考試得99分
兩種常用表示頻率的圖
histogram
frequency polygon
中心趨勢
平均值
arithmetic mean
geometric mean
衡量多期資產平均報酬率
harmonic mean
定投的平均成本
weighted mean
median
n為奇數
(n 1)/2
n為偶數
n/2 與 (n 2)/2的平均值
mode
頻率最高
一個
unimodal
兩個
bimodal
三個
trimodal
不存在
數據都不相等時