登錄
登入

心智圖資源庫心理測量學

心理測量學

中國科學院：心理諮商師 - 心理測量學，包含基本概念、經典測驗理論、心理測驗品質指標等內容。

編輯於2024-01-31 16:23:53

WSCoUtCI

最近的作品檢視更多>>

Microbiologia medica Infezione batterica e immunità
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
teoria cinetica dei gas
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Breve História do Tempo
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.

心理測量學

WSCoUtCI

最近的作品檢視更多>>

推薦給您
大綱

憂鬱及雙向障礙
- 28
WSCoUtCI
幸福人生
- 31
Eeeelizabeth
《情緒自癒：5種擺脫焦慮、壓力和負面情緒的方法》總結
- 28
Isabelmia
常見心理效應
- 36
Gavinnblake
《哈佛經典談判術：你一開口就贏麻了》
- 32
JackTyler·881
《社會心理學》戴維·邁爾斯
- 79
JackTyler·881

心理測量

基本概念

心理測量及其基本性質

定義：依據一定的心理學理論，使用測驗對人的心理特質進行量化描述的過程

心理測驗（工具）實質是對行為樣本的客觀性和標準化的測量，包含4要素

行為樣本：行為域，即可抽取的行為總體

標準化：測驗內容，施測條件（情境指導語，時長等），評分規則，測驗常模（提供一個可以比較的參考點）

難度或應答率

信度（可靠性，一致性）效度（有效性，準確度）

幾個重要人物

高爾頓-量化研究；開創個別差異研究等心理測驗第一人

卡特爾-論文《心理測驗與測量》首次提出心理測驗用語

桑代克-《心理與社會測量導論》關於測驗理論第一部著作

基本特性

應用的普遍性（可能性：能測的，可測的）

間接性（外在行為表現，例如答題情境）

心理影響性—客觀性（標準化問題，結果客觀）

誤差存在普遍性（所有測量都是以誤差為前提的）

相對性（結果，位置具有相對性，eg：智商）

基本要素

參考點

絕對參考點：絕對零點，eg：體重，身高，反應時

相對參考點：人為決定的零點，eg：海拔，溫度

單位

相等的價值，eg：1～2m&2～3m等值

等距：數值一樣，實際意義也一樣

不等距：數值一樣，實際意義不一樣 eg:講師-副教授-正教授

確定的意義，eg：單位m,kg

量表類型

根據某一法則將事物數量化，即在某一單位和參照點的連續體上把事物的屬性表現出來的這個連續體稱為量表。

稱名量表

定義-用數字代表事物的成分或對數字分類

無相等單位

無零點

不能計算

eg:性別的分類，學號的命名

統計方法：頻數，眾數，百分數，X2檢定

順序量表（等級量表）

定義-數字不僅能代表類別，還能表明不同類別的大小和等級，分類和排序

無相等單位

無零點

不能計算

eg:年級的分類排序，職稱的評定

統計方法：中位數，百分位數，等級相關，肯德爾和諧係數

等距量表

定義-不僅能夠代表事物的類別和等級，而且有相等的距離和測量單位；分類，排序， -

有相等單位

相對零點

可 - 運算

eg: 溫度計，測海拔的，測分數

統計方法：平均數，標準差，積差相關係數，等級相關，t檢驗，f檢驗

比率量表（等比量表）

定義-最完善的量表，除了有命名等級等距的點，還有絕度零點；分類，排序， - x ÷

有相等單位

絕對零點

可 - x ÷運算

eg:測身高的，體重秤，側反應時

統計方法：等距幾何平均數變異係數

測驗類型

依所測心理特質分類

能力測驗

最佳行為測驗

智力測驗

比內-西蒙，世界第一個智力量表，1905年；董仲舒一手畫方一手畫圓（注意測驗）孔子：學生個體數差異；智力分等級

能力傾向測驗；包含：一般能力&特殊能力

抓週，唱歌，跳舞，畫畫 SAT，DAT

成就測驗

eg:各種考試

補充：創造力測驗

清代七巧板、九連環（中國式迷津）

補充：教育測驗

西周奴隸制-國學-最早教育測驗

漢代-歲考制度-開啟筆試先河

隋煬帝-科舉制-延續1300多年

人格測驗

典型行為測驗

自陳人格測驗

選擇題-MMPI，16PF，EPQ，EPPS，YG性格測定

人格投射測驗

羅夏克墨跡測驗（第一個投射測驗），主題統覺測驗（TAT），房樹人測驗，沙盤

幾個重要人物和補充

克雷佩林-最早使用自由聯想測驗診斷精神病患人格測驗的先驅

伍德沃斯-伍德沃斯個人資料調查表第一個現代意義上的人格問卷

孔子-個性分3類 &劉邵個性分12類屬於人格測驗

依被試評價時所使用的參照標準分類

常模參考測驗（與一群人比）

以團體為參照背景，以個體在團體中的相對位置來評估個體發展層次的測驗；表示一個人在群體中的能力或知識連續體上的相對位置，例如智力測驗，能力測驗，考試研究複試；

標準參考測驗（與某一標準比）

以測驗內容或具體行為標準水準為參照背景對個體做評價，是以個體水準是否達到該領域某一固定標準來評價個體發展水準的測驗；只判斷測驗分數是否達到了某種標準，與他人分數無關；例如考研初試，駕照，心理諮商考試；考驗絕對水平

按標準化程度分類

標準化測驗-4點要求

測驗編制過程標準化

測驗實施標準化

測驗評分標準化

測驗分數解釋標準化

非標準化測驗

依實測手段分類

基於計算機的測驗（CBT）

電腦化自適應測驗（CAT）

網路為基礎的測驗（IBI）

其他分類

按測量方式分

個別測驗，eg:史丹佛-比內量表，韋氏智力量表等智力量表，羅夏克墨跡，主題統覺測驗；針對特殊群體選擇個體測驗

團體測驗， eg:瑞文推理測驗，陸軍甲乙測驗；自陳人格測驗；追求高效經濟的選團體測驗

依表達內容和反應形式分

文字（紙筆）測驗-史丹佛-比內量表/16PF

非文字（操作）測驗瑞文推理測驗/羅夏克墨跡測驗

按測驗功能分

成就測驗與預測測驗

難度測驗與速度測驗

難度測驗-難易度-跳水

速度測驗-分高穩定；題易量大-反應時測驗/百米賽跑

描述測驗與診斷測驗

按題目類型分

主觀題測驗-簡答/論文/作文

客觀題測驗-單選/判斷

按要求分

最佳行為測驗－盡量答好，有正確答案如能力測驗

典型行為測－依答案習慣，無正確答案如人格測驗

經典測驗理論

心理測量誤差

意義

在測量過程中由那些與測量目的無關的變化因素所產生的一種不準確也不一致的測量效應

種類

隨機誤差-由與測量目的無關的、偶然因素引起的不易控制的誤差；多次測量結果不一致；方向和變化完全隨機；若用一個測驗/平行測驗反复施測多次，只符合均值為0的常態分佈；對測量結果表現不一致也不準確。

系統誤差-由與測量目的無關的變數引起的一種恆定而有規律的效應；穩定的存在每測量中，多次測量結果一致；對測量結果表現為一致不準確。

來源

測量工具（系統誤差）-以一套測驗（問卷）為核心的刺激反應系統（通常稱為量表）

題目取樣不當

題目格式不妥

難渡高或過低

指導語用詞不當

測量對象（隨機誤差-個體差異）-受試者真水準是否正常發揮

情緒，動機，反應傾向等

施測過程（最容易控制和檢驗的）-偶然因素：物理環境，時間，意外幹擾等

控制

標準化

測量對象

受試者方面-受試者接受測量的生理和心理狀態穩定

主試方面-主試注意系統規格操作

測量工具

提高編制測驗的科學性

注意蒐集資料的豐富性和普遍性

注意項目取樣的代表性

項目難度有一定分佈範圍

測驗用語簡單明了

施測過程

相同的施測情境

相同的指導語

相同的測驗時限

評分要具有客觀性，對測驗結果解釋標準化

經典測驗理論模型

CTT

數學模型 X(觀察分數）=T（真分數） E（隨機誤差）

假設推論

若一個人的某種心理特質可以用平行的測驗反覆測量足夠多次，則其觀察分數的平均值會接近於真分數。即：E（X）=T或E（E）=0

假設E是服從常態分佈的隨機變數

真分數和誤差分數之間的相關為零。即：ρ（T，E）=0

假設在於說明E是個隨機誤差，沒有包含在系統誤差內

各平行測驗上的誤差分數之間相關為零。即：ρ（E1，E2）=0

假設在於說明E是個隨機誤差，沒有包含在系統誤差內

方差關係

Sx²=St² Se²

St²=Sv² Si²

V測驗有關的變異-實驗處理 I測驗無關的變異-系統誤差系統誤差包含在真分數中

Sx²= Sv² Si² Se²

心理測驗品質指標

信度

定義

文字定義

信度是指測量結果一致性和穩定性程度，即測驗分數隨時間地點等因素的變化所測結果的可靠性程度

整理筆記：信度是指相同被試在不同時間和不同場合下，重複用同一種測量工具或等價工具測量某種心理特質所的結果的一致性程度

三種等價公式定義

信度係數：一組測量分數（一個受試者團體）的真分數變異與實得分數變異之比(理論定義）

rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx²

信度是一個受試者團體的真分數與實得分數的相關係數的平方（理論定義）

rxx=p² (xt)

信度是測驗x與它平行測驗x’的相關係數 (操作定義）

rxx=p(x,x’)

作用

信度是測量過程中隨機誤差大小的反映

rxx= St²/Sx² = (Sx²-Se²)/Sx²= 1-Se²/Sx²

Se越小，信度越大，Se越大，信度越小

信度不反映測量過程中系統誤差的大小

信度可以用來解釋個別測驗分數的意義

兩次測驗分數的分數之差可以構成一個新的分佈，這個分佈的標準差就是測量的標準誤SE,它是比測量中誤差大小的客觀指標，可以透過標準誤對團體中任何一個人的測驗成績作出恰當的解釋即真分數的區間估計

SE=Sx√（1－rxx）

考試一般會給rxx和Sx，先求SE再求T

X-Z*SE ≤T ≤X Z*SE

信度可以幫助進行不同測驗分數的比較

來自不同測驗的原始分數是不能直接進行比較的，必須轉換成標準分數再比較，具體辦法是採用「差異的標準誤」來進行顯著性檢驗觀察分數x的差異性檢驗

SEd=S√（2－rxx-ryy）

t=(x1-x2)/SEd

估計方法分類

重測信度

再信測度/穩定係數指的是用同一個量表對同一組被試施測兩次所得結果的一致性程度

1個測驗，1組被試，測2次如：人格測驗，速度測驗

誤差來源：時間；Eg：成長，成熟，學習，訓練，偶然因素，如幸福感）

計算方法：皮爾遜積差相關

使用條件

測量工具對測量的個體心理特質在時間上應該是相對穩定的

測量工具所測個體的心理特質應該不存在明顯的練習效應與遺忘效應

在兩次施測期間不應該進行專門的訓練和培訓

在報告重測信度時應報告間隔時間長度

複本信度

兩個平行測驗（複本測驗）測量同一批受試者所得結果的一致性程度

兩個複本測驗是連續同時施測，稱為等值性係數

2個測驗，1組被試，測1次

誤差來源：題目內容

兩次複本測驗相距一段時間分別施測，稱為穩定性與等值係數（對信度嚴格的檢定）

2個測驗，1組被試，測2次

誤差來源：題目內容&時間

適用：一般應用在量表的研究與研發階段不能做成就/成績測驗，因為受試者只能做一套考卷，不能同時做2套

計算方法：皮爾遜積差相關

使用條件

能建構出兩份及以上的真正平行的測驗，即保證在題目內容，數量，形式，難度，區分度，指導語，時限以及所有的例題，公式等各方面都相同或相似

同一批被試測兩份平行測驗需要合理的時間安排，避免受到練習效應和疲勞效應，遷移效應的影響

在測試報告中，詳盡說明兩次測驗的時間間隔，測驗的順序安排，測驗過程中被試的有關測驗經驗（標準化）

內部一致性信度

定義-評量測驗各隨機組成部分之間是否測量了相同的心理特質，反映題目抽樣內容的一致性

分半信度

把一個測驗的所有題目隨機地分成成對半的兩個部分，然後估計被試再這兩部分題目上得分的一致性程度（被試做完整套後再對數據處理分半）

1個測驗，1組被試，測1次成就測驗

計算方法：先用皮爾遜積差相關計算再用斯皮爾曼-布朗公式驗證：rxx=2*rhh/(1 rhh);考試一般給ab積差rhh;eg，rhh=0.5，求rxx; rxx =2*0.5/(1 0.5)=2/3

使用條件

通常只能施測一次或沒有複本情況下使用，而且要求被試在兩個分半測驗上的得分平均數和方差相等；Sa2=Sb2，否則用佛朗那根公式或盧倫公式

測驗無法分半時不能用

評量長度越長，結果越穩定，測驗信度越高

誤差來源：內容，有關聯的題目要求放在同一半，相關高，對內容的分半是否合理

同質性信度

內部一致性係數，測驗內部所有題目間的一致性程度

1 次測驗，1 組被試，測1 次成就測驗

庫德-理查森信度

K-R20

僅適用（0，1）積=記分，單選題，判斷題

誤差來源：題目內容與心理行為特質的同質

K-R21

僅適用（0 ，1 ）積= 記分，且要求所有題目難度接近，因為計算採用平均通過率，單選題，判斷題

誤差來源：題目內容與心理行為特質的同質

克龍巴赫alpha 阿爾法係數

適用（0，1，主觀題-簡答題，論述題等）

誤差來源：題目內容與心理行為特質的同質

使用條件-要求測驗對一批被試測試1次，是更一般化的測驗內部一致性信度估計方法

內部一致性信度使用條件

所有題目測的都是同一種特質

所有題目得分之間都是具有較高的正相關

不適用速度測驗

在評分測驗信度時，不能只依賴內部一致性係數，多種信度結合使用

評分者信度

多個評分者給同一批被試答卷進行評分的一致性程度

誤差來源：評分者本身

計算方法

2個評分者-皮爾森積差相關/斯皮爾曼等級相關

3位評分者-肯德爾和諧係數

超過7個評分者-卡方檢定x2=k(N-1），df=N-1

適用：主觀題計分，eg作文無法完全客觀計分的測驗，例如創造力測驗，投射測驗

影響測驗的信度和控制方法（提高方法）

影響信度因素

受試者因素

單一受試者：身體健康狀況，應試動機，注意力，耐心，焦慮，求勝心，作答態度等會影響受試者的心理特質的穩定性

受試者團體：團體異質性和平均水準會影響主要以計算相關係數為估計途徑的信度大小；團體水準數差異大（異質），高估信度值，同質性低估信度值。

異質，全距寬，分佈離散，rxx高

同質，全距窄，分佈集中，rxx低

標準化改善：選取適當的受試者團體，提高測驗在同質性較強的團體上的信度

主試因素

施測者：年齡，性別，外表，言談舉止，表情動作等給受試者的印象/壓力/暗示，包括不嚴格按照測驗指導語，控制測驗過程等會影響不同測驗場景下被試的得分分佈

評分者：計分不客觀，計算分數時出錯

標準化改善：主試嚴格執行施測規程，評分者要嚴格按照標準給分；標準化指導語，測驗時間控制，題目施測順序，對評分者進行必要的培訓，嚴格控制評分誤差，保證評價標準和評分結果的一致性

測量工具-測量工具是否穩定是測量成敗的關鍵

試題取樣，題目數量越多，信度越高

試題難度，難度偏低或偏高都無法測量個體間的差異，難度適中最適合最能提升測驗的信度

試題間的同質性，同質性越高，信度越高

標準化改進：精心編制測驗量表，避免出現較大的系統誤差

適當增加測驗長度，增加數量適當，避免過長（過多）避免受試者產生練習效應和疲勞效應

新增題目難度適中，控制在中等水平，使所有題目難度都接近常態分佈，分數分佈有較寬的全距

提高題目區分度，使得受試者得分分佈有較寬的全距

新增題目與原測驗內容同質

施測過程

施測環境

溫度，光線，聲音，空間大小，會影響受試者回答的心理狀態，測分不穩定，影響信度

意外幹擾：停電，生病，試題印刷錯誤

標準化改善：施測場地依測驗手冊要求進行佈置，減少無關因素的干擾，例如控制噪聲，氣溫等可能影響受試者心理的因素

測驗時間間隔

測驗時間間隔短，可能會存在練習效應與疲勞效應，太長，受試者本身行為特質可能有大改變；重測信度與穩定性與等值係數時，間隔越短訊度越高

控制誤差來源，標準化

控制隨機誤差，提高信度的方法-簡單總結

把上述影響因素都標準化詳見如上“標準化改進”

適當增加測驗題項數量

因素分析（同質）與鑑別力分析（區分性）加寬全距

控制測驗項目難度-適當

選取適當的受試者團體-具代表性

弱勢矯正—控制誤差

效度

定義

文字定義

一個測驗或量表（測驗工具）實際上能測出其所要測的心理特質或行為特質的效果和程度-有效性，準確性，有用性

公式定義

在一組測驗分數中，與真分數相關的真實變異Sv²與總變異數Sx²的比率，以r²xy或V表示效度，rxy為效度係數，r²xy= Sv²/Sx ²

作用

效度是測量的隨機誤差E和系統誤差I的綜合反映

效度是個相對概念，是相對一定測量目的而言，測量只能達到某種程度的準確

當測驗分數與效標分數成線性關係時，可運用線性迴歸的知識來透過測驗分數對效標分數進行預測

效度與信度的關係

測量信度高是效度高的必要非充分條件

運用公式解釋 X觀察分數=T（真分數） E（隨機誤差） =V（實驗處理） I（系統誤差） E Sx²= Sv² Si² Se²

rxx= St²/Sx²= (Sv² SI²)/Sx²

V=r²xy= Sv²/Sx ²

rxx> r²xy（V)

rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx² 信度由隨機誤差E引起

效度由隨機誤差E和系統誤差I引起

效度高，信度一定高，信度高，效度不一定高

效度類型

內容效度

定義

指一個測驗實際測到的內容與所要測的內容之間的吻合程度（例如，347考研vs考試大綱）

特點

測量行為內容明確且取樣具代表性

權重合理

使用條件

必須設定好範圍，使測驗全部項目均在此範圍內

總險項目是已外定內內容範圍的代表性樣本

適用

具體屬性的測驗，例如成就測驗，職業測驗（選拔& 分類）

不適合能力傾向測驗和人格測驗（抽象）

確定方法

邏輯分析法（專家評定法）

明確範圍

編制雙向細目表

eg:行：對考生的要求列：對考生的考察內容

制定評定量表

常用方法

巴赫克龍法（阿爾法係數法）

求測量相同內容的兩套平行測驗分數之間的相關性（複本信度）

再測法

也叫重測法，指學習某種知識前後參加同一個測驗，若後測優於前測，有較高內容效度

經驗法

不同受試者團體在測驗上得分和對每題反應有差異

eg：一般認為高年級比低年級程度高，若總分隨著年級增加而增加，則表示有內容效度

內容效度與表面效度的關係

表面效度的定義

外行人對某個人測驗從表面上似乎是測某種心理特質的現象

表面效度會影響受試者的動機，間接影響測驗的效度，應適當關注

成就測驗要求較高的表面效度，使受試者產生較強的動機，否則受試者會不信任；人格測驗要求較低的表面效應，否則會使被試作假

結構效度構想效度

定義

指一個測驗實際測到所要測的理論結構和特質的程度；或者說它是指測驗分數能夠說明心理學理論的某種結構或特質的程度，指實驗與理論之間的一致性，是以理論支持的假設

特點

結構效度的大小取決於事先假定的心理特質理論

實證資料無法證實理論時，不一定是結構效度不高，可能是理論假設不成立

結構效度是透過測量內容的選擇累積起來來確定的，即對於一個構念，可能有多種假設，因而不可能有單一數量指標結構效度

適用

抽象概念的測驗例如智力測驗，人格測驗，自我效能感測驗

一般步驟

提出理論假設

推演有關測驗成績的假設—依據理論框架

用邏輯和實證的方法來驗證假設

具體方法

測驗內部尋找證據

內容效度

同質信度

考察內容效度，分析被試答題過程，計算同質性信度

測驗之間尋找證據

相容效度法

求新編測驗與某個已知的能有效測量相容特質的舊測驗之間的相關，若相關高，則內容效度高－新舊測驗間的相關

區分效度法

求新編測驗與某一已知的能有效測量不同特質的舊測驗之間的相關，若相關高，則內容效度不高

幾個測驗中間的相戶關聯程度

實證效度法

根據效標將人分為兩類，考察其得分差異，依分數分為高低組，考察其效標差異，若差異顯著，則結構效度高－考察行為狀況

多種特質-多種方法矩陣法

相容效度與區分效度的綜合運用－MTMM

聚合效度-同質不同法

不同測驗測量同一特質所得相關係數高，則相容效度高

例如：用自陳和投射測人格的內傾

區分效度-同法不同質

相似測驗測量不同特質所得相關係數低，則區分效度高

例如：用自陳量表測受試者的內外傾和責任

補充：相似測驗測量相似特質所得相關係數高，則信度高

因素分析法

用少量因子概括大量的觀察資料；降維工作

CFA-confirmstory factor analysis 驗證性因素分析

已知幾個維度，施測，得到結果再驗證這幾個維度是否正確

EFA-exploratory factor analysis 探索性因素分析

事先不知道幾個維度，去探索

實證效度（效標關聯效度）準則關聯效應

定義

一個測驗對處於特定情境中的個體行為進行估計的有效性

以實踐效果作為檢驗標準

eg：研究生考試選拔，測驗是考試，效標是科研能力，如果科研能力高，則表示效標高

效標

效標指被估計的行為是檢驗效度的標準，衡量一個測驗是否有效的外在標準

效標污染

知道了受試者的測驗分數而影響了對其有效分數的評定

選取條件

相關性

效標與目前所評價事物有相關

有效性

效標與所代表的特質之間高度一致

無污染

效標的測量不是基於正在評估的測量結果

客觀性

由於效標是根據主觀經驗評定的，所以要避免主觀偏見

實用性

在有效性保證的前提下，盡可能簡單，省時，可操作

特點

獨立存在的，可客觀的相關行為特徵表現

常用效標

學業成就，等級評定，臨床診斷，專門的訓練成績，實際工作表現，對團體區分能力以及其他現成的有效測驗

適用

預測結果，如人事選拔

實證效度的類別

同時效度

效標資料和測驗分數同時收集

診斷現狀

預測效度

先測驗，再根據測驗分數決定效標

推測未來

確定方法

明確觀念效標

確定效標測量

檢視測量分數和效標測量的關係

具體方法

相關法

測驗分數與效標測量的相關係數積差相關，等級相關

區分法

回溯思路法 T檢驗

受試者先接受測驗，讓其工作一段時間後再根據工作成績好壞分組，再與之前的測驗分數分析比對，差異若顯著，則有較高的效度

功利率法

企業成本與效益測量

預期表法

以預測分數與效標分數製成雙維圖表，並將每個變數依水平分成若干檔次，然後例出每個檔次上的人數百分比，並從表中看出效標效度的高低

命中率法

測驗分數與效標的解釋

測驗分數

高分（成功）

低分（失敗）

效標

高能（成功）

低能（失敗）

結果分高是我們要的，分低的不要選擇了分高後再看效能是否匹配

高分高能=正確接受（A）

高分低能=錯誤接受（B）

解釋：分高的錄用了，科學研究能力卻低，虛報

低分高能=錯誤拒絕（C）

解釋：分高的，科學研究能力強，我們卻拒絕了，漏了個人才，漏報

低分低能=正確拒絕（D）

正命中率

該要的要=分高的

A/（A B）

負命中率

不該要的不要=分低的

D/（C D）

總命中率

正確選出的/總人數

（A D）/（A B C D）

基礎率

高能量的/總人數

（A C）/（A B C D）

靈敏度

高能中的高分佔比

A/（A C）

確認度

低能中de低分佔比

D/（B D）

影響效度的因素

所測量的心理特質本身的特點

相關研究不夠深入

概念界定不清晰

測量工具結構不穩定

測量工具的建構過程

心裡特質界定

測量題目的收集，預測試、題目的分析&篩選、測試品質分析、題目調整、正式測試

標準化，避免系統偏差

測量工具本身的信度

信度是效度的必要條件，測量工具不穩定，影響信度則效度也不能保證

效度驗證的受試者群體

同一個測量工具，可能會因為測量物體特性的不同而測量到不同的心理特質結構

受試者群體越異質，分數分佈全距越寬，信度越有效率越高

效標的選取

在驗證測量工具的預測能力時，效標本身的信度及其效度是非常關鍵的

其他因素

主試方面

不遵守指導語，評分計分出錯會降低效度

受試者方面

個體身心狀態；團體的同質性，必要同質

測量工具

樣本對預測內容和結構缺乏代表性

指導語不明，題目語意不清，難度過高過低都會降低效度，測驗長度適當

施測過程

出現意外幹擾，環境，物理因素

改進方法

標準化

主試方面

嚴格執行施測過程，評分者嚴格依照標準給分

受試者方面

取樣有代表性且同質，創設標準應試情境，以讓受試者發揮正常水平

測量工具方面

精心編制測驗量表，避免出現較大的系統誤差

施測過程

妥善組織測驗，控制隨機誤差

其他方面

保證測驗信度

選好正確的效標

定好恰當的效標測量

正確使用有關公式

難度

定義

難度是指項目的難易度，一般用通過率P來表示

難度分析主要用於最高行為測驗，指在總體中，能夠正確回答某項的人數比率

應答率-典型行為測驗

計算方法&公式公式

得分率法

所有受試者在該題目上的平均得分佔題目滿分的百分比，公式-

Pi取值（0，1）適用0，1計分題

極端分組法（0，1）計分和非（0，1）計分都可以

將受試者依測驗總分分為高分組和低分組，以兩組得分率的平均值作為題目的難度。

當受試者人數較多時可以分三組，採取最高的27%和最低的27%作為高分組和低分組，最後求兩組得分率的平均值作為該項目的難度。

公式

P= （PH PL ）/2= （RH/NH RL/NL ）/2

PH ，PL 分別表示高分組和低分組的通過率 RH ，RL 分別表示高低分組的答對人數 NH ，NL 分別表示高低分組的總人數

人少-P=R/N，R為答對人數，N為全體被試數

（0，1）計分

非二分法計分項目中公式

P值越小，難度越大

合理難度分佈及其控制

難度分佈對測驗的影響

難度對測驗分數分佈形態的影響

測驗過難，分數分佈呈正偏態

適合篩選性測驗，例如英語競賽

測驗過易，分數分佈呈負偏態

適合達標性測驗，如中考

難度中等，分數分佈呈常態分佈（被試取樣有代表性）

難度對測驗分數離散程度和信度

難度過難關，分數集中在低分端，全距小，信度低

難過容易，分數集中在高分端，全距小，信度低

難度集中在0.5左右最佳，分數分佈範圍廣，全距大，信度高

難度對測驗區分度的影響

難度平均為0.5，這樣就能把各程度的人區分出來

難度位於食物鏈的頂端

P=0，難，區分度D=0,全距窄，正偏，rxx小，r²xy小

地板效應

P=1，易，區分度D=0,全距窄，負偏，rxx小，r²xy小

天花板效應

P=0.5，中等，區分度D=1，全距大，常態分佈，rxx大，r²xy大

難度等級的決定，取決於測驗的目的/題項形式/測驗性質要防止滿分，因為滿分的意義不明確

常模參考測驗，合理項目難度為0.5左右，分佈範圍應控制在（0.3-0.7)之間，0.3適合高水準做，0.7適合高水準做（理論上，測驗中題目的難度控制0.5 /-0.2比較好）

標準參照測驗－不需要難度測驗，因為是用來測驗受試者是否掌握

選拔性測驗，難度控制在錄取率，例如考研，考公

選擇題難度，難度>猜測率

速度測驗難度不宜過高，每個項目難度基本上相等

合理難度分佈的控制

題目難度的控制

控制題目評估的知識點記能力層次來達到控制題目難度

試卷難度分佈的控制

控制題目難度前提下控制不同難度題目的比例來達到所需的難度分佈

選擇題的猜測矯正

進行猜測矯正是為了排除因為猜測而答對某些題目致使通過率增大的可能性

全體被試在某一項目數上的通過率的矯正

CP=KP-1/K-1

CP矯正後的通過率，K選項數目，P通過率

某個被試參加多個項目組成的測驗的測驗分數的矯正

S=R-（W/K-1）

S為校正後的得分，R為答對的項目， W為答錯的項目

區分度

定義

題目對被試特質差異的區分能力，以D表示

分類

D>0，正向區分，高分高能，低分低能

D<0,消極區分，高分低能，低分高能

D=0，無區分作用，無區分

計算方法

相關係數法

基本思想

若題目有好的區分度，高能總高分，低能總低分

基本假設（題總相關）

項目分數與效標分數的相關性作為項目區分度的指標，相關性越大，區分度越大

兩個計算方式

點二列相關

（0，1）記分，適用真正二分變量，選擇題，判斷題

二列相關

（0，1）記分，適用2列連續變量，一列被人為分的兩類

積差相關

適用於題目總分均為非二分法的記分相關研究

主觀題

項目鑑別指數法

D=PH-PL

方差法

受試者在某一項目的分數越分散，變異數越大，則該試題鑑別力越大

Ebel-伊莎貝爾指標

D>0.4

優秀

D=0.3-0.39

良好，修改後會更好

D=0.2-0.29

尚可，需修改

D<0.19

差，必須淘汰

影響區分度的因素

題目難度

題目難度過難過易都會導致受試者在題目上的得分差異很小甚至沒有，即區分度小

受試者群體的同質性

受試者越同質，水準和得分越接近，差異越小，區分度低

測驗各題所測心理特質的一致性

若不一致，測驗總分作為能力高低的人假設不成立，區分度低

題目本身的文字表達與內容質量

題目表述有差異，題意不清，答案有誤，皆會降低題目區分度

提高區分度-區分度評估標準化

控制好題目難度

保證題目所測心理特質與全測驗所測心理特質的一致性=同質

題目的語言表達準確規範，題幹及答案無歧義

使用選項分析提供的資訊對不良選項進行修改

難度=（0.3-0.7)

區分度=Ebel指標