Galleria mappe mentale psicometria
Accademia cinese delle scienze: consulente psicologico - Psicometria, compresi concetti di base, teorie classiche dei test, indicatori di qualità dei test psicologici, ecc.
Modificato alle 2024-01-31 16:23:53Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Psicometria
concetto di base
Misurazione psicologica e sue proprietà fondamentali
Definizione: il processo di utilizzo di test per descrivere quantitativamente i tratti psicologici delle persone sulla base di determinate teorie psicologiche.
I test psicologici (strumenti) sono essenzialmente test di campioni comportamentali Obiettività e misurazione standardizzata, inclusi 4 elementi
Campione di comportamento: dominio del comportamento, ovvero la popolazione di comportamenti che può essere estratta
Standardizzazione: contenuto del test, condizioni di somministrazione del test (istruzioni situazionali, durata, ecc.), regole di punteggio, norme del test (fornendo un punto di riferimento per il confronto)
difficoltà o tasso di risposta
Credibilità (affidabilità, coerenza) Validità (efficacia, accuratezza)
diverse persone importanti
La ricerca Galton-quantitativa ha aperto la strada allo studio delle differenze individuali, ecc. La prima persona nei test psicologici
Cattell-Thesis "Test psicologici e misurazioni" Propose per la prima volta il termine test psicologico
Thorndike - "Introduzione alla misurazione psicologica e sociale" Il primo libro sulla teoria dei test
Caratteristiche di base
Universalità di applicazione (possibilità: misurabile, misurabile)
Indiretta (prestazioni comportamentali esterne, come rispondere alle domande)
Impatto psicologico - obiettività (domande standardizzate, risultati oggettivi)
Gli errori sono universali (tutte le misurazioni sono basate su errori)
Relatività (risultato, la posizione è relativa, ad esempio: QI)
Elementi basici
Punto di riferimento
Punto di riferimento assoluto: punto zero assoluto, ad es.: peso, altezza, tempo di reazione
Punto di riferimento relativo: punto zero determinato artificialmente, ad es.: altitudine, temperatura
unità
Valore uguale, ad esempio: valore equivalente 1~2m&2~3m
Isometrico: il valore numerico è lo stesso e anche il significato effettivo è lo stesso.
Intervalli disuguali: i valori sono gli stessi, ma i significati effettivi sono diversi. es: Docente-Professore Associato-Professore Ordinario
Significato determinato, ad esempio: unità m, kg
Tipo di scala
Quantificare le cose secondo una certa regola, cioè esprimere gli attributi delle cose su un continuum di determinate unità e punti di riferimento, è chiamato scala.
scala di denominazione
Definizione: utilizzare i numeri per rappresentare i componenti delle cose o classificare i numeri
Nessuna unità equivalente
Nessun punto zero
non può essere calcolato
Ad esempio: classificazione di genere, denominazione del numero di studente
Metodi statistici: frequenza, modalità, percentuale, test X2
scala ordinale (scala di valutazione)
Definizione: i numeri non solo rappresentano le categorie ma indicano anche Diverse dimensioni e livelli di categoria, ordinamento e ordinamento
Nessuna unità equivalente
Nessun punto zero
non può essere calcolato
es: Classificazione e ordinamento dei gradi, valutazione dei titoli professionali
Metodi statistici: mediana, percentile, Correlazione di rango, coefficiente di armonia di Kendall
scala isometrica
Definizione - in grado di rappresentare non solo categorie e gradi di cose, ma anche distanze uguali e unità di misura, classificazione, ordinamento, -;
hanno unità uguali
zero relativo
Può - aritmetica
ad esempio: termometro, misurazione dell'altitudine, misurazione delle frazioni
Metodi statistici: media, deviazione standard, coefficiente di correlazione della differenza di prodotto, Correlazione di rango, test t, test f
Scala del rapporto (scala del rapporto uguale)
Definizione: la scala più completa ad eccezione dei livelli con nome, ecc. distanza e punto zero assoluto; classificazione, ordinamento, - x ÷
hanno unità uguali
zero Assoluto
Can - x ÷ operazione
ad esempio: misurazione dell'altezza, bilancia, tempo di reazione laterale
Metodi statistici: coefficiente di variazione medio geometrico isometrico
Tipo di quiz
Classificazione in base ai tratti psicologici misurati
prova attitudinale
miglior test di comportamento
prova di intelligenza
Binet-Simon, la prima scala di intelligenza al mondo, 1905; Dong Zhongshu disegna un quadrato con una mano e un cerchio con l'altra (presta attenzione al test) Confucio: Differenze nel numero dei singoli studenti;
Test attitudinale comprende: abilità generale e abilità speciale
Cattura la settimana, canta, balla, disegna SAT, DAT
prova di conseguimento
es: Esami vari
Supplemento: Quiz sulla creatività
Tangram della dinastia Qing e Nove Collegamenti (labirinto in stile cinese)
Supplemento: Prove Formative
La schiavitù nella dinastia Zhou occidentale: studi cinesi: il primo test educativo
Dinastia Han - sistema di esame annuale - il primo esame scritto
L'imperatore Yang della dinastia Sui - il sistema di esame imperiale - durò più di 1.300 anni
test di personalità
test di comportamento tipico
test di personalità self-report
Domande a scelta multipla: test della personalità MMPI, 16PF, EPQ, EPPS, YG
test proiettivo della personalità
Rorschach Inkblot Test (il primo test proiettivo), Thematic Apperception Test (TAT), House Tree Man Test, Sandbox
Diverse figure e aggiunte importanti
Kraepelin - il primo a utilizzare il test delle libere associazioni per diagnosticare i pazienti mentali Pioniere dei test di personalità
Woodworth - Questionario sul profilo di Woodworth Il primo questionario moderno sulla personalità
La personalità di Confucio è divisa in 3 categorie e la personalità di Liu Shao è divisa in 12 categorie Appartiene al test della personalità
Classificato in base allo standard di riferimento utilizzato dai soggetti durante la valutazione
Test riferiti alla norma (rispetto ad un gruppo di persone)
Un test che utilizza il gruppo come contesto di riferimento e utilizza la posizione relativa dell'individuo nel gruppo per valutare il livello di sviluppo dell'individuo rappresenta la posizione relativa di una persona nel continuum di abilità o conoscenza nel gruppo, come i test di intelligenza; test di abilità e ripetizioni degli esami di ammissione post-laurea;
Test basati su criteri (rispetto a uno standard)
È un test che valuta gli individui in base al contenuto del test o a specifici livelli di standard comportamentali. È un test che valuta i livelli di sviluppo individuali in base al fatto che il livello individuale raggiunga un determinato standard fisso sul campo certo standard e non viene confrontato con i punteggi di altre persone. Non ha nulla a che fare con esso, come l'esame preliminare per l'esame di ammissione post-laurea, la patente di guida, l'esame di consulenza psicologica che verifica il livello assoluto;
Classificati per grado di standardizzazione
Test standardizzati: requisiti in 4 punti
Standardizzazione del processo di preparazione del test
Standardizzazione dell'implementazione dei test
Standardizzazione del punteggio dei test
standardizzazione dell'interpretazione del punteggio del test
test non standardizzati
Classificazione secondo i metodi di misurazione effettivi
Test basati su computer (CBT)
Test adattivo computerizzato (CAT)
Test basati su Internet (IBI)
Altre categorie
Secondo il metodo di misurazione
Test individuali, ad esempio: scala Stanford-Binet, scala di intelligenza Wechsler e altre scale di intelligenza, macchia d'inchiostro di Rorschach, test di appercezione tematica selezionare test individuali per gruppi speciali
Test di gruppo, ad esempio: test di ragionamento di Raven, test della personalità dell'Esercito A e B; test di gruppo selettivo alla ricerca di alta efficienza ed economia;
Secondo il contenuto dell'espressione e la forma della reazione
Test verbale (carta e matita)-Stanford-Binet Scale/16PF
Test non verbale (operativo). Test di ragionamento di Raven/Test delle macchie d'inchiostro di Rorschach
Secondo la funzione di test
Test di conseguimento e previsione
Prove di difficoltà e velocità
Test di difficoltà - Livello di difficoltà - Immersione
Test di velocità: punteggi alti e stabili; Grande quantità di domande: test del tempo di reazione/corsa dei 100 metri
Test descrittivi e diagnostici
Secondo il tipo di domanda
Test soggettivo-risposta breve/saggio/composizione
Test con domande oggettive: scelta/giudizio unico
Punteggio come richiesto
Test del miglior comportamento: rispondi nel miglior modo possibile e ottieni la risposta corretta come il test di abilità
Test di comportamento tipico: basato sulle abitudini di risposta, nessuna risposta corretta come il test della personalità
teoria classica dei test
errore psicometrico
Senso
Un effetto di misurazione impreciso e incoerente causato dal cambiamento di fattori che non hanno nulla a che fare con lo scopo della misurazione durante il processo di misurazione
tipo
Errore casuale - un errore non facile da controllare causato da fattori accidentali che non hanno nulla a che fare con lo scopo della misurazione; i risultati di misurazioni multiple sono incoerenti; la direzione e il cambiamento sono completamente casuali se un test/test parallelo viene ripetuto; più volte, solo il valore medio è 0 Distribuzione normale prestazioni incoerenti e imprecise sui risultati della misurazione.
Errore sistematico - un effetto costante e regolare causato da variabili che non hanno nulla a che fare con lo scopo della misurazione; stabile e coerente in ogni misurazione, i risultati di misurazioni multiple sono coerenti e i risultati della misurazione sembrano essere coerenti e imprecisi;
fonte
Strumento di misurazione (errore sistematico) - un sistema di stimolo-risposta (spesso chiamato scala) incentrato su una serie di test (questionari)
Campionamento improprio delle domande
Il formato della domanda non è appropriato
La difficoltà è troppo alta o troppo bassa
Formulazione errata nelle istruzioni
Oggetto di misurazione (errore casuale-differenze individuali): se il livello reale del soggetto viene esercitato normalmente
Emozioni, motivazioni, tendenze di reazione, ecc.
Processo di test (più facile da controllare e testare) - fattori accidentali: ambiente fisico, tempo, interferenze impreviste, ecc.
controllo
standardizzazione
Oggetto di misurazione
Da parte del soggetto: lo stato fisico e mentale del soggetto era stabile durante la misurazione
In termini di test principale, il tester principale presta attenzione al funzionamento standardizzato del sistema
Strumenti di misurazione
Migliorare la natura scientifica della preparazione dei test
Prestare attenzione alla ricchezza e all'universalità delle informazioni raccolte
Prestare attenzione alla rappresentatività del campionamento del progetto
La difficoltà del progetto ha un certo intervallo di distribuzione
I termini del test sono semplici e chiari
Processo di test
Stessa situazione di test
stesse istruzioni
Stesso limite di tempo per la prova
Il punteggio deve essere oggettivo e l’interpretazione dei risultati del test dovrebbe essere standardizzata
Modello classico della teoria dei test
CTT
modello matematico X (punteggio osservato) = T (punteggio vero) E (errore casuale)
inferenza di ipotesi
Se il tratto psicologico di una persona può essere misurato ripetutamente abbastanza volte con test paralleli, la media dei suoi punteggi osservati sarà vicina al punteggio reale. Cioè: E(X)=T oppure E(E)=0
Supponiamo che E sia una variabile casuale che obbedisce a una distribuzione normale
La correlazione tra i punteggi di vero e di errore è zero. Cioè: ρ (T, E) = 0
L'ipotesi è che E sia un errore casuale e non sia incluso nell'errore sistematico.
La correlazione tra i punteggi di errore nei test paralleli è zero. Cioè: ρ (E1, E2) = 0
L'ipotesi è che E sia un errore casuale e non sia incluso nell'errore sistematico.
relazione di varianza
Sx²=St² Se²
St²=Sv² Si²
Variazione relativa al trattamento sperimentale-test V Metto alla prova la variazione irrilevante: errore sistematico L'errore sistematico è incluso nella frazione vera
Sx²= Sv² Si² Se²
Indicatori di qualità dei test psicologici
affidabilità
definizione
definizione letterale
L'affidabilità si riferisce al grado di coerenza e stabilità dei risultati delle misurazioni, ovvero al grado di affidabilità dei risultati dei test poiché i punteggi dei test cambiano con il tempo, il luogo e altri fattori.
Riordina i tuoi appunti: l'affidabilità si riferisce alla coerenza dei risultati ottenuti utilizzando ripetutamente lo stesso strumento di misurazione o uno strumento equivalente per misurare un determinato tratto psicologico dello stesso soggetto in tempi e occasioni diverse.
Tre definizioni di formule equivalenti
Coefficiente di affidabilità: il rapporto tra la variazione del punteggio reale e la variazione effettiva del punteggio di un insieme di punteggi misurati (un gruppo di soggetti) (definizione teorica)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx²
L'affidabilità è il quadrato del coefficiente di correlazione tra il punteggio reale e il punteggio effettivo di un gruppo di soggetti (definizione teorica)
rxx=p²(xt)
L’affidabilità è il coefficiente di correlazione tra un test x e il suo test parallelo x’ (definizione operativa)
rxx=p(x,x’)
effetto
L'affidabilità riflette la dimensione dell'errore casuale nel processo di misurazione
rxx= St²/Sx² = (Sx²-Se²)/Sx²= 1-Se²/Sx²
Quanto più piccolo è Se, maggiore è l'affidabilità; quanto più grande è Se, tanto minore è l'affidabilità.
L’affidabilità non riflette la dimensione dell’errore sistematico nel processo di misurazione
L'affidabilità può essere utilizzata per spiegare il significato dei punteggi dei singoli test
La differenza tra i punteggi dei due test può formare una nuova distribuzione. La deviazione standard di questa distribuzione è l'errore standard SE della misurazione. È un indicatore oggettivo della dimensione dell'errore nella misurazione. Può essere utilizzato per testare qualsiasi persona del gruppo attraverso l’errore standard Fornire spiegazioni appropriate per i risultati Cioè, la stima intervallare del punteggio vero
SE=Sx√(1-rxx)
L'esame solitamente dà rxx e Sx Chiedi prima SE e poi T.
X-Z*SE ≤T ≤X Z*SE
L'affidabilità aiuta a confrontare i punteggi di diversi test
I punteggi grezzi di test diversi non possono essere confrontati direttamente. Devono essere convertiti in punteggi standard e quindi confrontati. Il metodo specifico consiste nell'utilizzare l'"errore standard della differenza" per condurre un test di significatività. Test di differenza dei punteggi osservati x
SEd=S√(2-rxx-ryy)
t=(x1-x2)/SEd
Classificazione dei metodi di stima
affidabilità test-retest
Misura di ri-fiducia/coefficiente di stabilità Si riferisce al grado di coerenza dei risultati ottenuti quando la stessa scala viene somministrata due volte allo stesso gruppo di soggetti.
1 prova, 1 gruppo di soggetti, 2 prove Ad esempio: test della personalità, test di velocità
Fonte dell'errore: tempo Ad esempio: crescita, maturità, Apprendimento, formazione, fattori accidentali, come la felicità)
Metodo di calcolo: Correlazione della differenza del prodotto di Pearson
Condizioni d'uso
I tratti psicologici individuali misurati dallo strumento di misurazione dovrebbero essere relativamente stabili nel tempo.
Non dovrebbero esserci evidenti effetti pratici o effetti di dimenticanza sui tratti psicologici degli individui misurati dallo strumento di misurazione.
Non deve essere condotta alcuna formazione o addestramento speciale tra le due somministrazioni del test
La durata dell'intervallo deve essere riportata quando si riporta l'affidabilità test-retest
Replicare l'affidabilità
Due test paralleli (test replica) misurano la coerenza dei risultati ottenuti dallo stesso gruppo di soggetti
I due test di replica vengono somministrati in modo continuo e simultaneo, il che viene chiamato coefficiente di equivalenza.
2 prove, 1 gruppo di soggetti, 1 prova
Fonte dell'errore: contenuto della domanda
Due test duplicati vengono somministrati separatamente per un periodo di tempo, chiamato coefficiente di stabilità ed equivalenza (un rigoroso test di affidabilità)
2 prove, 1 gruppo di soggetti, 2 prove
Fonte dell'errore: contenuto e ora della domanda
Applicabile: generalmente utilizzato nella fase di ricerca e sviluppo delle bilance Non è possibile eseguire test di conseguimento/conseguimento perché i soggetti possono sostenere solo una serie di prove e non possono sostenere due serie contemporaneamente.
Metodo di calcolo: correlazione differenza prodotto Pearson
Condizioni d'uso
Essere in grado di costruire due o più test realmente paralleli, ovvero garantire che siano uguali o simili in termini di contenuto delle domande, quantità, forma, difficoltà, differenziazione, istruzioni, limite di tempo e tutti gli esempi, formule, ecc.
Effettuare due test paralleli sullo stesso gruppo di soggetti richiede tempi ragionevoli per evitare di essere influenzati dall'effetto della pratica, dall'effetto della fatica e dall'effetto del trasferimento.
Nel rapporto di prova, spiegare in dettaglio l'intervallo di tempo tra le due prove, l'ordine delle prove e l'esperienza di prova dei soggetti durante il test (standardizzazione)
affidabilità della coerenza interna
Definizione - Valutare se le componenti casuali del test misurano gli stessi tratti psicologici, riflettendo la coerenza del contenuto campione delle domande
affidabilità divisa a metà
Dividere casualmente tutte le domande di un test in due metà, quindi stimare la coerenza dei punteggi dei soggetti nelle due parti (dopo che i soggetti hanno completato il set completo, i dati verranno divisi a metà)
1 prova, 1 gruppo di soggetti, 1 prova prova di conseguimento
Metodo di calcolo: utilizzare innanzitutto il calcolo della correlazione della differenza del prodotto di Pearson e quindi utilizzare la formula di Spearman-Brown per verificare: rxx=2*rhh/(1 rhh); l'esame solitamente fornisce una differenza del prodotto ab rhh; ad esempio, rhh=0,5, trovare rxx; =2*0,5/(1 0,5)=2/3
Condizioni d'uso
Di solito il test può essere somministrato una sola volta o utilizzato senza copia, e la media e la varianza dei punteggi dei soggetti nei due semitest devono essere uguali Sa2=Sb2, altrimenti utilizzare la formula di Flanagan o la formula di Lullen;
La prova non è frazionabile in metà tempi e non può essere utilizzata.
Maggiore è la durata della valutazione, più stabili saranno i risultati e maggiore sarà l’affidabilità del test.
Fonte dell'errore: contenuto. Le domande correlate devono essere collocate nella stessa metà. Se la correlazione è elevata, la divisione del contenuto a metà è ragionevole?
Affidabilità dell'omogeneità
Coefficiente di coerenza interna, il grado di coerenza tra tutte le domande all'interno del test
1 prova, 1 gruppo di soggetti, 1 prova prova di conseguimento
Affidabilità di Kuder-Richardson
K-R20
Applicabile solo a (0, 1) prodotto = punteggio, domande a scelta multipla, domande di giudizio
Fonte di errore: omogeneità del contenuto delle domande e delle caratteristiche psicologiche e comportamentali
K-R21
È applicabile solo (0, 1) prodotto = punteggio e la difficoltà di tutte le domande deve essere vicina, poiché il calcolo utilizza il tasso medio di superamento, domande a scelta singola e domande di giudizio
Fonte di errore: omogeneità del contenuto delle domande e delle caratteristiche psicologiche e comportamentali
Coefficiente alfa di Cronbach
Applicabile (0, 1, domande soggettive: domande a risposta breve, domande a tema, ecc.)
Fonte di errore: omogeneità del contenuto delle domande e delle caratteristiche psicologiche e comportamentali
Condizioni d'uso: richiede che il test venga testato una volta su un gruppo di soggetti, che è un metodo più generale per stimare l'affidabilità della coerenza interna del test
Condizioni di affidabilità di coerenza interna per l'uso
Tutte le domande misurano la stessa caratteristica
Esiste un’elevata correlazione positiva tra i punteggi di tutte le domande
Non applicabile al test di velocità
Quando si valuta l'affidabilità del test, non è possibile fare affidamento esclusivamente sul coefficiente di coerenza interna, ma utilizzare una combinazione di più affidabilità.
affidabilità tra valutatori
Più valutatori hanno dato risposte allo stesso gruppo di soggetti Livello di coerenza nel punteggio
Fonte dell'errore: i valutatori stessi
Metodo di calcolo
2 valutatori: correlazione prodotto-differenza di Pearson/correlazione rango di Spearman
3 valutatori: coefficiente di armonia di Kendall
Più di 7 valutatori - Test Chi-quadrato x2=k(N-1), df=N-1
Applicabile: punteggio soggettivo delle domande, ad esempio composizione Test che non possono essere valutati in modo completamente oggettivo, Come i test di creatività, i test proiettivi
Affidabilità dei test di influenza e metodi di controllo (metodi di miglioramento)
Fattori che influenzano l'affidabilità
fattori soggettivi
Singoli soggetti: la salute fisica, la motivazione a sostenere il test, l'attenzione, la pazienza, l'ansia, il desiderio di vincere, l'atteggiamento di risposta, ecc. influenzeranno la stabilità dei tratti psicologici del soggetto.
Gruppo di soggetti: l'eterogeneità del gruppo e il livello medio influenzeranno l'affidabilità, che viene stimata principalmente calcolando il coefficiente di correlazione, se il numero di livelli del gruppo è molto diverso (eterogeneo), il valore di affidabilità sarà sovrastimato e l'omogeneità sottostimerà il valore di affidabilità; .
Eterogeneo, larghezza gamma completa, distribuzione discreta, altezza rxx
Omogeneo, arco ristretto, distribuzione concentrata, basso rxx
Miglioramento della standardizzazione: selezionare gruppi appropriati di soggetti per migliorare l'affidabilità del test in gruppi con forte omogeneità
Principali fattori di test
Partecipante al test: L'impressione/pressione/suggerimento dato al soggetto del test in base all'età, al sesso, all'aspetto, al modo di parlare e al comportamento, alle espressioni facciali, ecc., incluso il mancato rispetto rigoroso delle istruzioni del test, il controllo del processo del test, ecc. influenzeranno il punteggio distribuzione dei soggetti del test in diversi scenari di test.
Valutatore: il punteggio non è obiettivo e si è verificato un errore durante il calcolo del punteggio.
Miglioramento della standardizzazione: l'esaminatore principale implementa rigorosamente le procedure di gestione del test e i valutatori devono seguire rigorosamente gli standard per standardizzare i punteggi, controllare il tempo del test e ordinare le domande del test, fornire la formazione necessaria ai valutatori, controllare rigorosamente il test errori di punteggio e garantire gli standard di valutazione e la coerenza dei risultati del punteggio
Strumenti di misurazione: la stabilità degli strumenti di misurazione è la chiave per il successo o il fallimento della misurazione
Testare il campionamento delle domande: maggiore è il numero di domande, maggiore è l'affidabilità
La difficoltà delle domande del test. La difficoltà bassa o alta non può misurare le differenze tra gli individui. La difficoltà moderata è la più appropriata e può migliorare l'affidabilità del test.
Omogeneità tra le domande del test. Maggiore è l'omogeneità, maggiore è l'affidabilità.
Miglioramento della standardizzazione: compilare attentamente scale di prova, Evitare grandi errori sistematici
Aumentare opportunamente la durata del test, aumentare il numero in modo appropriato ed evitare che sia troppo lungo (troppo) per evitare l'effetto pratica e l'effetto affaticamento sui soggetti.
La difficoltà delle nuove domande è moderata e controllata a livello medio, in modo che la difficoltà di tutte le domande sia vicina alla distribuzione normale e la distribuzione del punteggio abbia un ampio intervallo.
Migliorare la discriminazione delle domande in modo che la distribuzione dei punteggi delle materie abbia un intervallo più ampio
Le nuove domande hanno lo stesso contenuto del test originale
Processo di test
Ambiente di test
La temperatura, la luce, il suono e le dimensioni dello spazio influenzeranno lo stato psicologico dei soggetti al momento della risposta, rendendo instabili i punteggi del test e influenzandone l'affidabilità.
Interruzioni impreviste: interruzione di corrente, malattia, errore di stampa della carta
Miglioramento della standardizzazione: il sito di test è organizzato secondo i requisiti del manuale di test per ridurre l'interferenza di fattori irrilevanti, come il controllo del rumore, della temperatura e di altri fattori che possono influenzare la psicologia dei soggetti.
intervallo di prova
Se l'intervallo del test è breve, potrebbero esserci effetti di pratica ed effetti di fatica; se è troppo lungo, le caratteristiche comportamentali del gruppo soggetto possono cambiare in modo significativo quando si tratta di affidabilità test-retest, stabilità e coefficienti di equivalenza, più brevi l'intervallo, maggiore è il grado di affidabilità.
Controllare le fonti di errore, standardizzare
Metodi per controllare gli errori casuali e migliorare l'affidabilità: un breve riassunto
Standardizzare tutti i fattori d'influenza di cui sopra Per i dettagli, vedere "Miglioramenti alla standardizzazione" sopra.
Aumentare opportunamente il numero di elementi di prova
Analisi fattoriale (omogeneità) e analisi discriminante (discriminabilità) ampliare la spaziatura completa
Controlla la difficoltà dell'elemento del test: appropriato
Selezionare gruppi di argomenti appropriati - rappresentativi
Correzione della debolezza: errore di controllo
validità
definizione
definizione letterale
L'effetto e il grado in cui un test o una scala (strumento di test) può effettivamente misurare i tratti psicologici o comportamentali che intende misurare: validità, accuratezza, utilità
Definizione della formula
In una serie di punteggi del test, il rapporto tra la variazione vera Sv² relativa al punteggio vero e la variazione totale Sx², r²xy o V rappresenta la validità, rxy è il coefficiente di validità, r²xy= Sv²/Sx²
effetto
La validità è una riflessione globale dell'errore casuale E e dell'errore sistematico I della misurazione.
La validità è un concetto relativo. Per un determinato scopo di misurazione, la misurazione può raggiungere solo un certo grado di precisione.
Quando il punteggio del test ha una relazione lineare con il punteggio del criterio, la conoscenza della regressione lineare può essere utilizzata per prevedere il punteggio del criterio attraverso il punteggio del test.
Il rapporto tra validità e affidabilità
Un’elevata affidabilità della misurazione è una condizione necessaria ma non sufficiente per un’elevata validità
Spiegare utilizzando le formule X punteggio osservato = T (punteggio vero) E (errore casuale) =V (elaborazione sperimentale) I (errore di sistema) E Sx²= Sv² Si² Se²
rxx= St²/Sx²= (Sv² SI²)/Sx²
V=r²xy= Sv²/Sx²
rxx> r²xy(V)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx² L’affidabilità è causata dall’errore casuale E
La validità è causata dall’errore casuale E e dall’errore sistematico I
Alta validità significa alta affidabilità. Alta affidabilità non significa necessariamente alta validità.
Tipo di validità
la validità dei contenuti
definizione
Si riferisce al grado di concordanza tra il contenuto effettivamente misurato da un test e il contenuto da misurare (ad esempio, 347 esame di ammissione post-laurea rispetto al programma dell'esame)
Caratteristiche
Il contenuto del comportamento di misurazione è chiaro e il campionamento è rappresentativo
Peso ragionevole
Condizioni d'uso
L'intervallo deve essere impostato in modo che tutti gli elementi del test rientrino in questo intervallo
Le voci generali dell'assicurazione sono esempi rappresentativi del contenuto determinato esternamente.
Sii applicabile
test su attributi specifici, Come test di rendimento, test di carriera (selezione e classificazione)
Non adatto per test attitudinali e test della personalità (abstract)
Metodo di determinazione
Metodo di analisi logica (metodo di valutazione esperto)
Ambito chiaro
Preparare un foglio di ripartizione bidirezionale
es: OK: Requisiti per i candidati Colonna: Contenuto dell'esame dei candidati
Sviluppa una scala di valutazione
Metodi comuni
Metodo Bach-Crown (metodo del coefficiente alfa)
Trovare la correlazione tra due serie parallele di punteggi dei test che misurano lo stesso contenuto (affidabilità replicata)
metodo test-retest
Chiamato anche metodo test-retest, si riferisce allo svolgimento dello stesso test prima e dopo l'apprendimento di una determinata conoscenza. Se il post-test è migliore del pre-test, ha una validità di contenuto maggiore.
metodo empirico
Diversi gruppi di soggetti differivano nei punteggi del test e nelle risposte a ciascuna domanda
Ad esempio: si ritiene generalmente che i voti più alti abbiano competenze più elevate rispetto ai voti inferiori. Se il punteggio totale aumenta con l'aumentare del voto, significa che c'è validità del contenuto.
La relazione tra validità di contenuto e validità di facciata
Definizione di validità nominale
In superficie, il test di una certa persona da parte di un profano sembra essere un fenomeno di misurazione di determinati tratti psicologici.
La validità nominale influenzerà la motivazione dei soggetti e influenzerà indirettamente la validità del test
I test di rendimento richiedono un'elevata validità superficiale, in modo che i soggetti abbiano una forte motivazione, altrimenti i soggetti saranno diffidenti; i test della personalità richiedono una bassa validità superficiale, altrimenti i soggetti imbrogliano;
validità di costrutto validità di costrutto
definizione
Si riferisce alla misura in cui un test misura effettivamente le strutture teoriche e le caratteristiche da misurare; oppure si riferisce al grado in cui i punteggi del test possono spiegare una determinata struttura o caratteristiche della teoria psicologica esperimento e teoria. Si basa sulla teoria
Caratteristiche
La dimensione della validità di costrutto dipende dalla teoria presupposta dei tratti psicologici.
Quando i dati empirici non possono confermare la teoria, non significa necessariamente che la validità di costrutto non sia elevata, ma può darsi che le ipotesi teoriche non siano valide.
La validità strutturale è determinata accumulando la selezione del contenuto della misurazione, ovvero per un costrutto possono esserci più ipotesi, quindi è impossibile avere un'unica validità di costrutto dell'indice quantitativo.
Sii applicabile
quiz sui concetti astratti Come test di intelligenza, test di personalità, test di autoefficacia
Passaggi generali
Proporre ipotesi teoriche
Derivare ipotesi sui punteggi dei test, sulla base di un quadro teorico
Utilizzare metodi logici ed empirici per verificare le ipotesi
metodo specifico
Trova le prove all'interno del quiz
la validità dei contenuti
Affidabilità dell'omogeneità
Esaminare la validità del contenuto e analizzare il Il processo di risposta alle domande e di calcolo dell'affidabilità di omogeneità
Cerca prove tra i test
metodo di validità compatibile
Trova la correlazione tra il test appena compilato e un vecchio test noto per essere efficace nel misurare i tratti compatibili. Se la correlazione è elevata, la validità del contenuto è elevata: la correlazione tra il vecchio e il nuovo test
validità discriminante
Trova la correlazione tra il test appena compilato e un vecchio test noto per essere efficace nel misurare tratti diversi. Se la correlazione è elevata, la validità del contenuto non è elevata.
Il grado di correlazione tra diversi test
metodo di validità empirica
Dividere le persone in due categorie in base ai criteri di efficacia ed esaminare la differenza nei punteggi Dividere le persone in gruppi alti e bassi in base ai punteggi ed esaminare le differenze nei criteri di efficacia Se la differenza è significativa, la validità di costrutto è elevata - esaminare lo stato comportamentale.
Metodo della matrice con tratti multipli e metodi multipli
Applicazione completa di validità compatibile e validità discriminante-MTMM
Metodo della validità convergente-differenza omogenea
Test diversi che misurano la stessa caratteristica Maggiore è il coefficiente di correlazione, maggiore è la validità compatibile.
Ad esempio: utilizzare l'autovalutazione e la proiezione per misurare l'introversione della personalità
Validità discriminante: stesso metodo ma non omogeneo
I test di somiglianza misurano tratti diversi Se il coefficiente di correlazione è basso, la validità discriminante è elevata.
Ad esempio: utilizzare una scala di autovalutazione per misurare l’estroversione e la responsabilità del soggetto
Supplemento: il test di somiglianza misura tratti simili Maggiore è il coefficiente di correlazione, maggiore è l’affidabilità.
analisi fattoriale
Riassumere grandi quantità di dati osservativi con un piccolo numero di fattori di riduzione della dimensionalità;
Analisi fattoriale confermativa CFA analisi fattoriale confermativa
Conoscere diverse dimensioni, testarle e ottenere i risultati Verificare se queste dimensioni sono corrette
Analisi fattoriale esplorativa degli EFA analisi fattoriale esplorativa
Non conosciamo alcune dimensioni in anticipo, esploriamole
Validità empirica (validità legata al criterio) effetto di collegamento dei criteri
definizione
Una coppia di prova si trova in una situazione specifica L’efficacia della stima del comportamento individuale
Prendere i risultati pratici come standard di prova
Ad esempio: selezione per l'esame post-laurea, il test è un esame e il criterio è la capacità di ricerca scientifica. Se la capacità di ricerca scientifica è elevata, significa che il criterio di efficienza è elevato.
Norma di efficacia
Il criterio di validità si riferisce al comportamento da stimare, che è lo standard per testare la validità e lo standard esterno per misurare se un test è valido.
Standard di efficacia dell'inquinamento
Influenzato dalla conoscenza del punteggio del test del soggetto per valutarne il punteggio effettivo
Criteri di selezione
Correlazione
Lo standard di efficacia è correlato alla cosa attualmente in fase di valutazione
efficacia
Esiste un alto grado di coerenza tra il criterio e la caratteristica che rappresenta.
Nessun inquinamento
La misura del criterio non si basa sulla misurazione da valutare
obiettività
Poiché lo standard di efficacia viene valutato sulla base dell’esperienza soggettiva, Quindi evita pregiudizi soggettivi
Praticità
Con la premessa di garantire l’efficacia, Rendilo il più semplice, veloce e operativo possibile
Caratteristiche
Caratteristiche comportamentali esistenti in modo indipendente e oggettivamente correlate
Standard comunemente utilizzati
Risultati accademici, valutazioni, diagnosi clinica, risultati della formazione specializzata, prestazioni lavorative pratiche, capacità di distinguere tra gruppi e altri test validi e prontamente disponibili
Sii applicabile
Prevedere i risultati, come la selezione del personale
Categorie di validità empirica
validità concorrente
I dati sui criteri e i punteggi dei test vengono raccolti simultaneamente
Stato della diagnosi
validità predittiva
Fai prima il test, quindi determina i criteri di efficacia in base ai punteggi del test
Specula sul futuro
Metodo di determinazione
Standard concettuali chiari
Determinare la misurazione standard di efficacia
Esaminare la relazione tra i punteggi delle misurazioni e le misure dei criteri
metodo specifico
Legge pertinente
Coefficiente di correlazione tra i punteggi dei test e le misure dei criteri Differenza di accumulo correlata, correlata al grado
distinzione
Fare marcia indietro Prova T
I soggetti hanno prima sostenuto il test e sono stati autorizzati a lavorare per un periodo di tempo, quindi sono stati divisi in gruppi in base alle loro prestazioni lavorative, quindi analizzati e confrontati con i punteggi del test precedente. Se la differenza è significativa, ha un'elevata validità .
metodo del tasso di utilità
Misurazione dei costi e dei benefici aziendali
Metodo della tabella delle aspettative
Crea un grafico bidimensionale utilizzando il punteggio di previsione e il punteggio del criterio, dividi ciascuna variabile in più livelli in base al livello, quindi fornisci un esempio della percentuale di persone a ciascun livello e osserva il livello di validità del criterio dalla tabella
metodo del tasso di successo
Interpretazione dei punteggi e degli standard dei test
punteggio del test
Punteggio alto (successo)
Punteggio basso (fallimento)
Norma di efficacia
Alta energia (successo)
imbecille (fallimento)
risultato Vogliamo punteggi alti, ma non vogliamo punteggi bassi. Dopo aver selezionato un punteggio più alto, controlla se la prestazione corrisponde.
Punteggi alti e alta energia = accettazione corretta (A)
Punteggi alti e abilità basse = accettazione sbagliata (B)
Spiegazione: È stata assunta una persona con punteggi elevati, ma la sua capacità di ricerca scientifica era bassa, quindi ha effettuato una falsa segnalazione.
Punteggio basso e abilità alta = falso rifiuto (C)
Spiegazione: Quelli con punteggi alti hanno forti capacità di ricerca scientifica. Ma abbiamo rifiutato, abbiamo mancato un talento e abbiamo mancato un rapporto
Punteggio basso e bassa energia = rifiuto corretto (D)
Tasso di successo positivo
Quello che vuoi = punteggio alto
A/(A B)
tasso di successo negativo
Non volere ciò che non dovresti = ottenere un punteggio basso
D/(C D)
tasso di successo totale
Numero di persone selezionato correttamente/totale
(A D)/(A B C D)
tasso base
Elevata energia/numero totale di persone
(A C)/(A B C D)
Sensibilità
La proporzione dei punteggi più alti nell'alta energia
A/(AC)
Conferma
Proporzione di punteggi bassi tra gli studenti a basso consumo energetico
D/(B D)
fattori che influenzano la validità
Caratteristiche del tratto psicologico stesso misurato
La ricerca pertinente non è sufficientemente approfondita
Il concetto non è chiaramente definito
La struttura dello strumento di misura è instabile
Il processo di costruzione degli strumenti di misurazione
Definizione dei tratti psicologici
Raccolta di domande di misurazione, pre-test, analisi e screening delle domande, analisi della qualità del test, aggiustamento delle domande, test formale
Standardizzazione per evitare bias sistematici
L'affidabilità dello strumento di misurazione stesso
L'affidabilità è una condizione necessaria per la validità. Gli strumenti di misurazione sono instabili e se l'affidabilità è compromessa, la validità non può essere garantita.
Gruppo di argomenti per la verifica di validità
Lo stesso strumento di misurazione può misurare diverse strutture di tratti psicologici a causa delle diverse caratteristiche dell'oggetto di misurazione.
Quanto più eterogeneo è il gruppo di soggetti, tanto più ampio è l’intervallo di distribuzione del punteggio, tanto maggiore è l’affidabilità e la validità.
Selezione di obiettivi efficaci
Quando si verifica la capacità predittiva degli strumenti di misurazione, l'affidabilità e la validità del criterio stesso sono molto critiche.
altri fattori
Aspetto principale dell'esame
La mancata osservanza delle istruzioni e gli errori nel punteggio ridurranno la validità.
Soggetti
Stato fisico e mentale individuale; omogeneità del gruppo, omogeneità necessaria
Strumenti di misurazione
Il campione manca di rappresentatività del contenuto e della struttura previsti
Istruzioni poco chiare, semantica delle domande poco chiara, difficoltà troppo alta o troppo bassa ridurranno la validità e la durata del test sarà appropriata.
Processo di test
Interferenze impreviste, fattori ambientali e fisici
modi per migliorare
standardizzazione
Aspetto principale dell'esame
Implementa rigorosamente il processo di test e i valutatori assegneranno punteggi rigorosamente secondo gli standard
Soggetti
Il campionamento è rappresentativo e omogeneo e viene creata una situazione standard per il test per consentire ai soggetti di esibirsi al loro livello normale.
Strumenti di misurazione
Preparare attentamente le scale di prova per evitare grandi errori sistematici
Processo di test
Organizzare correttamente i test e controllare gli errori casuali
altri aspetti
Garantire l'affidabilità del test
Scegli il punto di riferimento giusto
Impostare misurazioni standard di efficacia appropriate
Uso corretto delle formule rilevanti
difficoltà
definizione
La difficoltà si riferisce al livello di difficoltà del progetto, generalmente espresso dal tasso di superamento P
L'analisi della difficoltà viene utilizzata principalmente per i test comportamentali superiori, che si riferiscono alla percentuale di persone nella popolazione che possono rispondere correttamente a un determinato elemento.
Test del comportamento tipico del tasso di risposta
Metodi e formule di calcolo
metodo del punteggio
La media di tutti gli argomenti su questo argomento Il punteggio è la percentuale del punteggio totale della domanda, la formula è:
Il valore di Pi (0, 1) è adatto per domande con punteggio 0, 1
Punteggio del metodo di raggruppamento estremo (0,1). È possibile eseguire sia il punteggio che il non-(0,1).
I soggetti sono stati divisi in gruppi alti e bassi in base ai punteggi totali dei test. Come difficoltà della domanda viene utilizzato il punteggio medio dei due gruppi.
Quando il numero di soggetti è elevato, è possibile dividerli in tre gruppi: il 27% più alto e il 27% più basso vengono utilizzati come gruppo alto e gruppo basso. Infine, viene calcolato il punteggio medio dei due gruppi la difficoltà dell'oggetto.
formula
P= (PH PL)/2= (RH/NH RL/NL)/2
PH e PL rappresentano rispettivamente il tasso di superamento del gruppo alto e del gruppo basso. RH e RL rappresentano rispettivamente il numero di risposte corrette nei gruppi alto e basso. NH e NL rappresentano rispettivamente il numero totale di persone nei gruppi alto e basso.
Ci sono poche persone: P=R/N, R è il numero di risposte corrette e N è il numero di tutte le materie
(0,1) punteggio
Formule nei progetti con punteggio non dicotomico
Minore è il valore P, maggiore è la difficoltà
Distribuzione ragionevole della difficoltà e suo controllo
L'impatto della distribuzione della difficoltà sui test
L'impatto della difficoltà sulla forma di distribuzione dei punteggi dei test
Il test è troppo difficile e la distribuzione del punteggio è distorta positivamente
Adatto per test di screening, come i concorsi inglesi
Il test era troppo facile e la distribuzione del punteggio era distorta negativamente
Adatto per test standard, come gli esami di ammissione alle scuole superiori
Difficoltà moderata, la distribuzione del punteggio è una distribuzione normale (Il campione di soggetti è rappresentativo)
Difficoltà rispetto alla dispersione del punteggio del test e all'affidabilità
La difficoltà è troppo difficile, i punteggi sono concentrati nella fascia bassa, l'intervallo complessivo è piccolo e l'affidabilità è bassa
La difficoltà è troppo semplice, i punteggi sono concentrati nella fascia alta, l'intervallo complessivo è ridotto e l'affidabilità è bassa
La difficoltà è meglio concentrata intorno a 0,5. L'intervallo di distribuzione del punteggio è ampio, l'intero intervallo è ampio e l'affidabilità è elevata
L'impatto della difficoltà sulla discriminazione dei test
Il livello di difficoltà medio è 0,5, in modo da poter distinguere persone di tutti i livelli.
La difficoltà è in cima alla catena alimentare
P=0, difficile, discriminazione D=0, gamma completa ristretta, Bias positivo, rxx è piccolo, r²xy è piccolo
effetto pavimento
P=1, facile, discriminazione D=0, gamma completa stretta, Bias negativo, rxx è piccolo, r²xy è piccolo
Effetto soffitto
P=0,5, medio, discriminazione D=1, gamma completa, Distribuzione normale, rxx è grande, r²xy è grande
La determinazione del livello di difficoltà dipende da Scopo del test/formato dell'elemento/natura del test Evitare il punteggio massimo perché il significato del voto massimo non è chiaro
Per i test riferiti alla norma, la difficoltà ragionevole dell'item è di circa 0,5 e l'intervallo di distribuzione dovrebbe essere controllato tra (0,3-0,7 è adatto per studenti di alto livello e 0,7 è adatto per studenti di alto livello (teoricamente, il valore massimo). la difficoltà delle domande nel test dovrebbe essere controllata a 0,5/-0,2 (Migliore)
Test basati su criteri: non sono richiesti test di difficoltà, Perché viene utilizzato per verificare se i soggetti hanno padronanza
Per i test selettivi, la difficoltà è controllata in base al tasso di ammissione, come gli esami di ammissione post-laurea e gli esami di ammissione pubblici.
Difficoltà delle domande a scelta multipla, difficoltà > tasso di ipotesi
La difficoltà del test di velocità non dovrebbe essere troppo elevata e la difficoltà di ciascun elemento dovrebbe essere sostanzialmente uguale.
Controllo della distribuzione ragionevole della difficoltà
Controllare la difficoltà delle domande
Controllare la capacità di memorizzare i punti di conoscenza nelle valutazioni delle domande livelli per controllare la difficoltà delle domande
Controllare la distribuzione delle difficoltà dei documenti di prova
Con la premessa di controllare la difficoltà delle domande, controllare la proporzione di domande di diversa difficoltà per ottenere la distribuzione della difficoltà richiesta
Correzione di ipotesi per domande a scelta multipla
Lo scopo della correzione delle ipotesi è eliminare la possibilità di rispondere correttamente a determinate domande a causa di ipotesi, il che aumenterà la percentuale di superamento.
Correzione del tasso di superamento di tutte le materie su un certo numero di item
CP=KP-1/K-1
Tasso di superamento dopo la correzione CP, numero di opzioni K, tasso di superamento P
Un soggetto sostiene un test composto da più elementi correzione del punteggio del test
S=R-(W/R-1)
S è il punteggio corretto, R sono gli elementi con risposta corretta, W è l'elemento con la risposta sbagliata
distinzione
definizione
La capacità della domanda di distinguere differenze nelle caratteristiche dei soggetti, rappresentata dal D
Classificazione
D>0, distinzione positiva, il punteggio alto indica alta energia, il punteggio basso significa bassa energia
D<0, distinzione negativa, il punteggio alto indica bassa energia, il punteggio basso indica alta energia
D=0, nessuna distinzione, nessuna distinzione
Metodo di calcolo
metodo del coefficiente di correlazione
Idea base
Se la domanda ha una buona discriminazione, l'abilità alta otterrà sempre un punteggio alto e l'abilità bassa otterrà sempre un punteggio basso.
Presupposti di base (rilevanti per tutte le domande)
La correlazione tra il punteggio dell'item e il punteggio del criterio viene utilizzata come indicatore della discriminazione dell'item. Maggiore è la correlazione, maggiore è la discriminazione.
Due metodi di calcolo
Correlazione punto due colonne
(0,1) punteggio, adatto per vere variabili dicotomiche, domande a scelta multipla, domande di giudizio
Correlazione su due colonne
(0,1) punteggio, applicabile a due colonne di variabili continue, una colonna è divisa artificialmente in due categorie
correlazione prodotto-differenza
Applicabile alla ricerca correlata sul punteggio in cui il punteggio totale delle domande non è dicotomico
Domande soggettive
Metodo dell'indice di discriminazione degli articoli
D=PH-PL
metodo della varianza
Più i punteggi dei soggetti su un certo item sono dispersi e maggiore è la varianza, maggiore è il potere discriminante della domanda del test.
Indicatore Ebel-Ibel
D>0,4
eccellente
D=0,3-0,39
Bene, sarà migliore dopo la modifica
D=0,2-0,29
OK, necessita di modifiche
D<0,19
Povero, deve essere eliminato
Fattori che influenzano la discriminazione
Difficoltà della domanda
Una domanda troppo difficile o troppo difficile comporterà una differenza minima o addirittura nulla nei punteggi dei soggetti sulla domanda, ovvero il grado di discriminazione è piccolo.
Omogeneità del gruppo di soggetti
Più le materie saranno omogenee, più i loro livelli e punteggi saranno vicini. Minore è la differenza, minore è la discriminazione
La coerenza dei tratti psicologici misurati da ciascuna domanda del test
Se non sono coerenti, il punteggio totale del test verrà utilizzato come indicatore per le persone con abilità elevate o basse. L'ipotesi non è valida e il grado di discriminazione è basso.
La formulazione e la qualità del contenuto della domanda stessa
Differenze nella descrizione della domanda, significato poco chiaro della domanda e risposte errate ridurranno la distinzione della domanda
Migliorare la discriminazione-standardizzare la valutazione della discriminazione
Controlla la difficoltà delle domande
Assicurarsi che le caratteristiche psicologiche misurate dalle domande siano coerenti con Coerenza dei tratti psicologici in tutti i test = omogeneità
Il linguaggio della domanda è accurato e standardizzato e non c'è ambiguità tra la radice della domanda e la risposta.
Modificare le opzioni scadenti utilizzando le informazioni fornite dall'analisi delle opzioni
Difficoltà = (0,3-0,7)
Discriminazione=Indice di Ebel