Come valutare la significatività statistica

Autore: Randy Alexander
Data Della Creazione: 2 Aprile 2021
Data Di Aggiornamento: 26 Giugno 2024
Anonim
Testing statistical significance between samples in python
Video: Testing statistical significance between samples in python

Contenuto

La verifica delle ipotesi è guidata dall'analisi statistica. La confidenza statisticamente significativa viene calcolata utilizzando il valore p, che indica la probabilità di un risultato osservato quando una certa proposizione (l'ipotesi nulla) è vera. Se il valore p è inferiore al livello di significatività (solitamente 0,05), lo sperimentatore può concludere che ci sono prove sufficienti per confutare l'ipotesi nulla e ammettere l'ipotesi inversa. Utilizzando un semplice test t, è possibile calcolare il valore p e determinare la significatività tra due diversi gruppi di dati.

Passi

Parte 1 di 3: imposta i tuoi esperimenti

  1. Determina la tua ipotesi. Il primo passo nella valutazione della significatività statistica è identificare le domande a cui rispondere e dichiarare la tua ipotesi. L'ipotesi è una dichiarazione dei dati empirici e delle possibili discrepanze nella popolazione. Ogni esperimento ha un'ipotesi nulla e un'ipotesi inversa. In generale, confronterai due gruppi per vedere se sono uguali o diversi.
    • In generale, l'ipotesi non è (H.0) confermano che non vi è alcuna differenza tra i due gruppi di dati. Esempio: gli studenti che leggono il materiale prima della lezione non ottengono voti finali migliori.
    • L'ipotesi inversa (H.un) è contraria all'ipotesi nulla ed è un'affermazione che stai cercando di supportare con i tuoi dati empirici. Esempio: gli studenti che leggono il materiale prima della lezione ottengono effettivamente voti finali migliori.

  2. Seleziona il livello di significatività per determinare il grado di differenza che può essere considerato significativo nei dati. Il livello di significatività (noto anche come alfa) è la soglia scelta per determinare il significato. Se il valore p è inferiore o uguale a un dato livello di significatività, i dati sono considerati statisticamente significativi.
    • Come regola generale, il livello di significatività (o alfa) viene solitamente scelto al livello 0,05, il che significa che la possibilità di osservare la differenza vista sui dati è casuale solo del 5%.
    • Maggiore è il livello di confidenza (e quindi minore è il valore p), più significativi sono i risultati.
    • Se è necessaria una maggiore confidenza, abbassare il valore p a 0,01. Un valore p basso viene spesso utilizzato nella produzione per rilevare i difetti del prodotto. Un alto grado di affidabilità è fondamentale per accettare che ogni parte funzioni come dovrebbe.
    • Per la maggior parte degli esperimenti basati su ipotesi, è accettabile un livello di significatività di 0,05.

  3. Decidi se utilizzare un test a una coda oa due code. Uno dei presupposti del test t è che i dati siano in una distribuzione normale. La distribuzione normale formerà una curva a campana con la maggior parte delle osservazioni centrata. Il t-test è un test matematico che controlla se i tuoi dati ricadono all'esterno della distribuzione normale, sopra o sotto, nella parte "superiore" della curva.
    • Se non sei sicuro che i dati siano al di sopra o al di sotto del gruppo di controllo, utilizza un test a due code. Ti consente di controllare il significato in entrambe le direzioni.
    • Se sai qual è la direzione prevista dei tuoi dati, usa un test a una coda. Nell'esempio sopra, ti aspetti che i punteggi dello studente miglioreranno. Pertanto, si utilizza il test a una coda.

  4. Determina la dimensione del campione con l'analisi della forza. La forza di un test è la capacità di osservare il risultato atteso con una data dimensione del campione. La soglia comune per la forza (o β) è dell'80%. L'analisi della forza può essere piuttosto complicata senza alcuni dati preliminari perché sono necessarie alcune informazioni sulla media attesa tra i gruppi e le loro deviazioni standard. Usa l'analisi della forza online per determinare la dimensione ottimale del campione per i tuoi dati.
    • I ricercatori spesso eseguono uno studio di piccole premesse per informare l'analisi della forza e decidere la dimensione del campione necessaria per uno studio ampio e completo.
    • Senza i mezzi per fare ricerche complesse con premesse, stimare la possibile media sulla base della lettura di articoli e ricerche che altri individui potrebbero aver fatto. Può darti un buon inizio nella determinazione delle dimensioni del campione.
    annuncio pubblicitario

Parte 2 di 3: calcola la deviazione standard

  1. Determina la formula per la deviazione standard. La deviazione standard misura la dispersione dei dati. Fornisce informazioni sull'identità di ogni punto dati nel campione. Quando si inizia per la prima volta, le equazioni possono sembrare piuttosto complicate. Tuttavia, i passaggi seguenti ti aiuteranno a comprendere facilmente il processo di calcolo. La formula è s = √∑ ((xio - µ) / (N - 1)).
    • s è la deviazione standard.
    • ∑ indica che dovrai sommare tutte le osservazioni raccolte.
    • Xio ognuno rappresenta il valore dei dati.
    • µ è la media dei dati per ogni gruppo.
    • N è il numero totale di osservazioni.
  2. Media dei dati osservati per ogni gruppo. Per calcolare la deviazione standard, è prima necessario calcolare la media delle osservazioni per ogni singolo gruppo. Questo valore è simboleggiato con la lettera greca mu o µ. Per fare ciò, aggiungi semplicemente le osservazioni e dividi per il numero totale di osservazioni.
    • Ad esempio, per trovare il punteggio medio del gruppo che legge il documento prima della lezione, esaminiamo alcuni dati. Per semplicità, utilizzeremo un set di dati di 5 punti: 90, 91, 85, 83 e 94 (su una scala di 100 punti).
    • Somma tutte le osservazioni: 90 + 91 + 85 + 83 + 94 = 443.
    • Dividi la somma sopra per il numero di osservazioni N (N = 5): 443/5 = 88,6.
    • Il punteggio medio di questo gruppo è 88,6.
  3. Sottrai la media da ogni valore osservato. Il passaggio successivo prevede la parte (xio - µ) dell'equazione. Sottrai la media da ogni valore osservato. Con l'esempio precedente, abbiamo cinque sottrazioni.
    • (90 - 88,6), (91- 88,6), (85 - 88,6), (83 - 88,6) e (94 - 88,6).
    • Il valore calcolato è 1,4; 2.4; -3.6; -5.6 e 5.4.
  4. Piazza le differenze di cui sopra e sommale. Ogni nuovo valore appena calcolato verrà ora al quadrato. Qui verrà rimosso anche il segno negativo. Se dopo questo passaggio o alla fine del calcolo viene visualizzato un segno negativo, potresti aver dimenticato di eseguire il passaggio precedente.
    • Nel nostro esempio, ora lavoreremo con 1.96; 5.76; 12.96; 31.36 e 29.16.
    • Aggiungi questi quadrati insieme: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
  5. Dividi per il numero totale di osservazioni meno 1. La divisione per N - 1 aiuta a compensare un calcolo che non viene eseguito sulla popolazione nel suo insieme, ma si basa su un campione di tutti gli studenti.
    • Sottrai: N - 1 = 5 - 1 = 4
    • Dividi: 81,2 / 4 = 20,3
  6. Ottieni la radice quadrata. Una volta diviso per il numero di osservazioni meno 1, prendi la radice quadrata del valore ottenuto. Questo è l'ultimo passaggio per il calcolo della deviazione standard. Alcuni programmi statistici ti aiuteranno a eseguire questo calcolo dopo l'importazione dei dati originali.
    • Con l'esempio sopra, la deviazione standard del voto di fine semestre degli studenti che leggono il documento prima della lezione è: s = √20,3 = 4,51.
    annuncio pubblicitario

Parte 3 di 3: determinazione della significatività statistica

  1. Calcola la varianza tra i tuoi due gruppi di osservazioni. Fino a questo punto, l'esempio ha trattato solo un gruppo di osservazioni. Per confrontare due gruppi, ovviamente sono necessari i dati di entrambi. Calcola la deviazione standard del secondo gruppo di osservazioni e usala per calcolare la varianza tra i due gruppi sperimentali. La formula per calcolare la varianza è: sd = √ ((s1/ N1) + (s2/ N2)).
    • Sd è la varianza tra i gruppi.
    • S1 è la deviazione standard dei gruppi 1 e N1 è la dimensione del gruppo 1.
    • S2 è la deviazione standard dei gruppi 2 e N2 è la dimensione del gruppo 2.
    • Nel nostro esempio, diciamo che i dati del gruppo 2 (studenti che non hanno letto il testo prima della lezione) hanno una dimensione di 5 e una deviazione standard di 5,81. La varianza è:
      • Sd = √ ((s1) / N1) + ((s2) / N2))
      • Sd = √(((4.51)/5) + ((5.81)/5)) = √((20.34/5) + (33.76/5)) = √(4.07 + 6.75) = √10.82 = 3.29.
  2. Calcola il punteggio t dei dati. Le statistiche T ti consentono di convertire i dati in una forma paragonabile ad altri dati. Il valore t consente anche di eseguire un test t, un test che consente di calcolare la probabilità che i due gruppi siano statisticamente diversi. La formula per calcolare la statistica t è: t = (µ1 – µ2)/Sd.
    • µ1 è la media del primo gruppo.
    • µ2 è la media del secondo gruppo.
    • Sd è la varianza tra le osservazioni.
    • Usa la media più grande come µ1 per non ottenere una statistica t negativa.
    • Per il nostro esempio, supponiamo che la media osservata per il gruppo 2 (che non ha letto l'articolo precedente) sia 80. Il punteggio t è: t = (µ1 – µ2)/Sd = (88,6 – 80)/3,29 = 2,61.
  3. Determina il grado di libertà del campione. Quando si utilizza la statistica t, i gradi di libertà vengono determinati in base alla dimensione del campione. Somma il numero di osservazioni per ogni gruppo e poi sottrai due. Nell'esempio sopra, il grado di libertà (d.f.) è 8 perché ci sono 5 campioni nel primo gruppo e 5 campioni nel secondo gruppo ((5 + 5) - 2 = 8).
  4. Usa la tabella t per valutare la significatività. Le tabelle dei valori t e dei gradi di libertà possono essere trovate in un libro di statistiche standard o online. Trova la riga che contiene i gradi di libertà dei dati e il valore p che corrisponde alla statistica t che hai.
    • Con gradi di libertà 8 et = 2,61, il valore p per un test a una coda è compreso tra 0,01 e 0,025. Poiché il livello di significatività scelto è inferiore o uguale a 0,05, i nostri dati sono statisticamente significativi. Con questi dati, rifiutiamo l'ipotesi nulla e accettiamo l'ipotesi inversa: gli studenti che leggono il materiale prima della lezione hanno punteggi finali più alti.
  5. Considera l'idea di condurre ulteriori ricerche. Molti ricercatori eseguono studi sulle premesse con diverse metriche per capire come progettare uno studio più ampio. Fare altre ricerche con più metriche aumenterà la tua fiducia nelle tue conclusioni. annuncio pubblicitario

Consigli

  • La statistica è un campo ampio e complesso. Fai un test di ipotesi statistica a livello di scuola superiore o universitaria (o superiore) per comprendere la significatività statistica.

avvertimento

  • Questa analisi si concentra sul test t per verificare la differenza tra le due popolazioni di distribuzione standard. A seconda della complessità dei dati, potrebbe essere necessario un test statistico diverso.