Modi per calcolare la varianza

Autore: Robert Simon
Data Della Creazione: 21 Giugno 2021
Data Di Aggiornamento: 1 Luglio 2024
Anonim
varianza
Video: varianza

Contenuto

La varianza misura la dispersione del set di dati. È molto utile nella costruzione di modelli statistici: una varianza bassa può essere un'indicazione che stai descrivendo l'errore o il rumore casuale invece della relazione sottostante nei dati. Con questo articolo, wikiHow ti insegna come calcolare la varianza.

Passi

Metodo 1 di 2: calcola la varianza di un campione

  1. Scrivi il tuo set di dati di esempio. Nella maggior parte dei casi, gli statistici dispongono solo di informazioni su un campione o su un sottoinsieme della popolazione che stanno studiando. Ad esempio, invece di un'analisi generale del "costo di tutte le auto in Germania", uno statistico potrebbe trovare il costo di un campione casuale di poche migliaia di auto. Lo statistico può utilizzare questo campione per ottenere una buona stima del costo delle auto in Germania. Tuttavia, è più probabile che non corrisponda esattamente ai numeri effettivi.
    • Per esempio: Analizzando il numero di muffin venduti al giorno in un bar, hai preso un campione casuale di sei giorni e hai ottenuto i seguenti risultati: 38, 37, 36, 28, 18, 14, 12, 11, 10.7, 9.9. Questo è un campione, non una popolazione, perché non hai dati per ogni giorno in cui il negozio è aperto.
    • Se ogni Punti dati nel master, vai al metodo seguente.

  2. Annota la formula della varianza del campione. La varianza di un set di dati indica il grado di dispersione dei punti di dati. Più la varianza è vicina a zero, più i punti dati sono raggruppati. Quando si lavora con set di dati di esempio, utilizzare la seguente formula per calcolare la varianza:
    • = /(n - 1)
    • è la varianza. La varianza viene sempre calcolata in unità al quadrato.
    • rappresenta un valore nel tuo set di dati.
    • ∑, che significa "somma", ti dice di calcolare i seguenti parametri per ogni valore e poi sommarli insieme.
    • x̅ è la media del campione.
    • n è il numero di punti dati.

  3. Calcola la media del campione. Il simbolo x̅ o "x-orizzontale" è utilizzato per indicare la media del campione. Calcola come faresti con qualsiasi media: somma tutti i punti dati e dividi per il numero di punti.
    • Per esempio: Innanzitutto, somma i punti dati: 17 + 15 + 23 + 7 + 9 + 13 = 84
      Quindi, dividi il risultato per il numero di punti dati, in questo caso sei: 84 ÷ 6 = 14.
      Media campionaria = x̅ = 14.
    • Puoi pensare alla media come al "punto centrale" dei dati. Se i dati sono centrati sulla media, la varianza è bassa. Se sono dispersi lontano dalla media, la varianza è alta.

  4. Sottrai la media da ogni punto dati. Ora è il momento di calcolare - x̅, dove si trova ogni punto nel tuo set di dati. Ogni risultato indicherà la deviazione dalla media di ogni punto corrispondente, o per dirla semplicemente, la distanza da esso alla media.
    • Per esempio:
      - x̅ = 17-14 = 3
      - x̅ = 15-14 = 1
      - x̅ = 23-14 = 9
      - x̅ = 7-14 = -7
      - x̅ = 9-14 = -5
      - x̅ = 13-14 = -1
    • È molto facile controllare i tuoi calcoli, perché i risultati devono sommare a zero, perché in base alla media, i risultati negativi (la distanza dalla media ai piccoli numeri). i risultati positivi (distanza dalla media ai numeri maggiori) sono completamente eliminati.
  5. Piazza tutti i risultati. Come notato sopra, l'attuale elenco delle deviazioni (- x̅) ha una somma pari a 0. Ciò significa che anche la "deviazione media" sarà sempre zero e non si può dire nulla sulla dispersione dei dati. Per risolvere questo problema, troviamo il quadrato di ogni deviazione. Di conseguenza, sono tutti numeri positivi, valori negativi e valori positivi non si annullano più a vicenda e danno la somma zero.
    • Per esempio:
      (- X)
      - X)
      9 = 81
      (-7) = 49
      (-5) = 25
      (-1) = 1
    • Ora hai (- x̅) per ogni punto dati nel campione.
  6. Trova la somma dei valori al quadrato. Ora è il momento di calcolare l'intero numeratore della formula: ∑. Il grande ciclo, ∑, richiede di aggiungere il seguente valore di elemento per ogni valore. Hai calcolato (- x̅) per ogni valore nel campione, quindi tutto ciò che devi fare è sommare i risultati insieme.
    • Per esempio: 9 + 1 + 81 + 49 + 25 + 1 = 166.
  7. Dividi per n - 1, dove n è il numero di punti dati. Molto tempo fa, quando si calcolava la varianza campionaria, gli statistici diviso solo per n. Quella divisione ti darà la media della deviazione al quadrato, che corrisponde esattamente alla varianza di quel campione. Tuttavia, tieni presente che il campione è solo una stima di una popolazione più ampia. Se prendi un altro campione casuale e fai lo stesso calcolo, otterrai un risultato diverso. A quanto pare, dividendo per n -1 invece di n si ottiene una stima migliore della varianza di una popolazione più ampia, cosa che ti interessa davvero. Questa correzione è così comune che ora è la definizione accettata di varianza campionaria.
    • Per esempio: Ci sono sei punti dati nel campione, quindi n = 6.
      Varianza del campione = 33,2
  8. Comprendi la varianza e la deviazione standard. Si noti che, poiché ci sono potenze nella formula, la varianza è misurata nel quadrato delle unità dei dati originali. Questo è visivamente confuso. Invece, spesso la deviazione standard è abbastanza utile. Ma non ha senso sprecare alcuno sforzo, poiché la deviazione standard è determinata dalla radice quadrata della varianza. Ecco perché la varianza del campione è scritta come e la deviazione standard di un campione è.
    • Ad esempio, la deviazione standard del campione precedente = s = √33,2 = 5,76.
    annuncio pubblicitario

Metodo 2 di 2: calcola la varianza di una popolazione

  1. A partire dal set di dati principali. Il termine "popolazione" viene utilizzato per fare riferimento a tutte le osservazioni rilevanti. Ad esempio, se stai cercando l'età dei residenti di Hanoi, la tua popolazione complessiva includerà l'età di tutti gli individui che vivono ad Hanoi. Di solito creeresti un foglio di calcolo per un set di dati di grandi dimensioni come questo, ma ecco un set di dati di esempio più piccolo:
    • Per esempio: Nella stanza di un acquario ci sono esattamente sei acquari. Questi sei serbatoi contengono il seguente numero di pesci:





  2. Annota la formula per la varianza complessiva. Poiché una popolazione contiene tutti i dati di cui abbiamo bisogno, questa formula ci fornisce la varianza esatta della popolazione. Per distinguerla dalla varianza campionaria (che è solo una stima), gli statistici utilizzano altre variabili:
    • σ = /n
    • σ = varianza campionaria. Questa è la salsiccia normalmente quadrata. La varianza è misurata in unità quadrate.
    • rappresenta un elemento nel tuo set di dati.
    • L'elemento in ∑ viene calcolato per ogni valore e quindi aggiunto.
    • μ è la media complessiva.
    • n è il numero di punti dati nella popolazione.
  3. Trova la media della popolazione. Quando si analizza una popolazione, il simbolo μ ("mu") rappresenta la media aritmetica. Per trovare la media, somma tutti i punti dati, quindi dividi per il numero di punti.
    • Puoi pensare al significato come "medio", ma fai attenzione, perché la parola ha molte definizioni matematiche.
    • Per esempio: valore medio = μ = = 10,5
  4. Sottrai la media da ogni punto dati. I punti dati più vicini alla media hanno una differenza più vicina a zero. Ripeti il ​​problema della sottrazione per tutti i punti dati e probabilmente inizierai a sentire la dispersione dei dati.
    • Per esempio:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 - 10., = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5
  5. Piazza ogni segno. A questo punto, alcuni risultati ottenuti dal passaggio precedente saranno negativi e alcuni saranno positivi.Se i dati devono essere visualizzati su una linea isometrica, questi due elementi rappresentano i numeri a sinistra ea destra della media. Ciò non sarebbe di alcuna utilità nel calcolo della varianza, poiché questi due gruppi si annullerebbero a vicenda. Invece, quadrali tutti in modo che siano tutti positivi.
    • Per esempio:
      (- μ) per ogni valore di io va da 1 a 6:
      (-5,5) = 30,25
      (-5,5) = 30,25
      (-2,5) = 6,25
      (1,5) = 2,25
      (4,5) = 20,25
      (7,5) = 56,25
  6. Trova la media dei tuoi risultati. Ora hai un valore per ogni punto dati, correlato (non direttamente) a quanto è lontano quel punto dati dalla media. Calcola la media sommandoli e dividendoli per il numero di valori che hai.
    • Per esempio:
      Varianza complessiva = 24,25
  7. Contatta la ricetta. Se non sei sicuro di come questo si adatti alla formula delineata all'inizio del metodo, annota l'intero problema a mano e non abbreviare:
    • Dopo aver trovato la differenza tra la media e il quadrato, hai (- μ), (- μ) e così via fino a (- μ), dove si trova l'ultimo punto dati. nel set di dati.
    • Per trovare la media di questi valori, sommali e dividi per n: ((- μ) + (- μ) + ... + (- μ)) / n
    • Dopo aver riscritto il numeratore con la notazione sigmoidea, hai /n, varianza della formula.
    annuncio pubblicitario

Consigli

  • Poiché la varianza è difficile da interpretare, questo valore viene spesso calcolato come punto di partenza per trovare la deviazione standard.
  • Usare "n-1" invece di "n" al denominatore è una tecnica chiamata correzione di Bessel. Il campione è solo una stima di una popolazione completa e la media del campione ha un certo bias per corrispondere a quella stima. Questa correzione elimina il bias di cui sopra. Riguarda il fatto che una volta enumerati n - 1 punti dati, l'ultimo punto n era una costante, perché solo alcuni valori sono stati utilizzati per calcolare la media del campione (x̅) nella formula della varianza.