Calcola valori anomali

Autore: Charles Brown
Data Della Creazione: 8 Febbraio 2021
Data Di Aggiornamento: 1 Luglio 2024
Anonim
Calculating Possible Outliers
Video: Calculating Possible Outliers

Contenuto

UN valore anomalo o valore anomalo nelle statistiche è un punto dati che differisce in modo significativo dagli altri punti dati in un campione. Spesso, i valori anomali indicano discrepanze o errori nelle misurazioni agli statistici, dopodiché possono rimuovere il valore anomalo dal set di dati. Se scelgono effettivamente di rimuovere i valori anomali dal set di dati, potrebbe produrre cambiamenti significativi nelle conclusioni tratte dallo studio. Questo è il motivo per cui è importante calcolare e determinare i valori anomali se si desidera interpretare correttamente i dati statistici.

Al passo

  1. Scopri come individuare possibili valori anomali. Prima di poter decidere se rimuovere valori anomali da un particolare set di dati, dobbiamo ovviamente prima identificare i possibili valori anomali nel set di dati. In generale, i valori anomali sono i punti dati che si discostano in modo significativo dalla tendenza che forma gli altri valori nell'insieme, in altre parole, sparare degli altri valori. Di solito è facile riconoscerlo nelle tabelle e (soprattutto) nei grafici. Se il set di dati viene rappresentato graficamente, i valori anomali saranno "lontani" dagli altri valori. Ad esempio, se la maggior parte dei punti in un set di dati formano una linea retta, i valori anomali non saranno conformi a questa linea.
    • Diamo un'occhiata a un set di dati che mostra le temperature di 12 diversi oggetti in una stanza. Se la temperatura di 11 oggetti oscilla di pochi gradi al massimo intorno ai 21 ° C, mentre un oggetto, un forno, ha una temperatura di 150 ° C, si può vedere a colpo d'occhio che il forno è probabilmente un valore anomalo.
  2. Ordina tutti i punti dati dal più basso al più alto. Il primo passaggio nel calcolo dei valori anomali è trovare il valore mediano (o il valore medio) del set di dati. Questa operazione diventa molto più semplice se i valori nell'insieme sono in ordine dal più basso al più alto. Quindi, prima di continuare, ordina i valori nel tuo set di dati in questo modo.
    • Continuiamo con l'esempio sopra. Ecco il nostro set di dati che mostra le temperature in gradi Fahrenheit di diversi oggetti in una stanza: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Se ordiniamo i valori dell'insieme dal più basso al più alto, questo diventa il nostro nuovo insieme: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Calcola la mediana del set di dati. La mediana di un set di dati è il punto dati in cui metà dei dati si trova al di sopra di esso e metà dei dati si trova al di sotto di esso: è, in effetti, il "centro" del set di dati. Se il set di dati contiene un numero dispari di punti, la mediana è facile da trovare: la mediana è il punto con tanti punti sopra come sotto. Se c'è un numero pari di punti, perché non c'è un centro, devi prendere la media dei due punti centrali per trovare la mediana. Quando si calcolano i valori anomali, la mediana viene solitamente indicata dalla variabile Q2, perché si trova tra Q1 e Q3, il primo e il terzo quartile. Determineremo queste variabili in seguito.
    • Non lasciarti confondere dai set di dati con un numero pari di punti: la media dei due punti intermedi è spesso un numero che non è nel set di dati stesso - questo va bene. Tuttavia, se i due punti intermedi sono gli stessi, la media sarà ovviamente anche questo numero - anche questo lo è Va bene.
    • Nel nostro esempio abbiamo 12 punti. I due termini centrali sono rispettivamente i punti 6 e 7 - 70 e 71. Quindi la mediana del nostro set di dati è la media di questi due punti: ((70 + 71) / 2) =70,5.
  4. Calcola il primo quartile. Questo punto, che indichiamo con la variabile Q1, è il punto dati al di sotto del quale giace il 25 percento (o un quarto) delle osservazioni. In altre parole, questo è il centro di tutti i punti nel tuo set di dati sotto la mediana. Se c'è un numero pari di valori al di sotto della mediana, devi di nuovo prendere la media dei due valori medi per trovare Q1, come avresti potuto fare per determinare tu stesso la mediana.
    • Nel nostro esempio, sei punti sono sopra la mediana e sei punti sotto di essa. Quindi per trovare il primo quartile dobbiamo prendere la media dei due punti centrali negli ultimi sei punti. I punti 3 e 4 degli ultimi sei sono entrambi 70, quindi la loro media è ((70 + 70) / 2) =70. Quindi il nostro valore per Q1 è 70.
  5. Calcola il terzo quartile. Questo punto, che indichiamo con la variabile Q3, è il punto dati al di sopra del quale si trova il 25% dei dati. Trovare Q3 è praticamente uguale a trovare Q1, tranne che in questo caso stiamo esaminando i punti sopra la mediana.
    • Continuando con l'esempio sopra, vediamo che i due punti centrali dei sei punti sopra la mediana sono 71 e 72. La media di questi due punti è ((71 + 72) / 2) =71,5. Quindi il nostro valore per il terzo trimestre è 71,5.
  6. Trova l'intervallo interquartile. Ora che abbiamo determinato Q1 e Q3 dobbiamo calcolare la distanza tra queste due variabili. Puoi trovare la distanza tra Q1 e Q3 sottraendo Q1 da Q3. Il valore che ottieni per l'intervallo interquartile è cruciale per determinare i limiti per i punti non devianti nel tuo set di dati.
    • Nel nostro esempio, i valori per Q1 e Q3 sono rispettivamente 70 e 71,5. Per trovare l'intervallo interquartile, calcoliamo Q3 - Q1: 71,5 - 70 =1,5.
    • Funziona anche se Q1, Q3 o entrambi i numeri sono negativi. Ad esempio, se il nostro valore per Q1 fosse -70, l'intervallo interquartile sarebbe 71,5 - (-70) = 141,5, che è corretto.
  7. Trova i "limiti interni" del set di dati. È possibile riconoscere i valori anomali determinando se rientrano in un numero di limiti numerici; i cosiddetti "limiti interni" e "limiti esterni". Un punto che non rientra nei limiti interni del set di dati viene classificato come uno valore anomalo lievee un punto al di fuori dei limiti esterni è classificato come uno valore anomalo estremo. Per trovare i confini interni del tuo set di dati, moltiplica prima l'intervallo interquartile per 1,5. Aggiungi il risultato a Q3 e sottrailo da Q1. I due risultati sono i limiti interni del tuo set di dati.
    • Nel nostro esempio, l'intervallo interquartile è (71,5 - 70) o 1,5. Moltiplicalo per 1,5 per ottenere 2,25. Aggiungiamo questo numero a Q3 e lo sottraiamo da Q1 per trovare i confini interni come segue:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Quindi i confini interni sono 67,75 e 73,75.
    • Nel nostro set di dati, solo la temperatura del forno - 300 gradi Fahrenheit - è al di fuori di questo intervallo. Quindi questo potrebbe essere un lieve valore anomalo. Tuttavia, dobbiamo ancora determinare se questa temperatura sia un valore anomalo estremo, quindi non saltiamo ancora alle conclusioni.
  8. Trova i "limiti esterni" del set di dati. Lo fai nello stesso modo dei limiti interni, con l'unica differenza che moltiplichi la distanza interquartile per 3 invece di 1,5. Aggiungere quindi il risultato a Q3 e sottrarre da Q1 per trovare i valori limite esterni.
    • Nel nostro esempio, moltiplichiamo la distanza interquartile per 3 per ottenere (1,5 * 3) o 4,5. Ora possiamo trovare i limiti esterni allo stesso modo dei limiti interni:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Quindi i limiti esterni sono 65.5 e 76.
    • I punti dati che si trovano al di fuori dei confini esterni sono considerati valori anomali estremi. Nel nostro esempio, la temperatura del forno, 300 gradi Fahrenheit, è ben oltre i limiti esterni. Quindi la temperatura del forno è certamente un valore anomalo estremo.
  9. Utilizzare una valutazione qualitativa per determinare se è necessario "eliminare" i valori anomali. Con il metodo sopra è possibile determinare se alcuni punti sono valori anomali lievi, valori anomali estremi o nessun valore anomalo. Ma non commettere errori: riconoscere un punto come un valore anomalo lo rende solo uno candidato da rimuovere dal set di dati e non immediatamente un punto che viene rimosso dovere trasformarsi in. Il Motivo il motivo per cui un valore anomalo differisce dal resto dei punti dell'insieme è fondamentale per determinare se il valore anomalo debba essere rimosso. Generalmente, i valori anomali causati da qualche errore, ad esempio un errore nelle misurazioni, nelle registrazioni o nel disegno sperimentale, vengono rimossi. Al contrario, i valori anomali che non sono causati da errori e che rivelano informazioni o tendenze nuove e impreviste di solito diventano non cancellato.
    • Un altro criterio da considerare è se i valori anomali influenzano la media di un set di dati in modo distorto o fuorviante. Ciò è particolarmente importante se prevedi di trarre conclusioni dalla media del tuo set di dati.
    • Giudichiamo il nostro esempio. Dal momento che il più alta È improbabile che il forno abbia raggiunto una temperatura di 300 ° F a causa di una forza imprevista della natura, nel nostro esempio possiamo concludere con quasi il 100% di certezza che il forno è stato acceso accidentalmente, provocando una lettura della temperatura anormalmente alta. Inoltre, se non rimuoviamo il valore anomalo, la media del nostro set di dati risulta essere (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, mentre la media senza il valore anomalo risulta a (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Poiché il valore anomalo è stato causato da un errore umano e poiché non è corretto affermare che la temperatura ambiente media era prossima a 32 ° C, dobbiamo scegliere di utilizzare il nostro valore anomalo. rimuovere.
  10. Comprendi l'importanza di (a volte) mantenere i valori anomali. Mentre alcuni valori anomali dovrebbero essere rimossi da un set di dati perché sono il risultato di errori o perché distorcono i risultati in modo fuorviante, altri valori anomali dovrebbero essere preservati. Ad esempio, se un valore anomalo è stato ottenuto correttamente (e quindi non il risultato di un errore) e / o se il valore anomalo offre una nuova visione del fenomeno da misurare, non dovrebbe essere rimosso immediatamente. Gli esperimenti scientifici sono situazioni particolarmente delicate quando si tratta di gestire valori anomali: rimuovere erroneamente un valore anomalo può significare buttare via informazioni importanti su una nuova tendenza o scoperta.
    • Ad esempio, immagina di progettare un nuovo farmaco per far crescere il pesce in un allevamento ittico. Usiamo il nostro vecchio set di dati ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), con la differenza che ogni punto ora rappresenta la massa di un pesce (in grammi ) dopo il trattamento con un altro farmaco sperimentale dalla nascita. In altre parole, il primo farmaco ha dato a un pesce una massa di 71 grammi, il secondo ha dato a un altro pesce una massa di 70 grammi e così via. In questa situazione, 300 ancora un valore anomalo enorme, ma non dovremmo rimuoverlo ora. Perché, se assumiamo che il valore anomalo non sia il risultato di un errore, rappresenta un grande successo nel nostro esperimento. Il farmaco che ha prodotto un pesce di 300 grammi ha funzionato meglio di qualsiasi altro farmaco, quindi è questo maggior parte punto dati importante nel nostro set, invece del meno punto dati importante.

Suggerimenti

  • Se trovi valori anomali, prova a spiegarli prima di rimuoverli dal set di dati; possono indicare errori di misura o deviazioni nella distribuzione.

Necessità

  • Calcolatrice