Come calcolare le emissioni

Autore: Janice Evans
Data Della Creazione: 23 Luglio 2021
Data Di Aggiornamento: 1 Luglio 2024
Anonim
Ecopillola n. 9 - Come calcolare le emissioni di co2
Video: Ecopillola n. 9 - Come calcolare le emissioni di co2

Contenuto

Nelle statistiche, i valori anomali sono valori che differiscono nettamente dagli altri valori nel set di dati raccolti. Un outlier può indicare anomalie nella distribuzione dei dati o errori di misurazione, quindi gli outlier sono spesso esclusi dal set di dati. Eliminando i valori anomali dal set di dati, puoi giungere a conclusioni inaspettate o più accurate. Pertanto, è necessario essere in grado di calcolare e stimare valori anomali per garantire una corretta comprensione delle statistiche.

Passi

  1. 1 Impara a riconoscere i potenziali outlier. I potenziali outlier dovrebbero essere identificati prima di escluderli dall'insieme di dati. Gli outlier sono valori molto diversi dalla maggior parte dei valori nel set di dati; in altre parole, gli outlier sono al di fuori del trend della maggior parte dei valori. Questo è facile da trovare nelle tabelle dei valori o (soprattutto) nei grafici. Se i valori nel set di dati vengono tracciati, i valori anomali saranno lontani dalla maggior parte degli altri valori. Se, ad esempio, la maggior parte dei valori cade su una linea retta, i valori anomali si trovano su entrambi i lati di tale linea retta.
    • Ad esempio, considera un set di dati che rappresenta le temperature di 12 oggetti diversi in una stanza. Se 11 oggetti sono di circa 70 gradi, ma il dodicesimo oggetto (possibilmente una fornace) è di 300 gradi, una rapida occhiata ai valori può indicare che la fornace è un probabile scoppio.
  2. 2 Ordina i dati in ordine crescente. Il primo passo per determinare i valori anomali è calcolare la mediana del set di dati. Questa attività è notevolmente semplificata se i valori nel set di dati sono disposti in ordine crescente (dal più piccolo al più grande).
    • Continuando con l'esempio precedente, considera il seguente set di dati che rappresenta le temperature di più oggetti: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Questo set deve essere ordinato come segue: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Calcola la mediana del set di dati. La mediana di un set di dati è il valore al centro del set di dati. Se il set di dati contiene un numero dispari di valori, la mediana è il valore prima e dopo il quale c'è lo stesso numero di valori nel set di dati. Ma se il set di dati contiene un numero pari di valori, allora devi trovare la media aritmetica delle due medie. Si noti che quando si calcolano i valori anomali, la mediana viene solitamente indicata come Q2, poiché si trova tra Q1 e Q3, i quartili inferiore e superiore, che definiremo in seguito.
    • Non aver paura di lavorare con set di dati che hanno un numero pari di valori: la media aritmetica delle due medie sarà un numero che non è nel set di dati; E 'normale. Ma se i due valori medi sono lo stesso numero, allora la media aritmetica è uguale a questo numero; anche questo è nell'ordine delle cose.
    • Nell'esempio sopra, i 2 valori centrali sono 70 e 71, quindi la mediana è ((70 + 71) / 2) = 70,5.
  4. 4 Calcola il quartile inferiore. Questo valore, denominato Q1, è al di sotto del quale si trova il 25% dei valori del set di dati. In altre parole, è la metà dei valori fino alla mediana. Se c'è un numero pari di valori dal set di dati prima della mediana, devi trovare la media aritmetica delle due medie per calcolare Q1 (questo è simile al calcolo della mediana).
    • Nel nostro esempio, 6 valori si trovano dopo la mediana e 6 valori - prima di essa. Ciò significa che per calcolare il quartile inferiore, dobbiamo trovare la media aritmetica delle due medie dei sei valori che precedono la mediana. Qui i valori medi sono 70 e 70. Pertanto, Q1 = ((70 + 70) / 2) = 70.
  5. 5 Calcola il quartile superiore. Questo valore, denominato Q3, è al di sopra del quale si trova il 25% dei valori del set di dati. Il processo per calcolare Q3 è simile al processo per calcolare Q1, ma qui vengono considerati i valori dopo la mediana.
    • Nell'esempio sopra, le due medie dei sei dopo la mediana sono 71 e 72. Quindi Q3 = ((71 + 72) / 2) = 71,5.
  6. 6 Calcola l'intervallo interquartile. Dopo aver calcolato Q1 e Q3, è necessario trovare la distanza tra questi valori. Per fare ciò, sottrarre Q1 da Q3. Il valore dell'intervallo interquartile è estremamente importante per determinare i confini dei valori che non sono valori anomali.
    • Nel nostro esempio, Q1 = 70 e Q3 = 71,5. L'intervallo interquartile è 71,5 - 70 = 1,5.
    • Si noti che questo vale anche per i valori Q1 e Q3 negativi. Ad esempio, se Q1 = -70, l'intervallo interquartile è 71,5 - (-70) = 141,5.
  7. 7 Trova i "confini interni" dei valori nel set di dati. I valori anomali sono determinati analizzando i valori, indipendentemente dal fatto che rientrino o meno nei cosiddetti "confini interni" e "confini esterni". Un valore al di fuori dei "limiti interni" è classificato come "outlier minore", mentre un valore al di fuori dei "limiti esterni" è classificato come "outlier significativo". Per trovare i confini interni, devi moltiplicare l'intervallo interquartile per 1,5; il risultato va aggiunto a Q3 e sottratto a Q1. I due numeri trovati sono i limiti interni del set di dati.
    • Nel nostro esempio, l'intervallo interquartile è (71,5 - 70) = 1,5. Inoltre: 1,5 * 1,5 = 2,25. Questo numero deve essere aggiunto a Q3 e sottratto da Q1 per trovare i limiti interni:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Pertanto, i confini interni sono 67,75 e 73,75.
    • Nel nostro esempio, solo la temperatura del forno - 300 gradi - si trova al di fuori di questi limiti e può essere considerata un'emissione insignificante. Ma non saltare alle conclusioni: dobbiamo determinare se questa temperatura è un valore anomalo significativo.
  8. 8 Trova i "confini esterni" del set di dati. Questo viene fatto allo stesso modo dei confini interni, tranne per il fatto che l'intervallo interquartile viene moltiplicato per 3 invece di 1,5. Il risultato deve essere aggiunto a Q3 e sottratto da Q1. I due numeri trovati sono i limiti esterni del set di dati.
    • Nel nostro esempio, moltiplica l'intervallo interquartile per 3: 1,5 * 3 = 4,5. Calcola i limiti esterni:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Quindi i confini esterni sono 65,5 e 76.
    • Eventuali valori che cadono al di fuori dei confini esterni sono considerati emissioni significative. Nel nostro esempio, una temperatura del forno di 300 gradi è considerata uno scoppio significativo.
  9. 9 Utilizzare una stima qualitativa per determinare se i valori anomali devono essere esclusi dal set di dati. Il metodo sopra descritto consente di determinare se alcuni valori sono valori anomali (minori o significativi). Tuttavia, non commettere errori: un valore classificato come outlier è solo un "candidato" per un'eccezione, il che significa che non è necessario escluderlo. La causa dell'outlier è il principale fattore che influenza la decisione di escludere l'outlier. Di norma sono esclusi gli outlier che si verificano a causa di errori (nelle misurazioni, nelle registrazioni, ecc.). D'altra parte, i valori anomali associati non agli errori ma a nuove informazioni o tendenze vengono solitamente lasciati nel set di dati.
    • È altrettanto importante valutare l'effetto dei valori anomali sulla mediana del set di dati (se lo distorcono o meno). Ciò è particolarmente importante quando si traggono conclusioni dalla mediana di un set di dati.
    • Nel nostro esempio, è estremamente improbabile che il forno si riscaldi fino a una temperatura di 300 gradi (a meno che non si tenga conto delle anomalie naturali). Pertanto, si può concludere (con un alto grado di certezza) che tale temperatura è un errore di misurazione che deve essere escluso dal set di dati. Inoltre, se non si esclude il valore anomalo, la mediana del set di dati sarà (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 gradi, ma se si esclude il valore anomalo, la mediana sarà (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 gradi.
      • Gli outlier sono solitamente il risultato di un errore umano, quindi gli outlier devono essere esclusi dai set di dati.
  10. 10 Comprendi l'importanza dei (a volte) valori anomali rimasti nel set di dati. Alcuni outlier dovrebbero essere esclusi dal dataset in quanto dovuti a errori e problemi tecnici; altri valori anomali dovrebbero essere lasciati nel set di dati. Se, ad esempio, un outlier non è il risultato di un errore e/o fornisce una nuova comprensione del fenomeno in esame, allora dovrebbe essere lasciato nel dataset. Gli esperimenti scientifici sono particolarmente sensibili agli outlier: eliminando erroneamente un outlier, potresti perdere qualche nuova tendenza o scoperta.
    • Ad esempio, stiamo sviluppando un nuovo farmaco per aumentare le dimensioni dei pesci nella pesca. Useremo il vecchio dataset ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), ma questa volta ogni valore rappresenterà il peso del pesce (in grammi) dopo l'ingestione del farmaco sperimentale. In altre parole, il primo farmaco porta ad un aumento del peso del pesce fino a 71 g, il secondo farmaco - fino a 70 g e così via. In questa situazione, 300 è un valore anomalo significativo, ma non dobbiamo escluderlo; se assumiamo che non ci siano stati errori di misurazione, allora un tale valore anomalo è un successo significativo nell'esperimento. Il farmaco, che ha aumentato il peso del pesce a 300 grammi, funziona molto meglio di altri farmaci; quindi 300 è il valore più importante nel set di dati.

Consigli

  • Quando vengono rilevati valori anomali, provare a spiegare la loro presenza prima di escluderli dal set di dati. Possono indicare errori di misura o anomalie di distribuzione.

Di che cosa hai bisogno

  • Calcolatrice