Datautjämningsdefinition och exempel |
Innehållsförteckning:
Vad det är:
Datautjämning är en statistisk teknik som innebär att borttagare av en datamängd ska avlägsnas för att göra ett mönster mer synligt.
Hur det fungerar (Exempel):
Låt oss till exempel säga att ett universitet analyserar sina brottsdata under de senaste 10 åren. Antalet våldsbrott ser något ut så här:
Som du kan se, upplever universitetet oftast färre än 15 brott per år. Under 2006 och 2007 upplevde han emellertid 44 på grund av ett experimentellt rapporteringsbehov av universitetets säkerhetslag. Rapporteringsexperimentet ändrade definitionen av våldsbrottslighet för att inkludera stöld av något slag under dessa år, vilket skapade ett stort hopp i antalet "våldsamma" brott på campus. Om vi inkluderar dessa år i medelvärdet - det vill säga om vi gör några datautjämningar - upplevde universitetet i genomsnitt cirka 19 våldsbrott per år. Men om vi lämnar de här åren kan vi se att ett mer realistiskt medelvärde är 13 våldsbrott per år - en skillnad på 32%.
Varför det är saker:
Det finns många sätt att jämföra data, inklusive att flytta medelvärden och algoritmer. Tanken är att datautjämning gör mönster mer synliga och därmed hjälper till att förutse förändringar i aktiekurser, kundtrender eller annan affärsinformation. Datautjämning kan dock förbise viktig information eller göra viktiga fakta mindre synliga; Med andra ord kan "avrundning av kanterna" av data överfatta vissa uppgifter och ignorera andra data.