Statistika pro geografy 2
správnost
· blízkost naměřených hodnot ke skutečné hodnotě
percentil a decil
· decil: v prvním decilu -> v 10 % nejlepších studentů · percentil: v prvním percentilu -> v 1% nejlepších výsledků
nominální znak
· prosté třídění dat
ordinální znak
· prosté třídění dat
bimodální histogram
· relativní četnost
multimodální histogram
· relativní četnost
rovnoměrný, uniformní histogram
· relativní četnost
variační koeficient
· relativní/normovaná charakteristika variability · nezávislá na měřítku (jednotkách měření) · uvádí se často v procentech (po vynásobení stem) · umožňuje porovnat variabilitu různých souborů (používajících různé jednotky nebo majících hodnoty v různých řádech) -> rozptýlenost rozdílných jevů (porovnat teplotu a srážky...) -> porovnání vývoje rozptýlenosti v čase · když jsou veličiny, které jdou do záporných hodnot (přes 0) -> variační koeficient nepočítám!!!
důležité aspekty měření
· relevance · validita · reliabilita · senzitivita · specificita · přesnost · správnost
geografický střed
· reprezentace polohy statistického souboru v prostoru bodem, který charakterizuje rozmístění jevu · souřadnice = vážený průměr souřadnic prvků souboru
charakteristiky tvaru
· reprezentace tvaru rozdělení hodnot statistického znaku jedním číslem · odchylka v rozložení četností hodnot oproti danému referenčnímu rozdělení četností (obvykle normálnímu)
absolutní přírůstek (diference)
· rozdíl dvou po sobě následujících hodnot časové řady
typy statistických charakteristik
· rozdělení podle hromadných vlastností, které popisují: a) charakteristiky polohy (středu, centrality) b) charakteristiky rozptýlenosti (proměnlivost, variability) c) charakteristiky tvaru
specificita
· schopnost měření (testu) dávat negativní odpověď, jestliže daný objekt nemá příslušnou vlastnost · schopnost testu přesně vybrat případy, u nichž zkoumaný znak (nemoc) nenastává
variační řada
· seřazená data x obtížní poznání hromadných vlastností -> tabulka (třídních) četností
základní soubor - populace
· soubor všech prvků, které na základě vymezené vlastnosti mohou teoreticky být předmětem sledování (rozsah = N)
statistický soubor
· souhrn statistických jednotek · př. kraje; vodní toky; žáci
reliabilita
· spolehlivost výzkumného nástroje, tedy schopnost dosahovat při opakovaném měření za stejných podmínek stejné výsledky · př. teploměr by měl ve stejných podmínkách udávat stejnou teplotu; každý test připraveným učitelem by měl ověřit připravenost studenta
analýza prostorových dat
· statistický software · variabilita dat bez ohledu na informace o jejich lokalizaci
prosté třídění dat
· tabulka četností: - absolutní četnost - relativní četnost - kumulativní absolutní četnost - kumulativní relativní četnost · grafické vyjádření četností: - sloupcový graf - pruhový graf - výsečový (kruhový, koláčový) graf
přesnost
· vzájemná blízkost naměřených hodnot
vážený průměr
· výpočet pomocí četností (n) - výsledek stejný jako aritmetický -> suma kolikrát je určité číslo zastoupeno v souboru · výpočet obecný s nezápornými váhami (w) · Pravda: Průměrná rozloha okresů Česka vážená počtem obyvatel je nižší než standardní průměrná rozloha okresů.
symetrický, unimodální histogram
· četnost
postup zpracování dat
1) zjistit měřítko proměnné a jakých hodnot dosahuje (maximum a minimum) 2) vyberat prosté X intervalové třídění 3) určit kolik bude mít tabulka řádků - jednotlivých tříd 4) určit rozpětí jednotlivých tříd a meze intervalů 5) vypočítat, kolik statistických jednotek (pozorování, prvků) patří do každé třídy
prostorová data
= data mající atributovou, tak prostorovou složku Povaha prostorových dat: a) reálný svět je tvořen souborem entit lokalizovaných v prostoru · prostorová statistika -> analýza objektů · "object" view - vektorová data diskrétní veličina · typy prostorových objektů: - body (souřadnice - sídla, obchody, místa činu, nehody) - linie (spojnice bodů - silniční síť, vedení technické infrastruktury) - polygony (ohraničená plocha liniemi - okresy, města) b) reálný svět má vlastnosti, které se proměňují kontinuálně v prostoru · geostatistika -> analýza polí · "field" view - rastrová data spojitá veličina
Pokud jsou absolutní přírůstky časové řady kladné, jsou relativní přírůstky této řady vyšší než 100. (Pravda/Nepravda)
Nepravda
vlastnosti objektu (jevy, procesy)
a) přímo pozorovatelné/měřitelné b) měřitelné nepřímo pomocí indikátorů
statistický popis dat
i. řazení dat ii. prosté nebo intervalové třídění dat iii. statistický popis dar · Pro správný statistický popis a zhodnocení jakéhokoliv statistického souboru je nutné použít charakteristiky všech tří typů (polohy, variability a tvaru), protože každá z nich popisuje soubor z jiného hlediska. Je tedy zcela nesprávné používat například "izolovaně" jen aritmetický průměr bez dalších údajů o souboru, který reprezentuje.
průměrný absolutní přírůstek (diference)
· (poslední hodnota - první hodnota) / n-1
směrodatná odchylka
· = odmocnina z rozptylu -> vrací výsledek do jednotek měření · rozměr směrodatné odchylky je stejný jako rozměr statistické proměnné (hlavní výhoda oproti rozptylu pro účely popisné statistiky)
prostorvá analáza dat
· GIS software · prostorová variabilita = variabilita dat napříč mapou => využití prostorového aspektu dat
rozklad Theilova indexu
· Theilův index (T) = relativní míra variability umožňující bezezbytkový rozklad celkové variability na složku mez-skupinovou (TB) a složku vnitro-skupinovou (Tw) · čím vyšší hodnota, tím vyšší rozptýlenost · relativní regionální nerovnoměrnost - rozklad ukazuje jako moc je daná regionální úroveň významná pro diferenciaci sledovaného jevu · 77 % veškeré variability je na úrovni okresní · důležité pro určení, která regionální úroveň je pro danou oblast nejlepší
metody klasifikace řad
· Volba počtu tříd a intervalů pro histogram úzce souvisí s metodami klasifikace dat pro účely zobrazování dat v mapě (například určení mezí intervalů pro kartogram). • Nejčastěji se využívá rozdělení dat do 4 až 7 tříd. • Existuje mnoho standardních metod klasifikace dat: - ručně (Manual) - přirozené hranice (Natural Breaks) - shodné intervaly (Equal Interval) - kvantily (Quantile) - směrodatná odchylka (Standard Deviation)
míry dynamiky časové řady
· absolutní přírůstek (diference) · průměrný absolutní přírůstek (diference) - aritmetický průměr · relativní přírůstek · koeficient růstu (tempo růstu) - x 100 · průměrný koeficient (tempo růstu) - geometrický průměr ! t = 2, 3, ..., n
dělení časové řady podle druhu sledovaných ukazatelů
· absolutní vs. relativní - počty, vlastní hodnoty, ... · odvozené - kumulativní hodnoty, ...
metody klasifikace řad - shodné intervaly (Equal Interval)
· celkové rozpětí hodnot děleno počet intervalů · max-min/počet intervalů -> intervaly jsou stejně dlouhé · vhodná pouze, když data nejsou sešikmená
popisná (deskriptivní) statistika
· cíl: podrobný průzkum a popis dostupných dat (číselně, graficky) · závěry: platí pouze pro pozorování, jež byla k dispozici (studovaný statistický soubor)
inferenční statistika (statistická indukce)
· cíl: získat informace týkající se populace na základě dat z výběru · závěry: platí pro větší skupinu jedinců (populací) nebo širší třídu okolností
metadata
· data o datech · strukturovaná dat, která nesou informace o primárních datech - definice, proces sběru, měřící přístroj/postup, časový a prostorový aspekt atd.
dělení časové řady dle periodicity
· dlouhodobé - jeden rok nebo více - roční · krátkodobé - kratší něž jeden rok - čtvrtletní - měsíční - týdenní - denní
dolní a horní kvartil
· dolní kvartil = Q1 = x0,25 - hodnota, která odděluje 1/4 jednotek s nejnižšími hodnotami; a vyšší hodnotu než je dolní kvartil má 75 % souboru · horní kvartil = Q3 = x0,75 - pod tuto a nižší hodnotu má 75 % jednotek souboru · Nepravda: Horní kvartil má vždy vyšší hodnotu než dolní kvartil.
krabicový diagram (box plot)
· grafické znázornění rozdělení souboru · "krabice" je ohraničena dolním a horním kvartilem, uvnitř je znázorněn medián · "tykadla" sahají od bližšího kvartilu k co nejvzdálenějšímu pozorování, které je od bližšího kvartilu vzdáleno maximálně 1,5*(Q3 -Q1 ) · odlehlá pozorování (kruh) > 1,5*(Q3 -Q1 ) · extrémní hodnoty (hvězdička) > 3*(Q3 -Q1 ) · hodnoty potřebné pro konstrukci krabicového diagramu: - minimum - maximum - medián - horní kvartil - dolní kvartil
Lorenzův oblouk
· hodnocení nerovnoměrnosti rozdělení/rozmístění jevu · př. rozmístění bohatství ve společnosti; rozmístění obyvatelstva v prostoru · konstrukce LO 1. seřazení hodnot podle koncentrace jevu od nejmenšího po největší 2. vynesení kumulativních podílů do x-y bodového grafu => čím je Lorenzův oblouk více vyklenutější - dál od úhlopříčky tím je rozdělení nerovnoměrnější
aritmetický průměr
· hodnota reprezentující všechny hodnoty souboru s nejmenší chybou · základní charakteristika polohy - "těžiště souboru" · pro kvantitativní znaky · obsahuje úplnou statistickou informaci (<- výpočet ze všech hodnot souboru) · nevhodný pro soubory s extrémními hodnotami => α-useknutý průměr - nejprve oddělení (useknutí) 100α % nejmenších a největších hodnot ze souboru a výpočet průměru ze zbylých hodnot
kvantil
· hodnota xp · p = 0-1 · př. x0,2 -> 20 % jednotek v uspořádaném souboru dat má hodnotu menší nebo rovnu tomuto kvantilu; a 80 % jednotek má hodnotu vyšší nebo rovnu · důležité mít uspořádaný soubor · pro kvantitativní znaky a kvalitativní znaky ordinálního měřítka · specifické typy kvantilu: - medián - dolní a horní kvartil - percentil a decil
statistický znak/proměná
· hodnoty statistických znaků, statistické proměnné = vlastnost statistické jednotky, kterou jsme schopni číselně nebo slovně popsat · na 1 jednotce obvykle zjišťujeme více znaků · př. HDP; srážky; počet obyvatel; jméno; pohlaví; průtok; známka; úmoří; délka
dělení časové řady dle časového hlediska
· intervalové - hodnota závisí na délce intervalu, za který je sledována (prostý součet; aritmetický průměr hodnot) - při porovnání se musí jednotlivé hodnoty vztahovat ke stejně dlouhým časovým intervalům -> přepočet na jednotkový interval - počet narozených za ... rok/měsíc/týden/den · okamžikové (stavové) - hodnota se vztahuje ke konkrétnímu časovému okamžiku - ke shrnování a průměrování nelze použít prostý součet a aritmetický průměr -> prostý chronologický průměr (v případě stejné vzdálenosti mezi okamžiky) - počet obyvatel k ... 1.1., 30.6., 31. 12.
hromadné jevy
· jevy, které se vyznačují velkými počty výskytů (hromadností) · mohou se v prostoru a čase opakovat · projev vlastností typické pro skupinu prvků · více pozorování -> míň vlivy jedinečnosti -> více vlivy společné - zákonité
poměrové měřítko
· kolikrát - podíly (/) · absolutní 0 = jev není · lze dělit, odečítat, porovnávat · př. věk; HDP; váha; teplota v Kelvinech; počet sourozenců
typy statistických znaků
· kvalitativní (kategoriální, slovní) a) alternativní - dichotomický, binární - pouze 2 kategorie - př. pohlaví; kuřák/nekuřák b) množný - více alternativ k výběru - místo narození; jméno; obor studia; povolání; barva očí · kvantitativní (numerický, číselný) a) diskrétní - př. počet sourozenců; počet pater budov b) spojitý - př. výška; HDP; váha
variační rozpětí
· max - min (udává šířku intervalu, v němž se nacházejí všechny hodnoty) · nejjednodušší, ale také nejhrubší míra variability
současný cíl kvantitativní geografie
· maximalizovat znalost o prostorových procesech se současnou minimalizací chyby
Lokalizační kvocient (LQ)
· míra územní koncentrace obyvatelstva (specializace průmyslu) · porovnává relativní koncentraci skupiny obyvatelstva (podíl zastoupení průmyslu) v určité územní jednotce vzhledem k relativnímu zastoupení jevu v celém území · umožňuje jednoduché srovnání vůči průměru hierarchicky vyšší územní jednotky · zobrazení hodnot LQi v mapě ve formě kartogramu · dosahuje pouze nezáporných hodnot
ekvidistantní časová řada
· měří ve stejně dlouhém časovém intervalu · př. řada denních hodnot -> za každý den máme údaj
medián
· nejznámější kvantil -> dělí soubor na dvě poloviny · prostřední hodnota souboru (ve variační řadě uprostřed) · pro n sudé: medián je průměr z dvou prostředních hodnot · vhodné využít: pokud se v souboru kvantitativních dat vyskytují odlehlé hodnoty
modus
· nejčastěji se vyskytující hodnota v souboru · pro kvantitativní i kvalitativní znaky, u spojitých statistických znaků se spíše využívá modální interval · nemá příliš velkou vypovídající schopnost · nemusí být určen jednoznačně · U všech statistických znaků obou ORP existuje mnoho modů, neboť u všech znaků se každá hodnota vyskytuje právě jednou.
standardizace směrodatnou odchylkou (z-standardizace)
· nejčastější způsob standardizace · výsledné standardizované hodnoty -> nulový průměr a jednotkový rozptyl - z-skóre -> vyjadřují, o kolik směrodatných odchylek se hodnoty odchýlily od průměru · použití v případech, kdy jsou statistické znaky měřené v odlišných jednotkách · kladné nebo záporné hodnoty, podle toho jestli jsou nad nebo pod průměrem · hodnoty, které mají 0 hodnotu ty mají průměrnou hodnotu souboru
měřítka statistických znaků
· nominální · ordinální · kardinální - intervalové - poměrové
relativní přírůstek
· o kolik % se zvedlo · kdyby došlo ke zdvojnásobená časové řady -> vyšlo by 100 %
intervalové měřítko
· o kolik - rozdíly (-) · 0 = dohoda · př. teplota ve °C; ročník narození
statistická jednotka
· objekt měření ·v rámci geografické databáze uvedeny v řádcích (obvykle) či sloupcích · př. kraj; vodní tok+ žák
validita
· platnost; schopnost měřit skutečně to, co bylo záměrem měřit · př. špatná volba otázek k požadovanému problému viz galerie
prostorová popisná statistika
· popis prostorového rozmístění prvků pomocí základních statistických charakteristik · kvantitativní měření charakteristik polohy a rozptýlenosti -> míry centrality: geografický střed, geografický medián -> míry variability: směrodatná vzdálenost, směrodatná elipsa
ordinální měřítko
· porovnání · VÍCE x MÉNĚ · =, ≠, <, > · př. míra spokojenosti; stupeň nejvyššího dosaženého vzdělání -> neschopnost hodnoty mezi sebou porovnat
standardizace dat
· použití: pokud chceme převést statistické znaky na stejné měřítko · bezrozměrné hodnoty -> nezáleží na skutečném rozměr (jednotkách) => umožňuje hodnocení vlastností nezávisle na poloze a variabilitě (tvar rozdělení) · ke standardizaci se používají statistiky odvozené z analyzovaného souboru dat (nejčastěji rozpětí a směrodatná odchylka s průměrem) · centrování = standardizace na průměr rovný nule - nemění se jednotky, ve kterých jsou znaky měřené, mění se jen poloha · standardizace rozpětí - převod hodnot znaků do intervalu 0-1 - použití, když znaky měřeny ve stejném měřítku, ale mezi hodnotami jsou velké rozdíly
absolutní četnost
· počet hodnot v souboru patřící do příslušné kategorie
kumulativní četnost
· počet hodnot v souboru, které jsou menší nebo rovny horní hranici příslušné kategorie
chyby při tvorbě histogramu
· počátky osy y v hodnotě 0 · zaokrouhlené meze intervalů · počet tříd - velikost intervalů · nestejně dlouhé intervaly
vyrovnání časové řady
· proces vyrovnání časové řady (vyrovnání periodických fluktuací a náhodných chyb) · dva způsoby vyrovnání/výpočtu: - analytický: klasický přístup k modelování trendové složky časové řady pomocí regrese -> prokládání křivkou - nalezení trendové funkce - mechanický: pokud nelze modelovat průběh časové řady jedinou matematicky definovanou křivkou s neměnnými parametry -> vyhlazení klouzavými průměry
směrodatná elipsa odchylek
· prostorové rozmístění jevů může vykazovat znaky směrovosti
dekompozice časové řady
· při analýze časových řad předpokládáme, že se řada skládá z několika složek, které mají jednodušší průběh než celá řada. Tyto složky je snazší modelovat samostatně a potom z nich zpětně složit model celé řady
Giniho koeficient koncentrace
· relativní míra variability nezávislá na průměru, ale na rozdílech mezi jednotlivými hodnotami (výpočet z Lorenzova oblouku) · hodnocení (ne)rovnoměrnosti rozmístění geografických jevů a rozdělení ekonomických jevů · G = 0 zcela rovnoměrné rozdělení/rozmístění (čím blíže k 0, tím rovnoměrnější) · G = 1 absolutní nerovnoměrnost/koncentrace v územní jednotce i širším území
relativní četnost
· relativní počet hodnot (%) v souboru spadající do příslušné kategorie
kumulativní relativní četnost
· relativní počet hodnot (%) v souboru, které jsou menší nebo rovny horní hranici příslušné kategorie
charakteristiky rozptýlenosti
· reprezentace rozptýlenosti hodnot statistického znaku jedním číslem · informace, jak se jednotlivé hodnoty liší navzájem nebo vzhledem ke střední hodnotě · nejsou ovlivněny polohou · absolutní (mají rozměr statistické proměnné) - rozpětí -> variační rozpětí -> kvantilové rozpětí - rozptyl -> směrodatná odchylka · relativní (bezrozměrné) -> umožňuje porovnávat souboru, které mají rozdílné statistické znaky měřené v jiných jednotkách - variační koeficient
směrodatná vzdálenost
· reprezentace rozptýlenosti statistického souboru v prostoru kružnicí vyjadřující míru variability dat kolem geografického středu · kružnice se středem v geografickém středu, jejíž poloměr je směrodatná odchylka je souřadnic prvků souboru · ! Směrodatná vzdálenost je analogií směrodatné odchylky v případě prostorových dat.
geografický medián
· reprezentace statistického souboru v prostoru čarou - rozdělení území na dvě poloviny z hlediska sledovaného jevu
charakteristiky polohy
· reprezentace střední hodnoty / úrovně hodnot statistického znaku jedním číslem · aritmetický průměr = hodnota reprezentující všechny hodnoty souboru s nejmenší chybou (α-useknutý průměr; vážený průměr) · medián = prostřední hodnota vzestupně uspořádaného souboru (dolní a horní kvartil; decily; percentily) · modus = nejčetnější hodnota souboru
senzitivita
· schopnost měření (testu) dávat pozitivní odpověď, jestliže daný objekt má příslušnou vlastnost · př. je-li osoba covid pozitivní test to odhalí
kvantitativní výzkum
· série etap -> v každém z nich se více či méně uplatňují statistické koncepty ·cíl: studovat hromadné jevy - 1) popsat 2) vysvětlit 3) predikovat
intervalové třídění dat
· tabulka třídních četností - volba vhodného počtu tříd (řádků) v tabulce četností - úplné pokrytí dat a zároveň nepřekrývání tříd - zaokrouhlení mezí intervalů - ponechání krajních intervalů otevřených - stejně dlouhé intervaly (ideálně) · grafické vyjádření třídních četností - histogram - frekvenční křivka (polygon)
tabulka (třídních) četností
· tříděný soubor · jednotlivá data jsou tříděná do kategorií, resp. tříd · částečné zpřehlednění dat
kvantilové rozpětí
· udávají šířku intervalu, ve které leží X % (50 %, 80 % či 98 %) prostředních hodnot uspořádaného souboru · (mezi)kvartilové rozpětí - rozdíl horního a dolního kvartilu (interval, ve kterém leží 50 % hodnot souboru) · decilové rozpětí (interval, ve kterém leží 80 % hodnot souboru) · percentilové rozpětí (interval, ve kterém leží 98 % hodnot souboru)
míra heterogenty (H)
· ukazatel územní koncentrace · procento území, na kterém je koncentrována méně koncentrovaná polovina sledovaného jevu · hodnotu lze zjistit/odhadnout z Lorenzovy křivky obr. · 50 % obyvatel je koncentrováno na 80% rozlohy (80 % = H) · čím vyšší hodnota heterogenity tím máme vyšší územní koncentraci -> vyšší nerovnoměrnost
relevance
· vhodnost použité procedury měření k výzkumnému problému · př. vzdělávání -> relevantní zjišťovat neoficiální volnočasové aktivity, jestli mají vliv na vzdělávání
metody klasifikace řad - kvantily (Quantle)
· vhodná pokud je cílem: - zdůraznit relativní pozici jednotky vůči ostatním - rozdělit jednotky rovnoměrně do stejně početných (četných) tříd
průměrný koeficient (tempo) růstu
· vhodné počítat zejména pro monotónní časovou řadu, která v průběhu stále roste nebo stále klesá
výběrový soubor - výběr
· vybrané prvky ze základního souboru dle přesně vymezeného postupu (rozsah = n)
metody klasifikace řad - přirozené hranice (Natural Breaks)
· vychází z analýzy histogramu, kdy se snaží krajní hodnoty intervalu vytvořit tam, kde máme menší četnost než v okolí
vyhlazení klouzavými průměri
· vyhlazení průměrem z okolních členů časové řady · interval n pro n-letý klouzavý průměr se volí s lichým počtem časových úseků a průměrná hodnota se přiřazuje prostřednímu časovému úseku · čím delší interval, tím hladší průběh časové řady
koeficient růstu (tempo růstu)
· vyjadřuje se nad 100 % nebo pod 100 %
nominální měřítko
· výčet nespojitých hodnot · =, ≠ · př. jméno; barva; místo narození
statistika
· vědní obor -> zkoumá zákonitosti hromadných jevů · souhrn vědeckých metod -> používaný ke sběru, zpracování a analýze dat · nauka, jak získat informace z numerických dat
jednorozměrné rozdělení četností
· zpřehlednění velkého množství dat do tabulek a následně do grafů · ukazuje hodnoty, kterých může proměnná nabývat, a jejich četnosti a) prosté třídění · kvalitativní · kvantitativní diskrétní b) intervalové třídění · kvantitativní diskrétní · kvantitativní spojitý
rozptyl
· základní charakteristika variability · vyjadřuje variabilitu hodnot kolem průměru · = aritmetický průměr čtverců odchylek od průměru · = průměrný čtverec vzdáleností od průměru
zešikmený zleva histogram
· četnost
zešikmený zprava histogram
· četnost
druhy histogramů
· četnost - symetrický, unimodální - zešikmený zleva - zešikmený zprava · relativní četnost - rovnoměrný, uniformní - bimodální - multimodální