Statistika pro geografy 2

Ace your homework & exams now with Quizwiz!

správnost

· blízkost naměřených hodnot ke skutečné hodnotě

percentil a decil

· decil: v prvním decilu -> v 10 % nejlepších studentů · percentil: v prvním percentilu -> v 1% nejlepších výsledků

nominální znak

· prosté třídění dat

ordinální znak

· prosté třídění dat

bimodální histogram

· relativní četnost

multimodální histogram

· relativní četnost

rovnoměrný, uniformní histogram

· relativní četnost

variační koeficient

· relativní/normovaná charakteristika variability · nezávislá na měřítku (jednotkách měření) · uvádí se často v procentech (po vynásobení stem) · umožňuje porovnat variabilitu různých souborů (používajících různé jednotky nebo majících hodnoty v různých řádech) -> rozptýlenost rozdílných jevů (porovnat teplotu a srážky...) -> porovnání vývoje rozptýlenosti v čase · když jsou veličiny, které jdou do záporných hodnot (přes 0) -> variační koeficient nepočítám!!!

důležité aspekty měření

· relevance · validita · reliabilita · senzitivita · specificita · přesnost · správnost

geografický střed

· reprezentace polohy statistického souboru v prostoru bodem, který charakterizuje rozmístění jevu · souřadnice = vážený průměr souřadnic prvků souboru

charakteristiky tvaru

· reprezentace tvaru rozdělení hodnot statistického znaku jedním číslem · odchylka v rozložení četností hodnot oproti danému referenčnímu rozdělení četností (obvykle normálnímu)

absolutní přírůstek (diference)

· rozdíl dvou po sobě následujících hodnot časové řady

typy statistických charakteristik

· rozdělení podle hromadných vlastností, které popisují: a) charakteristiky polohy (středu, centrality) b) charakteristiky rozptýlenosti (proměnlivost, variability) c) charakteristiky tvaru

specificita

· schopnost měření (testu) dávat negativní odpověď, jestliže daný objekt nemá příslušnou vlastnost · schopnost testu přesně vybrat případy, u nichž zkoumaný znak (nemoc) nenastává

variační řada

· seřazená data x obtížní poznání hromadných vlastností -> tabulka (třídních) četností

základní soubor - populace

· soubor všech prvků, které na základě vymezené vlastnosti mohou teoreticky být předmětem sledování (rozsah = N)

statistický soubor

· souhrn statistických jednotek · př. kraje; vodní toky; žáci

reliabilita

· spolehlivost výzkumného nástroje, tedy schopnost dosahovat při opakovaném měření za stejných podmínek stejné výsledky · př. teploměr by měl ve stejných podmínkách udávat stejnou teplotu; každý test připraveným učitelem by měl ověřit připravenost studenta

analýza prostorových dat

· statistický software · variabilita dat bez ohledu na informace o jejich lokalizaci

prosté třídění dat

· tabulka četností: - absolutní četnost - relativní četnost - kumulativní absolutní četnost - kumulativní relativní četnost · grafické vyjádření četností: - sloupcový graf - pruhový graf - výsečový (kruhový, koláčový) graf

přesnost

· vzájemná blízkost naměřených hodnot

vážený průměr

· výpočet pomocí četností (n) - výsledek stejný jako aritmetický -> suma kolikrát je určité číslo zastoupeno v souboru · výpočet obecný s nezápornými váhami (w) · Pravda: Průměrná rozloha okresů Česka vážená počtem obyvatel je nižší než standardní průměrná rozloha okresů.

symetrický, unimodální histogram

· četnost

postup zpracování dat

1) zjistit měřítko proměnné a jakých hodnot dosahuje (maximum a minimum) 2) vyberat prosté X intervalové třídění 3) určit kolik bude mít tabulka řádků - jednotlivých tříd 4) určit rozpětí jednotlivých tříd a meze intervalů 5) vypočítat, kolik statistických jednotek (pozorování, prvků) patří do každé třídy

prostorová data

= data mající atributovou, tak prostorovou složku Povaha prostorových dat: a) reálný svět je tvořen souborem entit lokalizovaných v prostoru · prostorová statistika -> analýza objektů · "object" view - vektorová data diskrétní veličina · typy prostorových objektů: - body (souřadnice - sídla, obchody, místa činu, nehody) - linie (spojnice bodů - silniční síť, vedení technické infrastruktury) - polygony (ohraničená plocha liniemi - okresy, města) b) reálný svět má vlastnosti, které se proměňují kontinuálně v prostoru · geostatistika -> analýza polí · "field" view - rastrová data spojitá veličina

Pokud jsou absolutní přírůstky časové řady kladné, jsou relativní přírůstky této řady vyšší než 100. (Pravda/Nepravda)

Nepravda

vlastnosti objektu (jevy, procesy)

a) přímo pozorovatelné/měřitelné b) měřitelné nepřímo pomocí indikátorů

statistický popis dat

i. řazení dat ii. prosté nebo intervalové třídění dat iii. statistický popis dar · Pro správný statistický popis a zhodnocení jakéhokoliv statistického souboru je nutné použít charakteristiky všech tří typů (polohy, variability a tvaru), protože každá z nich popisuje soubor z jiného hlediska. Je tedy zcela nesprávné používat například "izolovaně" jen aritmetický průměr bez dalších údajů o souboru, který reprezentuje.

průměrný absolutní přírůstek (diference)

· (poslední hodnota - první hodnota) / n-1

směrodatná odchylka

· = odmocnina z rozptylu -> vrací výsledek do jednotek měření · rozměr směrodatné odchylky je stejný jako rozměr statistické proměnné (hlavní výhoda oproti rozptylu pro účely popisné statistiky)

prostorvá analáza dat

· GIS software · prostorová variabilita = variabilita dat napříč mapou => využití prostorového aspektu dat

rozklad Theilova indexu

· Theilův index (T) = relativní míra variability umožňující bezezbytkový rozklad celkové variability na složku mez-skupinovou (TB) a složku vnitro-skupinovou (Tw) · čím vyšší hodnota, tím vyšší rozptýlenost · relativní regionální nerovnoměrnost - rozklad ukazuje jako moc je daná regionální úroveň významná pro diferenciaci sledovaného jevu · 77 % veškeré variability je na úrovni okresní · důležité pro určení, která regionální úroveň je pro danou oblast nejlepší

metody klasifikace řad

· Volba počtu tříd a intervalů pro histogram úzce souvisí s metodami klasifikace dat pro účely zobrazování dat v mapě (například určení mezí intervalů pro kartogram). • Nejčastěji se využívá rozdělení dat do 4 až 7 tříd. • Existuje mnoho standardních metod klasifikace dat: - ručně (Manual) - přirozené hranice (Natural Breaks) - shodné intervaly (Equal Interval) - kvantily (Quantile) - směrodatná odchylka (Standard Deviation)

míry dynamiky časové řady

· absolutní přírůstek (diference) · průměrný absolutní přírůstek (diference) - aritmetický průměr · relativní přírůstek · koeficient růstu (tempo růstu) - x 100 · průměrný koeficient (tempo růstu) - geometrický průměr ! t = 2, 3, ..., n

dělení časové řady podle druhu sledovaných ukazatelů

· absolutní vs. relativní - počty, vlastní hodnoty, ... · odvozené - kumulativní hodnoty, ...

metody klasifikace řad - shodné intervaly (Equal Interval)

· celkové rozpětí hodnot děleno počet intervalů · max-min/počet intervalů -> intervaly jsou stejně dlouhé · vhodná pouze, když data nejsou sešikmená

popisná (deskriptivní) statistika

· cíl: podrobný průzkum a popis dostupných dat (číselně, graficky) · závěry: platí pouze pro pozorování, jež byla k dispozici (studovaný statistický soubor)

inferenční statistika (statistická indukce)

· cíl: získat informace týkající se populace na základě dat z výběru · závěry: platí pro větší skupinu jedinců (populací) nebo širší třídu okolností

metadata

· data o datech · strukturovaná dat, která nesou informace o primárních datech - definice, proces sběru, měřící přístroj/postup, časový a prostorový aspekt atd.

dělení časové řady dle periodicity

· dlouhodobé - jeden rok nebo více - roční · krátkodobé - kratší něž jeden rok - čtvrtletní - měsíční - týdenní - denní

dolní a horní kvartil

· dolní kvartil = Q1 = x0,25 - hodnota, která odděluje 1/4 jednotek s nejnižšími hodnotami; a vyšší hodnotu než je dolní kvartil má 75 % souboru · horní kvartil = Q3 = x0,75 - pod tuto a nižší hodnotu má 75 % jednotek souboru · Nepravda: Horní kvartil má vždy vyšší hodnotu než dolní kvartil.

krabicový diagram (box plot)

· grafické znázornění rozdělení souboru · "krabice" je ohraničena dolním a horním kvartilem, uvnitř je znázorněn medián · "tykadla" sahají od bližšího kvartilu k co nejvzdálenějšímu pozorování, které je od bližšího kvartilu vzdáleno maximálně 1,5*(Q3 -Q1 ) · odlehlá pozorování (kruh) > 1,5*(Q3 -Q1 ) · extrémní hodnoty (hvězdička) > 3*(Q3 -Q1 ) · hodnoty potřebné pro konstrukci krabicového diagramu: - minimum - maximum - medián - horní kvartil - dolní kvartil

Lorenzův oblouk

· hodnocení nerovnoměrnosti rozdělení/rozmístění jevu · př. rozmístění bohatství ve společnosti; rozmístění obyvatelstva v prostoru · konstrukce LO 1. seřazení hodnot podle koncentrace jevu od nejmenšího po největší 2. vynesení kumulativních podílů do x-y bodového grafu => čím je Lorenzův oblouk více vyklenutější - dál od úhlopříčky tím je rozdělení nerovnoměrnější

aritmetický průměr

· hodnota reprezentující všechny hodnoty souboru s nejmenší chybou · základní charakteristika polohy - "těžiště souboru" · pro kvantitativní znaky · obsahuje úplnou statistickou informaci (<- výpočet ze všech hodnot souboru) · nevhodný pro soubory s extrémními hodnotami => α-useknutý průměr - nejprve oddělení (useknutí) 100α % nejmenších a největších hodnot ze souboru a výpočet průměru ze zbylých hodnot

kvantil

· hodnota xp · p = 0-1 · př. x0,2 -> 20 % jednotek v uspořádaném souboru dat má hodnotu menší nebo rovnu tomuto kvantilu; a 80 % jednotek má hodnotu vyšší nebo rovnu · důležité mít uspořádaný soubor · pro kvantitativní znaky a kvalitativní znaky ordinálního měřítka · specifické typy kvantilu: - medián - dolní a horní kvartil - percentil a decil

statistický znak/proměná

· hodnoty statistických znaků, statistické proměnné = vlastnost statistické jednotky, kterou jsme schopni číselně nebo slovně popsat · na 1 jednotce obvykle zjišťujeme více znaků · př. HDP; srážky; počet obyvatel; jméno; pohlaví; průtok; známka; úmoří; délka

dělení časové řady dle časového hlediska

· intervalové - hodnota závisí na délce intervalu, za který je sledována (prostý součet; aritmetický průměr hodnot) - při porovnání se musí jednotlivé hodnoty vztahovat ke stejně dlouhým časovým intervalům -> přepočet na jednotkový interval - počet narozených za ... rok/měsíc/týden/den · okamžikové (stavové) - hodnota se vztahuje ke konkrétnímu časovému okamžiku - ke shrnování a průměrování nelze použít prostý součet a aritmetický průměr -> prostý chronologický průměr (v případě stejné vzdálenosti mezi okamžiky) - počet obyvatel k ... 1.1., 30.6., 31. 12.

hromadné jevy

· jevy, které se vyznačují velkými počty výskytů (hromadností) · mohou se v prostoru a čase opakovat · projev vlastností typické pro skupinu prvků · více pozorování -> míň vlivy jedinečnosti -> více vlivy společné - zákonité

poměrové měřítko

· kolikrát - podíly (/) · absolutní 0 = jev není · lze dělit, odečítat, porovnávat · př. věk; HDP; váha; teplota v Kelvinech; počet sourozenců

typy statistických znaků

· kvalitativní (kategoriální, slovní) a) alternativní - dichotomický, binární - pouze 2 kategorie - př. pohlaví; kuřák/nekuřák b) množný - více alternativ k výběru - místo narození; jméno; obor studia; povolání; barva očí · kvantitativní (numerický, číselný) a) diskrétní - př. počet sourozenců; počet pater budov b) spojitý - př. výška; HDP; váha

variační rozpětí

· max - min (udává šířku intervalu, v němž se nacházejí všechny hodnoty) · nejjednodušší, ale také nejhrubší míra variability

současný cíl kvantitativní geografie

· maximalizovat znalost o prostorových procesech se současnou minimalizací chyby

Lokalizační kvocient (LQ)

· míra územní koncentrace obyvatelstva (specializace průmyslu) · porovnává relativní koncentraci skupiny obyvatelstva (podíl zastoupení průmyslu) v určité územní jednotce vzhledem k relativnímu zastoupení jevu v celém území · umožňuje jednoduché srovnání vůči průměru hierarchicky vyšší územní jednotky · zobrazení hodnot LQi v mapě ve formě kartogramu · dosahuje pouze nezáporných hodnot

ekvidistantní časová řada

· měří ve stejně dlouhém časovém intervalu · př. řada denních hodnot -> za každý den máme údaj

medián

· nejznámější kvantil -> dělí soubor na dvě poloviny · prostřední hodnota souboru (ve variační řadě uprostřed) · pro n sudé: medián je průměr z dvou prostředních hodnot · vhodné využít: pokud se v souboru kvantitativních dat vyskytují odlehlé hodnoty

modus

· nejčastěji se vyskytující hodnota v souboru · pro kvantitativní i kvalitativní znaky, u spojitých statistických znaků se spíše využívá modální interval · nemá příliš velkou vypovídající schopnost · nemusí být určen jednoznačně · U všech statistických znaků obou ORP existuje mnoho modů, neboť u všech znaků se každá hodnota vyskytuje právě jednou.

standardizace směrodatnou odchylkou (z-standardizace)

· nejčastější způsob standardizace · výsledné standardizované hodnoty -> nulový průměr a jednotkový rozptyl - z-skóre -> vyjadřují, o kolik směrodatných odchylek se hodnoty odchýlily od průměru · použití v případech, kdy jsou statistické znaky měřené v odlišných jednotkách · kladné nebo záporné hodnoty, podle toho jestli jsou nad nebo pod průměrem · hodnoty, které mají 0 hodnotu ty mají průměrnou hodnotu souboru

měřítka statistických znaků

· nominální · ordinální · kardinální - intervalové - poměrové

relativní přírůstek

· o kolik % se zvedlo · kdyby došlo ke zdvojnásobená časové řady -> vyšlo by 100 %

intervalové měřítko

· o kolik - rozdíly (-) · 0 = dohoda · př. teplota ve °C; ročník narození

statistická jednotka

· objekt měření ·v rámci geografické databáze uvedeny v řádcích (obvykle) či sloupcích · př. kraj; vodní tok+ žák

validita

· platnost; schopnost měřit skutečně to, co bylo záměrem měřit · př. špatná volba otázek k požadovanému problému viz galerie

prostorová popisná statistika

· popis prostorového rozmístění prvků pomocí základních statistických charakteristik · kvantitativní měření charakteristik polohy a rozptýlenosti -> míry centrality: geografický střed, geografický medián -> míry variability: směrodatná vzdálenost, směrodatná elipsa

ordinální měřítko

· porovnání · VÍCE x MÉNĚ · =, ≠, <, > · př. míra spokojenosti; stupeň nejvyššího dosaženého vzdělání -> neschopnost hodnoty mezi sebou porovnat

standardizace dat

· použití: pokud chceme převést statistické znaky na stejné měřítko · bezrozměrné hodnoty -> nezáleží na skutečném rozměr (jednotkách) => umožňuje hodnocení vlastností nezávisle na poloze a variabilitě (tvar rozdělení) · ke standardizaci se používají statistiky odvozené z analyzovaného souboru dat (nejčastěji rozpětí a směrodatná odchylka s průměrem) · centrování = standardizace na průměr rovný nule - nemění se jednotky, ve kterých jsou znaky měřené, mění se jen poloha · standardizace rozpětí - převod hodnot znaků do intervalu 0-1 - použití, když znaky měřeny ve stejném měřítku, ale mezi hodnotami jsou velké rozdíly

absolutní četnost

· počet hodnot v souboru patřící do příslušné kategorie

kumulativní četnost

· počet hodnot v souboru, které jsou menší nebo rovny horní hranici příslušné kategorie

chyby při tvorbě histogramu

· počátky osy y v hodnotě 0 · zaokrouhlené meze intervalů · počet tříd - velikost intervalů · nestejně dlouhé intervaly

vyrovnání časové řady

· proces vyrovnání časové řady (vyrovnání periodických fluktuací a náhodných chyb) · dva způsoby vyrovnání/výpočtu: - analytický: klasický přístup k modelování trendové složky časové řady pomocí regrese -> prokládání křivkou - nalezení trendové funkce - mechanický: pokud nelze modelovat průběh časové řady jedinou matematicky definovanou křivkou s neměnnými parametry -> vyhlazení klouzavými průměry

směrodatná elipsa odchylek

· prostorové rozmístění jevů může vykazovat znaky směrovosti

dekompozice časové řady

· při analýze časových řad předpokládáme, že se řada skládá z několika složek, které mají jednodušší průběh než celá řada. Tyto složky je snazší modelovat samostatně a potom z nich zpětně složit model celé řady

Giniho koeficient koncentrace

· relativní míra variability nezávislá na průměru, ale na rozdílech mezi jednotlivými hodnotami (výpočet z Lorenzova oblouku) · hodnocení (ne)rovnoměrnosti rozmístění geografických jevů a rozdělení ekonomických jevů · G = 0 zcela rovnoměrné rozdělení/rozmístění (čím blíže k 0, tím rovnoměrnější) · G = 1 absolutní nerovnoměrnost/koncentrace v územní jednotce i širším území

relativní četnost

· relativní počet hodnot (%) v souboru spadající do příslušné kategorie

kumulativní relativní četnost

· relativní počet hodnot (%) v souboru, které jsou menší nebo rovny horní hranici příslušné kategorie

charakteristiky rozptýlenosti

· reprezentace rozptýlenosti hodnot statistického znaku jedním číslem · informace, jak se jednotlivé hodnoty liší navzájem nebo vzhledem ke střední hodnotě · nejsou ovlivněny polohou · absolutní (mají rozměr statistické proměnné) - rozpětí -> variační rozpětí -> kvantilové rozpětí - rozptyl -> směrodatná odchylka · relativní (bezrozměrné) -> umožňuje porovnávat souboru, které mají rozdílné statistické znaky měřené v jiných jednotkách - variační koeficient

směrodatná vzdálenost

· reprezentace rozptýlenosti statistického souboru v prostoru kružnicí vyjadřující míru variability dat kolem geografického středu · kružnice se středem v geografickém středu, jejíž poloměr je směrodatná odchylka je souřadnic prvků souboru · ! Směrodatná vzdálenost je analogií směrodatné odchylky v případě prostorových dat.

geografický medián

· reprezentace statistického souboru v prostoru čarou - rozdělení území na dvě poloviny z hlediska sledovaného jevu

charakteristiky polohy

· reprezentace střední hodnoty / úrovně hodnot statistického znaku jedním číslem · aritmetický průměr = hodnota reprezentující všechny hodnoty souboru s nejmenší chybou (α-useknutý průměr; vážený průměr) · medián = prostřední hodnota vzestupně uspořádaného souboru (dolní a horní kvartil; decily; percentily) · modus = nejčetnější hodnota souboru

senzitivita

· schopnost měření (testu) dávat pozitivní odpověď, jestliže daný objekt má příslušnou vlastnost · př. je-li osoba covid pozitivní test to odhalí

kvantitativní výzkum

· série etap -> v každém z nich se více či méně uplatňují statistické koncepty ·cíl: studovat hromadné jevy - 1) popsat 2) vysvětlit 3) predikovat

intervalové třídění dat

· tabulka třídních četností - volba vhodného počtu tříd (řádků) v tabulce četností - úplné pokrytí dat a zároveň nepřekrývání tříd - zaokrouhlení mezí intervalů - ponechání krajních intervalů otevřených - stejně dlouhé intervaly (ideálně) · grafické vyjádření třídních četností - histogram - frekvenční křivka (polygon)

tabulka (třídních) četností

· tříděný soubor · jednotlivá data jsou tříděná do kategorií, resp. tříd · částečné zpřehlednění dat

kvantilové rozpětí

· udávají šířku intervalu, ve které leží X % (50 %, 80 % či 98 %) prostředních hodnot uspořádaného souboru · (mezi)kvartilové rozpětí - rozdíl horního a dolního kvartilu (interval, ve kterém leží 50 % hodnot souboru) · decilové rozpětí (interval, ve kterém leží 80 % hodnot souboru) · percentilové rozpětí (interval, ve kterém leží 98 % hodnot souboru)

míra heterogenty (H)

· ukazatel územní koncentrace · procento území, na kterém je koncentrována méně koncentrovaná polovina sledovaného jevu · hodnotu lze zjistit/odhadnout z Lorenzovy křivky obr. · 50 % obyvatel je koncentrováno na 80% rozlohy (80 % = H) · čím vyšší hodnota heterogenity tím máme vyšší územní koncentraci -> vyšší nerovnoměrnost

relevance

· vhodnost použité procedury měření k výzkumnému problému · př. vzdělávání -> relevantní zjišťovat neoficiální volnočasové aktivity, jestli mají vliv na vzdělávání

metody klasifikace řad - kvantily (Quantle)

· vhodná pokud je cílem: - zdůraznit relativní pozici jednotky vůči ostatním - rozdělit jednotky rovnoměrně do stejně početných (četných) tříd

průměrný koeficient (tempo) růstu

· vhodné počítat zejména pro monotónní časovou řadu, která v průběhu stále roste nebo stále klesá

výběrový soubor - výběr

· vybrané prvky ze základního souboru dle přesně vymezeného postupu (rozsah = n)

metody klasifikace řad - přirozené hranice (Natural Breaks)

· vychází z analýzy histogramu, kdy se snaží krajní hodnoty intervalu vytvořit tam, kde máme menší četnost než v okolí

vyhlazení klouzavými průměri

· vyhlazení průměrem z okolních členů časové řady · interval n pro n-letý klouzavý průměr se volí s lichým počtem časových úseků a průměrná hodnota se přiřazuje prostřednímu časovému úseku · čím delší interval, tím hladší průběh časové řady

koeficient růstu (tempo růstu)

· vyjadřuje se nad 100 % nebo pod 100 %

nominální měřítko

· výčet nespojitých hodnot · =, ≠ · př. jméno; barva; místo narození

statistika

· vědní obor -> zkoumá zákonitosti hromadných jevů · souhrn vědeckých metod -> používaný ke sběru, zpracování a analýze dat · nauka, jak získat informace z numerických dat

jednorozměrné rozdělení četností

· zpřehlednění velkého množství dat do tabulek a následně do grafů · ukazuje hodnoty, kterých může proměnná nabývat, a jejich četnosti a) prosté třídění · kvalitativní · kvantitativní diskrétní b) intervalové třídění · kvantitativní diskrétní · kvantitativní spojitý

rozptyl

· základní charakteristika variability · vyjadřuje variabilitu hodnot kolem průměru · = aritmetický průměr čtverců odchylek od průměru · = průměrný čtverec vzdáleností od průměru

zešikmený zleva histogram

· četnost

zešikmený zprava histogram

· četnost

druhy histogramů

· četnost - symetrický, unimodální - zešikmený zleva - zešikmený zprava · relativní četnost - rovnoměrný, uniformní - bimodální - multimodální


Related study sets

Florida Statues, Rules, and Regulations

View Set

Sorry, no manipulations with clipboard allowed

View Set

Social Psych: Chapter 12 (Prosocial Behavior), Social Psych Final Chap 11, Social Psych Exam #2 Ch.11, Social Psychology Exam 4, Social Psych Exam 4 SCCC

View Set

ECON Lesson 3.4: Corporations and The Stock Market

View Set

civil war and reconstruction test

View Set