statistická analýza dat
reprezentativnost
frekvence výskytu důležitých doprovodných znaků ve výběru odpovídá frekvenci výskytu těchto znaků v populaci
typy znaků
kvalitativní >alternativní (dichotimický, binární) >množný kvantitativní >diskrétní >spojitý
chyba II. druhu
nezamítneme H0, za předpokladu, že neplatí
p-hodnota
pravděpodobnost, že při H0 by testová statistika T nabyla hodnoty, jaká vyšla z dat, nebo hodnoty ještě extrémnější (mimo interval <−T,T>).
hladina významnosti α
pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv platí
medián
prostřední hodnota vzestupně uspořádaného souboru
variační koeficient
relativní/normované charakteristika variability není závislý na měřítku umožňuje porovnat různé soubory a jejich variability v = směrodatná odchylka/hodnota
variabilita
reprezentace rozptýlenosti statistické proměnné jedním číslem ukazuje jak se ve vztahu k sobě jednotlivé hodnoty liší variabilita absolutní > rozpětí, rozptyl, směrodatná odchylka, střední diference relativní variabilita > variační koeficient, Giniho koeficient
měřítka
1) nominální > rovná se, nerovná se > barva 2) oridnální > <,>,%,nerovná se > porovnání, míra spokojenosti 3) intervalové > 0=dohoda > o kolik, teplota 4) poměrové > 0=jev neexistuje > kolikrát, věk
třídění dat
1) prosté - kvalitativní 2) intervalové - kvantitativní poměrové (i diskrétní)
normální rozdělení
Většina hodnot se soustřeďuje kolem průměru a jejich distribuce je symetrická: polovina hodnot je větších než průměr a polovina hodnot je menší než průměr. Průměr je tedy v normálním rozdělení také mediánem. Průměrná hodnota je také nejčastěji se vyskytující hodnotou, takže je současně i modem. má jeden vrchol tvar zvonu do jedné směrodatné odchylky na každou stranu od průměru spadne 68,26 % případů do dvou směrodatných odchylek 95,34 %
charakteristiky polohy
aritmetický průměr, medián, modus
indukční statistika
cílem je odpovědět na otázku, která byla položena před začátkem sběru dat závěry platí pro větší skupinu jedinců nebo okolností > dochází ke zobecnění indukce z malého výběrového souboru na základní soubor závěry jsou formální cílem je z vybraných dat odvodit data o celé populaci
alternativní hypotéza
deklaruje „existenci diference" mezi skupinami nebo „existenci závislosti" mezi proměnnými
krabicový diagram
grafické znázornění rozdělení souboru krabice je ohraničena horním a dolním kvartilem, uprostřed je medián odlehlá pozorování > 3/2(Q3-Q1) extrémní hodnoty > 3(Q3-Q1)
aritmetický průměr
hodnota reprezentující všechny hodnoty v souboru s nejmenší chybou useknutý průměr > usekne se procento hodnot a pak se počítá
kritická hodnota
hranice mezi statisticky významnou a nevýznamnou hodnotou testové statistiky T.
bodový odhad
jedinou hodnotou konzistence - s rostoucím počtem pozorování se odhad blíží k teoretické hodnotě s pravděpodobností 1 nestrannost - při opakovaných výběrech kolísá odhad kolem teoretické hodnoty symetricky na obě strany vydatnost (eficience) - rozptyl odhadů při opakovaných výběrech je malý rezistence - odlehlé hodnoty nemají vliv na hodnotu odhadu vyvracíme omyl
jednovýběrový t-test
jednovýběrový t-test, který slouží k porovnání střední hodnoty μ s konstantou (H0: μ = μ0);
náhodný výběr
každý prvek populace má stejnou pravděpodobnost, že se dostane do výběru nejlépe se dá dosáhnout reprezentativnosti > čím větší náhodný výběr je, tím je reprezentativnější
charakteristiky tvaru
měří odchylku v rozložení hodnot oproti danému referenčnímu rozložení četnoští reprezentace tvaru rozložení proměnné šikmost > nesouměrnost špičatost > koncentrace
modus
nejčastěji se vyskytující hodnota > amodální, unimodální, bimodální, polymodální
popisná statistika
neomezený průzkum dat v datech se hledají zajímavé konfigurace závěry platí jenom pro jedince a měření, která byla k dispozici závěry vychází z dat > jsou neformální
směrodatná odchylka
odmocnina z rozptylu vypovídá o tom, nakolik se od sebe navzájem liší jednotlivé případy v souboru zkoumaných hodnot rozměr je stejný jako rozměr statistické proměnné, což je hlavní výhoda oproti rozptylu pro účely popisné statistiky
absolutní četnost
počet hodnot spadajících do určité třídy > relativní > %
kumulativní absolutní četnost
počet hodnot v souboru, které jsou menší nebo rovny horní hranici příslušné třídy
Sturgesovo pravidlo
slouží k vypočítání počtu a délky intervalů počet = 1 x 3,3log(n) délka = (max-min)/počet intervalů
základní soubor
soubor všech prvků, které mohou být předmětem sledování na základě vymezených vlastností
distribuční funkce
udává pravděpodobnost, že veličina X nebude nejvýše konkrétní hodnoty x
frekvenční funkce
udává pravděpodobnost, že veličina X nebude právě konkrétní hodnoty x
z-skóre
umožňuje hodnotit vlastnosti nezávisle na poloze a variabilitě z= (x(i)-průměr x)/sx (směrodatná odchylka)
rozpětí
variační - rozdíl mezi maximální a minimální hodnotou mezikvartilové - rozdíl horního a dolního kvartilu
intervalové třídění dat
volba vhodného počtu tříd v tabulce četností intervaly by měly být stejně dlouhé zaokrouhlené meze hodní a dolní intervaly jsou někdy otevřené
výběrový soubor
vybrané prvky ze základního souboru podle přesně vymezeného postupu
nulová hypotéza
vyjadřuje „žádný neboli nulový rozdíl" mezi testovanými soubory dat snažíme se jí vyvrátit
kvótní výběr
vzorek imituje určité známé vlastnosti populace dá se použít jen na populaci, o které máme informace výběr na základě dobrovolnosti nebo dostupnosti
chyba I. druhu
zamítneme H0, za předpokladu, že platí
testovací statistika
základ pro provedení úvah o výsledném doporučení množství testovacích statistik výpočet závisí na povaze dat a hypotéze testovací statistika = (bodový odhad - hypotetická hodnota)/směrodatná chyba odhadu K samotnému testování se využívá tzv. testová statistika T. Jedná se o vzorec, funkci dat, která udává, jak pravděpodobná jsou naměřená data, pokud platí nulová hypotéza.
rozptyl
základní charakteristika variability střední hodnota kvadrátů odchylek od střední hodnoty variabilita hodnot kolem průměru
intervalový odhad
číselným intervalem, v němž se nachází teoretická hodnota parametru s určitou spolehlivostí testování hypotéz zpřesňujeme pravdu hladina spolehlivosti = pravděpodobnost, se kterou se odhadovaný populační parametr ocitne v tomto intervalu při opakovaném provádění výběru délka intervalu spolehlivosti roste s požadovanou spolehlivostí (z1-α/2) délka intervalu spolehlivosti klesá s rostoucím počtem pozorování (n)