statistická analýza dat

Pataasin ang iyong marka sa homework at exams ngayon gamit ang Quizwiz!

reprezentativnost

frekvence výskytu důležitých doprovodných znaků ve výběru odpovídá frekvenci výskytu těchto znaků v populaci

typy znaků

kvalitativní >alternativní (dichotimický, binární) >množný kvantitativní >diskrétní >spojitý

chyba II. druhu

nezamítneme H0, za předpokladu, že neplatí

p-hodnota

pravděpodobnost, že při H0 by testová statistika T nabyla hodnoty, jaká vyšla z dat, nebo hodnoty ještě extrémnější (mimo interval <−T,T>).

hladina významnosti α

pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv platí

medián

prostřední hodnota vzestupně uspořádaného souboru

variační koeficient

relativní/normované charakteristika variability není závislý na měřítku umožňuje porovnat různé soubory a jejich variability v = směrodatná odchylka/hodnota

variabilita

reprezentace rozptýlenosti statistické proměnné jedním číslem ukazuje jak se ve vztahu k sobě jednotlivé hodnoty liší variabilita absolutní > rozpětí, rozptyl, směrodatná odchylka, střední diference relativní variabilita > variační koeficient, Giniho koeficient

měřítka

1) nominální > rovná se, nerovná se > barva 2) oridnální > <,>,%,nerovná se > porovnání, míra spokojenosti 3) intervalové > 0=dohoda > o kolik, teplota 4) poměrové > 0=jev neexistuje > kolikrát, věk

třídění dat

1) prosté - kvalitativní 2) intervalové - kvantitativní poměrové (i diskrétní)

normální rozdělení

Většina hodnot se soustřeďuje kolem průměru a jejich distribuce je symetrická: polovina hodnot je větších než průměr a polovina hodnot je menší než průměr. Průměr je tedy v normálním rozdělení také mediánem. Průměrná hodnota je také nejčastěji se vyskytující hodnotou, takže je současně i modem. má jeden vrchol tvar zvonu do jedné směrodatné odchylky na každou stranu od průměru spadne 68,26 % případů do dvou směrodatných odchylek 95,34 %

charakteristiky polohy

aritmetický průměr, medián, modus

indukční statistika

cílem je odpovědět na otázku, která byla položena před začátkem sběru dat závěry platí pro větší skupinu jedinců nebo okolností > dochází ke zobecnění indukce z malého výběrového souboru na základní soubor závěry jsou formální cílem je z vybraných dat odvodit data o celé populaci

alternativní hypotéza

deklaruje „existenci diference" mezi skupinami nebo „existenci závislosti" mezi proměnnými

krabicový diagram

grafické znázornění rozdělení souboru krabice je ohraničena horním a dolním kvartilem, uprostřed je medián odlehlá pozorování > 3/2(Q3-Q1) extrémní hodnoty > 3(Q3-Q1)

aritmetický průměr

hodnota reprezentující všechny hodnoty v souboru s nejmenší chybou useknutý průměr > usekne se procento hodnot a pak se počítá

kritická hodnota

hranice mezi statisticky významnou a nevýznamnou hodnotou testové statistiky T.

bodový odhad

jedinou hodnotou konzistence - s rostoucím počtem pozorování se odhad blíží k teoretické hodnotě s pravděpodobností 1 nestrannost - při opakovaných výběrech kolísá odhad kolem teoretické hodnoty symetricky na obě strany vydatnost (eficience) - rozptyl odhadů při opakovaných výběrech je malý rezistence - odlehlé hodnoty nemají vliv na hodnotu odhadu vyvracíme omyl

jednovýběrový t-test

jednovýběrový t-test, který slouží k porovnání střední hodnoty μ s konstantou (H0: μ = μ0);

náhodný výběr

každý prvek populace má stejnou pravděpodobnost, že se dostane do výběru nejlépe se dá dosáhnout reprezentativnosti > čím větší náhodný výběr je, tím je reprezentativnější

charakteristiky tvaru

měří odchylku v rozložení hodnot oproti danému referenčnímu rozložení četnoští reprezentace tvaru rozložení proměnné šikmost > nesouměrnost špičatost > koncentrace

modus

nejčastěji se vyskytující hodnota > amodální, unimodální, bimodální, polymodální

popisná statistika

neomezený průzkum dat v datech se hledají zajímavé konfigurace závěry platí jenom pro jedince a měření, která byla k dispozici závěry vychází z dat > jsou neformální

směrodatná odchylka

odmocnina z rozptylu vypovídá o tom, nakolik se od sebe navzájem liší jednotlivé případy v souboru zkoumaných hodnot rozměr je stejný jako rozměr statistické proměnné, což je hlavní výhoda oproti rozptylu pro účely popisné statistiky

absolutní četnost

počet hodnot spadajících do určité třídy > relativní > %

kumulativní absolutní četnost

počet hodnot v souboru, které jsou menší nebo rovny horní hranici příslušné třídy

Sturgesovo pravidlo

slouží k vypočítání počtu a délky intervalů počet = 1 x 3,3log(n) délka = (max-min)/počet intervalů

základní soubor

soubor všech prvků, které mohou být předmětem sledování na základě vymezených vlastností

distribuční funkce

udává pravděpodobnost, že veličina X nebude nejvýše konkrétní hodnoty x

frekvenční funkce

udává pravděpodobnost, že veličina X nebude právě konkrétní hodnoty x

z-skóre

umožňuje hodnotit vlastnosti nezávisle na poloze a variabilitě z= (x(i)-průměr x)/sx (směrodatná odchylka)

rozpětí

variační - rozdíl mezi maximální a minimální hodnotou mezikvartilové - rozdíl horního a dolního kvartilu

intervalové třídění dat

volba vhodného počtu tříd v tabulce četností intervaly by měly být stejně dlouhé zaokrouhlené meze hodní a dolní intervaly jsou někdy otevřené

výběrový soubor

vybrané prvky ze základního souboru podle přesně vymezeného postupu

nulová hypotéza

vyjadřuje „žádný neboli nulový rozdíl" mezi testovanými soubory dat snažíme se jí vyvrátit

kvótní výběr

vzorek imituje určité známé vlastnosti populace dá se použít jen na populaci, o které máme informace výběr na základě dobrovolnosti nebo dostupnosti

chyba I. druhu

zamítneme H0, za předpokladu, že platí

testovací statistika

základ pro provedení úvah o výsledném doporučení množství testovacích statistik výpočet závisí na povaze dat a hypotéze testovací statistika = (bodový odhad - hypotetická hodnota)/směrodatná chyba odhadu K samotnému testování se využívá tzv. testová statistika T. Jedná se o vzorec, funkci dat, která udává, jak pravděpodobná jsou naměřená data, pokud platí nulová hypotéza.

rozptyl

základní charakteristika variability střední hodnota kvadrátů odchylek od střední hodnoty variabilita hodnot kolem průměru

intervalový odhad

číselným intervalem, v němž se nachází teoretická hodnota parametru s určitou spolehlivostí testování hypotéz zpřesňujeme pravdu hladina spolehlivosti = pravděpodobnost, se kterou se odhadovaný populační parametr ocitne v tomto intervalu při opakovaném provádění výběru délka intervalu spolehlivosti roste s požadovanou spolehlivostí (z1-α/2) délka intervalu spolehlivosti klesá s rostoucím počtem pozorování (n)


Kaugnay na mga set ng pag-aaral

End of Chapter Questions (CH 8,9,10,12)

View Set

Joey's handy dandy econ final study guide part 5, Ch. 20-21

View Set

OAE 015 - Educational Leadership

View Set

Indoor Environmental Quality (IEQ)

View Set