STATISTIKA POJMY

Ace your homework & exams now with Quizwiz!

Rozdělení pravděpodobnosti

- P(x) - Funkce - Od pravděpodobnosti se liší tím, že D(f) není množina elementárních jevů, ale množina čísel - za užitečné intervaly se považují ty, které končí v mínus nekonečnu - P(x) ({k}) = číslo 0-1 - Čísla (namísto jevů) dávají možnost operací - Tvorba intervalů

výběrová šikmost

- b - abychom měli představu, jak bude vypadat budoucí histogram - ukazatel toho, do jaké míry je uspořádání hodnot symetrické kolem hodnoty aritmetického průměru - Jsou-li hodnoty symetricky uspořádané kolem průměru, šikmost je rovna nule - hodnoty jsou symetrické - Šikmost záporná = veličina se častěji realizuje s nadprůměrnými hodnotami - protažení levého chvostu - Šikmost kladná = veličina se častěji realizuje pod průměrem - protažení pravého chvostu - symetrická rozdělení (Normální, Studentovo) mají nulovou šikmost

průměrná absolutní odchylka

- d s pruhem = o kolik se jednotlivá měření v průměru liší od průměru posčítat absolutní hodnoty rozdílů naměřených hodnot od aritmetického průměru vydělený počtem pozorování

normální rozdělení

(Gaussovo) X ~ N (μ, σ2) - V přírodě i ve společnosti je velmi časté - vše k němu směřuje - Vzniká tehdy, když sledovaná náhodná veličina představuje součet velkého množství nezávislých náhodných veličin s podobně velkými rozptyly Dva parametry - μ - mí - odpovídá střední hodnotě - σ2 - sigma na druhou - odpovídá rozptylu - Pokud sečteme více veličin s tímto rozdělením, výsledek má opět norm. rozložení - Pokud k takového náhodné veličině přičteme, odečteme, vynásobíme, nebo vydělíme libovolné číslo vznikla veličina má opět norm. rozdělení - např. inteligence, tělesná výška

Klasická pravděpodobnost

- Abychom mohli mluvit o klasické pravděpodobnosti musíme splnit 2 podmínky - Náhodný pokus vede ke konečnému množství výsledků - množina má tedy i konečný počet prvků - Všechny výsledky jsou stejně pravděpodobné (pravděpodobnost každého z n prvků se rovná 𝟏/n) - Hrací kostka, loterie, kombinatorika... - P = m/n

střední hodnota

- E(x) - kolem jakého čísla se náhodná veličina realizuje (kolem jakého čísla se realizace koncentrují) - Funkční hodnoty vynásobené jejich pravděpodobností a sečteme je - může nabývat hodnoty libovolného reálného čísla - μ (mí) = parametr střední hodnoty

Distribuční fce

- F(x) - Distribuční funkce říká, jaká je pravděpodobnost, že se náhodná veličina X bude realizovat s hodnotou menší nebo rovnou libovolně zvolenému reálnému číslu. - 𝑭𝒙(𝒙) = 𝑷𝒙((−∞, 𝒙]) - Argument = libovolné reálné číslo x - Funkční hodnota 0-1 - Nemůže být klesající, je vždy rostoucí, - nebo v určitých intervalech konstantní

Rozptyl

- Jak ze široka jsou hodnoty rozptýleny - Říká nám, zda se náhodná veličina realizuje těsně kolem střední hodnoty, nebo široce rozprostřeny. - VAR(X) - Vysoký rozptyl = velmi rozmanité hodnoty náhodné veličiny - nízký rozptyl = malá rozmanitost - Rozptyl se nijak nemění, pokud k náhodné veličině přičteme nějakou konstantu - násobení ho mění drasticky - parametr rozptylu: σ2 (sigma na druhou) - odmocnina rozptylu je SMĚRODATNÁ ODCHYLKA

mediánová absolutní odchylka

- MAD = medián absolutních odchylek - místo průměru absolutních odchylek určujeme jejich medián - nelze s ní dělat nějaké matematické operace - Místo počítání odchylek od průměru, je můžeme počítat od mediánu či modu - součet absolutních hodnot rozdílů naměřených hodnot od mediánu - oproti průměrné absolutní odchylce se jedná o robustnější ukazatel variability

Náhodná veličina

- Matematická funkce - D(f) = Ω; H(f) = podmnožina R - Připisuje každému náhodnému jevu {ω} nějaké číslo - Můžeme definovat libovolné množství náhodných veličin (počet bodů, ano/ne, druh zmrzliny) - Připisovaná čísla mohou být náhodná - Pokud s náhodnou veličinou provedeme jakoukoli matematickou operaci, výsledkem je opět náhodná veličina - Velmi záleží na nadefinování náhodných veličin - pokud je elementárních jevů nekonečno, tak je pravděpodobnost nulová (limitně), náhodná veličina může okruh „odpovědí" zúžit - Příklad - Každý má trochu jinou barvu očí (nekonečná Ω), ale pokud nadefinujeme kategorie modrá = 1, hnědá = 2 a každý se zařadí tam co spíše odpovídá

variační rozpětí

- Míra variability - Rozdíl nejvyšší a nejnižší pozorované hodnoty sledovaného znaku, tedy R = xmax - xmin - Variabilita = rozptýlenost naměřených hodnot od nějakého pomyslného středu, např. průměru, mediánu apod. velice nerobustní ukazatel variability

kovariance

- Objasňuje, v jakém vztahu jsou náhodné veličiny vůči sobě. - Udává, kolik rozptylu spolu dvě náhodné veličiny sdílejí - COV (X, Y) - Může nabývat libovolných hodnot - Kladná značí, že vysoké hodnoty jedné náhodné veličiny vedou ke zvýšení pravděpodobnosti, že se i druhá náhodná veličina realizuje s vysokou hodnotou. - Záporná znamená, že vysoké hodnoty jedné veličiny vedou ke zvýšení pravděpodobnosti nízkých hodnot druhé náhodné veličiny.

Geometrická pravděpodobnost

- Od klasické se liší tím, že může mít nekonečné množství výsledků - Stanovujeme míru (míra úsečky = délka, míra plochy = obsah, míra tělesa = objem) - 𝑷 (𝑨)=𝒎í𝒓𝒂(𝑨) / 𝒎í𝒓𝒂 (Ω) - Důležité je že pravděpodobnost lze zaznamenat jako plochu - Př. Na privátě žijí dva kamarádi, oba vstávají ráno v libovolný čas mezi 7:00-8:00 ....

Spojitá náhodná veličina

- Pro spojitá rozdělení pravděpodobnosti nemá smysl definovat pravděpodobnostní funkci (protože „jaká je pravděpodobnost, že se naše n. v. realizuje přesně s touto hodnotou? → nulová!"). Proto zavádíme hustotu pravděpodobnosti.

výběrový modus

- jediná míra polohy použitelná i u kvalitativního znaku - 𝑥̂ (nebo Mod(x)) - Hodnota, která se v souboru vyskytuje nejčastěji - U kvantitativních znaků musíme čísla zaokrouhlit, či rozdělit do kategorií, aby každý neměl četnost 1 - Unimodální rozdělení (= v souboru je pouze jedna modální hodnota) - Multimodální rozdělení (= v souboru se nachází více modálních hodnot se stejnou četností) - Dvě - bimodální

absolutní a relativní četnosti

- Rozsah souboru = kolik pozorování jsme provedli (značí se písmenem n/N) - Rozdělení na podsoubory (např. muži a ženy) - rozsah podsouboru (značí se n(index)) - Absolutní četnost = s jakou četností nabývá určitý znak (pohlaví) určité úrovně (muž) - Lidsky - kolik stejných znaků je v celém souboru (např. kolik je mužů) - značíme fj (frekvence znaku) - nějaké nezáporné celé číslo - Relativní četnost = u jak velké poměrné části souboru má znak tuto úroveň - značíme pj, vyjadř. v procentech - platí pj= fj/n

směrodatná odchylka

- rozptyl pod odmocninou - σ (sigma) = parametr směrodatné odchylky

Pravděpodobnostní fce

- u diskrétních náhodných veličin - vyjadřuje pravděpodobnost, že se náhodná veličina realizuje přesně s nějakou danou hodnotou. - px(x) - např. Jaká je pravděpodobnost, že byl jedinec za svůj život přesně 2x hospitalizován? - Některé tvary distribučních funkcí má náhoda raději a objevují se častěji

alfa kvantil

- „Jakou hodnotu x bychom museli zvolit, aby v ní funkční hodnota distribuční funkce dosahovala nějaké námi stanovené pravděpodobnosti α? - máme α... jaké bude x? - Rozdílně funguje u spojitých a diskrétních náhodných veličin (viz. obr 5 a 6)

binomické rozdělení

Bi - má ho každá veličina která vznikla jako součet n nezávislých náhodných veličin z nichž každá má alternativní rozdělení a stejnou hodnotou parametru p - X ~ Bi(n, p) - n = počet opakování, p = hodnota parametru - s hodnotami obou parametrů můžeme dopočítat hodnotu pravděpodobnostní funkce - k = počet pokusů z n kdy situace vyjde

Normované normální rozdělení

N (0, 1) - speciální případ normálního rozdělení kdy μ = 0 a σ2 = 1 - Lze na ni převést libovolnou náhodnou veličinu odečtením μ a podělíme σ - Symetrie kolem nuly - v přírodě na něj nikdy nenarazíme - Pravděpodobnost, že náhodná veličina, která má toto rozdělení, se bude realizovat s hodnotou nižší než nějaká záporná hodnota −x, je přesně stejná jako pravděpodobnost, že tato náhodná veličina se bude realizovat s hodnotou vyšší než kladná hodnota x.

výběrová špičatost

- g - zajímá nás u symetrických rozdělení - říká do jaké míry jsou hodnoty koncentrované kolem aritmetického průměru - Říká, kolik měření se hromadí uprostřed kolem průměru (kladná špičatost), nebo naopak kolik měření se hromadí u krajních hodnot (záporná špičatost): - kladná špičatost (g > 0) → hodnoty se výrazně koncentrují kolem středu → leptokurtické rozdělení (špičatější než Gaussovo rozdělení) - typická náchylnost k odlehlým pozorováním - žádná špičatost (g = 0) → mezokurtické rozdělení (špičatost rovnou 0 má Gaussovo rozdělení) - záporná špičatost (g < 0) → hodnoty se nekoncentrují kolem středu, ale koncentrují se (i) u krajních hodnot (popř. hodnoty u středu takřka chybí a data máme jenom na okrajích) → platykurtické rozdělení (taktéž rozdělení s těžkými chvosty; plošší než Gaussovo rozdělení)

Pearsonův korelační koeficient

- r - Nejoblíbenější ukazatel závislosti - nemá žádnou jednotku - vždy leží v intervalu [-1,1] - možnost hodnoty r srovnávat mezi sebou - v každé vědě jsou korelace považovány za závažné od jin např. už od 0,5 - r = 1 - mezi veličinami je přímá úměrnost vlastnosti: - je symetrický - pořadí znaků nehraje roli - lineární operace (sčítání a násobení konstantou) nemají vliv popisuje pouze lineární závislosti. - pokud je r = 0 neznamená to, že mezi pozorovanými znaky neexistuje žádný vztah; pouze třeba není lineární - nemluví o kauzalitě - Číselná hodnota nám sama o sobě nepřináší žádnou informaci o směru kauzality mezi oběma znaky, dokonce ani o tom, jestli zde nějaká kauzalita vůbec existuje - pokud není roven 1, nebo -1 nemůžeme s jistotou z jedné veličiny vyvodit hodnotu druhé veličiny - citlivý na odlehlá pozorování - většinou se počítá jen na kvantitativních znacích

Poissonovo rozdělení

- rozdělení vzácných jevů - Krajní příklad binomického rozdělení, kde se n blíží nekonečnu a p se blíží nule - np=λ - lambda je jediným parametrem - Po (λ) - Vyjadřuje, s jakou hodnotou se v průměru náhodná veličina realizuje - Poissonovo rozdělení nachází své využití zejména tehdy, když je λ malá - Např. Počet zákazníků, kteří můžou jít nakupovat - počet lidí, kteří můžou jít nakupovat je hodně ale pravděpodobnost, že to konkrétního jedince napadne zrovna teď je malá

mezikvartilové rozpětí

- rozpětí mezi horním a dolním kvartilem - IQR = Q3 - Q1. - velice robustní ukazatel variability

bodově-biseriální korelační koeficient

- rpb (pb index) - speciální případ pearsonova korelačního koeficientu, pokud jeden znak nabývá jen dvou hodnot. - Soubor rozdělíme na dvě skupiny podle úrovně nula-jedničkové proměnné - v jedné má tento znak hodnotu 0 a v druhé 1. Dále spočítáme průměry kvantitativních proměnné v těchto skupinách a označíme je n0 a n1. Rozsahy skupin (tzn. počet nul a počet jedniček) označíme n0 a n1. Nakonec spočítáme směrodatnou odchylku kvantitativního znaku v celém souboru n pozorované bez ohledu na skupinu. =rozdíl mezi průměry těchto skupin, který jsme nějakým způsobem nanormovali pomocí směrodatné odchylky a rozsahu skupin.

koeficient fí ϕ

- rϕ - speciální případ pearsonova korelačního koeficientu, pokud oba znaky nabývají jen dvou hodnot - Existují tak pouze 4 kategorie, do nichž se mohou zařadit všechny statistické jednotky (znaky): 1-1, 1-0, 0-1, 0-0. - Četnosti těchto kategorií zapisujeme do tzv. čtyřpolní tabulky. - Jeho hodnota se ne vždy pohybuje v intervalu [-1,1] - Pouze pokud je počet jedniček v jedné skupině stejný jako počet jedniček, nebo nul v druhé o Vychází to tak trochu pofidérně

výběrová směrodatná odchylka

- s - odmocnina z výběrového rozptylu (√s2) - je pro lidi srozumitelnější než výběr. rozptyl vlastnosti rozptylu a směrodatné odchylky: - pouze na kvantitativních znacích - nemůže být záporný - rozptyl = 0 znamená, že jsou všechny hodnoty stejné - rozptyl je vhodnou charakteristikou, pokud histogram měřených hodnot je kopec s jedním vrcholem podobný normálnímu rozdělení - citlivý na odlehlá pozorování (citlivější než ar. průměr) - i zde se dá pracovat s useknutím a winsorizací

Korelační koeficient

- standardizovaná podoba kovariance, kdy ji vydělíme směrodatnými odchylkami obou náhodných veličin COR(X, Y) = COV(X, Y) / √VAR(X) · √VAR(Y). - Nabývá pouze hodnot [-1; 1]

výběrová kovariance

- sxy (index xy) - Míra závislosti statistických znaků - Množství výběrového rozptylu, které spolu dvě veličiny sdílejí - Nabývá libovolných hodnot kladných i záporných - Kladná kovariance = vysoké hodnoty znaku x souvisejí s vysokými hodnotami znaku y - Záporná kovariance = vysoké hodnoty x souvisejí s nízkými hodnotami znaku y - nepoužívá se

náhodný výběr

- těžce neintuitivní - místo toho abychom měli náhodnou veličinu s jednotlivými prvky (x) a rozdělením - pravděpodobnosti uděláme z každého měření samostatnou náhodnou veličinu (např. skór pátého respondenta) (X) - a každá tato veličina má stejné rozdělení pravděpodobnosti - náhodný výběr o rozsahu n = uspořádaná entice nezávislých náhodných veličin s identickým rozdělením pravděpodobnosti - stejné rozdělení pravděpodobnosti zajištěno stejnými podmínkami - nezávislost zajišťují např. časové odstupy - pokud s veličinami náhodného výběru provedeme operaci vznikne opět náhodná veličina - Funkce jejímž argumentem je náhodný výběr se nazývá výběrová funkce, neboli statistika - Značí se velkým písmenem a je to opět náhodná veličina

hustota pravděpodobnosti

- u spojitých rozdělení pravděpodobnosti nemá cenu počítat pravděpodobnostní fci (protože je nulová pravděpodobnost, že se naše n.v. realizuje přesně s danou hodnotou) -> proto zavádíme HUSTOTU PRAVDĚPODOBNOSTI =fce, která nám umožňuje představit si pravděpodobnost jako plochu - plocha kopce = 1 (100%) - u spojitých náhodných veličin - fx(x) - většinou se sní nepočítá, slouží spíše pro lepší představu - pravděpodobnost lze chápat jako plochu

krabicový graf

- vyplatí se při srovnávání několika souborů hodnot - opírá se o robustní ukazatele polohy (IQR) + zachyc. i outliery - krabička - spodní hrana v kvartilu Q1 a horní hrana Q3 - čára = medián - čtvereček = aritmetický průměr - Vousy sahají k nejvyšší a nejnižší naměřené hodnotě z hodnot, které nepovažujeme za outliers (hodnoty, které jsou od krabičky vzdáleny více než jeden a půl násobek mezikvartilového rozpětí) + extrém. pozor. hvězdičkou

Rovnoměrné (uniformní) rozdělení

-realizuje se na intervalu [a,b] - a je menší než b, odpovídají parametrům, nabývají libovolné hodnoty reálných čísel - Ro (a, b) nebo U (a, b) - Hustota rovnoměrného rozdělení se v daném intervalu [a,b] = 1/b-a - jinde je hustota 0 - plocha pod křivkou tvoří obdélník - Rektangulární - E(x) = (a+b)/2 - VAR (x) = (a+b)na druhou/12

Náhodný pokus

= Realizace určitého systému podmínek, které vedou k předem neznámému výsledku - Množina všech možných výsledků daného pokusu se značí Ω (velká omega) - Každý pokus vede právě k jednomu výsledku (elementární jev) - Např. narození dítěte - jestli je to kluk nebo holka, hod hrací kostkou

centrální limitní teorém

= centrální limitní věty - pro dostatečně velká n se bude rozdělení náhodné veličiny podobat normálnímu rozložení bez ohledu na původní tvar - př. čekání na tramvaj

Neslučitelné jevy (disjunktní)

= disjunktní - nemohou nastat současně, nemají společný průnik - Všechny elementární jevy jsou neslučitelné - Náhodné jevy jsou neslučitelné, pokud platí vztah P(A ∪ B) = P(A) + P(B) - př. padlo liché číslo, nebo padlo sudé číslo

Nezávislost náhodných veličin

= výsledek jedné n. v. nijak nesouvisí s výsledkem druhé n. v. pokud jsou dvě náhodné veličiny nezávislé, pak je jejich kovariace nulová - nulová kovariace naopak nezaručuje nezávislost veličin - Platí, že „nezávislé veličiny mají nulovou kovarianci", ale bohužel neplatí „nulová kovariance odkazuje k nezávislosti veličin"

alternativní rozdělení

Alt - má každá náhodná veličina, která může nabývat jen hodnot 0 a 1 (pohlaví, ano-ne atd.) - parametr p - označuje, jak bude hrot vysoký a odpovídá pravděpodobnosti toho, že se náhodná veličina realizuje s hodnotou 1 - pravděpodobnost 0 je 1-p

Pravděpodobnost

P - funkce, která každému jevu (at' už elementárnímu nebo složenému) připisuje nějaké číslo z intervalu [0, 1] - Pravděpodobnost každého jevu můžeme vyčíslit jako součet pravděpodobností všech elementárních jevů, které obsahuje - U jevů disjunktních takto P(A ∪ B) = P(A) + P(B) - U jevů, které mají společné elementární jevy musíme pravděpodobnost těchto jevů odečíst, protože jinak bychom ji započetli 2x - P(A ∪ B) = P(A) + P(B) - P(A ∩ B) - Pravděpodobnost opačného jevu k jevu A je 1-P(A) - Pravděpodobnost jevů nezávislých se spočítá P(A ∩ B) = P(A) x P(B) - O pravděpodobnosti mluvíme pouze ve vztahu k náhodnému pokusu, ne k popisu nějaké skutečnosti Lze zapisovat jako zlomek, desetinné číslo, nebo v procentech

Studentovo t-rozdělení

T~tn - V přírodě se s ním nesetkáme, důležité pro statistické výpočty - Tvoří ji náhodná veličina s normovaným náhodným rozdělením a na ní nezávislá náhodná veličina s rozdělením 𝜒2 - výsledkem je náhodná veličina s n stupni volnosti - Toto rozdělení připomíná normované normální rozložení (stejně symetrické kolem nuly atd.) při n jdoucím k nekonečnu si odpovídají

Fisherovo F rozdělení

X ~ F(n, m) - vzniká jako podíl dvou nezávislých náhodných veličin (X1 a X2), které mají rozdělení χ2 s n1 a n2 stupni volnosti - dva parametry - počet stupňů volnosti X1 a počet stupňů volnosti X2

Spearmanův korelační koeficient

rs -vysoce robustní ukazatel - dokáže umazat outliery a nahradit je pořadím - Robustnější než pearsonův koeficient, protože se data převedou na pořadí se pouze s ním - Vychází opět z pearsonova koeficientu, jen zjednodušeně - d je rozdíl mezi pořadím v hodnotě znaku x a y u určitého prvku - stejné hodnoty - nelze přiřadit jednoznačné pořadí - průměrné pořadí (midranks) - zprůměrujeme všechna pořadí, která by měly hodnoty dostat • od pearsonova se liší v: - nepořebujeme původní hodnoty (stačí pořadí) - vysoce robustní - kvantifikuje jakoukoli monotónní závislost - nemusí být pouze lineární

výběrový rozptyl

s2 (s na druhou) - míra variability - vychází ze součtu čtverců - nikdy nevyjde záporně - místo absolutní hodnoty využíváme druhou mocninu - nepoužívá se - zvlášť proto, že jeho velikost více závisí na velikosti souboru, než na jeho variabilitě - průměr součtu čtverců = výběrový rozptyl

histogram, odlehlá pozorování

- Speciální případ sloupcového grafu - Přibližný tvar grafu hustoty pravděpodobnosti - Rozdělení statistického souboru do kategorií - sloupce na sebe přiléhají (bez mezer) - Intervaly, zobrazené s absolutní (případně relativní) četností - Hranice a středy kategorií jsou na nás (zda chceme ve středu celé hodnoty apod.) - Je na nás i z jaké strany budeme uzavírat intervaly - Kategorie musí pokrývat všechny hodnoty souboru - Počet kategorií - závisí na něm podrobnost grafu i jeho vypovídající hodnota - Sturgesovo pravidlo - Pro n pozorování stanovuje k kategorií - Výsledek se zaokrouhluje nahoru - Občas nám výsledek může pomoci, ale neměl by být jediným kritériem

diskrétní náhodná veličina

- Typickou diskrétní náhodnou veličinou je počet něčeho (třeba automobilů v rodině). - Diskrétní jsou také všechny kvalitativní charakteristiky, kterým jsme přiřadili nějaká čísla (například oblíbená značka doutníků). - Na rozdíl od spojitých náhodných veličin nabývají diskrétní náhodné veličiny některých hodnot s nenulovou pravděpodobností - může nabývat pouze jednotlivých izolovaných hodnot. - Např. počet sourozenců nebo kvalitativní znaky. - Graf její distribuční funkce = „schodiště".

Náhodný jev

- Výsledek náhodného pokusu. - Každá podmnožina velké omegy - Elementární jevy = jednoprvkové množiny výsledků; značíme ω (malá omega) - Můžeme s nimi provádět operace jako s množinami (např. průnik = ∩; sjednocení = ∪) - Jevy složené - Jev jistý - nastane pokaždé {všechny jevy elementární} - Jev nemožný - prázdná množina - Každý náhodný jev má svůj jev opačný - Př. Padlo sudé číslo → padlo liché číslo - Nezávislé jevy - neovlivňují se navzájem Např. Jev Padlo liché číslo - Př. Házím černou a bílou kostkou, co padne na jedné, vůbec neovlivňuje tu druhou

populační vs. výběrová variance a kovariance

- estimátory rozptylu a kovariance nemají symetrickou hustotu pravděpodobnosti, proto není možné vytvořit jeden estimátor, který by byl zároveň nestranný a zároveň nejlepší možný → máme pro ně dva odhady populační rozptyl (n ve jmenovateli) - není nestranný - tento estimátor skutečnou hodnotu σ2 poněkud podhodnocuje - Můžeme o něm říct, že je asymptoticky nestranný (jeho míra se s rostoucím n snižuje, k nule) - je nejlepší možný (má nejmenší rozptyl, estimáty méně kolísají) - někdy se též setkáváme s označením maximálně věrohodný odhad výběrový rozptyl (n - 1 ve jmenovateli) - je nestranný (E(S2) se rovná skutečné hodnotě σ2) - není nejlepší možný - obvykle dáváme přednost výběrovému rozptylu Populační kovariance - není nestranná - je nejlepší možná Výběrová kovariance - je nestranná - není nejlepší možná

vlastnosti bodových odhadů (více ve skriptech)

- k dokonalému poznání náhodné veličiny potřebujeme znát 1. z jaké rodiny rozdělení pravděpodobnosti veličina pochází → i když to tipneme lehce špatně tak se nic neděje, vychází to podobně 2. jaké má hodnoty parametrů → odhady - obecně parametr θ (théta) - hodnota parametru je nám neznámá - estimátor = statistika (náhodná veličina vytvořená z prvků náhodného výběru) - má tendenci se realizovat kolem skutečné hodnoty daného parametru - T - Estimát (odhad) - jedna realizace estimátoru - Pomocí estimátoru odhadujeme hodnotu parametru - Střední hodnota estimátoru = hodnota parametru (E(T) = θ) - Nestranné odhady - pohybují se kolem hledané hodnoty, nenadhodnocují, ani nepodhodnocují - Asymptoticky nestranný - pokud se nedaří mít odhad nestranný - velikost vychýlení se snižuje vzhledem k rostoucímu n - Nejlepší nestranný odhad - nestranný a zároveň je rozptyl estimátoru menší než rozptyl jakéhokoli jiného estimátoru téhož parametru - Konzistentní odhad - rozptyl estimátoru se s rostoucím n snižuje • Když se n blíží nekonečnu odhad je nekonečně blízko hodnotě parametru - Estimátor se s rostoucím počtem pozorování zmenšuje - Rozptyl estimátoru vyjadřuje, jak široce budou jeho hodnoty kolísat podle skutečné hodnoty parametru Odhadovaný parametr - estimátor - Střední hodnota - aritmetický průměr - Rozptyl - výběrový rozptyl - Směrodatná odchylka - výběrová směrodatná odchylka

vážený průměr

- míra polohy - používá se, pokud jsou některé prvky v souboru více důležité než jiné - např. známky ve škole - váha se značí w index odpovídá indexu prvku ke kterému se váže - používá se třeba i když známe rozsahy a průměry skupin (jsou početně odlišné) a chceme zjistit průměr celku

výběrový kvantil

- míra polohy - používáme, pokud nechceme soubor rozdělit 50:50, ale v jiném poměru (např. 75:25) - Pro libovolnou hodnotu α ∈ [0, 1] kvantilem rozumíme takové číslo xα, které rozděluje (uspořádaný, seřazený) soubor na dolní úsek a horní úsek - např.: Horní kvartil, dolní kvartil, medián, decily, percentily

winsorizovaný a useknutý průměr

- míra polohy = robustní modifikace aritmetického průměru - Aritmetické průměr je ovlivněn každou hodnotou souboru - přesný a citlivý na outlinery - Useknutý průměr = počítá se stejně jako aritmetický, ale před použitím vzorce vyřádíme určité procento nejvyšších a nejnižších hodnot (u pětiprocentního useknutého průměru 5% apod.) - Pokud počet hodnot které chceme odstranit nevychází jako celé číslo zaokrouhlíme dolů - Winsorizovaný průměr = podobný useknutému, ale místo odebrání určitého procenta hodnot, tyto hodnoty nahradíme poslední hodnotou, která do tohoto procenta nespadá (z obou stran)

variační koeficient

- míra variability - umožňuje srovnat relativní velikost variability u dvou různých znaků, případně souborů - podíl (výběrové) směrodatné odchylky a průměrné hodnoty = VAR =s/𝒙̅. - je bezrozměrnou jednotkou a lze stručně vyjádřit v procentech - abychom mohli říct, který ze dvou znaků je variabilnější - dává smysl ho počítat pouze u poměrových proměnných (výška, váha apod.) - např. je tělesná výška variabilnější v souboru můžu nebo žen?

mutabilita

- míra variability = vyjádření variability (rozmanitosti) kvalitativních znaků - kvantifikuje míru rozmanitosti u kvalitativních znaků - nabývá hodnot 0 až 1 - vyjadřuje pravděpodobnost toho, pokud ze souboru vybereme náhodně dva znaky, tak budou rozdílné - kdyby mutabilita byla 0 všechny hodnoty jsou totožné - kdyby byla 1 tak každá hodnota je jiná = počet všech dvojic s rozdílnými úrovněmi znaku, vydělený počtem všech možných dvojic.

bodový graf (scatterplot)

- na iksovou osu umístíme hodnoty jednoho znaku a na ypsilinovou osu druhého - smysluplný vztah lze objevit na první pohled - jsou vidět odlehlá pozorování a vztahy (i nelineární a nemonotónní závislost) problém - když hodnoty nabývají pouze omezeného počtu hodnot→ řešení = přičteme ke každé hodnotě libovolné číslo (vycházející z normálního rozdělení s malým rozptylem) - všeobecně je fajn si bodový graf vždy zobrazit abychom viděli, zda jsme nezvolili špatnou metodu výpočtu korelace

aritmetický průměr

- nejčastěji používaná míra polohy - součet všech hodnot vydělený jejich počtem - pro znak x se značí 𝒙̅ („x s pruhem") - smysluplné využití pouze u kvantitativních statistických znaků - součet rozdílů všech hodnot od průměru je roven nule součet druhých mocnin těchto rozdílů je nejmenší možný - pokud by byla místo průměru jiná hodnota byla by vždy vyšší - každý prvek zahrnutý do výpočtu má stejnou váhu

výběrový medián

- nejčastěji používaná robustní míra polohy - pro znak x se značí 𝒙̃ (případně Mdn(x)) = prostřední hodnota - U lichých čísel opravdu veprostřed - U sudých je to průměr dvou hodnot ve středu - Lze si ho představit i jako krajní případ useknutého průměru (useknete vše kromě prostřední hodnoty, či dvou) - Vysoce robustní

Rozdělení chí kvadrát

- náhodná veličina s normovaným normálním rozdělením na druhou dostaneme veličinu, která má rozdělení 𝝌𝟐 (chí kvadrát) - dolní index označuje počet stupňů volnosti (= parametr tohoto rozdělení) - aditivní - pokud sečteme více náhodných veličin s tímto rozdělením získáme opět veličinu s tímto rozdělením - počet stupňů volnosti se bude rovnat součtu stupňů volnosti sčítaných rozdělení - nepopisuje pozorovaný jev, používá se k testování stat. hypotéz a konstrukci konfidenčních intervalů Střední hodnota: E(X) = n Rozptyl: VAR(X) = 2n

odlehlá pozorování (outliers)

- prvek, který má hodnotu o mnoho vyšší či nižší než ostatní prvky - snadno a výrazně ovlivní některé charakteristiky (např. variační rozpětí, aritmetický průměr apod.) - robustnost - nakolik odlehlé pozorování ovlivní výslednou charakteristiku→ robustní ukazatel je takový, který přikládá nižší váhu extrémním hodnotám a je jimi jen málo ovlivněn = outliner - Outliner v jednom znaku, nemusí být outliner ve všech znacích - Vyloučení outlineru ze souboru není univerzálním řešením (měli bychom k němu mít pádný důvod (např. chyba při přepisu)), spíše bychom se měli přizpůsobit a používat robustní ukazatele

jednostranný a dvoustranný konfidenční interval (konfidenční interval obecně:)

Dvoustranný (oboustranný) konfidenční interval = taková dvojice statistik, pro které platí, že s pravděpodobností 1 - α (nejčastěji tedy 95 %) se první z nich realizuje s hodnotou menší, než je hodnota hledaného parametru - zároveň se s touto pravděpodobností druhá z nich realizuje s hodnotou větší, než je hodnota hledaného parametru. - Jinými slovy hledáme dvojici statistik (dolní a horní, D a H), které budou z obou stran ohraničovat náš interval spolehlivosti. (Zajímají nás obě dvě strany tohoto intervalu, proto interval „oboustranný" či „dvoustranný".) - Při výpočtech musíme dbát na to, že míra nespolehlivosti α se musí rozložit způli nalevo, způli napravo. Je tedy třeba stanovenou α půlit dvěma. - Jednostranný konfidenční interval - zajímá nás hodnota jen jedné statistiky (ať už dolní D, či horní H), a tak druhou můžeme zapsat jako -∞ či +∞. - Pravostranný konfidenční interval zapisujeme jako (D, +∞). Dolní mez je taková statistika, pro kterou platí, že s pravděpodobností 1 - α (nejčastěji tedy 95 %) se realizuje s hodnotou menší, než je hodnota hledaného parametru. - Levostranný konfidenční interval zapisujeme jako (-∞, H). Horní mez je taková statistika, pro kterou platí, že s pravděpodobností 1 - α (nejčastěji tedy 95 %) se realizuje s hodnotou větší, než je hodnota hledaného parametru. - Při výpočtech jednostranných intervalů se α nepůlí, ale celá zůstává na jedné straně (pochopitelně na straně odhadované statistiky, ne na straně nekonečna). - 99% konfidenční interval má 99% pravděpodobnost, že hledanou hodnotu bude obsahovat


Related study sets

Anatomy and Physiology Chapter 17: Digestive System

View Set

Chapter 18: Feeding, Eating, and Elimination Disorders

View Set

Psychology Chapter 8 - Prejudice and Stereotyping

View Set

Cessna 172 Nav III Skyhawk SP (G1000) V Speeds

View Set