Základy biostatistiky
Pořadové slovní (kvalitativní) statistické znaky
lze určit nějaké pořadí (hodnocení ve škole - výborný je lepší než dobrý)
Chyba 2. druhu
nezamítnutí H₀, přestože platí H₁
Rozptyl
počítá se jako suma naměřených hodnot, od kterých je odečten průměr všech pozorování, to celé na druhou, to celé vyděleno počtem pozorování
Relativní četnost
procentuální vyjádření četnosti vzhledem k celkovému počtu hodnot
Variační koeficient
relativní vyjádření variability (směrodatná odchylka dělená průměrem všech pozorování)
Podíl šancí
(a*c) / (b*d) pakliže je vysoký, je pravděpodobná závislost
Stupeň volnosti
(počet řádků - 1) * (počet sloupců - 1)
Medián
Hodnota středního členu, rozděluje statistický soubor na dvě stejně početné části, kdy 50 % prvků má hodnoty menší než medián a 50 % větší. Označuje se jako x s ~.
Párový t-test
Pro výběr párů, které jsou mezi sebou nezávislé (uvnitř párů závislost může být), dvouvýběrový t-test nelze použít, protože by byla porušena nezávislost. Jako jednovýběrový t-test, ale použitý na rozdíly Z = X - Y. Rcmdr: Statistics - Means - Paired t-test H₀ = rozdíly jsou stejné
Kvartil
Tři kvartily rozdělují statistický soubor na čtvrtiny. 25 % prvků má hodnoty menší než dolní kvartil (Q1) a 75 % prvků hodnoty menší než horní kvartil (Q3). Kvartil Q2 je označován jako medián.
Test normality
V případě málého množství pozorování lze použít Shapirův-Wilkův test (u kterého H₀ = normální, H₁ = nenormální) Rcmdr: Statistics - Summaries - Test of normality - Shapiro-Wilk, většinou stačí podívat se na diagram (obr.), pokud jsou pozorování na lince, jedná se o normální rozdělení příkaz v R: qqnorm(variable);qqline(variable)
Znaménkový test
Znaménkový test používá pouze pořadí uvniř párů, je tedy použitelný i v situaci, kdy výběry nejsou k dispozici a známe pouze pořadí uvnitř párů. Zjednodušený Wilcoxonův test, nepoužíváme hodnoty rozdílů, ale pouze jejich znaménka (v 13 případech X > Y, ve dvou X < Y,...) H₀ = ½
Spearmanův korelační koeficient
Hodnocení určitých forem v případě nenormality nebo monotónní, ale nelineární závislosti. Rcmdr: Statistics - Summaries - Correlation test - Spearman rank-order
Distribuční funkce
Integrál z hustoty na intervalu (-∞;t⟩. Hustota je vždy nezáporná, distribuční funkce neklesá.
Interval spolehlivosti
Intervalový odhad neznámého parametru. Pro jeho stanovení je potřeba určit hladinu spolehlivosti α (nejčastěji se volí α=5 ~ konfidenční hladina 95 % - s pravděpodobností 95 % bude parametr ležet v intervalu (x;y))
Model s interakcemi (Mnohonásobná lineární regrese)
Jak závisí B na A a Skupině.
Kruskalův-Wallisův test
Jedná se o zobecnění Wilcoxonova dvouvýběrového testu na více výběrů. Je neparametrický, neřešíme (výrazný) problém s normalitou výběrů. Můžeme mít i méně pozorování. Rcmdr: Statistics - Nonparametric tests - Kruskal-Wallis test
Wilcoxonův dvouvýběrový test
Když chceme porovnat rozdělení dvou nezávislých výběrů spojitého (nenormálního) rozdělení. Rcmdr: Statistics - Nonparametric tests - Two-sample Wilcoxon test H₀ = rozdělení je stejné
Pearsonův korelační koeficent
Kvantifikace normálního lineárního vztahu náhodných veličin. Rcmdr: Statistics - Summaries - Correlation test - Pearson product-moment
Korelace
Lineární závislost mezi dvěma veličinami. Počítá se jako kovariance dělená násobkem směrodatných odchylek dvou veličin.
Korelační koeficient (r)
Negativní závislost (r=-1), pozitivní závislost (r=+1), bez závislosti (r=0). příkaz v R: cor(x,y)
Friedmanův test
Neparametrický - v případě, že máme problém s normalitou rozdělení, předpokládáme náhodné bloky. Nepoužívá hodnoty, pouze jejich pořadí uvnitř bloků. H₀ = nezávislé, bez rozdílu
Regresní model (spojité veličiny)
Nezávislost, linearita závislosti, normální rozdělení chyb, shodné rozptyly chyb. Rcmdr: Statistics - Fit models - Linear regression
Z-skór
Od pozorování odečteme průměr všech pozorování veličiny a vydělíme odchylkou. Ke zkoumání vlastností nezávislých na poloze a variabilitě.
Logistická regrese
Odhad pravděpodobnosti nějakého jevu (závisle proměnné) na základě určitých známých skutečností (nezávisle proměnných), které mohou ovlivnit výskyt jevu.
Fisherův faktoriálový test
Pro testování nezávislosti místo χ² testu nezávislosti, funguje i pro malé četnosti - lze tedy použít, pokud není předpoklad χ² testu splněn.
Chí kvadrát (χ²) test nezávislosti
Proti H₀ svědčí vysoké hodnoty χ². Rcmdr: Statistics - Contingency tables - nějaká tabulka - ve Statistics zaškrtnout Components of chi-square statistics
Nulová hypotéza H₀
První, testovaná hypotéza (neděje se nic zajímavého), obvykle se ji snažíme vyvrátit
Yatesova korekce
Při nižších očekávaných četnostech než 5 se používá oprava na spojitost. příkaz v R: chisq.test(table(kont.tabulka))
Test normality reziduí
Příkazy v R: qqnorm(resid(variable));qqline(resid(variable)) shapiro.test(resid(variable))
Očekávané četnosti
Ručně: marginální četnost řádku / marginální četnost sloupce * marginální četnost všichni, všichni Rcmdr: Statistics - Contingency tables - nějaká tabulka - ve Statistics zaškrtnout Print expected frequencies
Kontingenční tabulka
Shrnutí dat kvalitativních veličin H₀ = veličiny jsou nezávislé Rcmdr: Statistics - Contingency tables
Kovariance
Statistická míra lineární závislosti dvou veličin. (přímá / nepřímá úměra) Počítá se jako suma násobků rozptylů dvou veličin, celé děleno počtem naměřených hodnot bez jedné.
Mnohonásobné porovnávání
V Rcmdr: Statistics - Means - One-way ANOVA zaškrtnout i 'Pairwise comparison of means', abychom dostali schéma a graf (obr.)
Koeficient determinace R²
Vyjadřuje, jaký podíl variability veličiny Y se dá vysvětlit pomocí regresního modelu (lineární závislosti na x). Vždy platí 0 ≤ R2 ≤ 1. Je-li R 2 vysoké, znamená to, že x dobře vysvětluje Y , body na scatterplotu leží blízko přímky. Takový model je vhodný k predikci. Je-li R2 nízké, mnoho variability v datech je nevysvětleno, model nebude predikovat dobře.
Welchův dvouvýběrový test
Welchův test nepředpokládá shodné rozptyly (což je skoro vždy) Welchův test se doporučuje jako první volba pro test o velikosti průměrů dvou výběrů (odpadá ověřování shody rozptylů) Rcmdr: t.test(x,y) [(v R můžeme k testu ještě přidat korekci, pakliže jsou rozptyly shodné: t.test(x,y,var.equals=T)] H₀ = průměry se rovnají
Průměr
aritmetický - sečtení všech hodnot a vydělení jejich počtem. vážený - zobecňuje aritmetický, kdy hodnoty mají různou důležitost (př. známky s kredity)
Empirická distribuční funkce
je odhadem distribuční funkce z pozorování pomocí relativních četností
P-hodnota
je pravděpodobnost, že za H₀ bude mít testová statistika takovou hodnotu, jakou jsme dostali, nebo hodnotu ještě více svědčící proti H₀ ve prospěch alternativy. Pokud je p-hodnota menší nebo rovna hladině testu α, zamítáme H₀.
Kritický obor (K)
množina, do které když se (T) trefí, zamítneme nulovou hypotézu H₀
Spojité číselné (kvantitativní) statistické znaky
nabývají jakékoliv hodnoty v intervalu (typicky hmotnost, délka)
Nespojité číselné (kvantitativní) statistické znaky
nabývají jen určité hodnoty (počet jedinců, 1 nebo 0)
Modus
nejčastěji vyskytující se hodnota (v řadě "1,1,1,3,5,5" modus = 1)
Nominální slovní (kvalitativní) statistické znaky
nelze určit, co je lepší, co je víc, ani pořadí (barvy, lokalita)
Testová statistika (T)
náhodná veličina spočítaná z náhodného výběru,
Statistický soubor
nějaká konkrétní data (třeba vektor velikostí křídla v cm)
Jednovýběrový t-test
oboustranný (pokud k tomu máme důvod, může být jednostranný) Použijeme, pokud máme jeden výběr s normálním rozdělením. (Je střední výška mužů 178 cm?) Rcmdr: Statistics - Means - Single-sample t-test H₀ = střední hodnota se rovná zadání (př. 178)
Alternativní hypotéza H₁
obvykle to, co chceme prokázat, opak nulové hypotézy
Metoda nejmenších čtverců
odhad regresních koeficientů, aby byl součet čtverců nejmenší
Směrodatná odchylka - σ
odmocnina z rozptylu (více než 50 % naměřených hodnot se neodchyluje od průměru o více než hodnota σ)
Alternativní rozdělení
pokud může veličina nabývat pouze hodnot 0 nebo 1 s určitou pravděpodobností
Normální rozdělení
používá se jako model pro rozdělení náhodných chyb měření (výsledky náhodných pokusů se budou pohybovat kolem průměrné hodnoty)
Dvouvýběrový t-test
používá se pro test o velikosti rozdílu průměrů mezi dvěma nezávislými výběry s normálním rozdělením a stejným rozptylem Shodnost rozptylu lze posoudit podle boxplotů obou výběrů (příkaz v R např. jako: obrázek) nebo klasickým F-testem (H₀ = shoda, H₁ = neshoda - v případě, že platí H₀ F-testu a ostatní podmínky jsou splněny, můžeme provést dvouvýběrový t-test) Rcmdr: Statistics - Means - Independent samples t-test H₀ = průměry se rovnají (rozdíl = 0) Další (asi lepší) alternativou dvouvýběrového t-testu je Welchův test (jiná kartička)
Odlehlé pozorování
pozorování, které se mimořádně liší od ostatních hodnot a tím ovlivňují reprezentativnost výběru (v řadě "1, 4, 3, 200, 6, 2" bude číslo 200 odlehlým pozorováním)
Pravděpodobnost
počet příznivých variant dělený počtem možných variant
Binomické rozdělení
počítá pravděpodobnost, že se v sérii pokusů (n) bude vyskytovat jev, který má nějakou pravděpodobnost (p) právě Xkrát, je součtem nezávislých alternativních rozdělení (např. pravděpodobnost, že při 6 hodech padne šestka právě jednou)
Poissonovo rozdělení
se používá k popisu výskytu řídkých jevů, binomické rozdělení s počet pokusů (n) více než 30 a pravděpodobnost (p) je malá (např. 10 %) můžeme aproximovat Po(p.n), počítá s parametrem λ (p.n)
Náhodný blok
skupinky (druh, vrhy, místa narození), každá má náhodný efekt, realizuje náhodnou veličinu
Marginální četnosti
součty za jednotlivé kategorie kontingenční tabulky příkaz v R: addmargins(table(x,y))
Statistická jednotka
subjekt, který zkoumáme (podnik, druh)
Statistický znak
vlastnost statistické jednotky (příjem, velikost) - číselná (kvantitativní) nebo slovní (kvalitativní)
Chyba 1. druhu
zamítnutí H₀, přestože H₀ platí
Četnost
číslo, které udává počet opakování určitých hodnot ve statistickém souboru (pokud je v souboru 121 osmkrát, četnost hodnoty 121 je 8)
Variační řada
řada všech hodnot náhodné veličiny seřazených vzestupně nebo sestupně (121, 123, 126, 200)
Regresní přímka
Hledáme rovnici přímky v případě prokázání lineární regrese (y = b₀ + b₁x). V Rcmdr zjistíme z lineárního modelu (Coefficients: to, co chceme = hodnota Estimate Interceptu (b₀) + hodnota Estimate toho, co víme * to, co víme (b₁*x)).
Diagnostické grafy
Pokud je 'červená čára' do U, model není vhodný, pokud je vodorovná, model je vhodný Rcmdr: Models - Graphs - Basic diagnostic plots
Analýza rozptylu (ANOVA) jednoduchého třídění (kategoriální)
Porovnání průměrů s ohledem na variabilitu a počet pozorování. Použijeme v případě, že máme pozorování pro několik (>2) skupin (např. délka těla v cm 50 jedinců, rozlišených do 5 druhů). Potřeba normalita všech výběrů (normální diagram residuí), nezávislost všech veličin a stejný rozptyl u všech výběrů. Rcmdr: Statistics - Means - One-way ANOVA H₀ = střední hodnoty se ve všech skupinách rovnají
Analýza rozptylu (ANOVA) dvojného třídění bez interakcí (kategoriální)
Porovnání průměrů, analýzy rozptylu. Použijeme v případě, že máme pozorování pro několik (>2) skupin a zkoumáme závislost veličiny na více veličinách (ne ovšem dohromady). H₀ = střední hodnoty se ve všech skupinách rovnají Rcmdr: Statistics - Fit models - Linear model - Models - Hypothesis test - ANOVA Table - Type I
Analýza rozptylu (ANOVA) dvojného třídění s interakcemi (kategoriální)
Použijeme v případě, že máme pozorování pro několik (>2) skupin a veličina může záviset na více veličinách zároveň. H₀ = střední hodnoty se ve všech skupinách rovnají Rcmdr: Statistics - Means - Multi-way ANOVA