Základy biostatistiky

Ace your homework & exams now with Quizwiz!

Pořadové slovní (kvalitativní) statistické znaky

lze určit nějaké pořadí (hodnocení ve škole - výborný je lepší než dobrý)

Chyba 2. druhu

nezamítnutí H₀, přestože platí H₁

Rozptyl

počítá se jako suma naměřených hodnot, od kterých je odečten průměr všech pozorování, to celé na druhou, to celé vyděleno počtem pozorování

Relativní četnost

procentuální vyjádření četnosti vzhledem k celkovému počtu hodnot

Variační koeficient

relativní vyjádření variability (směrodatná odchylka dělená průměrem všech pozorování)

Podíl šancí

(a*c) / (b*d) pakliže je vysoký, je pravděpodobná závislost

Stupeň volnosti

(počet řádků - 1) * (počet sloupců - 1)

Medián

Hodnota středního členu, rozděluje statistický soubor na dvě stejně početné části, kdy 50 % prvků má hodnoty menší než medián a 50 % větší. Označuje se jako x s ~.

Párový t-test

Pro výběr párů, které jsou mezi sebou nezávislé (uvnitř párů závislost může být), dvouvýběrový t-test nelze použít, protože by byla porušena nezávislost. Jako jednovýběrový t-test, ale použitý na rozdíly Z = X - Y. Rcmdr: Statistics - Means - Paired t-test H₀ = rozdíly jsou stejné

Kvartil

Tři kvartily rozdělují statistický soubor na čtvrtiny. 25 % prvků má hodnoty menší než dolní kvartil (Q1) a 75 % prvků hodnoty menší než horní kvartil (Q3). Kvartil Q2 je označován jako medián.

Test normality

V případě málého množství pozorování lze použít Shapirův-Wilkův test (u kterého H₀ = normální, H₁ = nenormální) Rcmdr: Statistics - Summaries - Test of normality - Shapiro-Wilk, většinou stačí podívat se na diagram (obr.), pokud jsou pozorování na lince, jedná se o normální rozdělení příkaz v R: qqnorm(variable);qqline(variable)

Znaménkový test

Znaménkový test používá pouze pořadí uvniř párů, je tedy použitelný i v situaci, kdy výběry nejsou k dispozici a známe pouze pořadí uvnitř párů. Zjednodušený Wilcoxonův test, nepoužíváme hodnoty rozdílů, ale pouze jejich znaménka (v 13 případech X > Y, ve dvou X < Y,...) H₀ = ½

Spearmanův korelační koeficient

Hodnocení určitých forem v případě nenormality nebo monotónní, ale nelineární závislosti. Rcmdr: Statistics - Summaries - Correlation test - Spearman rank-order

Distribuční funkce

Integrál z hustoty na intervalu (-∞;t⟩. Hustota je vždy nezáporná, distribuční funkce neklesá.

Interval spolehlivosti

Intervalový odhad neznámého parametru. Pro jeho stanovení je potřeba určit hladinu spolehlivosti α (nejčastěji se volí α=5 ~ konfidenční hladina 95 % - s pravděpodobností 95 % bude parametr ležet v intervalu (x;y))

Model s interakcemi (Mnohonásobná lineární regrese)

Jak závisí B na A a Skupině.

Kruskalův-Wallisův test

Jedná se o zobecnění Wilcoxonova dvouvýběrového testu na více výběrů. Je neparametrický, neřešíme (výrazný) problém s normalitou výběrů. Můžeme mít i méně pozorování. Rcmdr: Statistics - Nonparametric tests - Kruskal-Wallis test

Wilcoxonův dvouvýběrový test

Když chceme porovnat rozdělení dvou nezávislých výběrů spojitého (nenormálního) rozdělení. Rcmdr: Statistics - Nonparametric tests - Two-sample Wilcoxon test H₀ = rozdělení je stejné

Pearsonův korelační koeficent

Kvantifikace normálního lineárního vztahu náhodných veličin. Rcmdr: Statistics - Summaries - Correlation test - Pearson product-moment

Korelace

Lineární závislost mezi dvěma veličinami. Počítá se jako kovariance dělená násobkem směrodatných odchylek dvou veličin.

Korelační koeficient (r)

Negativní závislost (r=-1), pozitivní závislost (r=+1), bez závislosti (r=0). příkaz v R: cor(x,y)

Friedmanův test

Neparametrický - v případě, že máme problém s normalitou rozdělení, předpokládáme náhodné bloky. Nepoužívá hodnoty, pouze jejich pořadí uvnitř bloků. H₀ = nezávislé, bez rozdílu

Regresní model (spojité veličiny)

Nezávislost, linearita závislosti, normální rozdělení chyb, shodné rozptyly chyb. Rcmdr: Statistics - Fit models - Linear regression

Z-skór

Od pozorování odečteme průměr všech pozorování veličiny a vydělíme odchylkou. Ke zkoumání vlastností nezávislých na poloze a variabilitě.

Logistická regrese

Odhad pravděpodobnosti nějakého jevu (závisle proměnné) na základě určitých známých skutečností (nezávisle proměnných), které mohou ovlivnit výskyt jevu.

Fisherův faktoriálový test

Pro testování nezávislosti místo χ² testu nezávislosti, funguje i pro malé četnosti - lze tedy použít, pokud není předpoklad χ² testu splněn.

Chí kvadrát (χ²) test nezávislosti

Proti H₀ svědčí vysoké hodnoty χ². Rcmdr: Statistics - Contingency tables - nějaká tabulka - ve Statistics zaškrtnout Components of chi-square statistics

Nulová hypotéza H₀

První, testovaná hypotéza (neděje se nic zajímavého), obvykle se ji snažíme vyvrátit

Yatesova korekce

Při nižších očekávaných četnostech než 5 se používá oprava na spojitost. příkaz v R: chisq.test(table(kont.tabulka))

Test normality reziduí

Příkazy v R: qqnorm(resid(variable));qqline(resid(variable)) shapiro.test(resid(variable))

Očekávané četnosti

Ručně: marginální četnost řádku / marginální četnost sloupce * marginální četnost všichni, všichni Rcmdr: Statistics - Contingency tables - nějaká tabulka - ve Statistics zaškrtnout Print expected frequencies

Kontingenční tabulka

Shrnutí dat kvalitativních veličin H₀ = veličiny jsou nezávislé Rcmdr: Statistics - Contingency tables

Kovariance

Statistická míra lineární závislosti dvou veličin. (přímá / nepřímá úměra) Počítá se jako suma násobků rozptylů dvou veličin, celé děleno počtem naměřených hodnot bez jedné.

Mnohonásobné porovnávání

V Rcmdr: Statistics - Means - One-way ANOVA zaškrtnout i 'Pairwise comparison of means', abychom dostali schéma a graf (obr.)

Koeficient determinace R²

Vyjadřuje, jaký podíl variability veličiny Y se dá vysvětlit pomocí regresního modelu (lineární závislosti na x). Vždy platí 0 ≤ R2 ≤ 1. Je-li R 2 vysoké, znamená to, že x dobře vysvětluje Y , body na scatterplotu leží blízko přímky. Takový model je vhodný k predikci. Je-li R2 nízké, mnoho variability v datech je nevysvětleno, model nebude predikovat dobře.

Welchův dvouvýběrový test

Welchův test nepředpokládá shodné rozptyly (což je skoro vždy) Welchův test se doporučuje jako první volba pro test o velikosti průměrů dvou výběrů (odpadá ověřování shody rozptylů) Rcmdr: t.test(x,y) [(v R můžeme k testu ještě přidat korekci, pakliže jsou rozptyly shodné: t.test(x,y,var.equals=T)] H₀ = průměry se rovnají

Průměr

aritmetický - sečtení všech hodnot a vydělení jejich počtem. vážený - zobecňuje aritmetický, kdy hodnoty mají různou důležitost (př. známky s kredity)

Empirická distribuční funkce

je odhadem distribuční funkce z pozorování pomocí relativních četností

P-hodnota

je pravděpodobnost, že za H₀ bude mít testová statistika takovou hodnotu, jakou jsme dostali, nebo hodnotu ještě více svědčící proti H₀ ve prospěch alternativy. Pokud je p-hodnota menší nebo rovna hladině testu α, zamítáme H₀.

Kritický obor (K)

množina, do které když se (T) trefí, zamítneme nulovou hypotézu H₀

Spojité číselné (kvantitativní) statistické znaky

nabývají jakékoliv hodnoty v intervalu (typicky hmotnost, délka)

Nespojité číselné (kvantitativní) statistické znaky

nabývají jen určité hodnoty (počet jedinců, 1 nebo 0)

Modus

nejčastěji vyskytující se hodnota (v řadě "1,1,1,3,5,5" modus = 1)

Nominální slovní (kvalitativní) statistické znaky

nelze určit, co je lepší, co je víc, ani pořadí (barvy, lokalita)

Testová statistika (T)

náhodná veličina spočítaná z náhodného výběru,

Statistický soubor

nějaká konkrétní data (třeba vektor velikostí křídla v cm)

Jednovýběrový t-test

oboustranný (pokud k tomu máme důvod, může být jednostranný) Použijeme, pokud máme jeden výběr s normálním rozdělením. (Je střední výška mužů 178 cm?) Rcmdr: Statistics - Means - Single-sample t-test H₀ = střední hodnota se rovná zadání (př. 178)

Alternativní hypotéza H₁

obvykle to, co chceme prokázat, opak nulové hypotézy

Metoda nejmenších čtverců

odhad regresních koeficientů, aby byl součet čtverců nejmenší

Směrodatná odchylka - σ

odmocnina z rozptylu (více než 50 % naměřených hodnot se neodchyluje od průměru o více než hodnota σ)

Alternativní rozdělení

pokud může veličina nabývat pouze hodnot 0 nebo 1 s určitou pravděpodobností

Normální rozdělení

používá se jako model pro rozdělení náhodných chyb měření (výsledky náhodných pokusů se budou pohybovat kolem průměrné hodnoty)

Dvouvýběrový t-test

používá se pro test o velikosti rozdílu průměrů mezi dvěma nezávislými výběry s normálním rozdělením a stejným rozptylem Shodnost rozptylu lze posoudit podle boxplotů obou výběrů (příkaz v R např. jako: obrázek) nebo klasickým F-testem (H₀ = shoda, H₁ = neshoda - v případě, že platí H₀ F-testu a ostatní podmínky jsou splněny, můžeme provést dvouvýběrový t-test) Rcmdr: Statistics - Means - Independent samples t-test H₀ = průměry se rovnají (rozdíl = 0) Další (asi lepší) alternativou dvouvýběrového t-testu je Welchův test (jiná kartička)

Odlehlé pozorování

pozorování, které se mimořádně liší od ostatních hodnot a tím ovlivňují reprezentativnost výběru (v řadě "1, 4, 3, 200, 6, 2" bude číslo 200 odlehlým pozorováním)

Pravděpodobnost

počet příznivých variant dělený počtem možných variant

Binomické rozdělení

počítá pravděpodobnost, že se v sérii pokusů (n) bude vyskytovat jev, který má nějakou pravděpodobnost (p) právě Xkrát, je součtem nezávislých alternativních rozdělení (např. pravděpodobnost, že při 6 hodech padne šestka právě jednou)

Poissonovo rozdělení

se používá k popisu výskytu řídkých jevů, binomické rozdělení s počet pokusů (n) více než 30 a pravděpodobnost (p) je malá (např. 10 %) můžeme aproximovat Po(p.n), počítá s parametrem λ (p.n)

Náhodný blok

skupinky (druh, vrhy, místa narození), každá má náhodný efekt, realizuje náhodnou veličinu

Marginální četnosti

součty za jednotlivé kategorie kontingenční tabulky příkaz v R: addmargins(table(x,y))

Statistická jednotka

subjekt, který zkoumáme (podnik, druh)

Statistický znak

vlastnost statistické jednotky (příjem, velikost) - číselná (kvantitativní) nebo slovní (kvalitativní)

Chyba 1. druhu

zamítnutí H₀, přestože H₀ platí

Četnost

číslo, které udává počet opakování určitých hodnot ve statistickém souboru (pokud je v souboru 121 osmkrát, četnost hodnoty 121 je 8)

Variační řada

řada všech hodnot náhodné veličiny seřazených vzestupně nebo sestupně (121, 123, 126, 200)

Regresní přímka

Hledáme rovnici přímky v případě prokázání lineární regrese (y = b₀ + b₁x). V Rcmdr zjistíme z lineárního modelu (Coefficients: to, co chceme = hodnota Estimate Interceptu (b₀) + hodnota Estimate toho, co víme * to, co víme (b₁*x)).

Diagnostické grafy

Pokud je 'červená čára' do U, model není vhodný, pokud je vodorovná, model je vhodný Rcmdr: Models - Graphs - Basic diagnostic plots

Analýza rozptylu (ANOVA) jednoduchého třídění (kategoriální)

Porovnání průměrů s ohledem na variabilitu a počet pozorování. Použijeme v případě, že máme pozorování pro několik (>2) skupin (např. délka těla v cm 50 jedinců, rozlišených do 5 druhů). Potřeba normalita všech výběrů (normální diagram residuí), nezávislost všech veličin a stejný rozptyl u všech výběrů. Rcmdr: Statistics - Means - One-way ANOVA H₀ = střední hodnoty se ve všech skupinách rovnají

Analýza rozptylu (ANOVA) dvojného třídění bez interakcí (kategoriální)

Porovnání průměrů, analýzy rozptylu. Použijeme v případě, že máme pozorování pro několik (>2) skupin a zkoumáme závislost veličiny na více veličinách (ne ovšem dohromady). H₀ = střední hodnoty se ve všech skupinách rovnají Rcmdr: Statistics - Fit models - Linear model - Models - Hypothesis test - ANOVA Table - Type I

Analýza rozptylu (ANOVA) dvojného třídění s interakcemi (kategoriální)

Použijeme v případě, že máme pozorování pro několik (>2) skupin a veličina může záviset na více veličinách zároveň. H₀ = střední hodnoty se ve všech skupinách rovnají Rcmdr: Statistics - Means - Multi-way ANOVA


Related study sets

Ch 16. Socioemotional Development in Late Adulthood

View Set

Biomechanics: Vectors & Kinematics

View Set

Statistics Module 5: Chapter 9-10

View Set

100 Books Everyone Should Read (in no particular order)

View Set

French How to ask how someone is doing and responses

View Set