Statistik

Réussis tes devoirs et examens dès maintenant avec Quizwiz!

Teknik Sampling yang jarang digunakan

- Acceptance-Rejection Sampling - Accidental Sampling - Adaptive Sampling - Bootstrap Sampling - Demon Algorithm - Critical Case Samples - Disrepant Case Sampling - Distance Sample - Experience Sampling Method - Haphazard Sampling

Tipe Variabel yang tidak umum digunakan

- Aktif: yang dimanipulasi peneliti - Antecedent: muncul sebelum variabel independen - Attribute: pada software statistik merupakan nama lain kategorikal dan pada desain eksperimen variabel yang tidak dimanipulasi - Binary/Dichotomous: yang hanya memiliki 2 nilai, yes/no, 0/1 dan lain-lain - Collider: memiliki node pada grafik kausal dan runcing - Covariate: karakteristik dari subjek eksperimen yang biasanya tidak diperhatikan misalnya pengaruh tingkat kekeringan terhadap pertumbuhan jagung. level kekeringannya di sini variabel independen dan kovariate nya ada ukuran(karakteristik) dari tanaman. - Criterion: nama lain dari variabel dependen jika digunakan pada situasi non-eksperimental. - Dummy/indikator: digunakan pada analisis regresi ketika menentukan hubungan ke variabel kategorikal yang tidak memiliki hubungan. misalnya memiliki mobil sebagai 1 dan memiliki anjing sebagai 0. intinya mengubah kategorinya(nominal) menjadi numerik. - Endogenous: biasa digunakan pada ekonometrik, hampir sama dengan variabel dependen. Ada juga exogenous yang hampir sama dengan independen variabel - Extraneous: yang tidak sengaja di ikutkan - Grouping/coding/by variabel: menyortir data dalam file menjadi kategori. - Identifier: untuk identifikasi. - Interval - Intervening/mediating: digunakan untuk menjelaskan hubungan antar variabel. - Latent: variabel tersembunyi yang tidak dapat diukur atau diamati secara langsung. - Manifest: yang bisa diamati dan diukur secara langsung. - Moderating: mengubah besar atau kecilnya pengaruh independen ke dependen misalnya psychotherapy terhadap tingkat stress di sini jenis kelamin dari partisipan dimana psychotherapy lebih efektif pada perempuan - Nuisance: Extraneous variabel yang mengubah keseluruhan variabilitas. -

Teknik Sampling yang sering digunakan

- Bernoulli Samples - Cluster Samples - Systematic Sampling - SRS(Simple Random Sampling) - Stratified Sampling

Teknik Sampling Tambahan

- Inverse Sample - Importance Sampling - Kish Grid - Latin Hypercube - Line-intercept Sampling - Maximum Variation Samples - Multistage Sampling - Quota Sampling - Reservoir Sampling - Sequential Sample - Snowball Samples - Squared-root biased sample

Menemukan perbedaan metode sampling yang digunakan

1. Apakah pengambilan sample random atau sistematis 2. Ukuran sampel, jika ukurannya terlalu besar mungkin akan lebih mudah menggunakan random sampling atau dipilih berdasarkan kriteria tertentu 3. Tentukan apakah datanya berasal dari kelompok yang terdefinisi(ditetapkan)(strata atau cluster). intinya jika memiliki data tiap individu maka bisa dilakukan stratified sampling, tapi jika hanya mengetahui mengenai kelompoknya(cluster) maka menggunakan cluster sampling. 4. Temukan apakah sampelnya termasuk mudah digunakan(convenience sampel) misalnya hanya berdiri di depan toko dan menanyai orang yang lewat.

Tipe Variable

1. Kategorikal(kualitatif) 2. Confounding(Pengganggu) yang biasanya tidak dihitung tapi dapat sangat mempengaruhi hasil. misalnya ingin mengetahui pengaruh tingkat aktivitas dengan pertumbuhan otot tapi tidak memperhitungkan pengaruh variabel umur. Hal ini dapat meningkatkan variance dari yang sesungguhnya dan memberi confounding bias(bukan bias sebenarnya karena berasal dari kesalahan pengumpulan data bukan dari pemilihan data). cara menguranginya dengan :a. random samples b. mengguanakan variabel kontrol misal variabel umurnya dibuat 20 tahun c. menguji subjek penelitian setiap waktu karena dapat berubah-ubah(tentunya mustahil untuk bisa mengetahui ada tidaknya perubahan 100%) d. counterbalancing. 3. Kontrol(yang nilainya konstan) 4. Dependen/respon/test(uji)(hasil dari eksperimen) 5. Independen/manipulated/prediktor/treatment(yang diubah selama eksperimen) misal: Mobil melaju ke turunan di sini Kontrol: Berat dan tinggi mobil, satuan waktu yang digunakan misalnya dalam detik, kemiringan. Dependent: Waktu yang dibutuhkan. Independent: Kelajuan, hambatan di jalan dll. 6. Lurking Variable: tersembunyi(jadi tidak diketahui) yang dapat mengubah atau berdampak pada hubungan variabel dependen dan independen(hasilnya bias). Note: Eksplanatori merupakan salah satu tipe independen variabel, jika independensi variabelnya tidak benar-benar diketahui maka disebut eksplanatori misalnya pengaruh makanan siap saji dan soda terhadap berat badan mungkin keduanya sekilas terlihat independen tapi jika dilihat lebih dekat tidak, karena jika membeli makanan siap saji biasanya disertai dengan membeli soda. Bedanya dengan confounding adalah lurking variable memiliki hubungan terhadap keduanya(eksplanatori dan respon) sedangkan confounding hanya pada respon. Lurking variabel misalnya banyak pemadam yang dikerahkan dengan kerusakan yang ditimbulkan, di sini lurking variabelnya ada banyaknya titik api yang berpengaruh terhadap kerusakannya dan jumlah pemadamnya. 7. Variabel Pengukuran(quantitatif(diskrit dan kontinuous)

4 Skala Pengukuran

1. Nominal: nama kategori(ex: Jenis Kelamin) selain itu variabel nominal juga terkadang digunakan sebagai nama lain variabel kategorikal. 2. Ordinal: yang penting ada urutan tapi antar urutan intervalnya tidak dapat ditentukan(ex: Skala Likert, Peringkat Kelas, Pergantian Waktu(Pagi-Siang-Malam). 3. Interval: Intervalnya jelas dan 0 berarti sesuatu(ex: 0 derajal celsius, jadi biarpun 0, bukan berarti gk ada suhu) 4. Ratio: Intervalnya jelas namun 0 tidak berarti(ex: kalau tingginya 0 cm artinya tidak memiliki tinggi) Tambahan: Bilangan Kardinal yang digunakan untuk menghitung kuantitas misal 2 orang, 3 apel dan lain-lain.

Average

Arithmetic Mean: average atau rata-rata. Mean bukan average karena average itu hanya untuk arithmetic mean sedangkan mean tidak hanya arithmetic, ada geometrik dan harmonik.

Selection Bias(Bias pada pemilihan)

Disengaja atau tidak yang membuat sampelnya tidak random. Tipe Selection Bias: 1. Healthy Worker Effect(salah satu tipe membership bias) . Ketika ingin meneliti eksposure bahan beracun di lingkungan kerja, membandingkannya dengan populasi umum. Pada bias ini pekerja yang terekspos terlihat lebih sehat dari populasi umum. hal ini karena populasi umum itu sendiri terdiri dari pekerja (yang lingkungan pekerjaannya tidak terekspos) dan bukan pekerja. Bukan pekerja inilah yang membuat overall population jika dirata-rata kesehatannya kurang dari pekerja yang terekspos. karena bukan pekerja(misalnya lansia, ibu hamil, orang sakit) biasanya kesehatannya rendah(karena itu tidak bisa bekerja, kalau sehat artinya bisa bekerja). 2. Hospital Patient Bias(Berkson's Paradox): Ketika kejadian terlihat memiliki korelasi padahal tidak. Misalnya Kanker Paru-paru dengan diabetes. jika penelitian mencari pasien yang memiliki keduanya maka seolah olah pasien dengan kanker paru-paru cenderung memiliki diabetes juga padahal keduanya independen. Berkson menulis mengenai paradoks ini ketika meneliti case-control studi dirumah sakit, yang dia bilang spuriously associated.

Diskrit dan Kontinuous

Diskrit: dapat dihitung dan terbatas misalnya berapa jumlah koin yang dimiliki atau jumlah uang yang dimiliki. Kontinuous: tidak dapat dihitung misalnya waktu bisa 25 tahun, 10 bulan, 2 hari, 5 jam, 4 menit dan seterusnya begitu juga dengan panjang, tinggi dan besaran/skala lainnya.

Sampling Error

Error pasti terjadi karena kita mengambil sampelnya bukan keseluruhan populasi atau perbedaan antara statistics dan parameter. misalnya jika pada statistics ditemukan persentase remaja per 1000 orang adalah 19.00% tapi ternyata yang benar adalah 19.57% , beda 19.57-19.00 = 0.57. atau 19.00:19.57 = 1:1.03 = 3% margin of error. standarnya margin of error = 1/sqrt n, jadi kalau ukuran sampelnya 1000, 1/sqrt1000=0.0326=0.032=3.2%. idealnya masih didalam 3.2% margin of error, contoh di atas 3% jadi masih didalam margin of error yang dapat diterima. semakin besar ukuran sampel, semakin kecil margin of errornya. untuk cluster sampling error ini dapat meningkat karena tiap individu sebuah cluster kemungkinan memiliki banyak persamaan dibandingkan dengan individu dari cluster lain. Ada juga non-sampling error, ini misalnya karena instrumen untuk koleksi data tidak akurat, selection bias dari penelitinya yang sengaja memilih individu tertentu, non-response bias(ketika responden tidak merespon) yang menyebabkan missing data(bisa di isi dengan metode imputasi(multiple imputation). Meningkatkan ukuran sampel tidak akan berdampak terhadap non-sampling error.

Klasifikasi variabel kualitatif(kategorikal) dan kuantitatif(numerikal)

Kebanyakan grafik membutuhkan kuantitatif variabel, namun pie chart butuh kualitatif.

Bias

Kecenderungan statistik untuk underestimate atau overestimated parameter karena error dalam pengambilan, pengukuran dan sampel yang tidak representatif. error bukan berarti ada kesalahan pada sampel, untuk lebih tepatnya sampling variability(variability nama lain dari range) yang menunjukan perbedaan range antar sampel. atau variability of the sample mean: perbedaan mean antar sampel. variabilitas ini hanya pada sampel tidak pada populasi. Sampling error di sini jika hasil statistiknya hampir sama dengan populasi tapi tidak bisa benar-benar tepat. Error pada pengukuran: Misalnya karena kalimat pada kuesionernya sulit dipahami yang membuat responden salah memilih. atau bisa juga karena cara interviewer memberi pertanyaan. bagaimana datanya dikumpulkan dan bagaimana dokumentasi atau penyimpanan respon tadi. Estimator Bias: estimator itu sendiri adalah cara mengkalkulasi estimasi kuantitas berdasarkan data yang diamati. dikarenakan estimator yang digunakan tidak menghasilkan estimasi yang diinginkan.

Outlier

Memiliki jarak yang tidak normal relative dengan individu yang lain. 1 dan 201: 1, 99, 100, 101, 103, 109, 110, 201. contoh lain: 61, 10, 32, 19, 22, 29, 36, 14, 49, 3. di sini yang outlier hanya 61 bukan 3. boxplot bisa digunakan untuk visualisasi outlier namun tidak selalu kelihatan karena terkadang whiskernya mencapai outliernya. Yang paling efektif digunakan adalah IQR Outlier didefinisikan sebagai nilai yang lebih dari 1.5 IQR di bawah Q1 atau di atas Q3. High = (Q3) + 1.5 IQR, Low = (Q1) - 1.5 IQR Misal: 3, 10, 14, 22, 19, 29, 70, 49, 36, 32. IQR nya di sini 22, Q1:14 dan Q3:36. untuk menentukan batas atasnya: (1.5x22)+36=69 dan batas bawah:14-(1.5x22)=-19. jadi batasannya -19 sampai 69. dan di sini outliernya ditemukan yaitu 70. Ada juga tukey method, sebenarnya sama saja hanya batas diberi istilah "fences". Metode-metode lain: - Generalised ESD - Grubb's test - Dixon's test - Modified Thompson Tau test - Pierce's Criterion

Menghitung Expected Value(Nilai yang diharapkan)

Misalnya jika mengambil 20 pertanyaan pilihan ganda, ABCD, bisa diharapkan(expect) untuk mendapat 25% benar jika memilih A di semua pertanyaa. expected valuenya dengan probabilitas(p)=.25 = 20x0.25= 5. Expected value seperti ini untuk binomial random variabel karena hanya memiliki 2 hasil yang mungkin yaitu jawaban benar dan jawaban salah. untuk multiple event misalnya: Projek A dengan probabilitas: 0.6=500.000 0.4=2.000.000 dan Projek B: 0.3=3.000.000 0.7=200.000 Untuk menngetahui projek mana yang lebih menguntungkan dicari expected valuenya: A: (0.4x2000000)+(0.6x500000)=1100000 B: (0.3x3000000)+(0.7x200000)=1040000 dapat dilihat projek A lebih besar.

Regression to the mean

Misalnya ketika melempar koin, sepuluh lemparan pertama bisa jadi gambar semua(ekstrem) tapi dengan perulangan yang cukup lama-kelamaan akan semakin mendekati mean/normal dengan perbanding gambar dan angka hampir sama. Hal seperti ini juga dapat terjadi pada sampling error misalnya jika tidak secara random, hasil meannya bisa saja terlalu tinggi atau tidak masuk akal. atau bisa juga karena sampelnya terlalu kecil dan tidak representatif. Mencari persentase regression to the mean = 100(1-r) r: Koefisien Korelasi(0 sampai 1) r = 1 artinya korelasinya sempurna. jika r=1= 100(1-1)= 0. data dengan r=0 akan selalu regress to the mean.

Range

Paling besar-paling kecil. namun pada range ini terkadang terdapat outlier yang bisa mislead misalnya satu nilainya 1000000 tapi yang lainnya cuman dari 10-100 dan 1000000 itu hanya terjadi sekali. Ada juga rule of thumb kalo range itu 4x sd. tapi ukuran sampel harus cukup besar dan terdistribusi normal.

Koefisien Variasi(CV)

Pengukuran variabilitas relatif: ratio standard deviasi dengan mean misalnya:"standar deviasinya 15% dari mean". CV digunakan untuk membandingkan hasil dari 2 survey yang berbeda yang memiliki metode scoring yang berbeda. Jika sampel A memiliki CV 12% dan B 25% artinya B memiliki lebih banyak variasi dibandingkan A. karena terkadang standard deviasi nya hampir sama atau berdekatan padahal variasinya bisa sangat berbeda dan hasilnya signifikan. Coefficient of Variation = (Standard Deviation / Mean) * 100. *100 optional untuk mengubah ke persen.

Pooled sample standard error

Pooled standard menggunakan 2 variasi sampel dengan mengansumsikan keduanya memiliki variance yang sama. SEpooled = Sp √ (1/n1 + 1/n2) Sample1 :n=25, s = 6. Sample2 :n=25, s = 6. SEp = 6 √ (1/25 + 1/25)=1.697

Fake Statistics

Statistics bisa jadi salah karena: 1. Sengaja dibuat mislead - Berasal dari penelitian yang asal-asalan - Datanya dibuat-buat - Memiliki tautan ke artikel dari jurnal yang professional namun sebenarnya link tersebut mendownloadnya dari artikel yang belum dipublikasi yang bisa didapat dengan mudah secara publik 2. Grafiknya misleading 3. Tak acuh, jadi langsung dishare aja tanpa memperhatikan fakta sebenarnya. Hal yang perlu diperhatikan: Siapa yang melakukan survey, apa, apakah opininya bias, apakah sebab-akibat(kausasi) dapat dibuktikan(correlation doesnt mean causation), apakah publikasinya bias, apakah sampel representatif, apakah angkanya too good to be true. Intinya cek fakta terlebih dahulu jangan main percaya dan share gitu aja.

Metode Sampling

Ukuran Sampel: minimal 100 jadi jika populasinya cuma 100 ya semuanya harus dijadikan survey dan maksimal 10% total populasi jika populasi melebihi +-4000 untuk level kepercayaan 95%. -Probability Sampling: dipilih secara random tapi peluang dipilih tidak harus sama, orang satu bisa 5% orang 2 bisa 1% peluang dipilihnya. -Non-probability Sampling: dipilih saja oleh peneliti dan peluang dipilihnya tidak dapat ditentukan. Teknik yang sering digunakan bisa mengambil sampel dengan mengganti atau tanpa pengganti, di sini misalnya ambil 1 kelereng merah dari kantong, kalo kelereng merah itu dipisahkan artinya tanpa pengganti(without replacement) tapi kalau dikembalikan maka ada pengganti(replacement sample)

Five Number Summary (FNS)

minimum, 1st quartile, median, 3rd quartile, maximum. (1, 2, (Q1), 6, 7), (Q2), ( 12, 15,(Q3),19,27). untuk dapat menemukan kelima ini datanya harus univariate(hanya 1 variabel) dan harus ordinal,interval atau ratio. dengan Box-Plot, kelima angka ini akan dengan mudah ditemukan,

standard deviation

misalnya standard deviasi 14,8 artinya jarak individu yang paling kanan ke mean masuk dalam interval 14,8 begitu juga dengan yang kiri, ini untuk sampel karena sengaja standard deviasinya diperlebar jadi standard deviation sampel selalu lebih besar dari pada populasi. Untuk distribusi binomial beda lagi rumusnya.

Interquartile Range (IQR)/middle fifty

sederhananya data yang di tengah atau lokasi dimana datanya paling banyak berkumpul dekat dengan meannya. mencarinya tinggal Q3-Q1, atau bisa juga Q3+Q1 karena Q1 selalu negatif, jadi kalau (-)+(-)=(+). Jika distribusinya normal bisa langsung 2Q karena Q3 sama Q1 sama nilainya cuman beda negatif-positif.

Statistics vs. Parameters

statistics adalah nilai yang didapatkan dari sampel yang diambil vs. parameters korespon nilai dari keseluruhan populasi( data dari tiap individu pada populasi) .

Statistik

Ensembles d'études connexes

Econ Ch.12 (last test)

What is a human being?

Final Exam

Chapter 16 knee note

hsc3537 chapter 4

Weekly challenge 2: Terms, tools, and frameworks in UX design

Key Supreme Court Cases- Civil Rights

Med. Surg. Exam 1

9.4.3 Security Pro Practice Questions

IB Biology Topics 1-6

3310 siglo 20

MCAT AAMC FL 1 CR Incorrect

74

Ch46 Torque Converters

Supply Chain Exam 2 (Chapter 11)

module 5 hw

First Quarter Exam Ch: 1-8

MIS Chapter 2

Chapter 15: Assessing Head and Neck & Chapter 18

Junior theo final