Testing

Lakukan tugas rumah & ujian kamu dengan baik sekarang menggunakan Quizwiz!

P: Instrumento patikimumas gali būti skaičiuojamas:

1 dviejų tyrimo rezultatų koreliacija, ištyrus tuos pačius tiriamuosius tuo pačiu ar ekvivalentišku testo variantu; 2 vidinį testo suderinamumą.

U: generalizacijos (G) teorija

Klasikinės testų teorijos išplėtimas - naudojama ANOVA metodai įvertinti kombinuotus skirtingų klaidos šaltinių dispersijos poveikius testo įverčiams tuo pačiu metu. Leidžia įvertinti skirtingų klaidos šaltinių interakcijos poveikius (SKIRIAMASIS BRUOŽAS), detali, gili procedūra - reikia ne vieno stebėjimo tos pačios grupės visų galimai paveikiančių kintamųjų atžvilgiu.

U: Už pasirinkimo ribų: kitų tipų balai. Paskyrimas ir klasifikavimas

Paskyrimas: individų priskyrimas atskiroms kategorijoms arba gydymo tipams vieno įverčio pagrindu Klasifikavimas: taip pat niekas neatmetamas, bet čia individai turi būti skirtingai priskirti atskiroms kategorijoms ar gydymo tipams kelių kriterijų pagrindu. Keli prediktoriai reikalingi, jų ryšai su kiekvienu kriterijumi turi būti nepriklausomai nustatyti. A typical example would be the need to establish whether an older patient who shows symptoms of depression and memory problems may be suffering from a depressive disorder that affects memory and concentration, from an incipient dementing process that is causing the depression, or from a combination of the two. Atrankos sprendimai yra tie, kuriems reikia pasirinkti vieną iš dviejų alternatyvų. Įprasta alternatyva yra kandidato priėmimas ar atmetimas, serga / neserga. Sąvoka „patikra/preliminarus įvertinimas" (SCREENING) reiškia pirminį atrankos proceso etapą, paprastai vykdomą atskirti asmenis, kurie nusipelno būti atrinkti, arba kuriems reikia išsamesnio vertinimo. Psichologinių testų balai / įverčiai taip pat naudojami priimant sprendimus dėl paskyrimo (placement) ir klasifikavimo. Abu šie variantai apima daugiau nei dvi galimybes. Iš šių dviejų, paskyrimo (placement) yra paprastesnis. Jis apima asmenų priskyrimą atskiroms kategorijoms ar gydymui remiantis vieninteliu balu arba sudėtiniu balu, apskaičiuotu pagal vieną regresijos lygtį, remiantis vienu kriterijumi. Vis dėl to paskyrimo sprendimai nėra susiję su galimybe atmesti asmenis, kurie neatitinka tam tikro lygio rezultatų. Pvz.: skaitymo testo balai gali būti naudojami paskirstant mokinius į mokymo grupes, tinkančias jų skaitymo įgūdžių lygiui (bet ne išmesti vaikus). Kita vertus, sprendimai dėl klasifikavimo yra daug sudėtingesni. Klasifikuojant - kaip ir paskiriant - niekas nėra atmetamas, tačiau asmenys turi būti diferencijuotai priskirti atskiroms kategorijoms, remiantis keliais kriterijais. Tai reiškia, kad reikalingi keli prediktoriai, ir jų santykis su kiekvienu kriterijumi turi būti nustatomas nepriklausomai, naudojant atskiras regresijos lygtis. Tinkamiausia klasifikavimo sprendimų priemonė yra testų rinkinys (battery of tests), kurių rezultatai patvirtinami atsižvelgiant į įvairius numatomus kriterijus, o po to sujungiami į lygtis, atspindinčias jų santykinį svorį kiekvieno kriterijaus numatymui. Klasifikavimo sprendimai reikalingi įdarbinimo, švietimo, konsultavimo ir klinikinėse srityse. Sprendimai yra būtini, kai reikia įvertinti turimo personalo gabumus, kad asmenys būtų paskirti į tas darbo vietas ar mokymo programas, kuriose jie greičiausiai veiks efektyviai, taip pat profesinis konsultavimas renkantis studijų programą. Klinikinėje aplinkoje tais atvejais, kai reikalinga diferencinė diagnozė. Testų rinkiniai, kurie naudojami priimant sprendimus dėl klasifikavimo turi būti įrodyti remiantis differential validity (divergentiniu validumu). Šiame kontekste terminas „differential validity" reiškia, kad testų rinkinys turėtų sugebėti numatyti arba nustatyti skirtumus tarp dviejų ar daugiau kriterijų. Dviejų kriterijų klasifikavimo uždavinyje idealią ,,bateriją" sudarytų prediktoriai, kurie labai koreliuoja su vienu kriterijumi, o visai nekoreliuoja arba neigiamai koreliuoja su kitu. Kai klasifikavimas apima prognozes pagal daugiau nei du kriterijus pvz. personalo paskyrimas bet kuriam iš galimų darbų, ar mokymo programų - validumo įrodymų nustatymo problema tampa dar sudėtingesnė. Tokiomis sąlygomis prediktorius, kuris vienodai gerai koreliuoja su visais kriterijais, susijusiais su sprendimu, yra gana mažai naudingas. Vienas iš galimų šios rūšies klasifikavimo problemų sprendimo būdų yra kelių diskriminacinių (multiple discriminant) funkcijų analizės naudojimas. Diskriminacinės funkcijos apima svertinių balų derinių taikymą prediktoriams, gautus atliekant regresinę analizę, siekiant nustatyti kaip tiksliai asmens balų profilis sutampa su skirtingų profesijų grupių, skirtingų specialybių ar skirtingų psichiatrinių kategorijų asmenų profiliais. Nors diskriminacinės funkcijos tam tikrais atvejais yra naudingos (pvz., Kai kriterijus susidaro tik dėl narystės vienoje grupėje, ar kitoje), tačiau daugelyje situacijų jos negali atitikti reikalavimų, nes neleidžia numatyti sėkmės lygio specifiniame lauke. Kita tradicinė strategija, kurią galima naudoti tiek atrankos, tiek klasifikavimo problemoms spręsti, yra sintetinis validumas (synthetic validation). Ši technika iš esmės remiasi išsamia darbo, į kurį pretenduojama, analize, kurioje nustatomi konkretūs darbo komponentai ir jų santykinis svoris kituose darbuose. Remiantis tokiomis analizėmis, anksčiau nustatyti testų balų regresijos koeficientai, pagal kuriuos numatomi tie atskiri darbo elementai, gali būti sujungti į naują "sintetinę bateriją", kuri nuspės našumą aptariamuose darbuose. Tačiau norint, kad sintetinės baterijos strategijos būtų naudingos priimant sprendimus dėl klasifikavimo, turi būti numatyti prediktoriai, parodantys gerą diskriminacinį pagrįstumą, nepaisant to, kad patys kriterijaus komponentai iš esmės koreliuoja.

P: Instrumento patikimumo matavimo metodai: STEBĖTOJŲ/RANGUOTOJŲ VERTINIMO SUDERINTUMAS

Pvz. duodame pareišką kažkokiam projektui, yra ekspertai, kurie sako duoti/neduoti - žiūrima, koks yra suderintumas tarp skirtingų ekspertų nuomonių.

P: patikimumas

Testo rezultatas pastovus ir jis nesikeičia kartojant (yra nepastovių dalykų - nuotaika, pavargimas ir pan. Tačiau turėtume gauti rezultatą tose paklaidos ribose) Matavimo klaida nustatoma matematinės statistikos metodais, o išreiškiama patikimumo koeficientu ir standartine paklaida. Juo didesnis testo patikimumo koeficientas ir mažesnė standartinė paklaida, juo testas patikimesnis.

U: patikimumas renkantis testą ir interpretuojant rezultatus

Testų įverčių patikimumui psichologiniame testavime jau daugelį metų skiriama daug dėmesio, nes nuolat egzistuoja tikimybė, kad testų rezultatuose pasitaikys klaidų. Iš testo naudotojo perspektyvos, patikimumas svarbus dviejose fazėse: a) renkantis testą, b) interpretuojant testo rezultatus. Testų įverčių patikimumui psichologiniame testavime jau daugelį metų skiriama daug dėmesio, nes nuolat egzistuoja tikimybė, kad testų rezultatuose pasitaikys klaidų. Iš testo naudotojo perspektyvos, patikimumas svarbus dviejose fazėse: a) renkantis testą, b) interpretuojant testo rezultatus. Patikimumas renkantis testą Kai testo naudotojas renkasi testą, jis privalo peržvelgti duomenis, kurie jau yra surinkti apie konkretaus testo patikimumą. Tokius duomenis dažnai suteikia patys testo kūrėjai, tačiau juos galima rasti psichologinėje literatūroje, kur nepriklausomi tyrėjai naudojo testą savo praktikoje ir tai aprašė. Paprastai patikimumo duomenys yra pateikiami koreliacijos koeficiento forma. Potencialių klaidų šaltinių testo rezultatuose įvertinimas Pvz.: Jei testo rezultatai yra vertinami subjektyviai, turi būti atsižvelgta į vertintojo patikimumą. Jei testu planuojama matuoti pokytį laike, pvz. pagerėjimą taikant psichoterapinę intervenciją, turėtų būti atkreiptas dėmesys į time sampling error. Jei yra tikimybė, jog tiriamasis vėliau bus testuojamas dar kartą, pageidautina, kad būtų prieinamas patikimas alternatyvus testo variantas. Jei visame teste yra pageidaujami homogeniškumas bei vientisumas, reikėtų ieškoti aukšto K-R 20 arba alpha koeficiento. Patikimumo duomenų įvertinimas Patikimumo koeficientai suteikia testo naudotojams šiek tiek informacijos apie klaidų kiekį, kuris, tikėtina, atsiras rezultatuose. Tačiau svarbu turėti omenyje, kad šie skaičiavimai yra paveikti charakteristikų imties, kurią naudojant jie buvo atlikti. Tokie patys skaičiai, susiję su patikimumu, gali nepasirodyti naudojant kitokią imtį. Kadangi patikimumas toks priklausomas nuo daugelio faktorių, vis daugėja pritarimo, kad tyrėjai turėtų įtraukinėti rezultatų patikimumo duomenis pateikdami rezultatus savo tyrimuose. Kita vertus, vertinant individą, rezultatų patikimumo duomenys publikuotoje literatūroje nėra tokie reikšmingi, kadangi ten remiamasi imčių rezultatais. Jei testą sudaro subtestai ar kitokios dalys, turėtų būti prieinami patikimumo įverčiai kiekvienai daliai bei visam testui bendrai. Paprasčiau kalbant, patikimumo koeficientas gali būti apibūdintas kaip testo koreliacija su pačiu savimi. Tai nėra visiškai tikslu, tačiau primena, jog patikimumo koeficientas yra paremtas tokiais duomenimis kaip dvi to paties testo versijos, testo klausimų tarpusavio (interitem) koreliacija ir pan. Nors renkantis testą be patikimo egzistuoja kiti veiksniai, jeigu jie visi vienodi, renkamės testą su aukštesniu patikimumo koeficientu. Dažniausiai renkamasi su 0,80 ir didesniu. Bet šalia patikimumo svarbu įvertinti ir validumą, informaciją apie rezultatų interpretaciją, kainą, administravimo sudėtingumą, laiko sąnaudas. Klaidų iš skirtingų šaltinių įvertinimas Daugumos testų rezultatai yra pažeidžiami matavimo klaidų, kurios kyla iš daugiau nei vieno šaltinio. Item Response Theory požiūris į patikimumą Subtilesnis būdas pamatuoti patikimumą yra pasitelkiant IRT (aprašoma 3 ir 6 skyriuose). Trumpai kalbant, šis metodas atsižvelgia į individo rezultatus, todėl tiksliau pamatuoja patikimumą. Patikimumas interpretuojant rezultatus Patikimumas interpretuojant rezultatus svarbus dėl dviejų priežasčių: a) nustatyti ir suskaičiuoti klaidas rezultatuose, b) nustatyti statistinį reikšmingumą skirtumo tarp gautų įverčių.

U: Using Multiple Predictors (dar neišsiaiškinau kas tie prediktoriai)

Tradicinis būdas susidoroti su sudėtingų kriterijų (pvz darbo) efektyvumo prognozavimu buvo naudoti __bandymo bateriją?? (to use a test battery)__. In this context, the term battery refers to a combination of predictors especially selected to predict one or more criteria. Klinikinėje ir konsultavimo psichologijoje baterija reiškia bet kokią testų grupę, kuri atliekama individualaus įvertinimo metu - o tai prieštarauja ankstesnei reikšmei. (Draugas google man atskleidė, kad test battery yra dažnu atveju, kai tiesiog pvz priimant į kokį mechaniko darbą testuoja tavo mechaniko įgūdžius ir prie to pačio gauni dar vieną testą pvz dėmesio koncentracijai ar pn vertinti. Jie tipo yra skirtingi, bet papildo vienas kitą ir čia kaip baterijos + ir - poliai vienas be kito neveikia (nieko neduoda rezai), bet kartu tai super duper junginys duodantis kažką gero ir apčiuopiamo. Beeet kaip Butkienė sakė, internetas šūdų krūva ir ten daug melo tai....). Toliau rašo, kaip pasitelkiant regresinę analizę galima sujungti kelių testų rezultatus į vieną išsamesnį rezultatą/prognozę (tai gal ten ir tiesą radau). Alternatyva šitam baterijų būdui yra tiesiog analizuoti profilius. Bet tada reikia labai susikoncentruoti kuris kriterijus profilyje yra analizuojamas. Abu šie metodai turi prieštarų. Daugialypės regresinės analizės modelio taikymas suteikia galimybę, kad silpni prognozuojamieji bus kompensuoti stiprių.Todėl reikia itin atkreipti dėmesį į kiekvieno klausimo svorį. Tada reikia atlikti kažkokį tai kryžminį patikrinimą, nes koreliacijos koef. Priklauso nuo konkrečių pvz paklaidos (čia klausimo formuluotė lygu pvz kaip supratau). Profilių analizės minusas, kad juo paprastai neatsižvelgiama į balų (rezultatų?) nepatikimumą. Kitas minusas, kad yra atmetami tiriamieji, kurie yra išskirtys (tie kažkuo kitokie kaip ir SPSS mokėmės) ir tada lieka tik tie idealūs atvejai/profiliai, kurie nevertina mažumų. Šis metodas pateisinamas tik tada kai kandidato (pvz į darbo poziciją) gaunamos išskirtys (nuo normos nukrypę atsakymų pasirinkimai) turėtų kažkokią didelę žalą jo atliekamam darbui.

B: kontrukto validumas ir jo vertinimo kriterijai

Validumas Ar galima daryti išvadas iš gautų testo įverčių? Skirtingi validumo tipai turi būti traktuojami kaip skirtingi būdai gauti įrodymus. Konstrukto ir kriterinis validumas Konstrukto: Tikslas - atsakyti į klausimą, ar testas iš tiesų matuoja tai, kam jis ir skirtas matuoti? Konstrukto validumas apima skalių ir į jas panašių instrumentų koreliacijas. Konstrukto validumo koeficientų interpretavimo gairės turi būti taikomos lanksčiai. Kai ieškomi ryšiai tarp dviejų labai panašių instrumentų (duomenys gaunami tuo pat metu) tikėtina, kad koreliacijos 0,60 ir daugiau bus "pakankamos" Jei instrumentai mažiau panašūs, ar buvo administruoti ne tuo pačiu metu, žemesnės reikšmės gali būti „pakankamos". Kai vertinamas konstrukto validumas, privalu atkreipti dėmesį į labai aukštų koreliacijų interpretaciją. Jei koreliacijos koeficientas virš 0,90, tikėtina, kad aptariamos skalės matuoja tą patį dalyką. Tai nėra problema, jei aptariamos skalės reprezentuoja naują skalę ir gerai žinomą rodiklį. Tačiau tai būtų problemiška, jei aptariamąja skale siekiama papildyti jau egzistuojančią skalę nauja informacija. 1. Būdai, kuriais galime tikrinti validumą: - Informacija nepateikta - Koreliacijos su kitais instrumentais ar veiklos kriterijais - Skalių tarpusavio koreliacijos (užduoties - likusios dalies koreliacijos) - Grupių skirtumai - Daugialypio daugiamačio metodo matrica - Tiriamoji faktorinė analizė - Patvirtinančioji faktorinė analizė - Eksperimentinis tyrimas - Užduoties atsako teorijos metodologija - Struktūros pastovumas - Testing for invariance of structure and differential item functioning across groups - Kiti (nurodykite) (nepakanka vien faktorinės analizės; faktorinė analizė, kad patikrinti konstrukto struktūrą - reikia, kad pvz 25 teiginiai sukristų į vienodus faktorius; reikėtų daryti ir koreliaciją), struktūros pastovumas (pvz. klasės nuo 1-4, nuo 4-7 ir t.t.; ir miesto ir kaimo vaikų intelektą vertinant gaunu tą pačią struktūrą - galiu naudoti tuos pačius kriterijus), ar užduotis/teiginys nėra šališkas (lyties, šalies ir pan. atžvilgiu), 2. Ar faktorinės analizės rezultatai paremia testo struktūrą? 3. Ar užduotys pakankamai koreliuoja su testo įverčiais? 4. Ar faktoriaus struktūra nekinta tarp grupių, ar nėra diferencinio užduoties funkcionavimo (DIF) 5. Ar skirtumai vidutinių įverčių tarp grupių yra tokie, kokių tikėtasi? (pvz, pupils in group 8 are expected to score higher than pupils in group 6 on a test for numerical proficiency; children with the diagnosis ADHD should score higher on a test for hyperactivity than children not diagnosed with ADHD) t.y. (ne)egzistuojantys skirtumai tarp grupių (pvz. SDQ tyrimai rodo, kad mergaitės turi daugiau internalių problemų-daugiau emocinių sunkumų, berniukams-daugiau elgesio problemų, hiperaktyvumo); 6. Testo ir kitų panašių testų koreliacijų diapozonas ir mediana - konvergentinis validumas (mūsų instrumentas matuoja tą patį, ką matuoja identišką dalyką matuojantis instrumentas) (pvz. kuriame iq testą, pasiimame kitą jau sukurtą iq testą ir žiūrime, ar rezultatai tapatūs); r>=0,75 7. Diskriminantinis validumas 8. Daugialypio daugiamačio metodo matrica 7. Imties dydis (daugiau nei 200 vieno parametro, daugiau nei 400 dviejų, daugiau nei 700 trijų) 9. Instrumentų kokybė kaip kriterijų 10. Kokio amžiaus validumo tyrimai? 11. Papildomai: whether analysis techniques are used correctly (e.g. is the significance level corrected for correlating the instrument to other instruments without clear hypotheses, so-called 'fishing'), whether the research samples are similar to the group(s) for which the test is intended (e.g., more heterogeneity will inflate correlations, samples of students may give results that cannot be generalized), the size of the research sample(s), the quality of other instruments that are used (e.g. in convergent and discriminant validity research), and the age of the studies

U: Klaidos gali kilti iš: Klaidos ir sprendimai:

a) konteksto, kuriame vykdomas testavimas (faktoriai, susiję su testo administratoriumi, testo vertintoju-žymėtoju (scorer), testo aplinka) b) asmens, atliekančio testą c) pačio testo kai patikimumas matuojamas didelėje imtyje standartizuotomis sąlygomis, pašaliniai kintamieji, veikiantys tiriamuosius, laikomi atsitiktiniais. Kadangi atsitiktinė paklaida gali veikti teigiamai ir neigiamai, manoma, kad jos viena kitą išminusuoja. Dauguma šių šaltinių kontroliuojami testo kūrimo, parinkimo, administravimo ir vertinimo procesų metu. Kai kurių dalykų (testuojamojo požiūrio, socialinio pageidaujamumo) kontroliuoti negalima, bet įmanoma jų „saugiklius" įtraukti į testą. Matavimo paklaida gali būti sisteminė arba atsitiktinė. Testas gali turėti kažkokią savybę, kuri veikia visus testuojamuosius. Tradiciniai patikimumo matavimo metodai tokių klaidų neaptinka, nes jie tikrina testų rezultatų nuoseklumą. Sistematinės ir pastovios paklaidos veikia ne tik testo patikimumą, bet ir validumą. Būtina palyginti testo rezultatus su kito panašaus instrumento rezultatais. Klaidos ir sprendimai: 1. Vertintojų skirtumai: nusako įverčių variacijas, kurios atsiranda iš subjektyvių vertintojų sprendimų skirtumų. Būdas: bent keli asmenys išsprendžia tą patį testą, kiekvienas jų gauna po įvertį iš skirtingų vertintojų. Tie įverčiai žiūrima, ar koreliuoja - gauti koreliacijos kofai nusako vertintojo patikimumą. Jei lygus 0,9, tai reiškia, kad klaidų proporcija dėl vertintojų sprendimų skirtumų yra lygi 10proc. 2. Laiko atrankos klaidos: atsiranda dėl to, kad testo įverčiai gauti vienu metu, o ne kitu. Iš esmės čia kalbama apie tai, kad tai, kuriuo momentu (laiko atžvilgiu) yra atliktas testas, gali daryti įtakos testų balams (įverčiams), nes (a) tai, ką testas matuoja (konstruktą ar elgesį) gali keistis per laiką ir (b), nes kai kurie konstruktai ar elgesys vertinamas testais gali būti linkę kisti mažiau, arba keistis lėtesniu tempu, nei kiti.Konstruktas-elgesys kinta laike. Bruožai (traits)-stabilios charakteristikos, būsenos (states) - laikinos. Pvz, skaitymo suvokimas labiau atsparus nei nuoširdumas, šiluma asmens. Verbaliniai gebėjimai nei atminties, dėmesio pajėgumai. Būdas: test-retest patikimumas. Jo (stabilumo) koeficientas - indeksas, kiek įverčiai linkę kisti kaip laiko atrankos klaidos rezultatas. 3. Turinio atrankos klaidos: terminas, naudojamas įvardinti (pažymėti) su bruožu nesusijusį (trait-irrelevant) kintamumą, kuris gali patekti į testo balus, kaip atsitiktinių faktorių susijusių su specifiškų klausimų turiniu, rezultatas. (esmė, kad teste gali būti klausimų, kurie bus ne visiškai- pilnai susiję su tuo, ką norima išmatuoti ir dėl to bus paklaida matuojant tam tikrą specifinį konstruktą). pvz testas mokykloje turėjo būti iš penkių skyrių, tačiau į testą įtraukiami tik trys. Arba kai specifinis turinys yra aktualus kai kuriems atliekantiems testą - teksto suvokimo užduotyse. Būdai: - alternatyvių formų patikimumas. Formų tikslas toks pat, skiriasi specifinis turinys. Jos pateikiamos tai pačiai grupei. Abu įverčiai koreliuojami. - Dalinimo pusiau patikimumas. Testas padalinamas į dvi dalis ir pateikiamas grupei žmonių, gauna kiekvienas po du įverčius. Svarbu įvertinti, ar užduotys/klausimai sistematingai skiriasi nuo kitų testo ilgio atžvilgiu; ar greitis yra svarbus testo atlikčiai. Spearman-Brown formulė pritaikoma tokio patikimumo koeficientui gauti visam testui. For speeded tests, one possible solution is to use two-trial reliability methods, such as test-retest or alternate forms 4. Vidinis nesuderintumas. - nurodo į klaidas įverčiuose, kurie atsiranda dėl klausimų svyravimų per visą testą, kaip prieštara turinio testavimo klaidai atsirandančiai dėl specifinių klausimų konfigūracijų įtrauktų į testą kaip į visumą. Mažos koreliacijos tarp klausimų. Turinio heterogeniškumas. Nėra nė vienos grupės homogeniškos visais aspektais. Homo-heterogeniškumas: grupių ir užduočių atžvilgiu. Būdai: geriausia daryti ne dalijimą pusiau, o nelyginį dalijimą (odd-spliting), viena dalis testo sudaryta iš nelyginių klausimų, kita iš lyginių. Kuder-Richardson formula 20(K-R 20) and coefficient alpha(α), also known as Cronbach's alpha. Bus tuo didesni, kuo daugiau klausimų ir klausimo įverčio dispersijos su viso testo įverčio dispersijos santykis mažesnis. 5. Laiko ir turinio atrankos klaidos kartu: atidėtas alternatyvių formų patikimumas: ilgesnis intervalas iki formos pateikimo. BET: praktikos efektas. Šie koeficientai skaičiuojami, kai yra administruojamos du ar daugiau alternatyvių testo variantų, kurie pildomi skirtingu laiku vienos ar kelių skirtingų žmonių grupių. Laiko intervalas tarp testų atlikimo, imčių charakeristikos ir pan. turi būti aiškiai apibrėžtos, nes tai gali paveikti skaičiuojamą koeficientą.

U: Koreliacijos tarp testų ir subtestų

Šios koreliacijos dažniausiai naudojamos, norint įvertinti konstrukto validumą ir jo ryšį su instrumentais ir kitais konstruktais (naudojama atnaujinant ir peržiūrint testus (iš esmės norima įrodyti, kad konstruktas matuoja būtent tai, kas norima pamatuoti, t.y. kad jis neapima daugiau). Nuosekliai aukštos koreliacijos tarp priemonių, skirtų įvertinti duotą konstruktą, pavyzdžiui: depresijos skalių koreliacijas, gali būti laikoma konvergentiniu validumu (angl. convergent validity), kada yra įrodymai apie jų vertinamų konstrukcijų panašumą ar tapatumą. Be to, diskriminacinio pagrįstumo įrodymai (angl. Discriminant validity), pagrįsti žemomis koreliacijomis taip pat gali būti naudojami pagrįsti jų paliestų konstruktų tapatumą (dažniausiai numatant skirtumą).

Testų biblioteka - testų skirstymas ir rūšys

- Intelekto testai (BIS-HB (Berlyno intelekto struktūros testas jaunuoliams: gabumų ir ypatingų gabumų atpažinimas; I-S-T 2000R (Intelekto struktūros testas 2000R; WIT (Wilde intelekto testas); CFT 1-R (Nuo kultūros nepriklausomas intelekto testas 1-R); CFT 20-R; WISC-IIILT (Wechslerio intelekto skalė vaikams - trečias leidimas). - Specialiųjų gebėjimų testai (Skaitymo ir rašymo sunkumų psichologinio įvertinimo metodika; Raveno Spalvotos progresuojančios matricos (neverbaliniams arba produktyviesiems gebėjimams); TCT-DP (Piešimo testas kūrybiškam mąstymui); PTV (Praktinio techninio supratimo testas); d2-R (Dėmesio testas) - Elgesio aprašai ir rangavimo skalės: ASEBA Suaugusiųjų klausimynas (ASR ir ABCL formos); ASEBA mokyklinio amžiaus vaikų elgesio aprašas (CBCL, TRF, YSR formos); SDQ (Galių ir sunkumų klausimynas, Vaikų emocinių simptomų, elgesio problemų, hiperaktyvumo, santykių su bendraamžiais problemų ir socialumo formalizuota atranka); DAWBA (Raidos ir gerovės įvertinimas); Dominic Interactive Child LT (kompiuterizuotas)/ Dominic Interactive Adolescent EN; Clinician Administered PTSD Scale (CAPS) - Raidos skalės, mokyklinio brandumo testai: VBMĮ-2 (Vaiko braindumo mokyklai įvertinimas. Antrasis leidimas); IDS (Intelligence and Development Scales); IDS-P (Intelligence and Development Scales Preschool); Vaiko raidos skalė (DSR - Dziecięca Skala Rozwojowa)

U: Su kriterijumi susijusios validacijos procedūros: diagnostinis ir prognostinis validumas

1) Sutampantis validumas (concurrent validity) Pvz. Kuriamas testas šizofrenijai nustatyti. Tikrinamos 2 to pačio testo formos A ir B. 2 imtys: šizofrenikai ir sveiki žmonės. Žiūrima, kiek tiksliai testai nustatys iš visos imties, kurie iš tiriamųjų yra šizofrenikai. (Whitaker Index of Schizophrenic Think-ing (WIST; Whitaker, 1980)) 185-187 psl daugiau apie visą procesą. 2) Prognostinis validumas (predictive validation) - rodo, ar priemonė pajėgi nuspėti, ką teoriškai turėtų nuspėti, t. y., ar naudojant priemonę padarytos išvados po kurio laiko pasitvirtins. Parodomas ryšys tarp įvertinimo, gauto naudojantis instrumentu, ir būsimos veiklos. Tarkime, teoriškai galima manyti, jog geri vaiko matematikos gebėjimai rodo, kad jam gerai seksis mokytis tiksliųjų mokslų reikalaujančių specialybių. Tuomet žiūrima, koks yra vaiko matematikos pasiekimų, kurie vertinami sukurtu instrumentu, ir tiksliųjų mokslų specialybių studijų rezultatų ryšys. Prognostinis validumas dažnai išreiškiamas koreliacijos arba regresijos koeficientu. (Iš Pakalniškienės). Deja, šis būdas dažnai nėra praktiškas, nes reikia ilgai laukti, kol susidarys kriterijus, o taip pat dėl sudėtingumo ieškant tinkamos imties tokiems tyrimams. Pvz. Darbdavys ieško darbuotojų į detalių gaminimo fabriką. 1 žingsnis: Random 10 žmonių ištiria to darbo gebėjimo testais ir kitais testų rinkiniais (sakykim, rankų miklumo testas). 2 žingsnis: Nepaisant to, kaip jie pasirodė tuose testuose, visi 10 priimami į darbą. 3 žingsnis: palaukiama, kol susidarys pasiekimų įvertinimo/darbo atlikimo įvertinimo kriterijus (kiekvienas darbuotojas per valandą pastoviai geba pagaminti tam tikrą kiekį detalių, todėl taip susidaro bendras kriterijaus mato vidurkis). 4 žingsnis: gaunamos koreliacijos tarp prieš įdarbinimo testų įverčių ir kriterijaus mato, tuomet atliekamos regresinės lygtys (sakykim, kad prieš tai įvertino rankų miklumą ir dabar teigiama koreliacija randama tarp rankų miklumo ir pagaminamų detalių kiekio). Susidarius kriterijui ateityje priimant į darbą galima ištirti rankų miklumą ir prognozuoti, kiek detalių galės pagaminti darbuotojas SVARBU: Validumo koeficientas r rodo koreliaciją tarp testo įverčio ir kriterijaus. Jeigu r=1, tai įmanoma tobula prognozė Standartinės skaičiavimo klaidos išreiškia prognozavimo klaidas, kurios yra paremtos nepakankamomis koreliacijomis

U: Interesų palyginimas (interest comparison) Testų rezultatai negali būti prasmingai palyginti, jeigu:

1. Testai ar testų versijos skiriasi 2. Referentinė grupė skiriasi 3. Įverčių skalės skiriasi. Net kai testų rezultatus galima lyginti (atitinka viršuje išvardintas sąlygas), interpretuojant rezultatus reikia turėti omenyje, kad įtaką gali daryti ir testavimo sąlygos, testuojamo žmogaus motyvacija.

P: Gera testavimo praktika: dvi sąlygos

1. Tinkamas testo naudojimas - testuotojo kvalifikacija - tik sertifikuotam testuotojui bus suteikta galimybė naudoti testus atsižvelgiant į testuotojo kvalifikacijos lygį 2. Tinkamos testo techninės charakteristikos - patikimumas, validumas, standartizacija, kitos psichometrinės charakteristikos. Geri testai: Patikimi,Validūs, Gerai atskiria grupes (diagnostika), Normos sudarytos remiantis reprezentacine imtimi.

B: Patikimumo kriterijai ir jų vertinimo kriterijai, kada negalioja - VIDINIS SUDERINTUMAS

1. Vidinis suderintumas (kad ir pirmu, ir antru ir t.t. teiginiu mes matuojame tą patį; atspindi įverčio tikslumą. Negalioja greičio testams, heterogeniškoms imtims, poveikio indikatoriams, atsirandantiems bruožams. Geresni kofai nei padalijimo pusiau kofai): - kokie koeficientai naudojami (cronbach alpha nėra vienintelis, dar yra omega, theta, lambda-2, greatest lower bound ir kt.), - koks imties dydis (nuo 100 turėtų būti, pageidautina, kad būtų ne viena imtis, ne vienas tyrimas-keliais skirtingais tyrimais tas pats gauta), - kokie yra koeficientų dydžiai (nepakankamas(<0,70); adekvatus(>=0,70, <0,80), geras (0,8>=, <0,9), nuostabus (excellent) (r>=0,90), - koks yra imties pobūdis (kuo labiau reprezentatyvi, ar bus rezultatų įvairovė) Griežčiausi reikalavimai - vidiniam suderintumui.

raw score - pradinis įvertis

A test score that has not been transformed or converted in any way. Bet aukštesnis nereiškia geresnių pasiekimų, pvz MMPI - kuo aukštesnis, tuo didesnis neprisitaikymas, o žemi įverčiai nebūtinai nurodo į gerą prisitaikymą.

U: Kriterijais paremto testo interpretacijos variacijos:

Criterion-referenced: domain/content/objective-referenced/competency testing. Paremtos interpretacijos dviem standartais: paremtais žinių kiekiu ir paremtais kompetencijos lygiu. Kriterijais-paremti testai: a) Yra skirti išmatuoti, kiek testą atliekantys žmonės yra įgudę tam tikro įgūdžio ar žinių atžvilgiu Kriterijais: siekia įvertinti individų atliktis pagal su pačiu konstruktu susijusiais standartais Visai netinka asmenybei vertinti Atskaitos sistema - žinios (standartizuoti, objektyvūs testai) arba kompetencijos lygis, kurį atspindi atlikties arba produkto kokybė Terminas kartais naudojamas apibūdinti testo interpretacijas, naudojančias ryšį tarp įverčių ir tikėtino atlikties/padėties lygio. Atlikties skirtumai tarp individų nėra pašalinami (vistiek, tas, kuris pasiekė 65 žodž per min kriterijų ir surinko 90 lyginant su 67, bus laikomas geresniu) b) vieno asmens atliktis nedaro įtakos kito santykinei padėčiai.

U: The Multitrait-Multimethod Matrix

D. T. Campbellas ir Fiske (1959) sukūrė matricą, siekdami įteisinti duomenų rinkimą ir pateikimą. Šis požiūris susijęs su patvirtinimo strategija, reikalaujanti rinkti duomenis apie du ar daugiau skirtingų bruožų (pvz., nerimas, priklausymas ir dominavimas) dviem ar daugiau skirtingų metodų (pvz., savęs ataskaitos klausimynai, elgesio stebėjimai ir projekciniai metodai). Tokiose matricose pateikiami: Kiekvieno instrumento patikimumo koeficientai, Koreliacijos tarp balų to paties įverčio, įvertintos skirtingais metodai (t. y. konvergenciniai validumo duomenys) Koreliacijos tarp balų, skirtingi bruožai, matuojami tais pačiais metodais, Skirtumai tarp skirtingų bruožų, įvertintų skirtingais metodais

Test revisions - testų peržiūros ir atnaujinimai

Dažnai atnaujinti testai būna tais pačiais pavadinimais, dėl matuojamų tų pačių konstruktų, nepaisant to, jie nėra tapačiai vienodi, turi tam tikrą pataisymą ar patobulinimą, tada prideda kokį romėnišką ar kitokį skaičių. Peržiūri dažniausiai tuos, kurie būna labiausiai naudojami ir populiariausi. Atnaujintos versijos negalima lyginti su ankstesne, nebent panašumai empiriškai sutampa. Kad patikrinti ar atlikus testo patobulinimą nenutiko taip, kad gaunami rezultatai pablogėjo, abi testo versijas, tiek senąją, tiek naująją reikia atlikti tai pačiai žmonių grupei. Gaunami rezultatai gali pakisti net tuomet, kai popierinės testo versijos klausimus pateiksime kompiuteriniu variantu, nepakeitę vertinimo ar klausimų kiekio ar turinio. Pagrindinės, didelės testų peržiūros reikalauja iš naujo standartizuoti norminę imtį. Nepaisant to, kad testas tuo pačiu pavadinimu, svarbu atkreipti dėmesį į atnaujinimo datą, tada, kai testo pakitimai yra statistiškai reikšmingai pakankami aptikti pokyčius teste, skalėje ar balų surinkime. Duodamas pavyzdys su Standford-binet Intelligence scale (S-B), kai ji buvo išleista 1986 ir 2003, bėgant metams ši skalė tapo panašesnė labiau į Wechsler skales nei į originalią jos (S-B) versiją

Kriterinis validumas ir jo vertinimo kriterijai

Diagnostinis ir prognostinis validumas paremtas realaus pasaulio matavimais, bet ne instrumento koreliacijomis su kitais instrumentais. Bendrai paėmus prognostiniai tyrimai remiasi situacija, kai vertinimas atliekamas „kokybiškai" skirtingu laiko momentu, o ne tada, kai matuojamas kriterijus - pvz., jei matavimas atrankos darbui tikslais yra skirtas numatyti darbo sėkmę, tai instrumentas yra naudojamas atrankos metu - ir tik klausimas, kiek laiko praėjo nuo matavimo instrumentu iki instrumento matavimo. Jei nereikia testams prognozavimo (pvz švietime naudojami, kurie matuoja progresą), nematuojamas. 1. Kriterijų tyrimo tipas: Prognostinis (į ateitį), diagnostinis (dabar ir čia) ir po to numatantis (į praeitį) validumas. Nereikėtų vienu metu vertinti. Priklauso nuo instrumento paskirties, kokiu tikslu naudojamas? Prognostinį validumą tikrinti gan sunku. Visi abiturientai laiko VBE, nepriklausomai nuo to, kaip išlaikė, priimam visus į aukštąją. Pirmą semestrą matuojame sėkmę, antrą ir t.t. ir žiūrime, ar VBE nuspėja sėkmę univere. Nedaro taip niekas - sunku. Diagnostinis reikalingas, kai remiantis testo rezultatais mes čia ir dabar skirstome į grupes: aukšto iq, turinčių sutrikimą ir pan. Pvz, iq testas turėtų turėti prognostinį, diagnostinį. Imame jau suformuotas grupes, pvz. patvirtintą sutrikimą turinčią ir žiūrim, ar mūsų testas leidžia priskirti grupei. 2. Imties dydis 3. Kriterijaus matavimo kokybė 4. Ryšio tarp testo ir kriterijų stiprumas 5. Kokio senumo validumo tyrimai?

U: diferencinio validumo ir diferencinio spėjimo problemos šališkumo atžvilgiu (dėl grupių skirtumų)

Diferencinis validumas: koreliacijų tarp prediktorių ir kriterijų skirtumai skirtingų grupių asmenų atžvilgiu Deferencinis spėjimas: kai testo įverčiau nepakankamai prognozuoja arba perprognozuoja kriterijau atliktį vienoje iš grupių. One possible solution to the problem of differential prediction of test scores would be to use different regression equations, and different cutoff scores, for selection of individuals from different ethnic groups and genders Tiriant asmenis iš skirtingų etninių grupių, kalbančių skirtingomis gimtosiomis kalbomis reikėtų taikyti skirtingas regresines lygtis ir skirtingus ribinius balus, kai yra atrinkinėjami tie tiriamieji. Arba dar geras būdas naudoti subgrupių normas įvertinimui.Pastarasis būdas prieštarauja iš teisinės pusės, nes nėra galima įverčių skirti pagal lytį, rasę, odos spalvą, religiją ir t.t Moderuojantis kintamasis (A moderator variable) - bet kuris kintamasis, kuris daro įtaką koreliacijos reikšmei tarp kitų dviejų kintamųjų (pvz lytis, išsilavinimas ir t.t).

B: Patikimumas

Gairės PATIKIMUMUI nurodo, kad patikimo instrumento standartinė klaida turėtų būti maža. Vertinant patikimumą turi būti remiamasi skirtingais kriterijais, priklausomai nuo dviejų instrumento taikymo kontekstų: kai priimamas sprendimas apie grupes (pvz. siekiant klasifikuoti žmones į grupes pagal kategorijas) ar apie individą. Pastarajam sprendimui keliami aukštesni patikimumo reikalavimai. Reikalavimus patikimumui taip pat gali įtakoti veiksniai, ar skalė interpretuojama atskirai ar ji su kitomis skalėmis įkomponuota į bendrą skalę, Pastaruoju atveju turėtų būti vertinamas visos skalės, o ne jos atskirų komponentų patikimumas. Kai kuriems instrumentams vidinis suderintumas gali būti netinkamas (bendros savybės ar sudėtinė skalė), todėl svarbesnis yra pakartotinis testavimas. Kitais atvejais (būsenos matavimai), pakartotinis testavimas būtų klaidinantis, ir tada turėtų būti svarbesnis vidinis suderintumas. Patikimumo kriterijus priklauso nuo instrumento paskirties. Individualiam įvertinimui skirtiems instrumentams taikomas aukštesnio patikimumo lygis, užtikrinantis praktinį efektyvumą, nei tiems, kurie naudojami priimant sprendimus apie grupes.

nzn: santrauka

Geras testas = patikimas testas - iš jo gaunama info galima pasitikėti, matyti, kad ji tiksli, nekintama, stabili. Patikimumo koeficientas ir standartinė matavimo paklaida parodo, kaip šiuo požiūriu yra patikimas tt testas, jo balai. Testo pasekmės - turi būti tokios, kokių tikisi visuomenė, kurioje tas testas yra atliekamas. Validūs testai matuoja tai kas buvo numatyta, kad jie turi išmatuoti. Mokymosi rezultatus tiriantiems testams turi būti būdingas: o Validumas turinio atžvilgiu - logiška sąsaja tarp to, ką tiria testas ir tos srities, kurią mes norime ištirti. Kiti testai turi pasižymėti: o Validumas konstrukto atžvilgiu - turi matuoti konstruktus (savybes, bruožus, pažymius, tendencijas, etc.), kuriems matuoti jie yra sukurti. o Validumas kriterijaus atžvilgiu - kokiu laipsniu atrankai ir konsultavimui naudojami testai prognozuoja būsimos veiklos darbo rezultatus, juos vertinant pagal tt kriterijų. Normos leidžia interpretuoti mokinio balus lyginant su kitų mokinių balais - vietos (klasės, mokyklos) ar šalies mastu. → Normomis grįsti testai - pasako kokios yra tt mokinio žinios lyginant jas su kt mokinių (tie testai neparodo kiek mokinys iš tiesų moka) → Kriterijais grįsti testai - parodo kiek iš tiesų mokinys moka. Testas leidžia palyginti mokinio veiksmus, užduoties atlikimą su tt atlikimo standartu. → Geras testas - patikimas ir validus. (patikimumas=stabilumas) → Standartinė matavimo paklaida - reikia skaičiuoti, nes nei vienas testas nėra absoliučiai patikimas. → Mokinio balai - reiškia tt mokinio vietą ar rangą - užfiksuoti balai turi tt diapazoną (o ne yra tikslūs dydžiai) → Formuojamasis įvertinimas - teikia info, kuri reikalinga, kad būtų galima patobulinti mokymo metodus, programas. → Apibendrinamasis įvertinimas - (dažniausiai atlieka pašaliniai specialistai) - parodo ar metodai/programos duoda rezultatus, kokių tikėtasi.

P: Testas patikimas, jei

Jei užtikrina rezultatų pakartojamumą ir suderintumą; Patikimas tiek, kiek įvertis atspindi tikrąjį įvertį, o ne klaidas.

U: project A

John P. Campbell ir kolegos atliko darbą kuriame, įvertinto ir tobulino JAV armijos personalo atrankos ir klasifikavimo procedūras, tai pavadinta „Projektu A" (Project A). Tai yra galimai didžiausias projektas personalo tyrimų istorijoje. Pateikiami šio projekto akcentai. Projektas A (Project A) Naudojantis plačia duomenų baze (daugiau nei 50,000 žmonių), projekto A tyrėjai išrinko 21 karinę profesinę specialybę ir tyrė dabartinį ir ilgalaikį - prognostinį validumą (longi-tudinal predictive validation). Norintys tarnauti kariuomenėje asmenys atliko įvairius testus. Tradiciškai buvo naudojami įvairūs sudėtiniai balai, sudaryti iš skirtingų ASVAB subtestų derinių (Rapid Reference 5.11). Taip pat, buvo įtraukti keli nauji instrumentai, įskaitant psichomotorinių ir erdvinių sugebėjimų testus, asmenybės ir pomėgių matavimus. Projekto A tyrėjai atliko išsamią darbo analizę ir atkreipė ypatingą dėmesį į kiekvienos iš karinės specialybės darbo efektyvumo rodiklių standartizavimą. Validumo analizės vykdomos per A projekto trukmę (a) koreliacijos tarp kriterijų; b) eksperimentinio tyrimo priemonių galiojimo palyginamumas kiekvieno kriterijaus atžvilgiu, viršijantis anksčiau turimų ASVAB balų numatomą galią; c) įvairių lygčių lyginimas, siekiant maksimalaus pagrįstumo; ir d) alternatyvių lygčių pagrįstumo analizė, naudojant skirtingus bandymo duomenų ir ankstesnių rezultatų derinius. Tarp daugelio A projekto naudingų išvadų, viena iš reikšmingiausių yra kelių ištirtų naujų priemonių, įskaitant tas, kurios susijusios su asmenybės dimensijomis, potencialios vertės patvirtinimas, taip pat keli psichomotorinių ir erdvinių gebėjimų testai. A projektas ir po jo sekę tyrimai jau paskatino nemažą reikšmingą ir metodinę pažangą, kuri neabejotinai pagerina atrankos ir klasifikavimo patikrinimo tyrimų kalibravimą tiek kariuomenėje, tiek daugelyje kitų aplinkybių, taigi padės pasiekti pagrindinį tikslą maksimaliai panaudoti žmogaus talentus.

B: Bendras validumas

Kai sprendžiama apie bendrą validumą svarbu galvoje turėti konstrukto validumo sampratą kaip indikatorių, nusakantį ar testas matuoja tai, kam jis yra skirtas. Kai kuriais atvejais tai gali įtikinamai įrodyti kriterijumi paremti tyrimai. Toks testas gali turėti "tinkamą" ar geresnį kriterinio validumo reitingą ir mažiau tinkamą konstrukto validumo reitingą. Bendrai paėmus, jei kriterinio ar konstrukto validumo įrodymai yra bent jau pakankami, tai ir bendras validumo reitingas turėtų būti irgi pakankamas. Tai neturėtų būti suprasta kaip vidurkis ar kaip žemiausias bendravardiklis. Taigi, tai yra siekiamybė. Taisyklės, kuriomis turi remtis praktikai pasirinkdami ir naudodami instrumentą.

U: Longitudinal changes in test norms- testų normų pokyčiai ilgalaikėje perspektyvoje-Flyno efektas

Kai testas yra peržiūrėtas, atnaujintas ir standartizuotas naujai imčiai, po kurio laiko ar kelių metų, nepaisant didelių pakeitimų, įverčių normos yra linkę kisti į vieną ar į kitą pusę, priklausomai nuo populiacijos skirtingo laiko periodų. Toks pokytis yra vadinamas Flyno efektu. Tai buvo aptikta intelekto testuose.Flyno efektas: intelekto testai yra nuolat atnaujinami ir jų "normalumo" kartelė yra paaukštinama, nes neatnaujinant testų gautųsi, jog žmonės tampa vis protingesni. Aiškinama tuo, kad žmonės daugiau/efektyviau mokosi, gyvena labiau informacija prisodrintoje aplinkoje, mažiau serga infekcinėmis ligomis ir, beje, geriau maitinasi negu buvusios kartos. Pvz, tie patys žmonės atlieka senesnę ir naujesnę versijas - senesnėje gaus didesnį IQ, naujesnėje - mažesnį, nes normos yra pakeistos atsižvelgiant į geresnes gyvenimo sąlygas ir pan.

U: Sulyginimo procedūros (equating procedures)

Kartais būtina palyginti testų įverčius, kurie pagal taisykles negalėtų būti palyginami. Tam yra keli būdai. Dažniausiai naudojamos sulyginimo technikos: - Alternatyvios formos (alternate forms) - dvi arba daugiau testų versijų, kurios naudojamos pakaitomis, skirtos tam pačiam tikslui ir identiškai administruojamos. Lengviausias būdas sukurti testus, kuriuos galima palyginti - formos, kurios vienodos savo turiniu, tačiau skiriasi klausimais (items). Paralelinės formos - griežtesnis alternatyvių formų versija. Šios formos ne tik vienodos savo turiniu ir procedūromis, tačiau ir kai kuriomis statistinėmis charakteristikomis, patikimumo bei validumo indeksais. Alternatyvios formos itin naudingos, kai testą tas pats žmogus turi atlikti daugiau nei kartą. Jis sumažina praktikos efektą (practice effect). - Inkaro testai (anchor tests) - susidaro iš bendrų klausimų (items) rinkinių, administruojamų skirtingoms grupėms tiriamųjų dviejų ar daugiau testų kontekste. Turint daugiau nei vienos normatyvinės grupės atsakymus (neribojant jiems laiko) galima naudoti sulyginimo procedūras. Ši technika gali būti naudojama, kai testuotojai nori palyginti atliktį skirtinguose įgūdžiuose - skaitymas ir rašymas - iš dviejų skirtingų testų, bet vienos rūšies (uniform) skalėje. - Fiksuota referentinė grupė (fixed reference groups) - padeda pasiekti galimybę palyginti testų įverčius ir išlaikyti jų tęstinumą laike. Naudojantis šiuo metodu gaunamos sąsajos su ankstesnėmis testo formomis. Tada testų serija yra susiejama pagal fiksuotos referentinės grupės įverčius ir tęsiasi laike. Geriausiai žinomas pavyzdys - The College Board's SAT. SAT recentravimas (1941 recentravo lyginant su 1990 matkes įverčiais, nes pagerėjo socioekonominis statusas ir pan. Taigi įvertis 500 prilygintas 1940 įverčiui 470) - Vienalaikis normavimas (simultaneous norming) - du arba daugiau testų atlikti su ta pačia standartizacijos imtimi. Sunormavus testus tuo pat metu ir su ta pačia grupe žmonių galima palyginti atliktį (individų ar grupių) daugiau nei viename teste, naudojant tą patį standartą. Naudinga, kai norima pažiūrėti dviejų ar daugiau psichologinių funkcijų atlikties lygį, tam pačiam žmogui ar grupei. Pavyzdys - Woodcock - Johnson III. ______________________________________________________________________

U: Eksperimentiniai rezultatai

Kitas netiesioginis įrodymų šaltinis, kuris gali būti naudingas tikrinant testų rezultatus, tai tyrimai, kuriuose psichologinių testų balai naudojami kaip priklausomas kintamasis, norint įvertinti eksperimentinės intervencijos poveikį. Dažniausiai tai vertinama įvertinant tiriamuosius prieš ir po eksperimentinės intervencijos. Pvz., Jei pagrindinio koncepcinio vystymosi testo balai su mažais vaikais parodė reikšmingą padidėjimą grupėje, paveiktoje trumpalaike praturtėjimo programa - palyginti su nepasikeitusia grupe, kuri nedalyvavo programoje - į balų pokytį buvo galima žiūrėti kaip į jų pagrįstumo, taip pat programos veiksmingumo įrodymai.

P: Testo validumas: konstrukto pagrįstumas, kokiais būdais galima jį patvirtinti?

Konstrukto validumas - kokia apimtimi instrumentas (testas) matuoja konkretų konstruktą (nerimą, motyvaciją, dominavimą, atmintį ir t.t.). Ar iš tiesų testas matuoja tai, kas numatyta? Konstrukto validumas bendras validumo tipas, kurio negalima įvertinti vienu matavimu ar atskiru tyrimu. Konstrukto validumą patvirtinti galima keliais būdais: - Ekspertų sprendimais apie tai, kad testo turinys atitinka norimą konstruktą - Testo vidinio suderintumo analize - Naudojant eksperimentinę tyrimo strategiją (eksperimentinę ir kontrolinę grupes, vieno kintamojo analizę) - Atliekant koreliacinius tyrimus su panašiais testais, kai nustatomi statistiškai reikšmingi ryšiai tarp jų - Taikyti tiriamąja ir patvirtinančiąją faktorinę analizę, kai nustatoma ryšių tarp rodiklių struktūra, t.y. faktorių sudėtis ir jų svoriai bei tinkamiausias faktorių struktūros modelis

U: konstrukto validumo aspektai ir įrodymo šaltiniai:

Konstrukto validumo aspektai: - Su turiniu susijęs (content-related) ĮRODYMO ŠALTINIAI: Testo turinio aktualumas ir reprezentatyvumas ir užduoties atsako procesas Išorinis validumas (face validity). Konvergencijos ir divergencijos modeliai ĮRODYMO ŠALTINIAI: Vidinis testo rezultatų nuoseklumas ir kiti patikimumo matavimai Koreliacijos tarp testų ir subtestų Multibruožų ir multimetodų matrica (multitrait-multimethod matrix) Rezultato diferenciacija pastovi kalbant apie numanomus amžiaus ir kitų statuso kintamųjų skirtumus Eksperimento rezultatai (pvz., atitikimas tarp testo rezultatų ir efektų, kurių tikėtasi eksperimento intervencijos ar teorija grįstomis hipotezėmis) Tiriamoji faktorinė analizė Struktūrinės lyginimo modeliavimo technikos (structural equation modeling techniques) (Patterns of convergence and divergence) - Su kriterijais susijęs (criterion-related) ĮRODYMŲ ŠALTINIAI: Sprendimų tikslumas remiasi vienlaikiu validumu (concurrent validation) (pvz., koreliacijos tarp testo rezultatų ir egzistuojančių kriterijų) Sprendimų ar spėjimų tikslumas remiantis prognostiniu validumu (pvz., koreliacijos tarp testo rezultatų ir spėjimų kriterijų (predicted criteria))

U: Kriterijų priemonių charakteristika

Kriterijai, kuriais patvirtinami testo rezultatai, gali skirtis dėl pačio kriterijaus validumo ir pagrįstumo. Reikia būti itin atsargiems atliekant procedūras (vertinimus), kai žmonės yra skirstomi į grupes pagal kriterijus, kurios remiasi subjektyviais kriterijais (reitingai, kokybiniai vertinimai. Kriterijai negali būti vertinami naudojant tų tiriamųjų rezultatus, kurie galėjo turėti prieigą prie prediktorių (tų asmenų, kurie žino teisingus ats??). Šios plintančios, validumą ,,gadinančios" klaidos gali būti išvengiamos įsitikinant, kad tyrėjai (mokytojai, prižiūrėtojai, vertintojai ir t.t.) yra nesusiję su tiriamaisiais arba kol vyksta tyrimas jie nežinotų balų vertinimo/teisingų atsakymų ir taip nedarytų įtakos. Testų kūrėjai privalo pateikti įrodymų, kad priemonės ir metodai naudojami vertinant ar klasifikuojant kriterijų grupes yra patikimos ir validžios. Kai kriterijus susideda iš __narystės tam tikroje diagnostinėje kategorijoje (membership in a group such as a certain diagnostic category?)__, jo validumą ir patikimumą galima pagerinti kruopščiai atrenkant pagrįstus įrodymus iš kelių nepriklausomų šaltinių. Reitingų kriterijų patikimumą taip pat reikia išsiaiškinti. Skirtingos sritys (profesines turi omenyje) skiria skirtingus kriterijus būtent tos konkrečios srities įvertinimui. Pvz.: geras vadybininkas turi būti produktyvus ir jausti visokeriopą pasitenkinimą ir kitais dalykais. Įgūdžiai ir asmeninės charakteristikos gali būti tarpusavyje konfliktuojančios. Tačiau jas išmatuoti yra daugybė būdų. Tų charakteristikų įvertinimas gali ir teigiamai, ir neigiamai koreliuoti tarpusavyje.

U: Atlikties spėjimas

Kriterijais paremtos interpretacijos gali būti naudojamos ir apibūdinti empirinių duomenų pritaikymą, atsižvelgiant į ryšį tarp testo įverčių/atlikties lygių ir kriterijaus (pvz., sėkmė studijų programoje; našumas darbe ir pan.) Kriterijus naudojamas kita prasme - kriterijus tai pasekmė, kurią galima apskaičiuoti ar nuspėti testo pagalba. Kokio kriterijaus lygio galima tikėtis iš žmogaus, gavusio tokį įvertį? Ar to asmens testo įverčiai yra pakankami norimo kriterijaus lygio pasiekimo užtikrinimui? Dvi procedūros naudojamos: a) Tikėtinumo lentelės (expectancy tables): rodo testo įverčių pasiskirstymą vienoje ar daugiau grupių ir kriterijaus atliktis. Naudojama pateikti tikėtiną kriterijaus lygį asmenų, kurie surinko skirtingo lygio įverčius. b) Tikėtinumo diagramos (charts): naudojama, kai kritrijaus atliktis gali būti klasifikuojama į sėkmingą ir nesėkmingą. Pateikia įverčių pasiskirstymą kartu su procentu žmonių, kurie tam tikrame įverčių intevale buvo sėkmingi ir kurie ne (kriterijaus atžvilgiu). Atrankos sprendimams. Kriterijumi paremta testo interpretacija klinikiniame įvertinime Pvz, Beck Depression Inventory, Mini-Mental State Examination. Naudoja cutoffs ir įverčių diapazonus įvertinti psichinių sutrikimų elgesio simptomatiką.

U: Validumo įrodymas, paremtas testų įverčių ir kriterijaus santykiu

Kriterijus - tai standartas, pagal kurį gali būti grindžiamas arba priimamas sprendimas arba (iš lt. žodyno) požymis, pagal kurį kas nors vertinama, nustatoma, klasifikuojama; vertinimo pagrindas, matas. Kriterijaus matas - kriterijų, pagal kuriuos sukurti testai skirti įvertinti ar numatyti, indeksai, kurie yra surinkti nepriklausomai nuo nagrinėjamo testo. (pvz.: atlikties įvertinimas, pažymiai, apdovanojimai, atlyginimo/pardavimų/pagaminimo kiekis, priklausymas kažkokiai grupei (pagal diagnozės, veiklos, mokslo pasiekimų ar bet kokius kitus reikšmingus kintamuosius...), elgesio įvertinimai, kitų susijusių testų balai..) Kriterijaus pobūdis priklauso nuo klausimų, kuriuos jis bando atsakyti. Jis gali būti: 1) Natūraliai dichotomiškas (pvz. baigė mokyklą vs. metė mokyklą) 2) Dirbtinai dichotomiškas (pvz. sėkmė vs. nesėkmė) 3) Politomiškas (pvz. nerimo vs nuotaikos vs disociatyvūs sutrikimai) 4) Tolydus (continuous) (pvz. pažymių vidurkis, pardavimų kiekis, surinktų taškų kiekis depresyvumo skalėje...) Kai kriterijaus matas yra išreikštas dichtomiškai arba kategoriškai (pvz. priklausymas tam tikroms grupėms), testo įverčio validumas yra įvertinamas pagal pataikymų rodiklį (hit rate). Šis rodiklis paprastai nusako teisingų sprendimų procentą naudojant testų balus, vidurkių skirtumus ar tinkamų koreliacijų indeksus. Norint nustatyti testo įverčio ir kriterijaus mato santykį, kai kriterijaus matas yra nuolatinis, naudojami koreliacijos koeficientai. Santykis tarp testų įverčių ir kriterijų matų (TĮKM) gali arba negali būti generalizuojamas tarp grupių, situacijos/aplinkos arba laiko periodų. Todėl kriterijumi paremtas validumas turi būti atnaujinamas naujoms populiacijoms, kurios skiriasi nuo originalios validacijos imties taip, kad galėtų paveikti TĮKM santykį. Validumo įrodymų tvirtumas ar kokybė vertinant ar prognozuojant kriterijų priklauso nuo testo ir taikytų kriterijų matų savybių. Jei kriterijų matai yra nepatikimi ar savavališki, testų balų validumo indeksai susilpnėja, neatsižvelgiant į testo kokybę, naudojamą kriterijams įvertinti ar numatyti.

U: IRT Item Responce theory - Užduočių atsako teorija

Latentinių (Nepastebimų) bruožų modelis kartais slepiasi po Užduočių atsako teorija (IRT). Nuo aukščiau minėtų sulyginimo procedūrų skiriasi tuo, kad IRT metodai pritaiko matematinius modelius testuoti užduočių duomenims iš didelių ir skirtingų imčių. Modeliai patalpina ir žmones, ir užduotis ant tos pačios skalės. Jie gali pateikti užduočių parametrų apskaičiavimus, kurie yra nekintantys (invariant) tarp populiacijų. Jie nebūtinai surišti su specifinės referentinės grupės atliktimi.Šie modeliai siekia nustatyti nepastebimų (latentinių) gebėjimų lygį ar psichologinius konstruktus kurie remiasi stebimais tiriamųjų atsakais į testo užduotis ar klausimus. Kai šie IRT modeliai yra pritaikyti skirtingų grupių užduočių atsako rinkiniams, testų įverčių rezultatai gali būti naudojami dvejais atvejais: a) nustatyti, įvertinti tikimybę, kad tie, kurie turi tam tikrą gebėjimų lygį į klausimą atsakys teisingai ar tam tikru būdu ir b) numatyti, kad tam tikri bruožai reikalingi atsakyti į klausimą tam tikru būdu

U: Metaanalizės

Meta analizių naudojimas leidžia tyrėjams surinkti info iš daug skirtingų tyrimų , daryti aiškesnes išvadas nei tos, kurios gautos tradiciniais tyrimų apžvalgos būdais. Metaanalizės remiasi kiekybinėmis procedūromis, kurios numato rezultatų sintezę ir integraciją analizuojamai temai. Šias technikas išrado Schmidt ir Hunter (1977). Per kelis paskutinius dešimtmečius, metaanlizės technikos tapo svarbiu metodu aiškinti konfliktinėms išvadoms. Meta analizių naudojimą paskatino suvokimas, kad daugelis prieštaringų išvadų psichologiniuose tyrimuose yra atsiradę dėl individualių atskirų tyrimų netobulumų. Taip pat vis labiau suprantama, kad hipotezių tikrinimas psichologiniuose tyrimuose per daug pabrėžiami statistinio reikšmingumo lygiai, kurie akcentuoja poreikį vengti I tipo klaidų, kartu pamirštant II tipo klaidų galimybę. Kadangi ryšys tarp I ir II tipo klaidų yra atvirkštinis, pabrėžiant vengimą I tipo klaidų, padidėja II tipo klaidų tikimybė. Dėl to daugybė tyrimų rezultatų, kurie nesiekia norimo statistinio reikšmingumo lygio, tačiau gali suteikti vertingos informacijos, buvo ignoruojami ir išbraukti iš literatūros. Dabar manoma, kad reikia ne tik nurodyti reikšmingumo lygius ar rezultatų tikimybę, bet ir įtraukti ryšių stiprumą, nustatytą tyrime, taip pat pasikliautinus intervalus efektų dydžiui ir kitus svarbius parametrus. Nors meta analizių metodika vis dar tobulinama, ji jau daug prisidėjo prie testų, naudojamų personalo atrankoms ir numatomumams. Be to, metaanalizės padėjo išaiškinti (clarify) mokslinę literatūrą ir toliau plėtoti teorijas organizacinės psichologijos srityse. Švietimo pavyzdys. Absolventų egzamino įvertinimų (GRE), kaip numatančių rezultatų vertinimą abiturientų programose, pagrįstumo tyrimai turi ilgą istoriją, kurią kamuoja nenuoseklios išvados. Vienuose tyrimuose teigiama, kad GRE (Graduate Record Examination) gerai nusako moksleivio pasiekimus mokykloje, kiti tam prieštarauja. Bendrai literatūros šaltiniai apie GRE balų validumą, atrodo, nepateikė svarių įrodymų, pagrindžiančių jų naudojimą priimant absolventus į aukštesnes mokyklas (kažkas panašaus į profesines mokyklas :D). Atsižvelgiant į tai, Kuncel, Hezlett ir Ones (2001) atliko kruopščią ir išsamią meta analizę (Tyrimas Belgijos univere, virš 82K studentų dalyvavo, jei norit plačiau - 201 psl). Tyrėjai padarė išvadą, kad keturios GRE vertės (GRE-V (verbal), GRE-Q (quantitative), GRE-A (analytical) ir GRE subject testai) yra pakankamai geri daugelio kriterijų, taikomų populiacijai ir pavieniams asmenims prediktoriai. TRUMPAI: Kuncel ir jo kolegų (2001 m.) Meta analizė aiškiai rodo, kad daugumą ankstesnių GRE patvirtinimo tyrimų neatitikimų lėmė diapazono apribojimas ir imties paklaida (range restriction and sampling error) tuose tyrimuose ir kad GRE balai yra naudingi abiturientų priėmimo į aukštąsias procese. Pastebėjimai: - GRE balų ir daugumos kitų prognozavimo priemonių, naudojamų priimant sprendimus, tikslas nėra tiksliai įvertinti kandidata, o nustatyti, ar kandidatas gali pasiekti reikiamą sėkmės lygį. - Kandidato požiūris, emocinės savybės, elgesio įpročiai, kiti gabumai, kurių neišmatuoja GRE ar pažinimo testai, paprastai taip pat naudojami kaip prediktoriai. - Atrankos sprendimai retai remiasi tik vienu prediktoriumi.

U: Neapdoroti įverčiai

Neapdorotas įvertis neleidžia daryti jokių išvadų, nors gebėjimų testuose aukštas įvertis (surinktas didelis balų skaičius) gali reikšti aukštus gebėjimus, testuose, tiriančiuose psichopatologiją, tai gali būti sutrikimo požymis.

U: linijinės transformacijos

Norint transformuoti neapdorotus įverčius į skales, kurios parodo įverčio poziciją (pagal vidurkį ir SD) naudojama linijinė transformacija. Linijinė transformacija pakeičia įverčių vienetus, tačiau nepakeičia vidinių sąsajų (interrelationship) tarp jų - linijinės transformacijos skalėje įverčių pasiskirstymas yra toks pat kaip neapdorotų įverčių pasiskirstymas (toje grupėje, kuri atliko testą). Pliusas - normaliai pasiskirstę testų įverčiai, su skirtingais vidurkiais, standartiniais nuokrypiais ir diapazonais (ranges) gali būti prasmingai palyginti (ir suvidurkinti), tol kol naudojama ta pati referentinė grupė. Pirmiausia linijinė transformacija atliekama norint neapdorotus įverčius paversti z įverčiais. Jie parodo atstumą tarp neapdoroto įverčio ir referentinės grupės vidurkio (naudojamas tos grupės SD). Z įverčio vidurkis - 0 SD - 1, pasiskirstymas po pusę į kiekvieną pusę nuo vidurkio. Z įvertis virš vidurkio teigiamas ženklas arba jokio, žemiau vidurkio - neigiamas ženklas. Z įvertis vadinamas standartiniu įverčiu, nes dažniausiai neapdoroti įverčiai pirmiausia transformuojami į z įverčius. Jei įverčių pasiskirstymas referentinės grupės imtyje yra normalusis z įverčiai gali būti iškart transformuojami į procentilius. Z įverčiams dažniausiai reikia papildomų linijinių transformacijų, kadangi z įvertis gali būti neigiamas arba dešimtainis (reikia transformuoti, norint išreikšti testo rezultatus patogesnėmis formomis).

Pagal tikslus, testai paremti tokiais informacijos šaltiniais:.../ Pažiūrų/ atskaitos sistemos testo rezultatų interpretacijai

Norm-referenced (normomis besiremianti interpretacija) - naudoja standartus, paremtus specifinių grupių įverčiais. Naudingas, kai reikia palyginti vieną individą su kitu ar su referentine grupe., kad būtų galima įvertinti skirtumus tarp jų. Criterion-referenced (kriterijais besiremianti interpretacija) - kai ryšys tarp testo užduočių ir atlikties standartų yra gerai apibrėžtas. Naudojamos procedūros, tokios kaip atranka iš turinio srities ar su darbu susijusio elgesio, sukurtos nustatyti, ar ir iki kokio lygio norimi meistriškumo lygiai ar atlikties kriterijai yra pasiekti.

U: normatyvinė imtis

Normatyvinė imtis turi būti reprezentatyvi, ją turi sudaryti pakankamai didelis kiekis individų, kurie turi būti homogeniški ar vienodai pasiskirstę lyties, amžiaus, išsilavinimo, socialinės padėties, gyvenamosios vietos ir t.t. atžvilgiu. Skirtumai tarp standartizacijos, normatyvinės ir referentinių grupių: standartizacijos grupė - grupė, kuriai testas buvo standartizuotas (obviouslyXD), vadovuose pateikiami tokios imties duomenys, normatyvinė grupė panašu, skiriasi tuo, kad normatyvinės grupės rezultatai gali būti paskelbiami jau po testo publikacijos. O referentinė grupė - tai bet kuri grupė žmonių, su kuria lyginami testo rezultatai. Normatyvinės grupės faktoriai priklauso nuo testo tikslo bei paskirties ir tiriamos populiacijos. Kai normatyvinę grupę sudaro daug plačiai apibūdintų populiacijų, ją galima skaidyti į subgrupes ir šioms kurti normas. Kai norima ištirti specifinę grupę (pvz., tam tikros institucijos bendruomenę), taikomos vietinės normos ir tiriamas tokios grupės funkcionavimas bei atliktis toje institucijoje. Svarbus naujumas. Keliami tokie klausimai: How large is the normative sample? • When was the sample gathered? • Where was the sample gathered? • How were individuals identified and selected for the sample? • Who tested the sample? • How did the examiner or examiners qualify to do the testing? • What was the composition of the normative sample, in terms of —age? —sex? —ethnicity, race, or linguistic background? —education? —socioeconomic status? —geographic distribution?

U: Normomis vs kriterijais paremtos interpretacijos

Normomis: siekia vieno ar kelių testą atlikusių žmonių atliktį patalpinti kontinuume, sukurtame pagal referentinės grupės atliktis Atskaitos sistema - žmonės Whereas norm-referenced tests seek to rank or place one or more individuals in relation to others with regard to the construct they assess, criterion-referenced tests seek to evaluate the performance of individuals in relation to the actual construct itself Kriterijais: siekia įvertinti individų atliktis pagal su pačiu konstruktu susijusiais standartais Visai netinka asmenybei vertinti Atskaitos sistema - žinios (standartizuoti, objektyvūs testai) arba kompetencijos lygis, kurį atspindi atlikties arba produkto kokybė Terminas kartais naudojamas apibūdinti testo interpretacijas, naudojančias ryšį tarp įverčių ir tikėtino atlikties/padėties lygio. Atlikties skirtumai tarp individų nėra pašalinami (vistiek, tas, kuris pasiekė 65 žodž per min kriterijų ir surinko 90 lyginant su 67, bus laikomas geresniu) Normomis: pirminis tikslas yra padaryti atskirtis tarp asmenų gebėjimo ar bruožo, įvertinamo testu. Kriterijais: pirminis tikslas yra įvertinti asmens įgūdžio ar žinių kompetencijos/meistriškumo laipsnį naudojant jau nustatytus atlikties standartus. Kartais vienas ar kitas naudojamas abiem tikslams. Meistriškumo slenksčiai gali būti lengvai nustatomi paprastiems įgūdžiams, tačiau srityse, reikalaujančiose aukštesnio lygmens įgūdžių, toks standartų nustatymas negali būti pritaikomas, nes pasiekimai yra labai platūs, varijuojantys.

Validumas KRITERIJAUS atžvilgiu: Arba dar diagnozės / prognozės validumas:

PVZ.: Jeigu atrenkami mokiniai, kurie mokysis tt mokykloje, pagal tt programą, tt dalykų - reikia užtikrintumo, kad: atrankos testas atitinka tikslus, jis yra validus šio tikslo/-ų atžvilgiu. · Nustatyti testo validumą kriterijaus atžvilgiu: 1) ištestuoti grupę mokinių; 2) juos mokyti pagal sustiprintą programą, nepriklausomai nuo to, kaip mokiniai buvo įvertinti; 3) apskaičiuoti koreliaciją tarp atrankos testo įvertinimų ir įvertinimų, gautų testuojant pagal kriterijų, atspindintį, kaip mokinys yra išmokęs programos medžiagą. · Testas validus, jei - pagal jį galima numatyti, kurie mokiniai pasieks geresnių rezultatų, kai bus vertinami pagal atitinkamą kriterijų. · Validūs testai naudingi, atrenkant mokinius mokymuisi pagal spec. programas, bet atrenkant reikia atsižvelgt į konkr. mokinio individualias gyvenimo ir mokymosi aplinkybes, jo motyvaciją - išvengti taip klaidingo sprendimo. (Validumo kriterijaus atžvilgiu koeficientas - svarbus atrenkant ir konsultuojant mokinius iš įvairių mokymo programos sričių (BET tik tuo atveju, jei testuojamasis nesiskiria nuo tos mokinių grupės pagal kurią buvo nustatytas koeficientas)).

U: Įverčiai, naudojami tarpgrupinėms normoms išreikšti: standartiniai įverčiai

Padeda išvengti procentilių trūkumų. Pradiniai įverčiai paverčiami į skales, kurios apibūdina įverčių pozicijas pagal vidurkį, standartinio nuokrypio vienetais. Norint iš pradinio balo gauti standartinį balą naudojama tiesinė transformacija. Toks pats įverčių pasiskirstymas kaip ir pradinių įverčių pasiskirstymas. Procedūros privalumas - normaliai pasiskirstę įverčiai su skirtingais vidurkiais, SD ir kt. gali būti lyginami tarpusavyje, kai yra tiesiškai transformuojami į bendrą skalę. Pirmoji tiesinė transformacija - paversti pradinius įverčius z įverčiais. Z įvertis apibūdina atstumą tarp pradinio įverčio ir referentinės grupės vidurkio in terms of SD. For example, a zscore of +1.25 indicates that the original raw score is 11⁄4 SDunits above the mean of the group, whereas a raw score that falls 3⁄4 SD units below the mean converts into a z score of -0.75. Jei pasiskirtymas normalus, z įverčiai gali būti transformuojami į procentilius. Papildomos sistemos standartiniams įverčiams gauti. Dėl patogumo didesnio (nes z gali būti ir neigiamas), z dažnai transformuojamas į kitus standartinio įverčio formatus: - T-įvertis, naudojamas asmenybės inventoriuose, kaip pz MMPI ar CPI. - College Entrance Examination Board įvertis, naudojamas SAT, Graduate Record Exam (GRE) programai. - Wechsler scale subtest įverčiai - Wechsler scale deviation IQs - Otis-Lennon School Ability Indices (SD=16) Apie nuokrypio IQ Pirmiausiai pristatyti David Wechslerio 1939-aisiais, skalėje, kuri vėliau virto WAIS. Ratio IQ skiriasi, naudojami Alfren-Binet skalėse. Skalės įverčiai iš įvairių subskalių sudedami ir patalpinant gautą sumą atitinkamoje normatyvinėje lentelėje.

B: Patikimumo kriterijai ir jų vertinimo kriterijai, kada negalioja - PAKARTOTINIS MATAVIMAS

Pakartotinis matavimas (pakartojamumas (maži laiko intervalai), laikinas stabilumas pakartotinai matuojant (dideli intervalai) (nenaudojama būsenoms): imties dydis, stabilumo koeficiento dydis (šito užtenka mažesnės reikšmės, sunkiau tiesiog gauti didelį suderintumą, nes antras matavimas jau yra antras.. excellent r>=0,80), kokiu intervalu atliktas matavimas, imties pobūdis

U: patikimumas (matavimo paklaida, tikrasis įvertis)

Patikimumas reiškia, kad testavimo procedūra bus nuosekli ir tiksli. Svarbu žinoti, kad pakartotinai pratestavus individą bus gauti tokie patys rezultatai. Matavimo paklaida - tai rezultatų svyravimai, atsirandantys dėl matavimo proceso nepriklausomai nuo to, kas yra matuojama. Patikimumas - tai testo įverčių savybė, reiškianti, kad jie yra nuoseklūs ir neturi matavimo paklaidos. Psichologiniai konstruktai ir jų vertinimas itin jautrūs, nes priklauso nuo respondento, testuotojo, aplinkos. Tikrasis įvertis - tai hipotetinis įvertis, jeigu tiriamasis atliktų testą begalybę kartų ir būtų išvestas vidurkis. Kiekvienas įvertis susidaro iš tikrojo įverčio plius matavimo paklaidos. Šie abu skaičiai niekada nežinomi. Tikrasis įvertis rodo tiriamą bruožą ar gebėjimą, o matavimo paklaida - visus šalutinius kintamuosius. Individualiuose duomenyse: vidutinis įvertis hipotetiniame įverčių pasiskirstyme, kuris būtų gautas, jei individas tą patį testą atliktų nesuskaičiuojamą kiekį kartų. Neįmanoma - gaunami nustatyti/išmatuoti įverčiai (observed scores), jis lygus tikrojo įverčio ir klaidų įverčio sumai. Grupės duomenyse: Patikimumo koeficientas: lygus tikrojo įverčio dispersiją padalinus iš viso testo įverčio dispersijos. Jei lygios - nuostabu - gaunam 1. Įverčio patikimumui įvertinti - dviejų žingsnių procesas: nustatymas galimų klaidos šaltinių, kurie galėtų paveikti įverčius ir išmatavimas tų klaidų mastą. Populiacijos dispersija susideda iš tikrosios (įverčio) dispersijos ir matavimo paklaidos dispersijos. Patikimumo koeficientas yra tikrosios dispersijos ir visos dispersijos santykis. Jeigu visa dispersija būtų tikroji dispersija, tai 1/1=1, patikimumo koeficientas būtų tobulas. Patikimumo koeficientas parodo, kokią dispersijos dalį sudaro tikroji dispersija, taigi, padeda įvertinti šalutinių kintamųjų įtaką.

P: klaidos ir jų tipai

Patikimumas: Klasikinė testų teorija: Testo įvertis = tikroji reikšmė ir matavimo klaida (klausimas - ar galime tam tikrą reikšmę pateikti be jokio intervalo? Dažnai rašo intervalą, nes yra klaidos tikimybė). Jei klaida atsitiktinis dalykas, jas sukeliantys veiksniai ne visus tiriamuosius veikia vienodai. Kaip matavimo klaida susijusi su instrumentu? Dviejų tipų klaidos: · Atsitiktinės - nenumatomos, atsiranda dėl aplinkos poveikio · Sisteminės (bias) - pasikartojančios, jų pasitaiko dažnai. Atsitiktinės (random): Bet kuris veiksnys, galintis turėti poveikį matuojamam t.t. imties kintamajam: Pavyzdžiui, individo nuotaika tam tikrai atvejais gali pagerinti ar pabloginti rezultatą (pvz. hiperaktyviam vaikui nepatinka Wechslerio užduotis, ar gautas rezultatas išties parodys gebėjimus?) Atsitiktinės klaidos padidina duomenų išsibarstymą, bet nekeičia grupės rezultatų vidurkio (vieni su viena, kiti su kita nuotaika) Sisteminė klaida (angl. systemic error arba bias): Sisteminis tyrimo rezultatų nuokrypis nuo tikrosios vertės. Priešingai nei atsitiktinė klaida, sisteminė dažnai iškreipia duomenis į vieną pusę nuo tikrosios vertės, pvz., netikslus sekundometras rodo kiek mažesnį nei tikrasis laiko tarpą arba tyrėjas atidžiau stebi vienos grupės tiriamuosius nei kitos (tyrėjo klaida). Sisteminė klaida dažniausiai paveikia grupės vidurkį (aukštesnis/žemesnis arba teigiamas/neigiamas). Galima klaidas surasti ne tik su sekundometru arba netinkamu tyrėjo elgesiu. Jei dėstytojas stovės prie studentų, tai galės paveikti tų rezultatus, prie kurių stovėjo. Pvz, dar - pateikė stimulą ne 120s, o 40s trumpiau, nei nurodyta. Arba - vietoje 5 subtestų psichologė sudeda 6 subtestus - visiems pagerintas rezultatas. Paveikia vidurkį.

B: Patikimumo rodiklio įvertinimui turi reikšmės.... ir kada tam tikri kriterijai nenaudojami

Patikimumo rodiklio įvertinimui turi reikšmės, ar testas naudojamas priimti sprendimą apie individą, ar apie grupę, aukštesni rodikliai: kai individui; kai vienas patikimumo tipas taikytas; kai aukštos rizikos sprendimas; kai standartinės paklaidos nepateiktos (turbūt), išsamumas. Tyrimams keliami mažesni reikalavimai nei praktikoje. Cronbach alpha priklauso nuo teiginių skaičiaus, kuo daugiau, tuo didesnis koeficientas. Mažai teiginių ir labai didelė crobach alpha - nesąmonė jau čia bus, greičiausiai teiginiai bus identiški. Kada patikimumo tipai nenaudojami? · Pvz, neprasminga taikyti test-retest, jei savybė yra kintanti. · Vidinis suderintumas - kai pats instrumentas yra labai heterogeniškas, kai įvairūs konstruktai matuojami, pvz. SDQ - skirtingą elgesį matuoja (probleminį-prosocialų). Taip pat nereikia skaičiuoti, kai yra greičio užduotys (pvz., greitojo vardijimo užduotis - yra vienas įvertis, nėra ką su kuo koreliuoti, turi būti bent keli teiginiai) Iki čia - pats matuojamas konstruktas neleidžia/neprasminga taikyti šitus patikimumus · Paralelinės versijos - tiesiog tų formų nėra, tai nėra ir ką daryti. Nėra daug testų, turinčių tokias versijas. · Vertinimų suderintumas - pvz. SDQ nereikėtų žiūrėti šio patikimumo, nes gan aiški vertinimo sistema. Kai vertinimo sistema nėra tokia, kad tyrėjui reikia priimti sprendimą, kaip įvertinti. Pvz, kūrybiškumo užduotyse - reikia būtinai vertinti. Taigi, yra 4 patikimumo tipai, jie vertina skirtingus aspektus, yra situacijų, kai užtenka įvertinti vienu būdu (test-retest), yra ir tokių, kai visus reikia taikyti. Sprendimą lemia tai, ar konstruktas leidžia, ar neleidžia taikyti bei instrumento ypatumai.

P: Psichometriniai duomenys:

Pirmiausia, jei testas turi testo vadovą, duomenis galime rasti ten. Vartant vadovą, psichologas turi turėti pakankamai žinių, kad galėtų pasakyti, ar normos pagrįstos/ne, patikimas testas ar ne ir pan. Pvz testas standartizuotas pradinukams ir normos sudarytos pagal lietuvišką grupę, o duodamas daugiakalbiams - tai yra neteisinga. • Testo psichometriniai duomenys turi būti prieinami testo naudotojui (pateikti testo Vadove arba atskiru leidiniu). • Psichologui turi užtekti kompetencijos (žinių ir įgūdžių), kad galėtų įvertinti testo validumą ir patikimumą, bei normų pagrįstumą ar naudojamas tiems, kam skirtas ir t.t.. · Jei to neužtenka, testo naudotojas privalo kelti savo kvalifikaciją, nes jis tiesiogiai atsako už tai, kokios kokybės testą naudoja.

Normos

Populiariausia atskaitos sistema. Vienos ar kelių referentinių grupių testo atliktis ar būdingas tipiškas elgesys. Kai normos surenkamos atsižvelgiant į žmonių grupės testo atliktį, referentinė grupė vadinama normatyvine arba standartizacijos imtimi. Normų surinkimas - kertinis norm-referenced testo standartizavimo procesas.

U: Informacijos šaltiniai testo įverčių interpretavimui

Priklausomai nuo testų tikslo, įverčių interpretavimui naudojami vienas arba abu informacijos šaltiniai: · Normos. Normomis pagrįstas testų interpretavimas, kuris naudojasi specifinių grupių testų atlikties rezultatais testo įverčių interpretavimui. Šis interpretavimo metodas naudingas tuo, kad leidžia palyginti individus vieni su kitais arba su referentine grupe. Normos apibūdina vienos ar kelių referentinių grupių testo atliktį ar toms grupėms priklausančių asmenų tipišką elgesį. Testuota referentinė grupė, pagal kurią nustatomos normos yra vadinama normatyvine arba standartizacijos imtimi/grupe. · Atlikties kriterijai. Kai testo užduočių susietumas ir atlikties standartai yra gerai apibrėžti ir reprezentatyvūs, testo įverčiai gali būti interpretuojami kriterijais paremta interpretacija. Toks metodas naudojamas atrankose.

P: Diferencinio užduoties funkcionavimo (DIF) nustatymo metodai

Probleminės (šališkos ar paveiktos) užduotys ar jų grupės nustatomos šiais metodais: - Logistinės regresijos modelis - Multidimensinis modelis SIBTEST - Užduoties atsako teorija (Item Response Theory)- IRT1 (Rasch) IRT 3 (sunkumas, skiriamoji galia ir tikimybė); gera, labai palengvina užduočių analizę, galima pažiūrėti į jas su t.t. tikimybe. Lengvos užduotys - tos, kurios išspręstos daugelio tiriamųjų, nepanašu į S raidės formos kreivę (S raidės formos - užduotis tinkama, žemesnių gebėjimų tiriamieji išsprendžia sunkiai užduotį, didesnių - išsprendžia.). Atskiros užduotys. Kitas dalykas - pasižiūrėti, kokia yra suminė visų užduočių kreivė, geriausiai - kai S raidės. Jei nepanašu, gali būti, kad yra lubos, kur jau nebediferencijuoja.

U: Validumo generalizavimas

Prognozuojamo validumo balų indekso dydis priklauso nuo: Patvirtinamo validumo - imties dydžio sudėties ir kintamumo Prognozuojamo kriterijaus pobūdžio ir sudėtingumo Testo charakteristikų Visų šitų dalykų tarpusavio sąsajos. Todėl prieš paskelbiant rezultatus, kaip tinkamus vertinti populiacijai būtina atkreipti dėmesį į šiuos 4 kintamuosius.

U: Kriterijais pagrįstų testų interpretavimas klinikiniame vertinime Uždavinio atsako teorija kaip pagrindas susieti pažiūros sistemas Nepasitenkinimas normomis

Pvz, kognityvinės teorijos ir IRT integravimas į priemonę matuoti gebėjimą spresti geometrinės matriksos problemas; hierarchinis IRT modelis, protaikytas testui, matuojančiam meistriškumą skaitymo suvokime (pradinio mokyklos lygio). Kai kurie testai, naudojami klinikoje, vertina emocinius ir kognityvinius konstruktus, nors kriterijais pagrįsti testai nenaudojami asmenybei tirti. Testai naudoja ribinius balus, remiantis duomenimis, kad nustatytų tam tikrus sutrikimus pagal jų žinomus simptomus. Šie testai, kaip ir naudojami priimant į darbą, gali įvertinti (diagnostika) ir prognozuoti (prognostika). Ypač svarbus šių testų validumas Kadangi IRT tikslas yra nustatyti respondento užimamą vietą pagal gebėjimą arba bruožą, IRT metodai gali būti taikomi kuriant testus, vertinamus ir pagal normas, ir pagal kriterijus. Nors IRT naudojami duomenys yra iš referentinių imčių, galima naudoti ir kitus informacijos metodus kuriant skales, kuriomis galima lyginti su kitais (į normas orientuotas) arba realų įvertį (į kriterijus orientuotas). Toks mokslininkas Primi sujungė IRT ir kognityvinę teoriją kurdamas instrumentą, leidžiantį įvertinti geometrinių matricų sprendimą. Kitas testas vertina pradinukų teksto suvokimą. Nepasitenkinimas normomis paremtu testavimu: jo naudojimas švietime yra pagrindinė žemėjančių standartų priežastis (nesvarbu, kaip blogai pasirodys, vis tiek imant jų normas, pusė iš jų bus aukščiau vidurkio); kai naudojamas sprendimas darbo/švietimo srityse, neatsižvelgiama į tai, kad tai labai nenaudinga neprivilegijuotų grupių asmenims lyginant su daugiau mokymosi galimybių turėjusiais asmenimis.

nzn: gebėjimų testai vs mokymosi rezultatų testai

RYŠKIAUSIAS SKIRTUMAS: GT - privalo būti validūs atrankos ir prognozės atžvilgiu MRT - turi būti labiau susiję su tuo, ko buvo mokyta - turi būti validūs turinio atžvilgiu. GT - numatantys ateities veiklos rezultatus negali būti pagrįsti kriterijais. MRT - gali būti pagrįsti arba normomis, arba kriterijais.

U: klaidų skaičiavimas testo rezultatuose (SEM)

SEM (Standart Error of Measurement). Klaidų skaičiavimas: standartinės paklaidos matavimas (SEM) SEM - įverčių patikimumo koeficiento funkcija, patiekiama standartinio nuokrypio vienetais. SEdiff - standard error of the difference between obtained scores (dviejose skalėse) - didesnis už SEM. SEdiffs ir SEMs yra svarbūs rodikliai, nes: a) SEMs pateikia pasikliautinius intervalus nustatytiems įverčiams, kurie įspėja testo naudotojus, jog testo įverčiai yra subjektyvūs kitimui dėl matavimo klaidų. b) Pasikliautiniai intervalai, gauti naudojant SEdiff statistiką, užkerta kelią balų skirtumų, kurie, atsižvelgiant į matavimo paklaidą, gali būti nereikšmingi, pervertinimui. Interpretuojant bet kokį įvertį ar įverčių vidurkį, patikimumo duomenys yra naudojami nustatyti aukštesniąją ir žemesniąją ribas, tarp kurių testuojamojo balai, tikėtina, kris. Apie patikimumą trumpai 1 žingsnis: įvertinti potencialius klaidų šaltinius, kurie gali atsirasti naudojant instrumentą. 2 žingsnis: peržvelgti prieinamus duomenis, susijusius su instrumento patikimumu, įskaitant imtis, kurios buvo naudotos renkant duomenis. 3 žingsnis: įvertinti testo patikimumą kontekste kitų aspektų (normų, validumo, laiko, finansinių sąnaudų ir t.t.) 4 žingsnis: jei minėti aspektai (normos, validumas, laiko ir finansinės sąnaudos) vienodi visuose instrumentuose, vertėtų rinktis instrumentą, teikiantį patikimiausius rezultatus.

Integracinė konstruktų funkcija testo validume

Seniau konstrukto terminas naudotas dviem alternatyviais būdais: Nurodyti bruožus, procesus, žinių kaupimą ar charakteristikas, kurias norima išsiaiškinti per specifinius testo metu gautus elgesio modelius; Nurodyti išvadas, kurias galima padaryti remiantis testo rezultatais. Cronbach (1949) validumo klasifikacija (tipai): loginė ir empirinė. Konstrukto validumas - nomologinis tinklas/ konstruktą palaikančių teorinių ir stebimų užduočių tarpusavio santykių tinklas. Embretson (1983) du konstrukto validumo tyrimų aspektai: Konstrukto reprezentacijos tyrimas siekia atpažinti teorinius mechanizmus, kurie žymi užduoties atlikimą (užduoties suskaidymas). Ieškoma skirtumų tarp testo užduočių. Nomotetinis span tyrimas - testo santykių tinklas su kitais matais (the network of relationships of a test to other measures). Ieškoma skirtumų tarp testo sprendėjų. Norint daryti išvadas ir patikinti jų validumą reikia: Vienareikšmiškai apsibrėžti terminus. Išsiaiškinti stebėjimų patikimumą. Nuspręsti ar turime pakankamus įrodymus, kad būtų galima padaryti norimas išvadas, remiantis definicijomis ir turimais duomenimis.

P: Instrumento patikimumo matavimo metodai: VIDINIS SUDERINTUMAS

Spearman-Brown - dalijimo pusiau metodas Kuder-Richardson - skaičiuojami koreliacijos vidurkiai vienos ir kitos pusės, kai atsakymas vertinamas dichotomiškai (teisinga-neteisinga) Cronbach's alpha - populiariausia; naudojama, kai atsakymai turi skirtingus vertinimus. Kartais pateikiamas kaip vienintelis testo patikimumą įrodantis dalykas. Cronbach alpha = 0,882 (labai aukšta). Tačiau - matome, kad 4-tą užduotį sprendžia blogai visi. 9-tą geriau sprendžia visumoje blogesnius rezultatus gavę. Cronbach: Atskleidžia vidinį testo suderintumą (galima ir subtesto vidinių dalių, nė viena užduotis/klausimas neišsiskiria) Parodo, ar testo matavimai yra tikslūs Neatspindi rezultatų pastovumo laike, jam nedaro įtakos šalutiniai kartotinio testavimo kintamieji (pvz., laikas) Kuo didesnė koreliacija tarp testo užduočių, tuo didesnis Cronbach α .Testas pakankamai patikimas, koeficientas lygus 0,65, tačiau jei testas bus taikomas svarbiems tyrimams, patikimumo koeficientas turi būti lygus 0,70. (L.R.Aiken, 2003).

B: Kriterijais-paremta interpretacija ir testo vertinimo kriterijai

Standartai gali būti gaunami iš įgūdžių ar dalyko, kurį reikia įvaldyti, srities (vertinimas pagal sritį), arba sumažinti (cut) balai gali būti gauti iš empirinio validumo tyrimo rezultatų. Pradiniai balai kategorizuojami į du ar daugiau skirtingų įverčių diapazonus (ranges) (pvz. išlaikė-neišlaikė), pvz. kai reikia skirtingų įverčių diapazonų pacientus priskirti skirtingoms gydymo programoms, kai reikia mokinius, kurie surinko žemiau kritinio įverčio, priskirti taisomajam mokymui, kai reikia priimti arba atmesti žmones, aplikuojančius darbui, personalo atrankos metu). Gali būti: procedūros, kuriose naudojami ekspertų sprendimai (sritimi-paremtas norminimas) arba procedūros, kuriose naudojami duomenys, atsižvelgus į ryšį tarp testo įverčio ir išorinio kriterijaus (kriterijumi paremtas ribojančia prasme). Svarbiausi kriterijai: tinkamas metodo taikymas atsižvelgiant į kokybę, vertintojų treniravimas, vertintojų skaičius.

U: subrgupių - vietinės - patogumo normos

Subgrupių normos - kai labai didelė, plati populiacija. Gali būti suformuotos pagal lytį, amžių, išsilavinimą, darbą ir pan. Pvz iš pradžių MMPI buvo skirta suaugusiems, po to suformuotos subgrupių normos skirtingo amžiaus paaugliams. Vietinės normos (local norms) - sukuriamos siauriau apibrėžtoms populiacijoms, kaip pavyzdžiui konkrečios įmonės darbuotojai ar konkretaus universiteto studentai. Patogumo normos (convenience norms) - kai normos sukuriamos naudojant grupę žmonių, kurie tiesiog testo konstravimo metu buvo prieinami. Vis dėlto, jos nereprezentatyvios, neatspindi konkrečios populiacijos.

P: Reprezentacinės grupės parinkimas

Svarbu atsižvelgti: - Kiekvienas generalinės aibės vienetas turi turėti vienodą galimybę pakliūti i imtį; (pvz, reikia atrinkti su tam tikra tikimybe, kad kiekvienas Lietuvos vaikas turėtų vienodą galimybę patekti į imtį) - Kintamųjų atranka vykdoma nepriklausomai nuo tiriamo požymio; (turim apgalvoti, kokie kintamieji gali veikti ir priklausyti, tiriamasis požymis - intelektas, o su kokiais kintamaisiais mes susiduriam? Jei lengvuoju būdu sudarysim normas, atrinkdami tik iš mums prieinamų regionų - Vilniaus, negalėsim taikyti kitiems) - Atranka atliekama iš homogeniškų aibių; (turi būti panašu kaip ir populiacijoje, populiacijos reprezentatyvumas taip, kaip ir apskritai Lietuvoje yra) - Imties skaičius turi būti pakankamai didelis; (priklauso nuo to, ar individualiam, ar grupiniam (reikia daug daugiau) tyrimui skirtas testas) - Imtis ir generalinė aibė turi būti pakankamai vienalytė - variacijos rodikliai didinant stebėjimų kiekį suartėja

U: Structural Equation Modeling Techniques (SEM) kaip suprantu dar vienas būdas įvertinti daugialypius rezultatus.

Tai modelis, kuris sukuriamas remiantis teorijomis, ankstesniais tyrimais ir pnš., pavaizduojami ryšiai. Labai panašu į faktorinę. Pranašumai pirmiausia kyla iš dviejų šios metodikos ypatybių: SEM yra paremtas kovariacijų struktūrų analize, kuri gali parodyti tiesioginę ir netiesioginę kintamųjų įtaką viena kitai SEM paprastai naudoja kelis rodiklius tiek priklausomiems, tiek nepriklausomiems kintamiesiems modeliuose ir tokiu būdu suteikia būdą, kaip įvertinti visų matavimo paklaidas stebimiems kintamiesiems.

U: nelinijinės trasformacijos

Tai yra neapdorotų įverčių transformacija, kuri pakeičia jų pasiskirstymo formą. Normaliai pasiskirsčiusių neapdorotų įverčių keitimas į procentilius - nelinijinė transformacija (conversion). Kai įverčių pasiskirstymas yra tik apytiksliai normalus (nėra normaliojo pasiskirstymo, bet panašu) naudojami normalizuoti standartiniai įverčiai. Normalizavus įverčius, jie forma nesiskiria nuo tų, kurie apskaičiuoti pagal linijinės transformacijos formulę, tačiau turėtų būti identifikuoti kaip NORMALIZUOTI, norint perspėti testo naudotoją, kad testo įverčiai nėra iš normaliai pasiskirsčiusios imties. Kai gaunami normalizuoti standartiniai įverčiai, juos gali transformuoti į bet kurį kitą patogų standartinį įvertį (T scores, deviation IQ ir tt). Jų neina atskirti nuo gautų linijinių transformacijų būdu, tačiau vis tiek reikia įspėti, jog jie gauti iš nenormalaus pasiskirstymo. Tokie normalizuoti įverčiai tada jau gali būti verčiami visais kitais: T, nuokrypio IQ, CEEB. Raw score → Cumulative percent (CP) → Cumulative proportion (cp) → Normalized z score Stanine'ai - skalė, kurioje visi įverčiai transformuojami į vienaženklius numerius nuo 1 iki 9. Nepaisant statine'ų skalės ekonomiškumo ir paprastumo, būtent tai lemia tam tikrą tikslumo praradimą. Sutaupo laiko įvedinėjant duomenis į PC

U: Amžiaus diferenciacija

Testo rezultatai, suderinti su nusistovėjusiomis vystymosi tendencijomis (angl. well-established developmental) amžiaus grupės dažnai laikomos balų pagrįstumo (validumo) įrodymais. Amžiaus diferenciacija laikoma viena iš seniausių įrodymų šaltinių, patvirtinančių gebėjimo testus (ability tests). Taip kuriamos amžiaus grupės, kurios išryškėja gavus testo rezultatus, vėliau jas galima lyginti. Pastebima, kad atliekant tam tikrus testus, matuojant amžiaus grupes, didėjant amžiui testo rezultatai gerėja (pvz.: gebėjimų testai), arba didėjant amžiui testo rezultatai blogėja (pvz.: atminties testai, testai, reikalaujantys greičio). Balų padidėjimas ar sumažėjimas, atitinkantis amžių atitinkančius lūkesčius, pateikia įrodymų, kurie yra būtini, nors ir nepakankami, kad parodytų, jog testas matuoja gebėjimų konstruktus, kurios buvo skirta tuo testu išmatuoti (realiai dar vienas būdas, kuris parodo, kad testas validus ir tinkantis įvairioms grupėms-čia mano interpretacija, kažkaip tokie prielaida iškilo).

nzn: validumas

Testo validumas - laipsnis, kuriuo testavimas ir jo interpretavimas padeda išmatuoti tai, ką norime išmatuoti (esminis dalykas, kai norime įvertinti testą, patikimumas svarbu, bet siekiamybė - validumas). Validumo rūšys: 1) Validumas turinio atžvilgiu; 2) Validumas konstrukto atžvilgiu; 3) Validumas kriterijaus atžvilgiu

U: Testo balų patikimumas kaip validumo įrodymų šaltinis

Testų balų patikimumo tyrimai stabilumo požiūriu, gali skirtis tarp pagrindinių vidinių balų, turinio atrankos klaidų ir turinio heterogeniškumo pateiktų įrodymų apie bandymo turinio suderinamumą ar išskirtinumą. Balų patikimumas pats savaime gali būti laikomas išankstiniu įrodymu, kad buvo gautas patikimas elgesio imties matas, todėl gali būti naudojami netiesioginiai bandymo balų pagrįstumo įrodymai. PVZ. Jei testas yra skirtas įvertinti nedimensinį (vienareikšmį-kategorinį) konstruktą, pavyzdžiui, rašybos galimybes, aukšti vidinės nuoseklumo koeficientai paremtų vienareikšmį-kategorinį teiginį. Panašiai, jei galima pasiekti skirtingų balų nuoseklumą, vieną gali manyti, kad jie visi naudojasi tais pačiais kriterijais ir todėl tikriausiai vertina tas pačias savybes. Jei tariamai vertinamas konstruktas stabilus - pavyzdžiui, asmenybės bruožas ar tipas - didelis patikimumo testų pakartotinio įvertinimo rezultatas būtų būtina sąlyga įrodant galiojimą.

u: validumas

Testų įverčių validumas yra įrodymai, grindžiantys testo įverčių interpretaciją ir panaudojimą. Tai išvadų pagrįstumas testo įverčių pagrindu. Validumas neturi būti suprastas kaip determinacija, o labiau kaip laipsnio išraiška. Validavimas - procesas, kurio metu renkami įrodymai validumui pagrįsti. Validavimas prasideda nuo testo kūrėjo koncepcijos, tačiau tuo nesibaigia, kadangi tai apima ir informaciją, kaip mes interpretuosim testo rezultatus. Pastabus skaitytojas turėjo pastebėti, kad validumas kaip ir patikimumas nėra kokybė, apibūdinanti testus. Tai labiau yra sprendimas, kuris susijęs su testo įverčių atitikmenimis numatytam tikslui tinkamame kontekste. Testų išplitimą XX a. pirmuose dviejuose dešimtmečiuose lėmė ir Stanford-Binet, Army Alpha testų populiarumas, kurie buvo sėkmingai pritaikomi edukacinėje ir organizacinėje srityse. Tačiau daugelis ankstyvų psichologinių testų buvo kuriami ir naudojami neatsižvelgiant į psichometrinę teoriją, etinius principus ir praktines gaires (kurie ėmė rastis vėlesniais dešimtmečiais).

Validumas KONSTRUKTO atžvilgiu:

Tikriname koreliacijas arba hipotezes · Validumas konstrukto atžvilgiu - atsako į klausimą ar testas iš tiesų matuoja tą savybę/požymį, kurį reikia išmatuoti ar protingai mes vertiname testo rezultatus ir ar priimtinos yra testo pasekmės. TT abstrakčias žmonių savybes/ypatybes vadiname konstruktais - pvz.: intelektas - jų negalime išmatuoti tiesiogiai. à kuriamos sąvokos (intelekto, kūrybiškumo, etc.), kad būtų galima kalbėti apie sudėtingą įvairių elgesio formų derinį, kuris reiškia, kad tas žmogus elgsis protingai ar kūrybiškai. Validumo konstrukto atžvilgiu tikrinimas (būdai): 1) Tarkim 2 turimi dydžiai - gabumų tt srityje testo rezultatai ir balas atspindintis tos pačios srities dalyko mokymosi rezultatus - tie dydžiai turi būti susiję (dydžių susietumo tikrinimas). Žiūrim kokia koreliacija tarp testo balų ir testu matuojamo konstruko kt rodiklių. Panašiai galime tikrinti atitikimą tarp 2 testų tiriančių tą patį konstruktą (pvz.: 2 intelekto testai). 2) Patikrinimas hipotezių, nurodančių kaip turėtų elgtis aukštus ir žemus balus gavę žmonės à jei elgiasi taip kaip tikėjomės, vadinasi, testui būdingas validumas konstrukto atžvilgiu. · Su testu susijusi interpretacija svarbu irgi - klaidinga testo interpretacija griauna jo validumą!!. · Konstrukto validumo problemos - netinkamo testo naudojimo, interpretavimo ir nelauktų testo pasekmių problemos. (testų kūrimas, interpretacija, jų pasėkmės - nėra reguliuojamos pagal vientisą sistemą)

P: Kriterinis validumas, veiksniai, turintys įtakos jam

Tradiciškai kriterinis validumas - tiriamųjų grupės testo įverčių palyginimas su kitais jų veiklos rezultatais: pažymiais, ekspertų bei informacijos teikėjų vertinimais bei pardavimų skaičiumi. Gali būti tikrinamas ir kitais metodais - stebėjimu, interviu ir kt. Vaikas užpildo asmenybės klausimyną ir tėvai jo užpildo klausimyną apie vaiką, žiūrima, kaip dera. Nustatomas diagnostinis (concurrent) ir prognostinis (predictive, kaip gerai seksis ateityje, taikomas atrankos tikslais) validumas. Diagnostinis validumas - testas taikomas įvairių kategorijų tiriamiesiems (skirtingos klinikinės grupės) ir nustatoma, kiek vienos grupės testo rezultatai skiriasi nuo kitos. Naudojamas kontrastinių grupių metodas (pvz., eksperimentinis metodas, kai žiūrime, kiek sutrikimą turinčiųjų grupė skiriasi nuo normos - jei skiriasi, galime naudoti diagnostikai). Jei skiriasi, testas gali būti naudojamas diagnostiniais tikslais. Prognostinis validumas - numatoma, kaip testo rezultatų pagrindu padarytos išvados pasitvirtins po kiek laiko. Nustatomas ryšys tarp testo įverčio (predictor) ir būsimos veiklos rezultatų (kriterijaus). Vienas iš jau sukurtų - vaiko brandumo mokyklai įvertinimas (dabar nebenaudojamas šitas, nes tai tėvų pasirinkimas) Veiksniai, turintys įtakos kriteriniam validumui (patikrinamas su išoriniais dalykais, patvirtinant, kad matuoja tą patį..): - grupių skirtybės (lytis, amžius, asmenybės savybės t.y.); - testo ilgis (kuo ilgesnis testas, tuo didesnė tikimybė grupės variabilumui); - prieauglio/ pagerėjimo (incremental) validumas (kriterinio validumo kategorija - kiek to testo panaudojimas pagerina rezultatą/ kiek testas atneša naudos priimant sprendimą)

P: Testo validumas: turinio pagrįstumas

Turinio validumas - kiek testo užduotys reprezentuoja tiriamą sritį. Dažniausiai tikrinamas žinių (pasiekimų) testo turinio validumas. Kartais svarbu pagrįsti ir gebėjimų, interesų ar asmenybės matavimų turinį. Turinio validumas - tai sisteminga testo turinio analizė, kai reikia nustatyti, ar testas yra tinkamas modelis, aiškiai išryškinantis norimą įvertinti savybę Turinio analizė turėtų remtis tiek psichologiniu, tiek loginiu, tiek lingvistiniu, tiek statistiniu metodais. Instrumento turinio validumą tiriant psichologiniu-loginiu-lingvistiniu metodu, įvertinamas teiginių sudėtingumas, jų reprezentatyvumas, sąsajos su specifine kultūra, siekiama kuo suprantamiau, universaliau apibrėžti instrumentą sudarančius konstruktus, aiškiai ir ekvivalentiškai originaliam testui išversti instrukcijas ir panašiai (norint parengti to paties turinio testą mes turime kartais net klausimus keisti, nes dėl specifinės kultūros tampa netinkami tai sričiai apibūdinti). Pvz: ekonominės žinios tikrintos klausiant apie PVM, ... - Koreliacijos užduotis-testas (testo suminis įvertis): prasmė tokia pati, kaip ir skiriamosios galios - kaip konkreti užduotis gali atskirti testą gerai atliekančius ir prastai atliekančius. - Koreliacija užduotis-testas gaunama, taikant Pearsono momentinę koreliaciją - Užduotys, silpnai koreliuojančios su testo suminiu įverčiu (<0,2), laikomos neinformatyviomis - Koreliacija užduotis-testas rodo ir testo homogeniškumą: kuria dalimi atskira užduotis matuoja tą patį, ką ir visas testas. Vienas iš būdų turinio validumui patikrinti: Ekspertų vertinimas - prašoma įvertinti, kiek atskira užduotis atitinka matuojamos srities specifikaciją: 1 - neatitinka, 2- šiek tiek atitinka, 3 - pakankamai atitinka; 4 - visiškai atitinka Kai 2 ekspertai įvertina testo klausimą 4 taškų skalėje, kiekvieno eksperto sprendimas dichotomizuojamas į mažo atitikimo ( 1 ir 2 taškai) ir didelio atitikimo (3 ir 4 taškai) Testo turinio validumas: sudaromos lentelės kiekvienai užduočiai, Sudaroma lentelė visoms užduotims ir turinio validumas skaičiuojamas pagal formulę: D/(A+B+C+D) E.

P: Užduoties analizė: metodai, apibrėžimas, sunkumas

Užduočių analizė: apibrėžimas - Užduoties/klausimo charakteristikų nustatymas, kad įvertinti jų standartą ir tinkamumą testui - Statistinė analizė, leidžianti išmatuoti atskiros užduoties efektyvumą Užduoties analizė: metodai Klasikinė testų teorija: Sudėtingumas: tiriamųjų, kurie pasirinko teisingą atsakymą, procentas, kai naudojamos teisingo-klaidingo (-ų) atsakymų užduotys; P=N (teisingai atsakiusių)/N; atsakymų vidurkis ranginėse skalėse (yra t.t. užduotys, kurios neatitinka atsakymų vidurkio. Svarbu, kad būtų pagal normalųjį pasiskirstymą). Užduočių analizė: sunkumas - nėra normaliojo pasiskirstymo kreivės, turime apgalvoti, ar teiginys tinka Užduočių analizė: skiriamoji galia D= (A-Ž)/N, kur A- aukščiausią balą gavusių grupės tiriamieji, teisingai atsakę į klausimą (kiek tų tiriamųjų gali būti) Ž - žemiausią balą gavusių grupės tiriamieji, teisingai atsakę i klausimą; N - bendras tiriamųjų, gavusių aukščiausius ir žemiausius balus, skaičius. Gavusių aukščiausią ir žemiausią balą procentas gali varijuoti nuo 10 iki 33. Jei testo įverčiai normaliai pasiskirstę optimaliausia lyginti 27 procentus tiriamųjų, gavusių aukščiausius balus, su 27 procentais, gavusių žemiausius.

U: klasikinė validumo samprata ir kodėl netinka

Validumas yra testų savybė, o ne testo įverčių interpretacijos savybė. Kad būtų validu, testų įverčiai turėtų matuoti tariamą konstruktą tiesiogiai Įverčių validumas dalimi yra testo autoriaus ar vykdytojo suvokimo funkcija, koks konstruktas matuojamas. Antra ir trečia prielaidos yra tinkamos tik tada, jeigu testai matuoja elgesį, kuris yra susietas su psichologiniais konstruktais vienareikšmiškai (tam tikros atminties funkcijos greitis ir tikslumas tam tikrose kognityvinio apdorojimo užduotyse...) Tos prielaidos nelabai tinka a) testams, kurie sukurti įvertinti daugiadimensiniams ar kompleksiniams teoriniams konstruktams dėl kurių vis dar kyla debatai (savižina, saviprata); b) testams, kurie sukurti pagal griežtus empirinius sąryšius tarp įverčių ir išorinius parametrus (MMPI); arba c) metodikoms, kurių tikslas yra atskleisti asmenybės pasąmoninius aspektus (projekcinė metodika). Taip pat validumo sampratos supaprastinimas gali lemti painiavą tarp matavimo patikimumo ir jų validumo. Jei testas matuoja tai, ką jis turi matuoti, ir dar gerai, jo rezultatus galime laikyti patikimais, bet tai nebūtinai reiškia validumą pagal šiuolaikinį požiūrį. Kitais žodžiais, testo įverčiai gali būti nepriklausomi nuo matavimo klaidų, bet vis tiek nepakankami pagrindai išvadoms.

U: Validumo įrodymų šaltiniai

Validumo įrodymai remiantis testo turiniu ir atsako procesu: Dvi perspektyvos vertinant testo turinį: 1) turinio aktualumas testu tiriamai imčiai; 2) turinio reprezentatyvumas kalbat apie sritį, kuriai skirtas testas. Edukacinis testavimas: padaryti sprendimai remiantis šiais testais remiasi meistriškumo lygiu, kurį parodo testo sprendėjai. Meistriškumo lygis gali būti išreikštas procentais, procentiliais, ar paprastais išlaikyta - neišlaikyta sprendimais. Profesinis testavimas: darbuotojų atrankai. Kai kurie testai sukuriami pačių darbdavių pagal jų kriterijus, kiti testai standartizuoti įvairioms profesijoms.WorkKeys sistema - įvairių komponentų kombinacija, kurie skirti darbuotojų treniravimui ir įdarbinimui. Darbo profiliavimo (job-profilnig) komponentas leidžia darbuotojams atsirinkti svarbiausias užduotis duotame darbe ir nustatyti reikiamus įgūdžius sėkmingos užduoties atlikimui. Vertinimo aspektas suteikia standartizuotus instrumentus kandidatų ar darbuotojų vertinimui svarbiausiose srityse, pvz., verslo rašymas, klausymas, darbas grupėje etc. Turinio validumas kitose vertinimo srityse: neuropsichologinis vertinimas; asmenybės vertinimas. Validumo įrodymai testo sprendėjų požiūriu: išorinis validumas (face validity) - išorinė išvaizda to, ką matuoja testas iš testo sprendėjo perspektyvos. Pvz., testas atrodo sukurtas švietimo įvertinimo, profesiniais, klinikiniais tikslais. Išorinis validumas nebūtinas, bet pageidautinas (svarbu dėl testo sprendėjų motyvacijos - ar testas jiems pasirodys tinkamas, svarbus).

U: Faktorinė analizė

Vienas iš būdų susidoroti su daugybe konstruktų, kurias bando atlikti esami testai - ir su nereikšmingu skaičiumi koreliacijų (tikslas sumažinti reikalingų matmenų skaičių). Vienas iš metodų yra tiriančioji faktorinė analizė (exploratory factor analysis), kada atkreipiamas dėmesys į tai, kurie veiksniai yra analizuojamų kintamųjų pagrindas. Kitas būdas patvirtiačioji faktorinė analizė (confirmatory factor analysis) (sudėtingesnis būdas) , kuris remiasi teorijomis ir hipotezėmis, kurios jau egzistuoja. Prisiminkit apie tai, kad atlikus faktorinę analizę gauname išskirtas grupes, kurios apima daugiau mažesnių, panašių grupių. Naudojama asmenybės testams, apimant daugiau savybių (NEO-PI-R). Faktorinės analizės pliusai: Konstravimo patvirtinimas: Sujungdami daugybę priemonių ir ištyrę veiksnius, kurie, atrodo, lemia tų priemonių pasiskirstymą, mes galime sužinoti daugiau apie užduočių, atrinktų atliekant psichologinius testus, sudėtį ir apie bruožų organizavimą, atsižvelgiant į jų bendrumą ir specifiškumą. Supaprastinamas rezultatų pateikimas ir aiškinimas Faktorinės analizės minusai (apribojimai): Šiek tiek apribojamas rezultatų aiškinimas, nes galima kalbėti tik apie apibrėžtas grupes, neišsiplečiama.

U: Kompiuterizuotas adaptyvus testavimas (CAT)

Vienas pagr. IRT privalumų - idealiai tinka būti naudojamas CATestavime. CAT: apskaičiuojami žmonių gebėjimų lygiai pagal jų atsakymus; skaičiavimai panaudojami atrinkti toms testo užduotims, kurios būtų tinkamos asmenų gebėjimų lygiams. Sutrupina testo apimtį ir laiką. Skiriasi ir turi privalumų popieriaus pieštuko testų, kuriuose ilgis yra fiksuotas, atžvilgiu. Pagal tiriamojo gebėjimo lygį ir buvusius atsakymus yra matuojami kitų, būsimų atsakymų tikimybė. CATas turi dažniausiai fiksuotą klausimų skaičių. Taip pat yra galimybė nutraukti testavimą, jei yra pakankamai tiksliai nustatytas gebėjimų lygis. Nepaisant to, problemos pasireiškia su netinkama atsakymų apsauga, testų išlaidomis, egzaminuotuojams sunku peržiūrėti ir įvertinti bei redaguoti pateiktų atsakymų

P: Instrumento patikimumo matavimo metodai: PARALELINĖS TESTO FORMOS

Visai skirtingi variantai. Pvz, Raven; Tick (?) · Dvi vienodos testo formos reiškia, kad jos turiniu panašios, tačiau vienodos M ir SD. · Abi formos taikomos tiems patiems tiriamiesiems vienu metu. · Daroma prielaida, kad tiriamojo tikrasis rezultatas bus toks pat nepriklausomai nuo formos (labai svarbu, kai susiklosto tokios situacijos, kad testų yra nedaug ir paprastai tiriamasis jau buvo kažkada ištirtas) Privalumai: Mažiau tiriamieji varginami; nereikia rūpintis dėl „perkėlimo" efekto Trūkumai: Reikia sukurti 2 formas. Galima susidurt su naujom matavimo klaidom dėl: ¨ Nuovargio pakartotinai testuojant ¨ Skirtingo testavimo laiko ¨ skirtingų testų

U: papildomi validumo aspektai

Yra du reikšmingi testų balų naudojimo aspektai, kurie yra glaudžiai susiję su jų validumu, tačiau nebūtinai yra jo esmė, būtent, jų naudingumas (the utility) ir su jų naudojimu susijusios pasekmės (consequences). Testų ir testų balų naudingumas nurodo naudą, kurią jie teikia priimant sprendimus. Naudingumas priklauso nuo to, kokiu mastu testai gali padidinti norimų priimti išvadų ir sprendimų tikslumą - daugiau nei būtų, jei būtų naudojami kiti turimi įrankiai. Paprastai naudingumas vertinamas ekonominiais terminais, tokiais kaip sąnaudų ir naudos santykis, susijęs su bandymų naudojimu, palyginti su bandymų duomenimis. Atsižvelgiant į tai, kad testai naudojami visada atsižvelgiant į kontekstą, analizuojant jo sąnaudas ir naudą būtinai reikia atsižvelgti į papildomus duomenis, susijusius su kiekviena konkrečia situacija, kurioje numatoma naudoti testus.

U: Įverčiai, naudojami tarpgrupinėms normoms išreikšti: procentiliai-lubos ir grindys

a) Procentiliai: Labiausiai tiesioginis metodas. Yra lengvai suprantami testą atliekančių žmonių ir pritaikomi daugeliui testų ir testo populiacijoms. Naudingi kai yra daugiau nei viena normatyvinė grupė tam pačiam testui arba kai jos yra išskirtos pagal kategorijas kaip lytis, amžius ir pan. Procentilio įvertis apibūdina testą atlikusio asmens santykinę poziciją lyginant su referentine grupe, tokia kaip standartizacijos imtis. Konkrečiau - apibūdina procentą referentinės grupės žmonių, kurie surinko tiek pat arba mažiau nei gautas pradinis balas. Taigi, didesnis procentilio įvertis reiškia didesnį pradinį įvertį. Procentiliai ir procentai: pozicija vs teisingų atsakymų skaičius; One way to avoid confusion is to make it a practice to use the percent symbol (%) strictly for percentage scores and use a different abbreviation, such as PR or %'ile, to designate percentile scores. Trūkumas: bet koks procentilio įverčių skirtumas padidina akivaizdų santykinių rezultatų neatitikimą, kai asmenų įverčiai yra viduriniame diapazone, ir suspaudžia akivaizdų santykinio individų pajėgumo skirtumą, kai individų įverčiai atsiduria pasiskirstymo galuose (labai aukšti/labai žemi įverčiai). Nes daugiausia žmonių patenka ties viduriu, galuose mažai. Nelabai tinka ir tada, kai normatyvinė imtis reprezentuoja labai didelę populiaciją. Testo lubos ir grindys. Nustatomi apatiniai, viršutiniai testo atlikties limitai. Jei pasiekia galimą aukščiausią įvertį - testo lubos nepakankamos, nes tyrėjai tuomet negali nustatyti, kiek daugiau asmuo galėjo surinkti, jei būtų buvę papildomų ar sunkesnių užduočių. Tas pats su grindimis.

B: Patikimumo kriterijai ir jų vertinimo kriterijai, kada negalioja -PATIKIMUMO ATITIKMENYS - PARALELINĖS/ALTERNATYVIOS TESTO FORMOS (instrumentų patikimumas vienas kito atžvilgiu) VERTINIMŲ SUDERINTUMAS

ar tos versijos iš tiesų yra paralelinės versijos? Nes tik tokiu atveju galima vertinti, tyrėjų vertinimų suderintumas (vertinimo gairių patikimumas)(nenaudojamas, kai teste neįtraukti jokie sprendimų procesai-reikia tiesiog suskaičiuoti įverčius gautus atsakant į klausimus su atsakymo variantais, kai kuriems testo subtestams gali): imties dydis, koeficientų tipai, dydžiai (>=0,8).

U: standartizacijos - normatyvinė - referentinė imtys

o Standartizacijos imtis - individų grupė, pagal kurią testas yra originaliai standartizuotas, t.y. kurią pasitelkiant atliktos administravimo ir vertinimo procedūros, testo normų kūrimas. Šios grupės duomenys paprastai pateikiami vadove, kuris pridedamas prie testo. o Normatyvinė imtis - dažnai naudojama kaip standartizacijos imties sinonimas, tačiau gali reikšti bet kurią grupę, iš kurios surenkamos normos. Papildomos normos, surinktos po testo išleidimo, skirtos naudoti su atskiru pogrupiu, gali būti įtrauktos į periodinę literatūrą arba vėliau paskelbtos techniniuose vadovuose. o Referentinė imtis - bet kuri grupė žmonių, pagal kurią yra lyginami testo įverčiai. Tai gali būti standartizacijos grupė, vėliau sukurta normatyvinė imtis, grupė, kuri testuota siekiant sukurti vietines normas, ar bet kuriai kitai sukurtai grupei, kaip pavyzdžiui vienos klasės studentai ar tyrimo dalyviai. Referentinė grupė gali būti bendra šalies populiacija ar net kelių šalių populiacija, kita vertus, referentinės grupės gali būti sudaromos iš populiacijų, kurios yra siaurai apibrėžtos pagal statusą arba kitus parametrus.

P: Instrumento patikimumo matavimo metodai: PAKARTOTINIS TESTAVIMAS, problemos

· Daroma prielaida, kad rezultatas nėra veikiamas laiko · Koreliacija tarp testo rezultatų prikluso nuo laiko intervalo tarp matavimų: Kuo trumpesnis, tuo aukštesnė koreliacija - laiko periodas nuo 2 iki 6 yra optimalus Kuo ilgesnis intervalas, tuo mažesnė koreliacija - maksimalus periodas ne daugiau 6 mėnesių. Bet - išmokimo aspektas - gali ateiti jau pasimokę. Pakartotinis testavimas nėra labai geras dalykas, nes: Problemos: Sunku tam pačiam žmogui pateikti antrąkart tas pačias užduotis; Gali pasikeisti elgesys dėl to, kad buvo atliktas šio elgesio matavimas: Specifinis prašymas įvertinti tam tikras problemas 1 kartą gali įtakoti rezultatus, kai dėl to bus kreipiamasi antrą kartą. Gali atsirasti noras pasipriešinti, kas nulems mažą patikimumą Tiriantieji gali atsiminti pirmą atsakymą ir siekti kuo didesnio suderintumo tuo padidindami patikimumą Negalima naudoti, jei dėl 1 ir 2 matavimo numatomai pokyčiai dėl raidos

U: normomis pagrįstų testų interpretacija ir VYSTYMOSI NORMOS

· Normos - Populiariausia atskaitos sistema. Vienos ar kelių referentinių grupių testo atliktis ar būdingas tipiškas elgesys. Kai normos surenkamos atsižvelgiant į žmonių grupės testo atliktį, referentinė grupė vadinama normatyvine arba standartizacijos imtimi. Normų surinkimas - kertinis norm-referenced testo standartizavimo procesas. VYSTYMOSI NORMOS. o Ranginės skalės paremtos elgesio sekomis: pvz. kūdikio vystymasis - progresija nuo vieno elgesio stadijos į kitą - labiau pažengusią - stadiją. Seka kaip ranginė skalė naudojama, normatyviniu būdu. Arnold Gesell - Gesell Developmental Schedules 1940. Provence Birth-to-Three Developmental Profile (IDA dalis) - instrumentas, naudojantis tokią ranginę skalę o Teorija paremtos ranginės skalės: paremtos kitais faktoriais nei chronologinis amžius, pvz. Piaget. o Psichinio amžiaus įverčiai: kai kurie testai vis dar pateikia normas, kurios pristatomos kaip amžiui tapatūs įverčiai (age equivalent scores/test ages) ir yra paremti vidutiniais skirtingo amžiaus standartizacijos imties vaikų pradiniais įverčiais. Vaiko test score yra 9, jei jo pradiniai testo įverčiai yra tapatūs vidutiniams 9mečių normatyvinės imties pradiniams įverčiams. Problema - skirtingo amžiaus išsivystymo lygio skirtumai (inequalities), nes elgesio pasiekimų skirtumai, kurių galima tikėtis su kiekvienais metais, labai sumažėja nuo kūdikystės-ankstyvos vaikystės iki paauglystės-pilnametystės. o Klasės normos įverčiai: pagal klases suskirstytos normos. Trūkumai: dalykai ir jų kokybė skiriasi mokyklose, šalyse ir pan., nepateikia vienodo standarto. Pasiekimai yra žymiai svarbesni ankstesnėse klasėse nei middle school. Taip pat, jei ketvirtoko klasės įvertis yra lygus vidutiniam septintoko įverčiui, tai nereiškia, kad ketvirtokas turi tiek pat žinių kaip septintokas, tai reiškia, kad ketvirtoko vidutinis įvertis yra tokiu lygiu aukštesnis už vidurkį. Klasės normos įverčiai dažnai suprantami kaip standartinis lygis, kurį vaikai turi atitikti, nors tai yra tik vidurkis. Toks vertinimas negali būti tinkamai standartizuotas dėl vertinimo skirtumų skirtingose mokyklose. VYSTYMOSI NORMOS YRA KINTANČIOS IR PRIKLAUSO NUO APLINKOS (klasės normos įverčiai ir psichinio amžiaus įverčiai), NEBENT JOS ATSPINDI ELGESIO SEKĄ, UNIVERSALIĄ ŽMONIJAI.

P: Kaip pagerinti patikimumą?

· Siekti išvengti klaidų (atsitiktinių ir sisteminių. Tačiau ne visada įmanoma numatyti.. Pvz., klaida atsirado standartizacijos proceso metu - tyrimo metu įsijungė telefonas, garsas trukdė, nežinojo, kur rasti ir išjungti). · Ieškoti geresnių užduočių · Naudoti tinkamas adminstravimo procedūras · Didinti užduočių skaičių · Didinti ir plėsti imtį · Psichometrinis "švarinimas": faktorių analizė, užduočių šalinimas. Projekcinių technikų patikimumas (CAT) - Pakartotinis testavimas ( koks intervalas?) - Testo užduočių suderintumas - Kelių tyrėjų vertinimų ir interpretacijų lyginimas

P: Veiksniai, darantys įtaką klaidų atsiradimui (5)

· Tyrimo medžiaga (jei nekokybiška - sisteminė klaida. Arba - atsitiktinė - kur nors randamas jau pažymėtas teisingas/neteisingas atsakymas) · Tyrimo laikas (jei pradinukui duodamas testas 21val., baigiamas 23 - žinoma paveiks. Ar daro pertraukas, ar ne) · Tyrėjas (pvz. stovėjimas prie vieno tiriamojo ilgą laiką; per artimas nuotolis iki tiriamojo, tad jeigu reikia sėdėti prieš tiriamąjį, o stalas yra pakankamai siauras - tiriamasis, kol tyrėjas ruošiasi, apžiūrinėja protokolą, tyrėją ir pan. Pažeidžiama asmeninė erdvė. Patarimas - kai atliekamas tyrimas, nesirengti tiriamojo akį traukiančiais atributais, geriau neutraliai; Nesuvaldo administravimo procedūroms; nepasiruošęs - nulūžo pieštukas, o kito neturi) · Tiriamasis (sisteminės pvz. - tiriamajam yra reikalingi akiniai, o jis jų nenaudoja) Tyrimo sąlygos (pvz. triukšmas už lango, vieni labiau apšviestoje aplinkoje, kiti mažiau, nepatogi kėdė)

nzn: Validumas TURINIO atžvilgiu

· Užtikrintumo reikia, kad klausimai yra atitinkantys temą. · Klausimai - būtinai reprezentatyvūs. · Klausimų - pakankamai daug, kad adekvačiai aprėptų įvairias tos srities žinias, įgūdžius, etc. Pvz.: jei visuomenės mokslo teste mokinys gali atsakyti remdamasis bendru išprusimu, tai mokslo testas nėra tinkamai parengtas. (mokymosi rezultatų testai turi būti iš tokių klausimų ir tos žinių srities, kurie aprėptų medžiagą, kurią turėjo mokinys išmokti) · *** Turinio validumas - sudėtingesnė problema norma pagrįstuose testuose (nes kriterijais grįstuose testuose mokymo tikslai yra tiesiogiai susiję su testo klausimais - nekyla didesnių problemų)

P: Konvergentinis ir diskriminantinis validumas (Cronbach, 1955):

Įvertinami instrumento reikšmingi ryšiai su instrumentais, matuojančiais tą patį konstruktą (konvergentinis), ir nustatomi ryšiai su instrumentais matuojančiais priešingą konstruktą (diskriminantinis). Toks ryšių tikrinimas turi pavadinimą: „numatomas/hipotetinis" (assumed) validumas.

nzn: patikimumas

Įvertinimo tikslumas, pastovumas ir stabilumas - trys aspektai, vertinantys testo patikimumą. Pakartotiniu testavimu pagrįstas testo patikimumas. Norma pagrįsto testo patikimumą pakartotiniu testavimu lemia tai, kad testuojamas asmuo testuojamųjų eilėje užims tą pačią ar panašią vietą, tą parodys pirmo ir antro testavimo metu užimtų vietų koreliacija. Paprastai patikimumo koeficientas turėtų siekti 0,8. Kriterijumi grįstų testų patikimumas matuojamas kitaip. Svarbu ne tiek surinkti balai, kiek sprendimas, ar kriterijus pasiektas, ar ne. Patikimumo rodiklį šiuo atveju laikome arba koreliacijos koeficientu arba tikimybės rodikliu. Kriterijumi grįstų testų patikimumo skaitinis rodiklis svyruos nuo 0 iki 1 (ne nuo -1 iki 1 kaip norma grįstų). Pagal vidinį nuoseklumą nustatytas patikimumas nerodo pastovumą per laiko tarpą - jis rodo kiek tiksliai testas matavo tai, ką buvo siekta išmatuoti. Turim nustatyti koreliaciją tarp mūsų testo ir tam tikro hipotezinio testo, kuris galėtų būti pateiktas tuo pat metu. Ir čia mums knygutė nustojo aiškinti, kaip tą padaryti, nes neva pernelyg sudėtinga ir reikės paskaityti kitur. Standartinė matavimo paklaida. Testų balai niekada nebūna nuoseklūs ar vienodi, tad patikimumas visada mažesnis už 1. Standartinė matavimo paklaida - įvertinimų netikslumas, kurio priežastis yra nepatikimumas. Standartinė matavimo paklaida teikia informaciją tikrumo diapazonui nustatyti (tai užtikrintumas, jog tikrieji balai bus tame diapazone). Balų tikrumo diapazonas - nuo 68 iki 99%. Patikimumo didinimas. Vienas iš patikimumo didinimo ir standartinės matavimo paklaidos mažinimo būdų yra testo ilginimas. Didelės aprėpties testas apima platesnę testuojamo dalyko sritį, todėl lengviau pasiekti gerų rezultatų. Jei patikimumas mažas ir pridėsim klausimų, patikimumas padidės. Jei patikimumas ir taip didelis, didesnis klausimų kiekis nepadarys poveikio

B: Normomis-paremta interpretacija ir testo vertinimo kriterijai:

Įvertintų balų ar normų rinkinys gali būti gaunamas iš referencinės grupės pradinių (raw) balų pasiskirstymo Vertinimas: 1. Tinkamumas vietiniam naudojimui, arba vietinės ar tarptautinės normos Visi balai, kai: Vietinės šalies imtys ar atitinkamos tarptautines imtys sudarytos iš gerai apibrėžtų atitinkamai sričiai naudojamų imčių 2. Tinkamumas numatomam taikymui: Labai didelė atitinkamos imties normų įvairovė atskiroms amţiaus ir lyties grupėms pateikiama kartu su kita informacija apie grupių skirtumus (pvz. etninių grupių apjungimas) 3. Imties dydis: (9.1.3 - pvz. šešiamečiams sudarytos normos pagal šešiamečius. Daugiau nei 200 turi būti, idealus kiekis - 1000, reikia didelio kiekio, kad būtų tūrio imties galams, vidurkio stabilizavimui, kad skiriamoji galia įverčių pasiskirstymo kreivės galuose nebūtų per maža) Nepakankama imtis (pvz. Mažiau nei 200), pakankama (200-299), gero dydžio imtis (didelė) (299-999), puikaus dyžio imtis (labai didelė) (daugiau-lygu už 1000). 4. Tęstinio norminimo (visos grupės nesumetamos į vieną katilą) imties dydis: Puikus - 8 pogrupiai po 150 žmonių. 5. Procedūros, naudotos imties sudarymui (atrankos būdai): tikimybinė (atsitiktinis, sistemiškas (kiekvienas kas 10 populiacijos narys), stratifikuotas (tam tikrų kintaųjų atžvilgiu pataisytas, kad užtikrintų reprezentatyvumą), klasterinis (grupės atrinktos), multifazinis (iš pradžių klasteriai, po to atsitiktinis su jais), netikimybinė (patogumo-kiekvienas, kuris atliko testą-personalo atrankai, kvotos (apibrėžta, kiek kiekviename pogrupyje turėtų būti žmonių, apklausos tyrimui taikoma pvz.), sniego gniūžtės, tikslinis (kraštutinių grupių atrinkimas) 6. Norminės imties reprezentatyvumas: Puikus: duomenys paimti naudojant atsitiktinės atrankos modelį; pateiktas išsamus imties ir populiacijos apibūdinimas, atsižvelgiant į įvairius kintamuosius; geras reprezentatyvumas tų kintamųjų atžvilgiu įgyvendintas. 7. Pateiktos informacijos apie mažumų / pažeidžiamų grupių skirtumus, amžiaus, lyties bei kitus veiksnius kokybė: Labai išsami analizė ir atitinkamų problemų susijusių su testų naudojimu interpretacija ir aptarimas 8. Normų amžius Jei daugiau nei 20 - neadekvatu. Gerai - 10-15 metų, puiku - mažiau nei 10. 9. Praktikos efektai (tik atlikties testams) (duota info/netikėtini/sudarytos normos antram testo taikymui) Imties dydis yra svarbiausias, reprezentatyvumas tuomet, o dar vėliau - amžius

U: Nurodyto kriterijaus testų interpretacija; Turinio srities žinių testavimas ir atlikties įvertinimas

Šie testai padeda nustatyti tam tikras žmogaus kompetencijas, gebėjimus ar žinias tam tikroje srityje. Užuot lyginant žmogaus atlikimą su kitais, tai žmogaus ar grupės žmonių pasirodymas, atlikimas yra vertinamas pagal tam tikrus standartus ir kriterijus. Tam, kad gauti tam tikrą laipsnį, profesonalo licenziją ar praeiti kursą, žinios ir įgūdžiai turi atitikti reikalavimus. Gali būti, kad reikės atlikti tam tikrą užduotį, galbūt netgi darbą ar testą, kuris parodys ar turi tinkamų įgūdžių praeiti šį testavimą. Gali būti, kad vertinamas ir duodamas pildyti testas ir užduotis, tam, kad įvertinti ir nustatyti empirinius saitus. I. Turinio srities žinių testavimas Norima atsakyti į klausimą: kiek iš išskirtų sričių testą atlikęs asmuo yra įvaldęs (mastered)? Įverčiai dažnai būna teisingų atsakymų procentas. Tokių testų planavimas apima specifikacijų lentelės sukūrimą. Domain: Arithmetic A. Content area to be assessed: Multiplication of fractions B. Objectives to be assessed:; Domain:Vocabulary A. Content area to be assessed:Word knowledge B. Objectives to be assessed: 1. Word definition..Domenais paremti ir gebėjimų vertinimai taip pat yra panašūs. Žinios turi būti išreiškiamos per elgesį, gebėjimai parodomi per veiksmus, kuriems reikia įgūdžių. Kiekvienam atlikimui reikia žinių. Nesudėtingas žinias lengva įvardinti, tačiau sudėtingų žinių konstruktą paaiškinti gali būti sunku. Meistriškumo slenkstis gali būti nustatomas žemas, kad įvertintu bazinį gebėjimų lygmenį, bet standartizuoti testai gali būti ir per lengvi, siekiant atskirti labiausiai įgudusius individus. II. Atlikties įvertinimas Įvertinti atliktį naudojant darbo pavyzdžius, darbo produktus ar kokią kitą per elgseną atsiskleidžiančią kompetenciją ir įgūdžius situacijose, kurios imituoja realaus gyvenimo sritis. „Ar šis testo atlikėjas atsakydamas į klausimą rodo tam tikro įgūdžio meistriškumą?" „Kaip įgudęs jis yra konkrečios kompetencijos kontinuume?" Priešingai nei žinių testavime, atlikties įvertinimas labiau paremtas subjektyviais sprendimais-vertinimu. Įvertinimui naudojamos vertinimo skalės arba vertinimo rubrika (vertinimo gidai, apibūdina taisykles, kuriomis reikia vadovautis vertinant atliktį - pvz. nardymo, slidinėjimo varžybos.) Meistriškumo testavimas. Dažniausiai būna viskas-arba-nieko (išlaikė/neišlaikė) įverčiai, paremtais kriterijaus lygiu, atskiriančiu meistriškumą nuo ne meistriškumo. (važiavimo testai)


Set pelajaran terkait

Chapter 17: Understanding Accounting and Financial Information

View Set

Comparative Government Final (India)

View Set

SUCCESS! In Clinical Laboratory Science: Hematology - Leukocyte Disorders Pt 1

View Set

Hospitality & Tourism Marketing: Test 2

View Set

Chapter 13: Current Liabilities and Contingencies

View Set

CCIE R&S Written : Layer 2 Technologies

View Set