nlp
Morfologinės analizės etapai
1. Pateikiamos žodžių pagrindinės formos (t. y. atliekamas teksto lemavimas) 2. Pateikiamos žodžių formų morfologinės pažymos (pvz.: vyriškosios giminės daiktavardžio vienaskaitos kilmininkas). 3. Panaikinamos dviprasmybės.
2 sintaksinės analizės būdai
1. sakinių skaidymas į sudedamąsias dalis (generatyvinė gramatika) 2. ryšių, jungiančių atskirus žodžius, sudarymas (priklausomybių gramatika)
Sintaksė
analizuoja žodžių jungimą į sakinius, nagrinėja žodžių tarpusavio santykius, žodžių junginius, sakinių sudarymo taisykles
Hiperonimas
atvirkščiai hiponimui, pvz. transporto priemonė yra automobilis.
Holonimas
atvirkščiai meronimui. Pvz. automobilis yra rato holonimas.
Haliucinacija
beprasmio teksto generavimas
LT kalbos tipas pagal morfologinę klasifikaciją
fleksinė
Sakinys
hierarchiškai susijusių žodžių junginių visuma, turinti bent vieną predikatą
Žodžių junginys arba frazė (angl. phrase)
kalbos sistemos vienetas, sudarytas iš̌mažiausiai dviejų tiesiogiai susijusių žodžių, kuriame vienas dėmuo yra pagrindinis, tuo tarpu kitas priklausomasis.
Gramatika
kalbotyros šaka, tirianti žodžių, žodžių junginių ir sakinių sandarą, apimanti morfologiją ir sintaksę; priemonė formaliajai kalbai baigtinėmis priemonėmis aprašyti
Nereikšmingi žodžiai
labai dažnai tekste pasitaikantys žodžiai, kurie neturi jokios reikšmės teksto prasmei
Žodžių vektoriai
matematiniai atskirų žodžių aprašymai, pagal kuriuos žodžiai, kurie kalboje dažnai sutinkami kartu, turi panašias reikšmes
Morfema
minimalus prasmę turintis kalbos vienetas.
Fonetika
nagrinėja atskirus kalbos garsus
Morfologija
nagrinėja žodžių sandarą, išskiria kalbos dalis
Morfologinė analizė
nagrinėja žodžių sandarą, išskiria kalbos dalis. Paruošia tekstą tolesnei sintaksinei ar semantinei analizei.
Sentimentų analizė
natūralios kalbos apdorojimo metodas, naudojamas siekiant nustatyti, ar informacija yra teigiama, neigiama ar neutrali.
Lema
pagrindinė žodžio forma.
Sintaksinė analizė
pateikia sakinius, suskaidytus į dėmenis (generuoja sintaksinius medžius).
Diskursas
tyrinėja žodžių blokų (didesnių nei vienas sakinys) prasmę
Semantika
tyrinėja žodžių ir sakinių prasmę
Leksika
tyrinėja žodžių reikšmes
Hiponimas
žodis yra kito žodžio hiponimas, jei pirmasis yra konkretesnis, žymintis kitų žodžių poklasį. Pvz., šuo yra gyvūno hiponimas.
Meronimas
žodis, kuris yra kažkieno sudedamąja dalimi arba kažko nariu. Pvz., ranka yra kūno meronimas.
Antonimas
žodis, turintis skirtingą garsinę struktūrą ir priešingą leksinę reikšmę
Homonimas
žodis, vienodai skambantis su kitu žodžiu, bet skirtingos reikšmės (pvz. kasa)
Formali kalba
žodžių (arba simbolių eilučių) rinkinys, kurį sudaro baigtinė simbolių aibė
Kalbos modelis
žodžių arba žodžių sekų tikimybinis pasiskirstymas.
N-grama
žodžių junginys, sudarytas iš N žodžių
Įvardytų elementų/esybių atpažinimas
procesas, kurio metu pavieniams žodžiams arba jų junginiams (tikriniams vardams) priskiriamos tokias žymos kaip ASMUO, VIETA ar ORGANIZACIJA ir pan.
Tokenizavimas
sakinių išskaidymas į žodžius ir skyrybos ženklus. Tokenizavimo proceso metu gauti žodžiai ir skyrybos ženklai vadinami tokenais.
Pragmatika
siekiama atsakyti į klausimą kas slepiasi po pasakymu, pvz. pašaipa, pamokymas
Teksto santrauka
skirta pagreitinti įvesties dokumento esmės supratimą, pateikiant glaustą jo turinį
Morfologinis anotavimas
specialių žymų suteikimas kiekvienam žodžiui tekstyne, nurodant morfologines kategorijas, tokias kaip: • kalbos dalis • Laikas • Skaičius • Linksnis • Asmuo • laipsnis
Lemavimas
tai toks procesas, kurio metu žodžiai suvedami į pagrindinę formą.
Žodžių kamienų išskyrimas (angl. stemming)
tai toks procesas, kuriuo metu yra išskyrimas jo kamienas.
Semantinė analizė
teksto reikšmės nustatymo procesas
Sinonimas
tokią pačią arba artimą reikšmę turintis, tačiau kitaip skambantis žodis