лаба 4 теоретичні відомості

Réussis tes devoirs et examens dès maintenant avec Quizwiz!

Процес створення корпусу можна подати у вигляді таких кроків або етапів: ​

Забезпечення надходження текстів відповідно до переліку джерел. Перетворення в машинопрочитувану форму. Аналіз і попередня обробка текстів. Конвертація і графематичний аналіз. Розмітка тексту. ​

Метод аналізу використано

для детального вивчення питань паралельного корпусу та аналізу перекладу й оригіналу твору в сукупності з порівняльним методом та методом синтезу для дослідження та виявлення зв'язків між корпусною та когнітивною лінгвістикою ​

Частотність (також абсолютна частотність) —

кількість випадків появи слова, фрази, тега тощо в корпусі, підкорпусі, конкордансі або вибірці. Якщо слово має частоту 10, це означає, що воно було знайдено 10 разів. Це абсолютна цифра, яка не розраховується за допомогою конкретної формули. ​

Методи корпусної лінгвістики:

метод ключових слів, метод кластерного аналізу, метод контекстуального аналізу використано для проведення аналізу текстів та визначення переваг застосування корпусу у процесі концептуального аналізу роману.

Колокація

— словосполучення, що має ознаки синтаксичного й семантично цілісної одиниці. ​

Прийоми класифікації та систематизації для вивчення основних понять корпусної лінгвістики та когнітивної лінгвістики застосовуємо

у сукупності із описовим методом.

Лема

— це початкова форма слова, позиційний атрибут, який програма приписує кожній словоформі в корпусі за словником ​

Парсинг

— це процес зіставлення лінійної послідовності лексем 4 (слів,токенів) мови з її формальною граматикою. Результатом зазвичай є деревозалежностей (синтаксичне дерево). ​

Ключові слова

— це слова, за якими здійснювали пошук, вони виділені червоним у конкордансі. KWIC - абревіатура, що означає ключове слово в контексті, Key Word in Context. ​

Конкорданс

—список усіх вживань певного слова в контексті з посиланнями на джерело. ​

Токен

- найменша одиниця, на яку поділяється корпус. Такою найменшою одиницєю є будь-яка послідовність символів між пробілами або іншими роздільниками: словоформа, число, розділовий знак, символ (смайлик, математичний символ тощо). Розділові знаки в корпусі опрацьовуються як окремі токени. Пробіли не є токенами. Усі токени можна шукати за атрибутом "word". ​

Корпусна лінгвістика як галузь прикладного мовознавства займається

визначенням загальних принципів побудови, опрацювання та експлуатації даних лінгвістичних корпусів (корпусів текстів) із використанням сучасних комп'ютерних технологій, розробленням методики збирання реальних мовних явищ — писемних та усних текстів, а також способів їх збереження та аналізу писемних та усних текстів. ​

Стемінг

він складається зі знаходження стема (основи) слова. Різниця полягає в тому, що стемер обробляє окреме слово без знання контексту, і, таким чином, не може диференціювати слова, які мають різні значення в силу віднесеності до різних частин мови

На вибір методів аналізу впливають

завдання дослідження та тип досліджуваного концепту

За допомогою AntConc можна проводити такі операції: ​

перегляд файлу з текстом побудова конкордансу для заданого слова в межах контекстноговікна; виділення n-грам зі заданим словом у межах контекстного вікна; побудова частотного списку словоформ і / або лем із зазначенням рангу і абсолютної частоти. ​

Частотний список —

список лем, словоформ або тегів, побудований за певним корпусом, частиною корпусу, конкордансом або вибіркою. Для кожного елемента списку вказано його частотність. ​

Корпус

— велике зібрання текстів, призначене для вивчення мови, що репрезентує зріз мови в цілому або окрему її частину. ​

Метадані

— дані з характеристиками певного документа (тексту); наприклад, дані про стиль, автора, стать автора, рік створення, рік публікації тексту. ​

N-грама

— послідовність з n елементів[1]. З семантичної точки зору, це може бути послідовність звуків, складів, слів або букв. На практиці частіше зустрічається N-грами як ряд слів, стійкі словосполучення називають колокацію. Послідовність з двох послідовних елементів часто називають біграм, послідовність з трьох елементів називається триграма. Не менш чотирьох і вище елементів позначаються як N-грами, N замінюється на кількість послідовних елементів. ​

Лематизації

— процес утворення первісної форми слова, виходячи з інших його словоформ. ​

Словоформа

— реалізація лексеми в тексті в будь-якій граматичній формі (наприклад, іду, іде, ідемо для леми іти); під час пошуку токенів за словоформою використовується позиційний атрибут "word".

Структурна розмітка документа Токенізація

— розбиття потоку символів у природній мові на окремі значущі одиниці ​

Метадані можна поділити на 3 типи: ​

− екстралінгвістичні, що належать до всього тексту; − дані про структуру тексту; − лінгвістичні метадані, що описують елементи тексту. ​


Ensembles d'études connexes

Le développement de l'adulte d'age mur (40-65ans)

View Set

Chapter 11 Properties of the Hair & Scalp

View Set

CompTIA A+ 220-901 Exam 100-Question Practice Test

View Set

Characteristics of Living Things

View Set