лаба 4 теоретичні відомості
Процес створення корпусу можна подати у вигляді таких кроків або етапів:
Забезпечення надходження текстів відповідно до переліку джерел. Перетворення в машинопрочитувану форму. Аналіз і попередня обробка текстів. Конвертація і графематичний аналіз. Розмітка тексту.
Метод аналізу використано
для детального вивчення питань паралельного корпусу та аналізу перекладу й оригіналу твору в сукупності з порівняльним методом та методом синтезу для дослідження та виявлення зв'язків між корпусною та когнітивною лінгвістикою
Частотність (також абсолютна частотність) —
кількість випадків появи слова, фрази, тега тощо в корпусі, підкорпусі, конкордансі або вибірці. Якщо слово має частоту 10, це означає, що воно було знайдено 10 разів. Це абсолютна цифра, яка не розраховується за допомогою конкретної формули.
Методи корпусної лінгвістики:
метод ключових слів, метод кластерного аналізу, метод контекстуального аналізу використано для проведення аналізу текстів та визначення переваг застосування корпусу у процесі концептуального аналізу роману.
Структурна розмітка документа Токенізація
— розбиття потоку символів у природній мові на окремі значущі одиниці
Колокація
— словосполучення, що має ознаки синтаксичного й семантично цілісної одиниці.
Прийоми класифікації та систематизації для вивчення основних понять корпусної лінгвістики та когнітивної лінгвістики застосовуємо
у сукупності із описовим методом.
Лема
— це початкова форма слова, позиційний атрибут, який програма приписує кожній словоформі в корпусі за словником
Парсинг
— це процес зіставлення лінійної послідовності лексем 4 (слів,токенів) мови з її формальною граматикою. Результатом зазвичай є деревозалежностей (синтаксичне дерево).
Ключові слова
— це слова, за якими здійснювали пошук, вони виділені червоним у конкордансі. KWIC - абревіатура, що означає ключове слово в контексті, Key Word in Context.
Конкорданс
—список усіх вживань певного слова в контексті з посиланнями на джерело.
Токен
- найменша одиниця, на яку поділяється корпус. Такою найменшою одиницєю є будь-яка послідовність символів між пробілами або іншими роздільниками: словоформа, число, розділовий знак, символ (смайлик, математичний символ тощо). Розділові знаки в корпусі опрацьовуються як окремі токени. Пробіли не є токенами. Усі токени можна шукати за атрибутом "word".
Корпусна лінгвістика як галузь прикладного мовознавства займається
визначенням загальних принципів побудови, опрацювання та експлуатації даних лінгвістичних корпусів (корпусів текстів) із використанням сучасних комп'ютерних технологій, розробленням методики збирання реальних мовних явищ — писемних та усних текстів, а також способів їх збереження та аналізу писемних та усних текстів.
Стемінг
він складається зі знаходження стема (основи) слова. Різниця полягає в тому, що стемер обробляє окреме слово без знання контексту, і, таким чином, не може диференціювати слова, які мають різні значення в силу віднесеності до різних частин мови
На вибір методів аналізу впливають
завдання дослідження та тип досліджуваного концепту
За допомогою AntConc можна проводити такі операції:
перегляд файлу з текстом побудова конкордансу для заданого слова в межах контекстноговікна; виділення n-грам зі заданим словом у межах контекстного вікна; побудова частотного списку словоформ і / або лем із зазначенням рангу і абсолютної частоти.
Частотний список —
список лем, словоформ або тегів, побудований за певним корпусом, частиною корпусу, конкордансом або вибіркою. Для кожного елемента списку вказано його частотність.
Корпус
— велике зібрання текстів, призначене для вивчення мови, що репрезентує зріз мови в цілому або окрему її частину.
Метадані
— дані з характеристиками певного документа (тексту); наприклад, дані про стиль, автора, стать автора, рік створення, рік публікації тексту.
N-грама
— послідовність з n елементів[1]. З семантичної точки зору, це може бути послідовність звуків, складів, слів або букв. На практиці частіше зустрічається N-грами як ряд слів, стійкі словосполучення називають колокацію. Послідовність з двох послідовних елементів часто називають біграм, послідовність з трьох елементів називається триграма. Не менш чотирьох і вище елементів позначаються як N-грами, N замінюється на кількість послідовних елементів.
Лематизації
— процес утворення первісної форми слова, виходячи з інших його словоформ.
Словоформа
— реалізація лексеми в тексті в будь-якій граматичній формі (наприклад, іду, іде, ідемо для леми іти); під час пошуку токенів за словоформою використовується позиційний атрибут "word".
Метадані можна поділити на 3 типи:
− екстралінгвістичні, що належать до всього тексту; − дані про структуру тексту; − лінгвістичні метадані, що описують елементи тексту.