Комп’ютерна лексикографія
lЩо ж означає "автоматичне розуміння тексту"? Дослідники вважають, що комп'ютер "зрозумів" текст, якщо він:
l- видав стислий зміст (реферат) цього тексту; l- може відповідати на питання до цього тексту: l- може за описом намалювати відповідну картинку або схему; може відобразити описані дані в іншій формі, наприклад, таблиці; l- може порівняти змісти двох різних текстів і повідомити, що в них спільного й відмінного.
lв) Словники для машинного перекладуЩоб перекласти текст з однієї мови на іншу, необхідно виконати такі етапи роботи:
l- зрозуміти текст, який треба перекласти; це можливо за умови, якщо перекладач знає граматику вихідної мови, тобто, словозмінні форми кожного слова в перекладеному тексті, а також правила поєднання слів у реченні; l- вміти поставити у відповідність кожному слову й кожній конструкції слово у потрібній формі, як цього вимагає граматика вхідної мови, тобто мови, на яку перекладається текст, а також правильно побудувати речення.
lПізніше почали конвертувати паперовий словник у машинний формат і створювати комп'ютерну версію паперового словника, яка значно відрізнялася від словника паперового, переважно за рахунок будови словникових статей. lУ них уточнено функції розділових знаків, кожне значення, кожна зона та кожен приклад подають з нового рядка, не використовують тильди, тобто реєстрове слово в усіх прикладах дають повністю.
lЖодну змістову інформацію не додають ні щодо кількості значень, ні щодо кількості ілюстративних словосполучень або речень. lОтже, словник містить усе, що було в паперовому словнику, але формат його змінений. Тому з повним правом можна його назвати комп'ютерною версією паперового словника.
lКласичним прикладом автоматичного словника може слугувати словник, призначений для розпізнавання мови, якою написано текст. lУ масиві текстів є тексти українською, російською та білоруською мовою або англійські та німецькі тексти.
lЛітери або буквосполучення, службові слова або слова високочастотні, специфічні для певної мови синтаксичні конструкції і т.ін. lПід час зіставлення трьох вищезгаданих слов'янських мов виявляється, що літери ґ, ї властиві лише українській мові, у — лише білоруській, ъ - російській.
l1. Комп'ютерна копія і комп'ютерна версія паперового словника lКомп'ютерна лексикографія далеко не відразу розпочала автоматичне укладання словників у системі "текст - словник". Спочатку був досить довгий період автоматизації трудомістких лексикографічних процесів.
lНаступний етап - копіювання паперових словників, щоб забезпечити можливість їх машинного прочитання (make them machine-readable). У цих копіях нічого не змінювалося, програмне забезпечення обмежувалося пошуком реєстрового слова. Спосіб користування таким словником не набагато відрізнявся від способу використання паперового словника.
Поряд із загальною класифікацією словників, словники комп'ютерні (електронні) підпадають під окрему класифікацію комп'ютерних словників, яка базується на мірі використання комп'ютера та комп'ютерних технологій в укладанні словника, комп'ютерні копії паперових словників, комп'ютерні версії паперових словників, або комп'ютеризовані словники й автоматичні словники
lОстанні розпадаються на підкласи залежно від сфери їх використання.
l2. Укладання комп'ютерної версії паперового словника Укладання комп'ютерної версії паперового словника зводиться до зміни формату словника відповідно до майбутнього програмного забезпечення
lПри цьому зберігають змістову інформацію паперового словника. lОтже, насамперед треба розробити структуру словникової статті майбутнього словника. lДо схем структури словникових статей додають інструкцію, у якій детально розписано все, що стосується будови словникових статей
Існують комп'ютерні копії та комп'ютерні версії майже всіх типів паперових словників перекладних, навчальних, тлумачних, спеціальних (синонімів, антонімів, омонімів) та інших.
lУсі вони призначені для звичайного користувача - людини, забезпечуючи його потреби пошуку не лише реєстрових слів, а й уживання реєстрових слів в інших статтях словника, забезпечують можливість зіставлення та класифікації, сортування даних за окремими зонами словникової статті, за перекладами чи тлумаченнями, за спільністю дефініцій.
lРезультати морфологічного аналізу слугують вихідним матеріалом для підсистеми синтаксичного аналізу, який встановлює правила поєднання слів певних парадигматичних класів між собою, що приводить до утворення правильних синтаксичних конструкцій, і зрештою визначає структуру речення.
lЦе дві підсистеми автоматичного аналізу перекладуваного тексту, яким їм відповідають дві підсистеми, спрямовані на синтаксичний і морфологічний синтез одиниць вихідної мови, на яку відбувається переклад. lЇх теж створюють як системи правил, по-перше, відповідності структури вихідної мови структурам, встановленим для вхідної мови, та відповідність словозмінних форм вхідної мови формам мови, з якої текст перекладається. lКрім цих підсистем формального аналізу, має бути підсистема власне перекладу, тобто встановлення семантичних відповідностей між перекладуваним та перекладеним словом, синтаксичною конструкцією або цілим реченням.
lОтже, автоматичний словник для машинного перекладу - це серія словників: lа) морфологічного аналізу, lб) синтаксичного аналізу, lв) синтаксичного синтезу, г) морфологічного синтезу,
lякі будуються здебільшого у вигляді таблиць, та словника, семантичного, у якому для кожного слова перекладуваної мови наводяться значення у мові, на яку здійснюється переклад.
Спочатку автоматичними, або машинними, словниками називали будь-які словники, укладені при комп'ютерній підтримці.
Але з часом виділилася група словників, укладених на комп'ютері й використовуваних саме комп'ютером у розв'язанні завдань комп'ютерного опрацювання тексту або створення певних систем такого опрацювання. Деякі з цих словників назвати так можна лише умовно, оскільки вони ні за реєстровими одиницями, ні за будовою не схожі на звичайні словники
lПри цьому зберігають змістову інформацію паперового словника. lОтже, насамперед треба розробити структуру словникової статті майбутнього словника. lДо схем структури словникових статей додають інструкцію, у якій детально розписано все, що стосується будови словникових статей
На відміну від одинадцятитомового словника до списку цитованих авторів було включено майже 200 нових імен, які повністю або частково замовчувалися у радянські часи (наприклад, Емма Андієвська, Богдан-Ігор Антонич, Василь Барка, Борис Грінченко, Іван Дзюба, Майк Йогансен, Ліна Костенко, Євген Маланюк, Тарас Мельничук, Іван Огієнко, Валер'ян Підмогильний, Улас Самчук, Василь Стус та інші) чи утвердилися в українській літературі вже після завершення видання одинадцятитомового словника (Юрій Андрухович, Юрій Винничук, Сергій Жадан, Оксана Забужко, Марія Матіос, Юрко Покальчук, Василь Шкляр та інші)
lВідразу виникає питання: що має містити семантичний словник для МП, чим він відрізняється від інших автоматичних словників? lЦей словник має містити частотну лексику. Словник для МП має бути якомога більшим за обсягом, щоб кількість слів, що трапляються в перекладуваному тексті, але не зареєстровані в словнику для МП, становила незначну частину тексту і не заважала розуміти текст
г) Автоматичні словники для комп'ютерного розуміння смислу тексту lЗдійснення комп'ютерного семантичного аналізу тексту - чи не найважливіше завдання комп'ютерної лінгвістики, оскільки він є запорукою розв'язання низки практичних завдань, таких як машинний переклад, інформаційний пошук, автоматичне реферування й анотування тексту.