Синтаксис

Ace your homework & exams now with Quizwiz!

8. Дескриптивна лінгвістика в дослідницькій діяльності лінгвіста.

Основи дескриптивізму заклав Франц Боас у праці «Довідник з мов американських індіанців» (1911), остаточно сформували її в 1930—50-х роках Л. Блумфідд, 3. Харріс, Б. Блок, Дж. Трейджер та інші мовознавці.Ця мовознавча школа постала у зв'язку з потребою науково описати полісинтетичні мови американських індіанців, не нав'язуючи їм схем, прийнятних для індоєвропейських мов.Основний постулат: мову слід розуміти й описувати з погляду її внутрішньої структури. При цьому мову визначають як текст достатньої довжини; тобто, мова і мовлення не розмежовуються. Це наслідок того, що дескриптивісти в основному працювали з інформантами — носіями мови, аналізуючи їхні висловлювання шляхом постановки серії питань, сформульованих так, аби відповідь була лише «так» чи «ні», тобто щоб максимально обмежити суб'єктивізм і опору на значення.Дескриптивізм уважає, що значення не може бути критерієм встановлення і класифікації одиниць мови, оскільки воно базується на інтуїції і є суб'єктивним чинником. Таке ставлення до значення і його ролі в науковому описі було реакцією на зловживання значенням при встановленні граматичних категорій з боку молодограматиків. Для частини дескриптивістів відмова від значення стала самоціллю, що викликало критику в науковій літературі.Прагнучи максимальної об'єктивності й точності наукового опису мови, дескриптивісти розробили ряд ефективних методик лінгвістичного аналізу з опорою на форми мовних одиниць та їх розподіл у мовленні, тексті: процедури польової лінгвістики, дистрибутивний аналіз і трансформаційний метод, аналіз за безпосередніми складниками, моделювання. Вони набули великого поширення в мовознавстві в дослідженні одиниць усіх рівнів мови, у тому числі для розмежування значень і в семантичних класифікаціях. На основі цих методик були здійснені перші спроби машинного перекладу й використання ЕОМ у мовознавстві. Розроблені американським лінгвістом Н. Хомським моделі мови широко використовують при побудові алгоритмічних мов.В україністиці методи дескриптивізму використовують для дослідження фонематичного, морфемного і синтаксичного рівнів мови, особливо при аналізі текстів на ЕОМ.Ідеї дескриптивної лінгвістики мали великий вплив на розвиток методів викладання мов, сприяли виокремленню мовних моделей та обґрунтуванню методики навчання за моделями (насамперед — у межах аудіовізуального й аудіолінгвального методів навчання). У 1970-х роках настало певне розчарування в ефективності навчання за моделями, що мало наслідком інтенсивну розробку ідей комунікативної лінгвістики.

14. Теоретична концепція Теньєра

Теньєр дотримувався вербоцентричної теорії, згідно з якою дієслово (присудок) - абсолютно домінує як член речення, тому що саме воно є носієм предикативних категорій (час, модальність тощо) і виступає організаційним вузлом речення: через дієслово взаємодіють інші члени речення - підмет, додаток, означення, обставина. Він зробив вербоцентричну концепцію провідним принципом своєї синтаксичної теорії. Обґрунтовуючи її, Л. Теньєр підкреслював, що вона має ту перевагу порівняно з традиційною суб'єктно-предикатною, що остання є логічною теорією, тоді як вербоцентрична - власне лінгвістична. Вербоцентрична концепція має логічне обґрунтування, але не в суб'єктно-предикатній логіці, а в логіці відношень, згідно з якою центром висловлювання є предикат, який встановлює відношення між залежними від нього субстантивними членами - аргументами, згідно з формулою аRв. Логіка відношень, яка почала розвиватися з кінця ХІХ ст., посіла істотне місце в синтаксичних дослідженнях, протиставляючи не компоненти судження - суб'єкт, предикат, а компоненти структури ситуації, з якою співвідноситься судження - субстанції і відношення між ними. Однак Теньєр пішов ще далі, прирівнявши підмет до інших актантів, що викликало критику з боку синтаксистів. За низкою ознак підмет не може бути ототожнений із іншими актантами; він - вихідний елемент думки, оформленої реченням, тому ігнорування специфічного зв'язку між підметом і присудком дещо збіднило теорію Теньєра.

12. Традиційний синтаксис й автоматичний синтаксичний аналіз тексту.

У традиційному розумінні синтаксису ми уявляємо розбір речення на його члени. Основними поняттями, якими оперують в синтаксисі, є поняття члена речення та типу синтаксичних відношень. Традиційно виділяються типи синтаксичних відношень: предикативні, непредикативні, сурядні й підрядні. Усі вони нерівнозначні, а сурядні й підрядні взагалі не можна порівняти, оскільки сурядність - це логічна зв'язка, а підрядність - бінарний зв'язок. При визначенні типів підрядних відношень виникає неоднозначність, яка впливає на результати синтаксичного аналізу речення. Зрозуміло, що таке знання про синтаксичну структуру речення, про зв'язки слів у реченні передати комп'ютеру неможливо, оскільки алгоритм аналізу речення не може містити команди типу "знайди підмет", «знайди прикметник, що означає іменник "суспільства"», якщо немає детальних алгоритмічно виконуваних правил про те, як це робити. Адже комп'ютер розуміє лише мову команд. Для того, щоб ці правила створити, треба пізнати ті закони, які стосувалися б форми, а не значення і діють у процесі побудови речення. Речення - у сучасній синтаксичній науці розглядають у чотирьох аспектах: формально-граматичному, семантико-синтаксичному, функціональному, комунікативному. Формально-граматичний аспект речення передбачає виокремлення членів речення (головних і другорядних) - компонентів поверхневої структури та встановлення всіх синтаксичних зв'язків, що формують речення як цілісну, синтаксично неперервну одиницю. Набуває актуальності вивчення складників речення - словосполучень, у яких реалізуються семантичні й формальні особливості слова, виявляє себе словозміна. За ступенем семантичної спаяності компонентів серед словосполучень розрізняють синтаксично вільні, синтаксично зв'язані (цілісні) та лексикалізовані, два останні з яких функціонально виступають одним членом речення. На формально-синтаксичному рівні визначають типологію речення, яка охоплює такі його ознаки: будова (просте/складне); здатність членуватися на функціональні компоненти (синтаксично членоване/нечленоване); склад граматичної основи (двоскладне/односкладне); наявність другорядних членів речення (поширене/непоширене); наявність структурно й семантично необхідних компонентів (повне/неповне); мета висловлювання (розповідне/питальне/спонукальне/бажальне); емоційне забарвлення (неокличне/окличне); спосіб оформлення змісту (стверджувальне/заперечне); наявність ускладнювальних конструкцій. Семантико-синтаксичні й функціональні дослідження уможливлюють вирізнення одиниць семантичної природи - синтаксем, що формують глибинну структуру речення. Центральною серед них є предикат, разом з яким можуть виступати суб'єктна синтаксема, об'єктна, обставинна часу, місця тощо. Синтаксеми та члени речення корелюють між собою, але не завжди збігаються у своїх типізованих виявах. Речення у семантико-синтаксичній парадигмі називають пропозицією, яку слід розуміти як смисловий образ ситуації дійсності. Поняття пропозиції дає можливість побачити у простому за будовою реченні кілька смислових комбінацій (ситуацій), встановити його семантичну неелементарність. Комунікативна природа речення пов'язана з явищем актуалізації. Будь-яке слово лишається просто лексемою, інвентарною словниковою одиницею доти, доки в ньому не актуалізовано факт дійсності. Актуалізація - це надання слову чи групі слів модальної характеристики (повідомлення/запитання/спонукання), часової перспективи (тепер / у минулому / у майбутньому) та інтонаційної завершеності. На комунікативному рівні здійснюють темо-ремне членування речення-висловлення, виявляючи ту частину повідомлення, яку мовець актуалізує як нове, незнане, повідомлюване (рема). Якщо тема (відоме, знане для адресата) зазвичай збігається із групою підмета, то рема - це група присудка. З викладеної вище теоретичної бази сучасного українського синтаксису випливає, що: 1) розроблений АСА АГАТ-граматики будується на формально-синтаксичній теорії вивчення речення, якою передбачено визначати тільки такі ознаки речення: будова (просте/складне); склад граматичної основи (двоскладне/односкладне); наявність ускладнювальних компонентів (нескладне/ускладнене); 2) семантико-синтаксична, функціональна, комунікативна теорія речення поки не підлягають автоматизації, але поглиблене вивчення формально-синтаксичної будови речення дає можливість, наприклад, створити словник синтаксем, для якого попередньо слід укласти таксономічну класифікацію лексики, що уможливить у майбутньому автоматичне встановлення синтаксичних відношень між членами словосполучення; 3) формальна граматика, адаптована для потреб автоматизації, базуватиметься в основному на описі гіпотактичних відношень як основних для синтаксичного ладу мови; паратактичні є додатковими, оскільки виділення сурядних словосполучень з позиції автоматизації не становить суттєвих труднощів.

4. Підходи до визначення синтаксичної структури тексту: формально-граматичний, семантико-синтаксичний, функціональний, комунікативний.

Формально-граматичний аспект речення: передбачає виокремлення членів речення (головних і другорядних) - компонентів поверхневої структури та встановлення всіх синтаксичних зв'язків, що формують речення як цілісну, синтаксично неперервну одиницю. Набуває актуальності вивчення складників речення - словосполучень, у яких реалізуються семантичні й формальні особливості слова, виявляє себе словозміна. За ступенем семантичної спаяності компонентів серед словосполучень розрізняють синтаксично вільні, синтаксично зв'язані (цілісні) та лексикалізовані, два останні з яких функціонально виступають одним членом речення. На формально-синтаксичному рівні визначають типологію речення, яка охоплює такі його ознаки: будова (просте/складне); здатність членуватися на функціональні компоненти (синтаксично членоване/нечленоване); склад граматичної основи (двоскладне/односкладне); наявність другорядних членів речення (поширене/непоширене); наявність структурно й семантично необхідних компонентів (повне/неповне); мета висловлювання (розповідне/питальне/спонукальне/бажальне); емоційне забарвлення (неокличне/окличне); спосіб оформлення змісту (стверджувальне/заперечне); наявність ускладнювальних конструкцій Семантико-синтаксичні й функціональні дослідження: уможливлюють вирізнення одиниць семантичної природи - синтаксем, що формують глибинну структуру речення. Центральною серед них є предикат, разом з яким можуть виступати суб'єктна синтаксема, об'єктна, обставинна часу, місця тощо. Синтаксеми та члени речення корелюють між собою, але не завжди збігаються у своїх типізованих виявах. Речення у семантико-синтаксичній парадигмі називають пропозицією, яку слід розуміти як смисловий образ ситуації дійсності. Поняття пропозиції дає можливість побачити у простому за будовою реченні кілька смислових комбінацій (ситуацій), встановити його семантичну неелементарність, напр., у реченні Мені подарували цікаву книжку втілено 2 ситуації: мені подарували книжку + книжка цікава. У реченні стільки пропозицій, скільки в ньому предикатних знаків, до яких, крім власне предиката, відносять усі ознакові за функцією компоненти, виражені прислівниками, дієприслівниками, прикметниками тощо. Комунікативна природа речення: пов'язана з явищем актуалізації. Будь-яке слово лишається просто лексемою, інвентарною словниковою одиницею доти, доки в ньому не актуалізовано факт дійсності. Актуалізація - це надання слову чи групі слів модальної характеристики (повідомлення/запитання/спонукання), часової перспективи (тепер / у минулому / у майбутньому) та інтонаційної завершеності. Так народжується речення, призначення якого в кожному випадку унікальне. На комунікативному рівні здійснюють темо-ремне членування речення-висловлення, виявляючи ту частину повідомлення, яку мовець актуалізує як нове, незнане, повідомлюване (рема). Якщо тема (відоме, знане для адресата) зазвичай збігається із групою підмета, то рема - це група присудка. Правила використання синтаксичних засобів найбільш формалізовано можна подати в семантичних і формально-синтаксичних моделях (схемах) простих і складних речень, адже практично всі ситуації, втілювані у висловлюваннях, є типізованими.

17. Валентність і сполучуваність.

Теорія валентностей слова Цей термін було введено у лінгвістику у 1948 р. російським дослідником С. Кацнельсоном , який визначив це поняття як «властивість слова певним чином реалізовуватися в реченні і вступати в певні комбінації з іншими словами».У згадуваній монографії Л. Теньєра також розроблено поняття валентності, яку він визначає як здатність дієслова керувати певним числом актантів (від 0 до 3: суб'єкт, обставина, додаток). І якщо Теньєр обмежено тлумачив поняття валентності, то його послідовники вже звертали увагу на її якісний аспект: морфологічні, конструктивні, семантичні особливості головного і залежного компонентів. Поняття валентності почали тлумачити як потенційний зв'язок одного мовного елемента (фонема, морфема, слово, словосполучення) з іншими мовними елементами, а сполучуваність - як реальний зв'язок мовної одиниці з іншими одиницями у мовленні. [У російській структурно-прикладній лінгвістиці поштовхом для подальшого розвитку цієї теорії була розробка алгоритмів автоматичного перекладу, які будуються за принципом пошуку елементів, які «насичують валентність» головного слова.]

21. Стратегія АГАТ-синтаксису.

1) послідовний аналіз - передбачає створення словника еталонних словосполучень (синтагм), записаних у кодах граматичних класів слів; 2) передбачувальний аналіз - ґрунтується на наборах синтаксичних передбачень - гіпотетичних синтаксичних функцій окремих слів у певних типах речень; 3) методика опорних точок (є розвитком передбачувального аналізу) - для слів із певними характеристиками визначає типові контексти, що діагностують уживання слова в тій чи іншій синтаксичній функції в разі його багатофункціональності; Послідовний і передбачувальний аналізи виражаються у наявності граматики сполучуваності кожної частини мови і кожної лексеми; методика опорних точок - при побудові алгоритмів і програми ходу синтаксичного аналізу. Етапність АГАТ-синтаксису: 1) спочатку встановлюються зв'язки між словоформами і виділяються словосполучення в простому реченні / предикативній частині; 2) визначаються (ідентифікуються) складники - предикативні частини (у складному реченні); 3) встановлюються зв'язки між предикативними частинами. Як здійснюється АГАТ-синтаксис? Вихідним матеріалом для алгоритму є закодований текст із визначеними граматичними класами і підкласами (результат роботи АМА). Аналіз текстових елементів здійснюється зліва направо, починаючи з першого елемента, причому пунктуаційні знаки, розділені у вихідному тексті пробілами, прирівнюються до текстових одиниць (Wі). Елемент, що розмежовує два вихідні сегменти, крім знаків пунктуації, вважається членом правого сегмента. Вихідний сегмент може виявитися осмисленим (напр., простим реченням), але може бути і незавершеним або взагалі беззмістовним фрагментом тексту. Діють два алгоритмічні правила. При надходженні фрази на аналіз на першому слові (Wі) ставиться початок границі першого сегмента. Перевіряється, чи входить Wі до списку вставних слів (словосполучень) Список слів і словосполучень, укладений з урахуванням специфіки наукового і публіцистичного тексту, складається із 177 слів і 197 словосполучень. Список відкритий для поповнення (зауважимо, що насправді різних за формою вставних слів і конструкцій удвічі менше - приблизно 190, але оскільки вони можуть займати позицію початку, середини і кінця речення, вводиться маркер Н для позначення позиції вставного слова або конструкції на початку речення та коми, на якій буде позначка, що розділовий знак стосується меж вставної конструкції). З точки зору семантики ця група виражає відношення щодо повідомлення або дає його характеристику, зокрема з позиції достовірності або недостовірності, а також підкреслює, виокремлює якусь частину висловлювання, характеризує повідомлення тощо. Тому при аналізі смислової структури тексту вставності можуть грати дуже важливу роль, слугуючи засобом зв'язку між реченнями. У подальшому при аналізі смислової структури тексту вони будуть враховані.

3. Питання вивчення синтаксичної структури тексту за допомогою ЕОМ.

АСА АГАТ-граматики будується на формально-синтаксичній теорії вивчення речення, якою передбачено визначати тільки такі ознаки речення: будова (просте/складне); склад граматичної основи (двоскладне/односкладне); наявність ускладнювальних компонентів (нескладне/ускладнене); Семантико-синтаксична, функціональна, комунікативна теорія речення поки не підлягають автоматизації, але поглиблене вивчення формально-синтаксичної будови речення дає можливість, наприклад, створити словник синтаксем, для якого попередньо слід укласти таксономічну класифікацію лексики, що уможливить у майбутньому автоматичне встановлення синтаксичних відношень між членами словосполучення; Формальна граматика, адаптована для потреб автоматизації, базуватиметься в основному на описі гіпотактичних відношень як основних для синтаксичного ладу мови; паратактичні є додатковими, оскільки виділення сурядних словосполучень з позиції автоматизації не становить суттєвих труднощів. АГАТ-синтаксис належить до систем з виділеним в окремий блок синтаксичним аналізом. Це пов'язано з настановою на повноту синтаксичного опису, в результаті роботи чого лінійна морфологічна структура речення перетворюється на двомірну деревовидну синтаксичну структуру.

16. Граматика залежностей як спосіб представлення синтаксичної структури речення

Граматика залежностей - одна з формальних моделей, розроблених в рамках структурного. Являє лад пропозиції у вигляді ієрархії компонентів, між якими встановлено відношення залежності. Таким чином, структура пропозиції розглядається в термінах вершин і залежних. Сучасна граматика залежностей у значній мірі грунтується на ідеях Л. Теньєра. Як і граматика складових, граматика залежностей застосовується в автоматичному синтаксичному аналізі і в системах машинного перекладу. Знаходять застосування і "гібридні" синтаксичні уявлення, що враховують достоїнства обох типів моделей У сучасній лінгвістиці дуже поширені графічні способи представлення синтаксичних структур у вигляді схем, графів, діаграм. Оскільки мовлення відбувається і сприймається в часовому континуумі, будь-яка схема має відображати невідповідність між лінійною організацією мовлення і нелінійністю моделі, що описує ієрархічну структуру. Згідно з вербоцентричною концепцією Л. Теньєра у реченні домінує присудок, підмет дорівнює актантам і розташований рівнем нижче, так само як інші другорядні члени речення.

15. Деякі поняття теорії графів (граф, направлений граф, вузол графа, орієнтований граф, проективне дерево).

Граф - це абстрактний комбінаторний об'єкт, що складається з двох множин V (vertex ) - множина вузлів(вершин) і Е (edge) - множина ребер. Граф називається орієнтованим, якщо кожне ребро його має напрямок, тобто вказано початок (кінець). В іншому випадку граф називається або частково орієнтованим (декілька ребер орієнтовані, а інші ні), або неорієнтованим (простим). Направлений граф - орієнтований граф, в якому дві вершини з'єднуються не більше ніж однією дугою. Вузол графа - у вузлах графа знаходяться слова аналізованого речення. Проективне дерево - дерево на множині вузлів якого задано відношення порядку, тобто кожний вузол має свій номер, називається розташованим. В свою чергу розташоване дерево називається проективним, якщо виконані дві умови: а) жодні його дуги не перетинаються б) жодна дуга, що виходить з вузла у, не перетинає вертикальних ліній координатної сітки, які проходять через верхні вузли. Дерево залежностей - це розташоване дерево, яке використовується для зображення структури підпорядкування у реченнях природної мови. Будь-яке дерево називається графом.

7. Роль дистрибутивного методу у створенні АСА

Дистрибутивний аналіз (distributio - розподіл). Дистрибутивний аналіз був розроблений представниками дескриптивної лінгвістики(Харріс, Блумфільд). Спирається на положення про те, що різні мовні елементи мають різне оточення. Оскільки оточення кожного елемента є своєрідним, специфічним, неповторним, то на його (оточення) основі можна докладно вивчити досліджуваний мовний елемент. Почувши слово вудити, кожен легко вгадати його «партнера» рибу. Перед англійським am завжди знаходиться тільки I. Маючи текст, ми можемо вивчати дистрибутивні властивості мовної одиниці (звука, морфеми, слова), навіть не знаючи, як вона вимовляється і що вона означає. У невідомому тексті на основі дистрибуції можна визначити межі слова, відокремити основу від закінчення (закінчення в тексті буде частіше траплятися, ніж основа), визначити суфікси, префікси, голосні та приголосні звуки. Дистрибутивний аналіз є корисним для машинного перекладу (на основі оточення визначають значення багатозначного слова і для дешифрування невідомих текстів). Аналіз за безпосередніми складниками: В його основу покладено поступове членування одиниці (слова, словосполучення, речення) на складники, яке продовжується доти, поки не залишаться нерозкладні елементи. Так, напр, речення. Схема показує, з яких блоків складається це речення і в якій послідовності з виділених блоків воно будувалося. Якщо проаналізувати за безпосередніми складниками слово, то воно матиме таку схему, яка розшифровується так: від дієслова купити за допомогою префікса під- утворено слово підкупити, від його основи за допомогою суфікса н- утворено дієприкметник підкупний, а від основи цього дієприкметника за допомогою префікса не- - непідкупний, а від останнього за допомогою суфікса -ість утворено наведе слово. Як бачимо, аналіз за БС показує морфемний склад слова та послідовність етапів його творення

1. Лінгвістичні засади алгоритмів синтаксичного аналізу.

Досвід створення моделей автоматичного аналізу тексту свідчить про те, що хороший опис морфології мови навряд чи може бути одержаний тільки на основі морфологічних даних. Він забезпечує синтаксичне дослідження, але докладне синтаксичне дослідження може дати додаткові дані для уточнення морфології. Те саме стосується й семантичного аналізу: знання і розуміння семантики мови дозволить удосконалити синтаксичний опис мови, одержаний автоматичним шляхом. Отже, першим стимулом до розширення АГАТ синтаксичним модулем було завершення морфологічного аналізу - зняття лексико-граматичної і граматичної омонімії - через процедури синтаксичного аналізу, коли встановлюються зв'язки слів. Другим стимулом була теоретична необхідність у вивченні сполучуваності лексичних одиниць у зв'язку з недостатньою розробленістю таких семантико- синтаксичних проблем, як: граматична і лексична валентність слів, типова частиномовна сполучуваність, синонімія словосполучень різних структурних типів, взаємодія стійкості та ідіоматичності тощо. Третій стимул - це прикладні проблеми: автоматизація лінгвістичних досліджень, автоматичне визначення меж словосполучень, установлення критеріїв членування фрази на синтагми, автоматичний синтаксичний аналіз речення, автоматичне реферування й анотування тексту на основі сполучувальнісних критеріїв, машинний переклад тощо.

6. Роль і місце синтаксичного аналізу в процесі автоматичного опрацювання текстової інформації.

Досвід створення моделей автоматичного аналізу тексту свідчить про те, що хороший опис морфології мови навряд чи може бути одержаний тільки на основі морфологічних даних. Він забезпечує синтаксичне дослідження, але докладне синтаксичне дослідження може дати додаткові дані для уточнення морфології. Те саме стосується й семантичного аналізу: знання і розуміння семантики мови дозволить удосконалити синтаксичний опис мови, одержаний автоматичним шляхом. Для розширення АГАТ синтаксичним модулем потрібне завершення морфологічного аналізу - зняття лексико-граматичної і граматичної омонімії - через процедури синтаксичного аналізу, коли встановлюються зв'язки слів. Автоматичне опрацювання тексту потрібне для вирішення прикладних проблем: автоматизація лінгвістичних досліджень, автоматичне визначення меж словосполучень, установлення критеріїв членування фрази на синтагми, автоматичний синтаксичний аналіз речення, автоматичне реферування й анотування тексту на основі сполучувальнісних критеріїв, машинний переклад тощо. Синтаксичний аналіз у системі АГАТ зумовлений у теоретичному плані тим, що виокремлення словосполучення з реченнєвої структури на великих різностильових масивах текстів дає можливість дослідникам української мови більш точно й аргументовано встановити синтаксичну і семантичну ємність цієї одиниці, у прикладному плані - розроблюваний автоматичний синтаксичний модуль аналізу українського тексту єдиний в Україні лінгвістичний ресурс, налаштований на синтаксичне розмічування, аналога якому немає, оскільки воно здійснюється тільки автоматично на базі повного автоматичного морфологічного аналізу зі знятою омонімією. Корпус української мови постійно зростає, що потребує створення потужного механізму автоматичного опрацювання українського тексту на рівні синтаксису і, відповідно, розроблення лінгвістичного і програмного забезпечення цього ресурсу. Тому в межах АГАТ створювався такий тип АСА, за допомогою якого можна одержати різноманітну інформацію про функціонування граматичних синтаксичних одиниць та їх категорій, зокрема формально-синтаксичних: предикативність, підрядність, сурядність, а також категорії підмета, присудка, другорядного члена речення тощо. Лінгвісти розробили лінгвістичне і програмне забезпечення, за допомогою якого на першому етапі з будь-якого тексту Корпусу здійснюється автоматично вичленування словосполучення з подальшою можливістю редагування одержаних даних. На цьому матеріалі на першому етапі АСА автоматично будуються словники сполучуваності всіх частин мови, а на другому етапі здійснюється синтаксичний аналіз цілого речення у вигляді дерева залежностей.

19. Зображення присудка, підмета у дереві залежностей.

Зображення присудка. Ця теоретична проблема обговорюється насправді давно. Якщо дивитися з погляду класичної граматики обидва елементи вважаються головними членами речення, при цьому їхнє главенство визначається по-pізному. У російській граматичній традиції між підметом і присудком не розглядається відношення підпорядкування ані в один, ані в інший бік. Та обставина, що присудок є центром категорій, які формують речення, дозволило Л. Теньеру покласти в основу граматики залежностей положення про головну роль присудка, і воно останнім часом одержало підтримку в роботах, присвячених автоматичному синтаксичному аналізу. Таким чином, коренем дерева вважається присудок, а підмет розглядається як заповнювач валентного місця поряд з іншими залежними елементами. При цьому висуваються такі умови: а) корінь дерева не залежить від інших вузлів речення; б) від кореня прямо або непрямо залежать усi інші вузли речення. Зображення підмета. Однослівний підмет завжди підпорядковується присудку та розташований рівнем нижче кореня.

18. Проблема слова й напрямок зв'язку у дереві залежностей.

При зображенні дерева залежностей: фразеологізми розглядаються як конкретне слово; одним словом вважаються складені сполучники та прийменники; прийменники вважаються окремим словом і зображуються одним вузлом; аналітична форма майбутнього часу зображується двома вузлами, причому зв'язок спрямований від допоміжного дієслова до повнозначного; аналітичні форми порівняння мають напрямок від прикметника до прислівника; частки розглядаються як окремі слова, тому що вони здатні переміщуватися в реченні; складені числівники вважаються одним словом, при цьому напрямок іде від числівника до іменника, оскільки відмінок іменника залежить від валентності числівника; одним вузлом вважаються прізвище, ім'я, по батькові; складені терміни розглядаються як словосполучення, де окремі слова пов'язані підпорядкуванням.

22. Загальний алгоритм автоматичного синтаксичного аналізу тексту.

Програма синтаксичного аналізу працює в чотири етапи і виконує такі дії: І етап: виявлення прислівних зв'язків і формування словосполучень; зняття омонімії граматичних форм, не розпізнаної після АМА; ІІ етап: 1) поділ речення на гіпотетичні сегменти за сполучниками і розділовими знаками (крім тире); 2) визначення членів предикативної пари зі зв'язком координації за кодами граматичних зв'язків у кожному сегменті; 3) фіксування присудка як кореня дерева і позначення спеціальним символом підпорядкування підмета присудкові; 4) ідентифікація вставних слів та конструкцій, які надалі опрацьовуються за спеціальними правилами; 5) аналіз типів і визначення границь відокремлених зворотів - напівпредикативних синтаксичних одиниць. ІІІ етап: 1) приєднання до сегментів із предикативними парами інших сегментів, які таких пар не мають (напівпредикативні синтаксичні одиниці); 2) нумерація предикативних частин. ІVетап: визначення структурного типу речення; визначення синтаксичного зв'язку між предикативними частинами складного речення; внесення інформації до таблиці, яка репрезентує дерево залежностей; з'ясування функціонального навантаження розділових знаків (напр., кома між однорідними членами або між предикативними частинами складного речення, або при звороті) (але це завдання поки що факультативне).

20. Зображення структур з однорідністю у дереві залежностей. Зауваження про складне речення.

Серйозною теоретичною проблемою є трактування речень з однорідними рядами, оскільки аналіз простого і складного речення у зв'язку з однорідністю підметів або присудків досить суперечливий. Ще О. Востоков визнавав речення з кількома підметами або присудками складними . О. Шахматов вважав складним речення з кількома підметами при одному присудкові, тим самим підкреслюючи особливу смислову їх вагу. О. Пєшковський, навпаки, визнавав «найбільш граматичним вирішенням питання... визнання кількох речень у випадку кількох присудків» і підтримував ідею «злиття» (однорідні члени речення як наслідок злиття двох або більше речень). О. Пєшковський дійшов висновку, що «термін «злитне», якщо тільки відмовитися від його історичного розуміння, вдало виражає природу цих речень, дійсно середню між односкладністю і складністю». В усякому випадку, думка про близькість речень з однорідними членами до складних виявилася плідною . І. Кучеренко вважає, що «сурядно сполучені присудки у реченні функціонують незалежно один від одного в тому розумінні, що кожний із них виражає окремо якусь ознаку предмета у її предикативному відношенні до предмета, кожний з яких разом із предметом утворює предикативну одиницю, тобто речення». Отже, речення з кількома присудками трактується як складне, складносурядне. Який підхід прийнято в АГАТ-синтаксисі? У модулі АСА був прийнятий традиційний граматичний підхід до однорідних членів як до об'єднання сурядним формально рівноправним зв'язком. Зрозуміло, наявність групи присудків призводить до ускладнення видо-часового плану: між присудками виникають відношення одночасності або послідовності, або причиново-наслідкові, які підтримуються і видовими значеннями, що збігається з відношеннями у складносурядному реченні. Однак великою мірою ці відношення мають смисловий характер і, якщо вони не виражені морфологічно, то їх формалізувати практично не можливо. Однорідність присудків (і підметів) трактується в АСА як синтаксична однотипність сурядних членів. Наслідком цієї однотипності є збіг морфологічних характеристик. Спираючись при аналізі на загальні властивості сурядних конструкцій, ми виходимо з їх розбіжності не в семантичному, а у формально-синтаксичному плані. Аналіз сурядних конструкцій в АСА базується на принципах: 1) однофункціональності; 2) морфолого-синтаксичної однорідності. Для зображення груп однорідних членів І. Севбо пропонує ввести у граф допоміжний символ - уявний вузол, або уявне слово. Про уявне слово Оскільки уявний вузол збільшує на одиницю кількість рівнів шляху і збільшує кількість рівнів у дереві (рівень шляху дорівнює рівням дерева), що ускладнює графічне представлення речення, ми пропонуємо інший підхід (те, як повинні робити і ми!): якщо однорідні члени речення зв'язані сполучником, він зображується рівнем вище, і від нього проводяться дуги до однорідних членів;

11. Типи алгоритмів автоматичного синтаксичного аналізу (АСА).

Синтаксичний аналіз (парсинг, parsing) - в інформатиці це процес аналізу вхідної послідовності символів, з метою розбору граматичної структури згідно із заданою формальною граматикою. Синтаксичний аналізатор (parser) — це програма або частина програми, яка виконує синтаксичний аналіз. Під час синтаксичного аналізу текст оформляється у структуру даних, зазвичай - в дерево, яке відповідає синтаксичній структурі вхідної послідовності, і добре підходить для подальшої обробки. Зазвичай синтаксичні аналізатори працюють в два етапи: на першому ідентифікуються осмислені токени (виконується лексичний аналіз), на другому створюється дерево розбору. Розрізняють два типи алгоритмів синтаксичного аналізу: - спадний синтаксичний аналіз - завдання побудови дерева розбору для вхідних рядка, починаючи з кореня і створюючи вузли дерева розбору в прямому порядку обходу Або, що те ж саме, спадний синтаксичний аналіз можна розглядати як пошук лівого породження вхідний рядка. -висхідний синтаксичний аналіз будує дерево розбору для вхідного рядка, починаючи з листя (знизу) і йдучи у напрямку до кореня (Вгору).

2. Передумови автоматизації синтаксичного аналізу.

Синтаксичний аналіз у системі АГАТ зумовлений у теоретичному плані тим, що виокремлення словосполучення з реченнєвої структури на великих різностильових масивах текстів дає можливість дослідникам української мови більш точно й аргументовано встановити синтаксичну і семантичну ємність цієї одиниці, а у прикладному плані — розроблюваний автоматичний синтаксичний модуль аналізу українського тексту — єдиний в Україні лінгвістичний ресурс, налаштований на синтаксичне розмічування, аналога якому немає, оскільки воно здійснюється тільки автоматично на базі повного автоматичного морфологічного аналізу зі знятою омонімією . Корпус української мови постійно зростає, що потребує створення потужного механізму автоматичного опрацювання українського тексту на рівні синтаксису і, відповідно, розроблення лінгвістичного і програмного забезпечення цього ресурсу. Тому в межах АГАТ створювався такий тип АСА, за допомогою якого можна одержати різноманітну інформацію про функціонування граматичних синтаксичних одиниць та їх категорій, зокрема формально-синтаксичних: предикативність, підрядність, сурядність, а також категорії підмета, присудка, другорядного члена речення тощо. Однак створення аналізатора, який безпомилково здійснював би аналіз українського тексту, неможливе, тому якісне анотування тексту завжди пов'язане з ручним доопрацюванням.

10. Що таке словосполучення? Принципи виокремлення словосполучень із тексту в системі АСА. Підрядні, предикативні і сурядні словосполучення.

Словосполучення - це смислове та граматичне поєднання двох або більшої кількості слів на основі підрядного, сурядного або предикативного зв'язку.Визначаються такі зв'язки: підрядні, предикативні і сурядні, оскільки вони відповідають відтворенню загальної системи відношень між компонентами описуваної ситуації у реченні.Сурядне словосполучення - це смислове і граматичне поєднання двох повнозначних слів як граматично рівноправних. (рука і серце; ніч і день; то я , то ти)Підрядне словосполучення - це смислове і граматичне поєднання двох повнозначних слів як граматично нерівноправних: одне з них- головне, інше- залежне (старий будинок, маленька красуня).В комп'ютерній граматиці підрядні зв'язки поділяються на ядрові і неядрові. Ядровий - це такий зв'язок, при якому аналізоване слово є головним. Неядровий - це такий зв'язок, при якому аналізоване слово є залежним, керованим.

13. Графічні способи представлення синтаксичних структур у традиційній граматиці, граматиці Л. Теньєра, граматиці залежностей, граматиці безпосередніх складників.

У сучасній лінгвістиці широко розповсюджені графічні способи представлення синтаксичних структур у вигляді схем, графів, діаграм. Тепер можна порівняти способи зображення синтаксичних структур у чотирьох граматиках: Традиційний, граматиці Теньєра, безпосередніх складників, граматиці залежноcтей на прикладі такого речення "Новий автоматичний пристрій був описаний у журналі" Графічне зображення синтаксичної структури у традиційній граматиці буде виглядати: підмет і присудок зображується на одному рівні ієрархії як рівноправні члени і конструктивний центр речення. Графічне зображення синтаксичної структури у граматиці Теньєра: згідно з його вербоцентричною теорією домінуючу позицію займає присудок, а підмет ї розташовуються рівнем нижче як інші другорядні члени речення. Графічне зображення синтаксичної структури у дереві залежностей: тут коренем дерева є присудок, який зв'язаний відношенням підпорядкування з іншими членами речення. Графічне зображення синтаксичної структури у граматиці безпосередніх складників: тут спочатку з'єднуються бінарні синтагми нижчого рівня причому складники можуть утворюватися кількома способами, завершується побудова поєднання складника групи підмета і групи присудка символом речення. Отже у традиційній граматиці і граматиці Теньєра виділено подібні синтаксичні групи, а граф синтаксичної ієрархії відрізняються у Теньєра за рахунок віднесення підмета до актантів. Дерева складників і залежностей візуально не мають нічого спільного, але їх об'єднує те, що встановлюються синтаксичні зв'язки не між членами речення, а між словоформами.

5. Типи синтаксичних відношень у реченні.

Центральними для простого речення є предикативні відношення, які треба розуміти як реченнєвотвірні відношення ознаки до предмета-носія, актуалізовані в часі та способі. атрибутивні відношення, у яких ознака абсолютизується й не пов'язується з часово-способовими параметрами. Субстанціальні відношення - це відношення предмета до ознаки (під ознакою, у широкому сенсі цього слова, розуміють і дію, і процес, і стан, і власне ознаку). Обставинні відношення виражають відношення обставини до дії-ознаки й відрізняються від атрибутивних тим, що становлять не внутрішньо притаманну іманентну ознаку, але характеризують зовнішню обстановку, що супроводжує дію-ознаку: час, місце, мету, причину, умову, наслідок


Related study sets

Photosynthesis and Cellular Respiration

View Set

Med surg Practice predictor A 2020

View Set

Wrong Answers/Concepts to go over

View Set

Which words need to be Capitalized? Don't click on WRITE OR SPELL

View Set