Показать меню

Коранический корпус арабского языка

Коранический корпус арабского языка — доступный для поиска электронный онлайн-корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык.

Функции

Грамматический анализ текста помогает пользователям раскрывать предполагаемые значения каждого аята и предложения. Каждое слово текста Корана атрибутировано указанием его части речи и несколькими морфологическими характеристиками. В отличие от других корпусов арабского языка, грамматика, используемая Кораническим корпусом, является традиционной арабской грамматикой Ираб (إعراب). Коранический корпус арабского языка — это исследовательский проект, возглавляемый специалистом по компьютерным наукам Кайс Дюкс из Лидского университета, который является частью проекта по изучению арабского языка в Школе вычислительной техники под руководством Эрика Атуэлла.

Аннотированный корпус включает в себя:

  • верифицированную вручную частеречную разметку текста на арабском языке;
  • аннотированную древовидную структуру корпуса классического арабского языка;
  • новую визуализацию традиционной арабской грамматики через графы зависимостей;
  • морфологический поиск по тексту Корана;
  • машиночитаемый морфологический арабо-английский словарь;
  • частеречный конкорданс арабского языка Корана, с лемматизацией;
  • онлайновую доску объявлений для волонтёров сообщества.

Частеречная разметка присваивает каждому слову корпуса тег части речи и морфологические признаки — например, указание, является данное слово существительным или глаголом, стоит в мужском или женском роде. На первом этапе проекта была задействована автоматическая частеречная разметка. Затем характеристики для каждого из 77 430 слов Корана поэтапно уточнены двумя аннотаторами, и уточнения продолжаются до настоящего времени.

Лингвистические исследования, в которых используется Коранический корпус, включают в себя обучение скрытой марковской модели частеречной разметки арабского языка, автоматическую категоризацию глав Корана и просодический анализ текста.

Кроме того, проект предусматривает дословный перевод Корана на основе принятых английских источников вместо осуществления нового перевода Корана.

Еще по этой теме:
Малокарачинское наречие
Малокарачинское наречие
Малокарачинское наречие (малокарачкинское) — наречие чувашского языка (тюркский язык булгарской группы). Распространено в селе Малое Карачкино Ядринского района Чувашии. Сведения С лингвистической
Арви
Арви
Арви (لسان الأروي Лисан-уль-Арви или Лисан аль-Арви; язык Арви; அரபு — தமிழ் арабо-тамильский) — представляет собой письменный диалект тамильского языка, который использует для записи арабский
Басир
Басир
Басир, Басыр (араб. بصير‎) — мужское/женское имя арабского происхождения, в переводе с арабского означает «зрячий», «разумный», «различающий», «с хорошим зрением», «проницательный», «зоркий»,
Словарь вариантов немецкого языка
Словарь вариантов немецкого языка
Словарь вариантов немецкого языка (нем. Variantenwörterbuch des Deutschen) — словарь, созданный в 2004 году при участии Ульриха Аммона. Первое издание словаря описывает географические варианты
Ша (язык)
Ша (язык)
Ша (англ. sha) — язык западночадской ветви чадской семьи, распространённый в центральной Нигерии: на сопредельных территориях штата Плато (в его западной части — район Боккос) и штата Насарава (в его
Деманж, Жан Франсуа
Деманж, Жан Франсуа
Жан-Франсуа Деманж (родился 1789, Франция) — французский и российский филолог-ориенталист, первый преподаватель арабского и персидского языков в Петербургском университете. Биография Изучал в Париже
Комментарии:
Добавить комментарий
Ваше Имя:
Ваш E-Mail: