08-05-2023
База данных "Языки Мира" Института Языкознания РАН - это электронный энциклопедический ресурс, охватывающий грамматические свойства языков, входящих в энциклопедическое издание «Языки мира».
Разработка концепции БД была начата в 80-е годы практически одновременно с реализацией проекта по созданию энциклопедии «Языки мира», осуществляемого под руководством члена-корреспондента РАН В.Н. Ярцевой . В качестве основного средства формализации была разработана так называемая «модель реферата», представляющая собой универсальную схему описания языка, где языковые явления и категории представлены в жестко заданной форме. БД содержит описание следующих сфер языка: фонетика, морфология, синтаксис.
Основную работу по заполнению БД выполнила Е.И. Ярославцева. Были созданы программные оболочки сначала для DOS, а затем для Windows (рабочая версия (1-я) и информационно-справочная версия (2-я). В ИЯз РАН под руководством А.А. Кибрика проведены работы по широкомасштабному тестированию БД. [1]
По состоянию на конец 2014 г. БД характеризуется следующими основными параметрами: 315 языков (в основном, Европы, Северной и Центральной Азии), более 3800 признаков, бинарный, иерархический, парадигматический формат представления данных.
Бинарность представления означает, что для каждого языка и для каждого признака в БД фиксируется только наличие или отсутствие этого признака в языке, но не степень его проявления. Таким образом, с математической точки зрения БД представляет собой прямоугольную бинарную матрицу размером 314 х 3800, содержащую более миллиона бит информации.
Иерархичность означает, что в структурном отношении модель реферата представляет собой классификационную схему в виде иерархического дерева.
Парадигматичность означает, что представление многих фактографических признаков в Базе Данных выполнено с использованием принципа парадигмы. Это означает, что в поле наименования признака записываются через косую черту (слэш) все его возможное значения. Важным аспектом использования компьютерных баз данных является не только удобство хранения и доступа к данным, но и возможность применения разнообразных математических и статистических методов исследования данных. С увеличением объема информации применение математических методов анализа становится все более насущным. [2]
В 80-е годы в Институте языкознания РАН были начаты работы по созданию базы данных (БД) «Языки мира». В качестве источника информации используется одноименное энциклопедическое издание (Языки мира 1993…2014). Работы были инициированы членом-корреспондентом АН В.Н. Ярцевой и велись в отделе прикладного языкознания под руководством А.И. Новикова. В разработке концепции и структуры БД принимали участие: А.К. Зотова, Н.К. Рябцева, Н. Рогова, О.И. Романова – анализ рефератов, В.А. Виноградов, М.А. Журинская, Я.И. Тестелец, Е.И. Ярославцева – авторы модели, Ю.П. Скокан, А.И. Новиков, Н.Н. Нестерова – компьютерная формализация модели.
Первая версия БД реализована программистом Ю.П. Скоканом в СУБД Clipper (MS DOS) в 1997 году. На БД получено регистрационное свидетельство ФГУП НТЦ «Информрегистр» № 7706 от 26 ноября 2001 г. Был сделан ряд публикаций . В 2005 году защищена докторская диссертация Е.И. Ярославцевой на тему «Компьютерная база данных “Языки Мира” и ее возможные применения». [2]
В 2002 году создана 1-я, рабочая, Windows-версия БД «Языки мира» (руководитель проекта − В.Н. Поляков, программист − В. Логунов).
В 2013 году была создана 2-я, информационно-справочная, версия БД «Языки мира» (руководители проекта − В.Н. Поляков, В.Д. Соловьев, программист – И.Анисимов)
База данных «Языки мира» организована иерархически. На высшем уровне данные разделены на две части: метаданные (часть 1) и данные (часть 2). Метаданные состоят из текстовой информации о названии языка, вариантов названия, генетической принадлежности, диалектных вариантах, социальном и политическом статусе, письменности, статусе в образовательной системе, письменности, исторической периодизации и изменениях, произошедших в результате контактов. Данные (часть 2) включают 20 разделов, нумерация и порядок которых точно соответствуют заголовкам и нумерации, принятым в энциклопедическом издании «Языки мира» (представлены в таблице 1).
Таблица 1
2.1.1. ФОНЕМНЫЙ СОСТАВ |
2.1.2. ПРОСОДИЧЕСКИЕ ЯВЛЕНИЯ |
2.1.3. ФОНЕТИЧЕСКИ ОБУСЛОВЛЕННЫЕ ПРОЦЕССЫ |
2.1.4. СЛОГ |
2.2.1. ФОНОЛОГИЧЕСКАЯ СТРУКТУРА |
2.2.2. ФОНОЛОГИЧЕСКИЕ ПРОТИВОПОСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ КАТЕГОРИЙ |
2.2.3. МОРФОЛОГИЧЕСКИ ОБУСЛОВЛЕННЫЕ ЧЕРЕДОВАНИЯ |
2.3.0. МОРФОЛОГИЧЕСКИЙ ТИП ЯЗЫКА |
2.3.1. КРИТЕРИИ ВЫДЕЛЕНИЯ ЧАСТЕЙ РЕЧИ |
2.3.2. ИМЕННЫЕ КЛАССИФИКАЦИИ |
2.3.3. ЧИСЛО |
2.3.4. ПАДЕЖНЫЕ ЗНАЧЕНИЯ |
2.3.5. ГЛАГОЛЬНЫЕ КАТЕГОРИИ |
2.3.6. ДЕЙКТИЧЕСКИЕ КАТЕГОРИИ |
2.3.7. ЧАСТИ РЕЧИ |
2.4.0. ПАРАДИГМЫ |
2.5.1. СТРУКТУРА СЛОВОФОРМЫ |
2.5.2. СЛОВООБРАЗОВАНИЕ |
2.5.3. ПРОСТОЕ ПРЕДЛОЖЕНИЕ |
2.5.4. СЛОЖНОЕ ПРЕДЛОЖЕНИЕ |
Внутри этих 20 разделов содержимое реферата представлено в виде набора иерархически организованных бинарных признаков. В качестве примера организации в таблице 2 представлены признаки, входящие в последний раздел «Сложное предложение».
Таблица 2
Номер в базе данных | Наименование и уровень в иерархии признака | Name and level in the feature hierarchy |
---|---|---|
3773 | 2.5.4.СЛОЖНОЕ ПРЕДЛОЖЕНИЕ | 2.5.4.COMPLEX SENTENCES |
3774 | .О | .О (this symbol, when annotated with the value ‘true’ indicates that information for the features within the section is absent) |
3775 | .линейный порядок компонентов | .linear order of clauses |
3776 | ..главное предшествует придаточному | ..the main clause precedes the subordinate clause |
3777 | ..главное предшествует целевому | ..the main clause precedes the purpose clause |
3778 | ..не фиксирован | ..free order |
3779 | ..придаточное предшествует главному | ..the subordinate clause precedes the main clause |
3780 | ..целевое предшествует главному | ..the purpose clause precedes the main clause |
3781 | .особенности подчиненного компонента | .features of the subordinate clause |
3782 | ..особое оформление именных групп | ..special marking of noun phrases |
3783 | ..особое оформление подлежащего | ..specific marking of a subject |
3784 | ..особый порядок слов | ..specific word order |
3785 | ..оформление сказуемого | .. marking of a predicate |
3786 | ...зависимые личные формы | ...dependent finite forms |
3787 | ...квотатив | ...quotative |
3788 | ...нефинитные формы | ...non-finite forms |
3789 | ...оборот с релятивной формой глагола | ...phrase with a relativized verb form |
3790 | ...особые глагольные показатели | ...specific verbal markers |
3791 | ...особый порядок слов | ...specific word order |
3792 | ...таксисные конструкции | ...taxis |
3793 | ...финитные формы | ...finite verb forms |
3794 | ...абсолютные обороты | ... absolute constructions (e.g., Latin Ablativus Absolutus) |
3795 | ..'тематическое' придаточное | .. topical dependent clause |
3796 | .особенности построения дискурса | .peculiarities of discourse structure |
3797 | ..обвиатив | ..obviation |
3798 | ..переключение референции | .. switch-reference |
3799 | .структура относительного предложения | .relative clause structure |
3800 | ..главное предшествует придаточному | .. the main clause precedes the subordinate clause |
3801 | ..относительно-местоименные аффиксы в глаголе | ..relative pronominal affixes on a verb |
3802 | ..отсутствие союзного слова или его аналога | ..absence of a conjunction or its analogue |
3803 | ..придаточное предшествует главному | ..the subordinate clause precedes the main clause |
3804 | ..союзное слово в главном | ..a conjunction in the main clause |
3805 | ..союзное слово в придаточном | ..a conjunction in the subordinate clause |
3806 | ..сказуемое придаточного следует за союзом | ..the predicate of the subordinate clause follows the conjunction |
3807 | .тип построения | .type of construction |
3808 | ..сериализация | ..serialization |
3809 | ..сочинение/подчинение | ..coordination/subordination |
3810 | ..только подчинение | ..only subordination |
3811 | ..только сочинение | ..only coordination |
3812 | .тип связи | .type of connection |
3813 | ..союзная/бессоюзная | ..conjunctional/non-conjunctional |
3814 | ..преобладает бессоюзная | ..non-conjunctional prevails |
3815 | ..преобладает союзная | ..conjunctional prevails |
3816 | ..союзы | ..conjunctions |
3817 | ...знаменательные слова | ...full words (as opposed to particles) used as conjunctions |
3818 | ...отсутствие союзов как грамматического разряда | ...absence of conjunctions as a grammatical category |
3819 | ...присоединяемые служебные элементы | ...attached syntactic (non-lexical) elements |
3820 | ...самостоятельные служебные элементы | ...independent syntactic (non-lexical) elements |
3821 | ...союзные формы глагола | ...conjunctional verb forms |
Точки, предшествующие каждому признаку, указывают на степень иерархической вложенности. Например, признак номер 3818 вложен в третий подуровень:
СЛОЖНОЕ ПРЕДЛОЖЕНИЕ
1-ый подуровень: тип связи
2-й подуровень: союзы
3-й подуровень: отсутствие союзов как грамматического разряда
Информация представлена в виде простой таблицы, где значения «истина» (присутствует) или «ложь» (отсутствует) даны для каждого номера в базе данных.
База данных «Языки мира» включает более 3800 бинарных признаков и 315 языков (включая языковые диалекты, по различным причинам выделенные в отдельную языковую статью). Таким образом, теоретическое максимальное число бинарных точек равняется: 3801*315=1197315. Однако, для некоторых признаков данных не существует. В таких случаях комбинация символа «.О» и пометки «ложь», следующих за заголовком раздела означает, что данных не существует для указанного подмножества признаков языка (например, см. 2.1.1. ФОНЕМНЫЙ СОСТАВ для пиктского языка). Частота таких «отсутствующих разделов» и количество признаков, содержащихся в них, составляют до 83164 бинарных состояний [1]. Таким образом, общее количество бинарных состояний равняется 1114151. Кроме того, следует учитывать иерархическую структуру. Если посчитать только терминальные признаки, бинарных состояний станет гораздо меньше. Количество терминальных признаков 3340, из которых только 3198 представлены в каких-либо языках. Таким образом, теоретический максимум достигает 1007370 (по состоянию на конец 2014 года).
Практически единственным источником данных является энциклопедическое издание «Языки мира», которое выходит в Институте языкознания Российской академии наук с 1993 по сей день. Структура набора признаков, представленных в базе данных, является копией энциклопедической статьи, переведенной в бинарный иерархический формат. Тот факт, что база данных «Языки мира» основана на печатной энциклопедии, является одной из уникальных характеристик базы данных. Это также оказало значительное влияние на характер принимаемых решений на этапе разработки модели реферата и базы данных.
В связи с длительным временем подготовки печатных изданий электронная версия появлялась раньше (вводилась на основании черновиков), чем выходило бумажная версия энциклопедии. Таким образом, возникало опережение базой данных. В настоящее время ситуация изменилась, бумажная версия опережает электронную.
Первая версия БД реализована программистом Ю.П. Скоканом в СУБД Clipper (MS DOS) в 1997 году.
Windows-версия БД (версия 1) представляет собой 32-разрядное приложение, написанное на языке Delphi Pascal (версия 7). В качестве СУБД используется Borland DataBase Engine (BDE). Рабочая среда: Windows 95/98/2000/NT/XP. Объем инсталляционного варианта: 17,4 МБ. Объем программы вместе с БД (версия от 01.12.2006): 18,8 МБ.
Версия 1 базы данных представляет собой полномасштабное приложение, позволяющее вводить, удалять и редактировать список языков, модель реферата, рефераты языков. Кроме того, версия 1 позволяет выгружать и загружать рефераты языков в текстовом формате.
Версия 2013 г. написана на языке С# с использованием библиотеки ASP.NET и, таким образом, требует для использования установленной Microsoft.NET Framework 2.0 и выше.
Имеется возможность загрузки рефератов из текстовых файлов. Однако нет возможности пополнять список языков и список характеристик. Общий объем инсталляционной версии программного обеспечения – около 1 ГБ.
Программа предоставляет более удобный интерфейс для просмотра основных данных базы, включает ссылки на исходную статью о языке в энциклопедии (оцифрованную в pdf).
Имеет более мощный поисковый аппарат, чем предыдущая версия.
В нее включены «Глоссарий», который дает расшифровку всех терминов модели описания языка; генетический указатель, географический указатель, содержащий наименование области распространения языка и географические координаты ее центра (по атласу ЮНЕСКО); перевод на английский признаков; англоязычное название языка; код языка, соответствующий принятому международному стандарту ISO 639-2 (портал Ethnologue). Программа имеет двуязычный интерфейс (русский, английский).
Финансирование работ по созданию новой версии осуществлялось из источников РГНФ (грант № 10-04-12125в) и НОЦ "Лингвистика" им. Бодуэна де Куртенэ (руководитель В. Д. Соловьев). Существенный вклад в создание новой версии был сделан И. С. Анисимовым (программирование), О. И. Беляевым (реализация новой интерфейсной концепции), Е. А. Логиновой (координаты языков), группой Языки Мира ИЯз РАН (руководитель А. А. Кибрик, тексты статей с описанием языков в формате PDF, научное консультирование), В. Т. Козловым, Г. А. Черкасовой (информационная и административная поддержка), Е. А. Макаровой (перевод, выверка контента).
Языки, включенные в базу данных «Языки мира» принадлежат к следующим языковым семьям (количество языков для каждой семьи указано в скобках):
Кроме того, представлены следующие языки-изоляты: айнский, бурушаски, эламский, японский, нивхский, шумерский, юкагирский. И представлен 1 австронезийский язык (ротума).
Уникальной особенностью базы данных «Языки мира» является то, что она содержит не только живые, но и 56 вымерших языков, которые могут быть полезными для анализа диахронических процессов.
Список языков, включенный в базу данных «Языки мира». Вымершие языки помечены буквой «м».
В [2] подробно рассказано о методике получения расстояний между языками на основании грамматической информации.
В 2009 году был проведен эксперимент по сравнению трех источников данных: ‘Automated Similarity Judgment Program’ (ASJP), базы данных «Языки мира» ИЯз РАН и WALS [1].
Было выбрано тестовое задание из 38 языков, присутствующих во всех трех базах данных.
Была рассчитана матрица расстояний между языками, которая с помощью алгоритма присоединения соседей «Neighbour-Joining algorithm» [3] была трансформирована в генетическое дерево (рис. 1, 2, 3).
Рис. 1. ASJP дерево для выбранных языков.
Рис. 2. JM дерево для выбранных языков
Рис. 3. WALS дерево для выбранных языков.
Результаты построения дерева показали, что по точности совпадения с классическим представлением на первом месте стоит ASJP, на втором – база данных «Языки мира», и на третьем – WALS.
Таким образом, показано, что грамматические данные уступают лексикостатистическим данным по точности результатов, но также способны отражать генетические зависимости.
База данных «Языки мира» позволяет получить данные о том, сколько признаков существует ровно в n языках [2]. На диаграмме (рис. 4) приведены соответствующие данные в форме графика. Графики этого типа названы ЯП-диаграммами («язык-признак диаграмма»).
ЯП-диаграммы применяются в изучении отдельных семей, ветвей, групп. Таким образом, с помощью простых числовых подсчетов на материале базы данных «Языки мира» обнаружено новое явление, состоящее в гиперболической форме ЯП-диаграммы и постоянстве этой формы для различных языковых групп.
Для расчета и исследования квантитативных портретов была написана программа LangFamilies на языке VBA, которая рассчитывает частоту признаков по всем элементам генетического указателя БД «Языки мира» (макросемьи, семьи, ветви, группы) и по всей БД в целом . После этого появляется возможность проведения сопоставительного анализа распределения признаков по разделам реферата и по семьям (ветвям).
Методика основывается на использовании раритарных признаков. Раритарный признак (раритарий) это тот, частота которого в данной семье значительно ниже 50%, но при этом выше, чем в других семьях. Идея использования раритариев для проверки спорных генетических гипотез возникла из предположения о том, что раритарные признаки могут нести более достоверную информацию о генетической близости, чем универсальные. Эта точка зрения убедительно подтверждается результатами расчетов квантитативных карт [2] и полученными закономерностями в динамике признаков [2].
Метод основывается на подборе таких фильтров на квантитативных портретах языковых семей, чтобы можно было выявить совпадение раритарных признаков в анализируемых языковых семьях, ветвях, языках-изолятах. Хорошее совпадение свидетельствует о генетической близости.
Наличие в БД достаточно полных описаний 56-ти мертвых языков позволяет провести систематическое сравнение распространения свойств в языках, существовавших в среднем 2 тыс. лет назад, и современных. Это дает новый инструмент анализа языковой эволюции.
Обнаружено явление, названное «типологическим сдвигом» и состоящее в том, что за указанный промежуток времени частотные признаки (статистические универсалии) стали еще более частотными, а редкие признаки (раритарии) подверглись вымыванию.
N п.п. | Замечание | Источник | Ответ на замечание |
---|---|---|---|
1 | Метаданные представлены в текстовом формате. | [1] | Частично устранено в Информационно-справочной версия БД. Появились указатели: генетический, географический, координаты языков. |
2 | Данные представлены в бинарном формате, нет градации, нет размытости. | [1], устное замечание на конференции | Частично представлены в парадигматичных признаках. На основе БД «Языки мира» ИЯз РАН можно создавать локальные БД, удовлетворяющие новым требованиям. |
3 | Привязка разделов БД к разделам текстового издания, которое может устаревать по своей структуре. | [1] | Да, структура может устаревать, например, в разделе «Сложное предложение» нет информации о теории Хомского. Но, в целом, бумажное издание энциклопедии выверялось не один год, и прошло проверку временем. |
4 | БД отражает предпочтения и взгляды российской типологической школы. | [1] | В целом, при тестировании БД на удовлетворение международным требованиям (проставление кодов системы Ethnologue (www.ethnologue.com), перевод признакового и языкового пространства, генетическая привязка), она этим требованиям удовлетворяет. |
5 | БД содержит языки и диалекты в едином списке. | [1] | Такая проблема существует, и обусловлена различными причинами. Одна из причин заключается в том, что четких границ между языком и диалектом не существует. Исследователь может выбрать языки из широкого списка на своё усмотрение. |
6 | Заполнение бумажного издания специалистами по различным языковым группам может привести к дублированию данных, как в самом издании, так и в БД. | [1] | Да, такая проблема есть, но она постепенно устраняется путем выверки рефератов. |
7 | При заполнении БД возникают ошибки. | [1] | Как показано в [1] число ошибок может составлять 2-4 %. |
8 | Отсутствие англоязычной информации в БД затрудняет ее продвижение на Западе. | [1] | Это действительно так. Частично эта проблема была решена с появлением Информационно-справочной версия БД. Но исходные файлы (в формате PDF) еще не переведены. |
Инкубатор:База данных "Языки Мира" ИЯз РАН.