Инкубатор:База данных "Языки Мира" ИЯз РАН

База данных "Языки Мира" Института Языкознания РАН - это электронный энциклопедический ресурс, охватывающий грамматические свойства языков, входящих в энциклопедическое издание «Языки мира».

Разработка концепции БД была начата в 80-е годы практически одновременно с реализацией проекта по созданию энциклопедии «Языки мира», осуществляемого под руководством члена-корреспондента РАН В.Н. Ярцевой . В качестве основного средства формализации была разработана так называемая «модель реферата», представляющая собой универсальную схему описания языка, где языковые явления и категории представлены в жестко заданной форме. БД содержит описание следующих сфер языка: фонетика, морфология, синтаксис.

Основную работу по заполнению БД выполнила Е.И. Ярославцева. Были созданы программные оболочки сначала для DOS, а затем для Windows (рабочая версия (1-я) и информационно-справочная версия (2-я). В ИЯз РАН под руководством А.А. Кибрика проведены работы по широкомасштабному тестированию БД. ^[1]

По состоянию на конец 2014 г. БД характеризуется следующими основными параметрами: 315 языков (в основном, Европы, Северной и Центральной Азии), более 3800 признаков, бинарный, иерархический, парадигматический формат представления данных.

Бинарность представления означает, что для каждого языка и для каждого признака в БД фиксируется только наличие или отсутствие этого признака в языке, но не степень его проявления. Таким образом, с математической точки зрения БД представляет собой прямоугольную бинарную матрицу размером 314 х 3800, содержащую более миллиона бит информации.

Иерархичность означает, что в структурном отношении модель реферата представляет собой классификационную схему в виде иерархического дерева.

Парадигматичность означает, что представление многих фактографических признаков в Базе Данных выполнено с использованием принципа парадигмы. Это означает, что в поле наименования признака записываются через косую черту (слэш) все его возможное значения. Важным аспектом использования компьютерных баз данных является не только удобство хранения и доступа к данным, но и возможность применения разнообразных математических и статистических методов исследования данных. С увеличением объема информации применение математических методов анализа становится все более насущным. ^[2]

Содержание

1 История создания базы данных "Языки Мира"
2 Представление данных
3 Объем данных
4 Источник данных
5 Версии базы данных
6 Список языков и языковых групп
7 Использование базы данных в квантитативных исследованиях
8 Критика базы данных
9 Примечания
10 Литература
- 10.1 На русском языке
- 10.2 На английском языке
11 Ссылки

История создания базы данных "Языки Мира"

В 80-е годы в Институте языкознания РАН были начаты работы по созданию базы данных (БД) «Языки мира». В качестве источника информации используется одноименное энциклопедическое издание (Языки мира 1993…2014). Работы были инициированы членом-корреспондентом АН В.Н. Ярцевой и велись в отделе прикладного языкознания под руководством А.И. Новикова. В разработке концепции и структуры БД принимали участие: А.К. Зотова, Н.К. Рябцева, Н. Рогова, О.И. Романова – анализ рефератов, В.А. Виноградов, М.А. Журинская, Я.И. Тестелец, Е.И. Ярославцева – авторы модели, Ю.П. Скокан, А.И. Новиков, Н.Н. Нестерова – компьютерная формализация модели.

Первая версия БД реализована программистом Ю.П. Скоканом в СУБД Clipper (MS DOS) в 1997 году. На БД получено регистрационное свидетельство ФГУП НТЦ «Информрегистр» № 7706 от 26 ноября 2001 г. Был сделан ряд публикаций . В 2005 году защищена докторская диссертация Е.И. Ярославцевой на тему «Компьютерная база данных “Языки Мира” и ее возможные применения». ^[2]

В 2002 году создана 1-я, рабочая, Windows-версия БД «Языки мира» (руководитель проекта − В.Н. Поляков, программист − В. Логунов).

В 2013 году была создана 2-я, информационно-справочная, версия БД «Языки мира» (руководители проекта − В.Н. Поляков, В.Д. Соловьев, программист – И.Анисимов)

Представление данных

База данных «Языки мира» организована иерархически. На высшем уровне данные разделены на две части: метаданные (часть 1) и данные (часть 2). Метаданные состоят из текстовой информации о названии языка, вариантов названия, генетической принадлежности, диалектных вариантах, социальном и политическом статусе, письменности, статусе в образовательной системе, письменности, исторической периодизации и изменениях, произошедших в результате контактов. Данные (часть 2) включают 20 разделов, нумерация и порядок которых точно соответствуют заголовкам и нумерации, принятым в энциклопедическом издании «Языки мира» (представлены в таблице 1).
Таблица 1

2.1.1. ФОНЕМНЫЙ СОСТАВ
2.1.2. ПРОСОДИЧЕСКИЕ ЯВЛЕНИЯ
2.1.3. ФОНЕТИЧЕСКИ ОБУСЛОВЛЕННЫЕ ПРОЦЕССЫ
2.1.4. СЛОГ
2.2.1. ФОНОЛОГИЧЕСКАЯ СТРУКТУРА
2.2.2. ФОНОЛОГИЧЕСКИЕ ПРОТИВОПОСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ КАТЕГОРИЙ
2.2.3. МОРФОЛОГИЧЕСКИ ОБУСЛОВЛЕННЫЕ ЧЕРЕДОВАНИЯ
2.3.0. МОРФОЛОГИЧЕСКИЙ ТИП ЯЗЫКА
2.3.1. КРИТЕРИИ ВЫДЕЛЕНИЯ ЧАСТЕЙ РЕЧИ
2.3.2. ИМЕННЫЕ КЛАССИФИКАЦИИ
2.3.3. ЧИСЛО
2.3.4. ПАДЕЖНЫЕ ЗНАЧЕНИЯ
2.3.5. ГЛАГОЛЬНЫЕ КАТЕГОРИИ
2.3.6. ДЕЙКТИЧЕСКИЕ КАТЕГОРИИ
2.3.7. ЧАСТИ РЕЧИ
2.4.0. ПАРАДИГМЫ
2.5.1. СТРУКТУРА СЛОВОФОРМЫ
2.5.2. СЛОВООБРАЗОВАНИЕ
2.5.3. ПРОСТОЕ ПРЕДЛОЖЕНИЕ
2.5.4. СЛОЖНОЕ ПРЕДЛОЖЕНИЕ

Внутри этих 20 разделов содержимое реферата представлено в виде набора иерархически организованных бинарных признаков. В качестве примера организации в таблице 2 представлены признаки, входящие в последний раздел «Сложное предложение».
Таблица 2

Номер в базе данных	Наименование и уровень в иерархии признака	Name and level in the feature hierarchy
3773	2.5.4.СЛОЖНОЕ ПРЕДЛОЖЕНИЕ	2.5.4.COMPLEX SENTENCES
3774	.О	.О (this symbol, when annotated with the value ‘true’ indicates that information for the features within the section is absent)
3775	.линейный порядок компонентов	.linear order of clauses
3776	..главное предшествует придаточному	..the main clause precedes the subordinate clause
3777	..главное предшествует целевому	..the main clause precedes the purpose clause
3778	..не фиксирован	..free order
3779	..придаточное предшествует главному	..the subordinate clause precedes the main clause
3780	..целевое предшествует главному	..the purpose clause precedes the main clause
3781	.особенности подчиненного компонента	.features of the subordinate clause
3782	..особое оформление именных групп	..special marking of noun phrases
3783	..особое оформление подлежащего	..specific marking of a subject
3784	..особый порядок слов	..specific word order
3785	..оформление сказуемого	.. marking of a predicate
3786	...зависимые личные формы	...dependent finite forms
3787	...квотатив	...quotative
3788	...нефинитные формы	...non-finite forms
3789	...оборот с релятивной формой глагола	...phrase with a relativized verb form
3790	...особые глагольные показатели	...specific verbal markers
3791	...особый порядок слов	...specific word order
3792	...таксисные конструкции	...taxis
3793	...финитные формы	...finite verb forms
3794	...абсолютные обороты	... absolute constructions (e.g., Latin Ablativus Absolutus)
3795	..'тематическое' придаточное	.. topical dependent clause
3796	.особенности построения дискурса	.peculiarities of discourse structure
3797	..обвиатив	..obviation
3798	..переключение референции	.. switch-reference
3799	.структура относительного предложения	.relative clause structure
3800	..главное предшествует придаточному	.. the main clause precedes the subordinate clause
3801	..относительно-местоименные аффиксы в глаголе	..relative pronominal affixes on a verb
3802	..отсутствие союзного слова или его аналога	..absence of a conjunction or its analogue
3803	..придаточное предшествует главному	..the subordinate clause precedes the main clause
3804	..союзное слово в главном	..a conjunction in the main clause
3805	..союзное слово в придаточном	..a conjunction in the subordinate clause
3806	..сказуемое придаточного следует за союзом	..the predicate of the subordinate clause follows the conjunction
3807	.тип построения	.type of construction
3808	..сериализация	..serialization
3809	..сочинение/подчинение	..coordination/subordination
3810	..только подчинение	..only subordination
3811	..только сочинение	..only coordination
3812	.тип связи	.type of connection
3813	..союзная/бессоюзная	..conjunctional/non-conjunctional
3814	..преобладает бессоюзная	..non-conjunctional prevails
3815	..преобладает союзная	..conjunctional prevails
3816	..союзы	..conjunctions
3817	...знаменательные слова	...full words (as opposed to particles) used as conjunctions
3818	...отсутствие союзов как грамматического разряда	...absence of conjunctions as a grammatical category
3819	...присоединяемые служебные элементы	...attached syntactic (non-lexical) elements
3820	...самостоятельные служебные элементы	...independent syntactic (non-lexical) elements
3821	...союзные формы глагола	...conjunctional verb forms

Точки, предшествующие каждому признаку, указывают на степень иерархической вложенности. Например, признак номер 3818 вложен в третий подуровень:

СЛОЖНОЕ ПРЕДЛОЖЕНИЕ

1-ый подуровень: тип связи

2-й подуровень: союзы

3-й подуровень: отсутствие союзов как грамматического разряда

Информация представлена в виде простой таблицы, где значения «истина» (присутствует) или «ложь» (отсутствует) даны для каждого номера в базе данных.

Объем данных

База данных «Языки мира» включает более 3800 бинарных признаков и 315 языков (включая языковые диалекты, по различным причинам выделенные в отдельную языковую статью). Таким образом, теоретическое максимальное число бинарных точек равняется: 3801*315=1197315. Однако, для некоторых признаков данных не существует. В таких случаях комбинация символа «.О» и пометки «ложь», следующих за заголовком раздела означает, что данных не существует для указанного подмножества признаков языка (например, см. 2.1.1. ФОНЕМНЫЙ СОСТАВ для пиктского языка). Частота таких «отсутствующих разделов» и количество признаков, содержащихся в них, составляют до 83164 бинарных состояний ^[1]. Таким образом, общее количество бинарных состояний равняется 1114151. Кроме того, следует учитывать иерархическую структуру. Если посчитать только терминальные признаки, бинарных состояний станет гораздо меньше. Количество терминальных признаков 3340, из которых только 3198 представлены в каких-либо языках. Таким образом, теоретический максимум достигает 1007370 (по состоянию на конец 2014 года).

Источник данных

Практически единственным источником данных является энциклопедическое издание «Языки мира», которое выходит в Институте языкознания Российской академии наук с 1993 по сей день. Структура набора признаков, представленных в базе данных, является копией энциклопедической статьи, переведенной в бинарный иерархический формат. Тот факт, что база данных «Языки мира» основана на печатной энциклопедии, является одной из уникальных характеристик базы данных. Это также оказало значительное влияние на характер принимаемых решений на этапе разработки модели реферата и базы данных.

В связи с длительным временем подготовки печатных изданий электронная версия появлялась раньше (вводилась на основании черновиков), чем выходило бумажная версия энциклопедии. Таким образом, возникало опережение базой данных. В настоящее время ситуация изменилась, бумажная версия опережает электронную.

Версии базы данных

MS DOS версия

Первая версия БД реализована программистом Ю.П. Скоканом в СУБД Clipper (MS DOS) в 1997 году.

Windows, рабочая версия (1-я)

Windows-версия БД (версия 1) представляет собой 32-разрядное приложение, написанное на языке Delphi Pascal (версия 7). В качестве СУБД используется Borland DataBase Engine (BDE). Рабочая среда: Windows 95/98/2000/NT/XP. Объем инсталляционного варианта: 17,4 МБ. Объем программы вместе с БД (версия от 01.12.2006): 18,8 МБ.

Версия 1 базы данных представляет собой полномасштабное приложение, позволяющее вводить, удалять и редактировать список языков, модель реферата, рефераты языков. Кроме того, версия 1 позволяет выгружать и загружать рефераты языков в текстовом формате.

Windows, информационно-справочная версия (2-я)

Версия 2013 г. написана на языке С# с использованием библиотеки ASP.NET и, таким образом, требует для использования установленной Microsoft.NET Framework 2.0 и выше.

Имеется возможность загрузки рефератов из текстовых файлов. Однако нет возможности пополнять список языков и список характеристик. Общий объем инсталляционной версии программного обеспечения – около 1 ГБ.

Программа предоставляет более удобный интерфейс для просмотра основных данных базы, включает ссылки на исходную статью о языке в энциклопедии (оцифрованную в pdf).

Имеет более мощный поисковый аппарат, чем предыдущая версия.

В нее включены «Глоссарий», который дает расшифровку всех терминов модели описания языка; генетический указатель, географический указатель, содержащий наименование области распространения языка и географические координаты ее центра (по атласу ЮНЕСКО); перевод на английский признаков; англоязычное название языка; код языка, соответствующий принятому международному стандарту ISO 639-2 (портал Ethnologue). Программа имеет двуязычный интерфейс (русский, английский).

Финансирование работ по созданию новой версии осуществлялось из источников РГНФ (грант № 10-04-12125в) и НОЦ "Лингвистика" им. Бодуэна де Куртенэ (руководитель В. Д. Соловьев). Существенный вклад в создание новой версии был сделан И. С. Анисимовым (программирование), О. И. Беляевым (реализация новой интерфейсной концепции), Е. А. Логиновой (координаты языков), группой Языки Мира ИЯз РАН (руководитель А. А. Кибрик, тексты статей с описанием языков в формате PDF, научное консультирование), В. Т. Козловым, Г. А. Черкасовой (информационная и административная поддержка), Е. А. Макаровой (перевод, выверка контента).

Список языков и языковых групп

Языки, включенные в базу данных «Языки мира» принадлежат к следующим языковым семьям (количество языков для каждой семьи указано в скобках):

Кроме того, представлены следующие языки-изоляты: айнский, бурушаски, эламский, японский, нивхский, шумерский, юкагирский. И представлен 1 австронезийский язык (ротума).

Уникальной особенностью базы данных «Языки мира» является то, что она содержит не только живые, но и 56 вымерших языков, которые могут быть полезными для анализа диахронических процессов.

Список языков, включенный в базу данных «Языки мира». Вымершие языки помечены буквой «м».

Использование базы данных в квантитативных исследованиях

Генетическое дерево. Программа Similarity

В ^[2] подробно рассказано о методике получения расстояний между языками на основании грамматической информации.

В 2009 году был проведен эксперимент по сравнению трех источников данных: ‘Automated Similarity Judgment Program’ (ASJP), базы данных «Языки мира» ИЯз РАН и WALS ^[1].

Было выбрано тестовое задание из 38 языков, присутствующих во всех трех базах данных.

Была рассчитана матрица расстояний между языками, которая с помощью алгоритма присоединения соседей «Neighbour-Joining algorithm» ^[3] была трансформирована в генетическое дерево (рис. 1, 2, 3).

Рис. 1. ASJP дерево для выбранных языков.
Рис. 2. JM дерево для выбранных языков
Рис. 3. WALS дерево для выбранных языков.

Результаты построения дерева показали, что по точности совпадения с классическим представлением на первом месте стоит ASJP, на втором – база данных «Языки мира», и на третьем – WALS.

Таким образом, показано, что грамматические данные уступают лексикостатистическим данным по точности результатов, но также способны отражать генетические зависимости.

Диаграммы распределения частотности признаков

"Язык-признак" диаграмма для 315 языков, содержащихся в базе данных "Языки Мира" ИЯз РАН

База данных «Языки мира» позволяет получить данные о том, сколько признаков существует ровно в n языках ^[2]. На диаграмме (рис. 4) приведены соответствующие данные в форме графика. Графики этого типа названы ЯП-диаграммами («язык-признак диаграмма»).

ЯП-диаграммы применяются в изучении отдельных семей, ветвей, групп. Таким образом, с помощью простых числовых подсчетов на материале базы данных «Языки мира» обнаружено новое явление, состоящее в гиперболической форме ЯП-диаграммы и постоянстве этой формы для различных языковых групп.

Программа LangFamilies

Для расчета и исследования квантитативных портретов была написана программа LangFamilies на языке VBA, которая рассчитывает частоту признаков по всем элементам генетического указателя БД «Языки мира» (макросемьи, семьи, ветви, группы) и по всей БД в целом . После этого появляется возможность проведения сопоставительного анализа распределения признаков по разделам реферата и по семьям (ветвям).

Квантитативный портрет

Методика основывается на использовании раритарных признаков. Раритарный признак (раритарий) это тот, частота которого в данной семье значительно ниже 50%, но при этом выше, чем в других семьях. Идея использования раритариев для проверки спорных генетических гипотез возникла из предположения о том, что раритарные признаки могут нести более достоверную информацию о генетической близости, чем универсальные. Эта точка зрения убедительно подтверждается результатами расчетов квантитативных карт ^[2] и полученными закономерностями в динамике признаков ^[2].

Метод основывается на подборе таких фильтров на квантитативных портретах языковых семей, чтобы можно было выявить совпадение раритарных признаков в анализируемых языковых семьях, ветвях, языках-изолятах. Хорошее совпадение свидетельствует о генетической близости.

Типологический сдвиг

Наличие в БД достаточно полных описаний 56-ти мертвых языков позволяет провести систематическое сравнение распространения свойств в языках, существовавших в среднем 2 тыс. лет назад, и современных. Это дает новый инструмент анализа языковой эволюции.

Обнаружено явление, названное «типологическим сдвигом» и состоящее в том, что за указанный промежуток времени частотные признаки (статистические универсалии) стали еще более частотными, а редкие признаки (раритарии) подверглись вымыванию.

Критика базы данных

N п.п.	Замечание	Источник	Ответ на замечание
1	Метаданные представлены в текстовом формате.	^[1]	Частично устранено в Информационно-справочной версия БД. Появились указатели: генетический, географический, координаты языков.
2	Данные представлены в бинарном формате, нет градации, нет размытости.	^[1], устное замечание на конференции	Частично представлены в парадигматичных признаках. На основе БД «Языки мира» ИЯз РАН можно создавать локальные БД, удовлетворяющие новым требованиям.
3	Привязка разделов БД к разделам текстового издания, которое может устаревать по своей структуре.	^[1]	Да, структура может устаревать, например, в разделе «Сложное предложение» нет информации о теории Хомского. Но, в целом, бумажное издание энциклопедии выверялось не один год, и прошло проверку временем.
4	БД отражает предпочтения и взгляды российской типологической школы.	^[1]	В целом, при тестировании БД на удовлетворение международным требованиям (проставление кодов системы Ethnologue (www.ethnologue.com), перевод признакового и языкового пространства, генетическая привязка), она этим требованиям удовлетворяет.
5	БД содержит языки и диалекты в едином списке.	^[1]	Такая проблема существует, и обусловлена различными причинами. Одна из причин заключается в том, что четких границ между языком и диалектом не существует. Исследователь может выбрать языки из широкого списка на своё усмотрение.
6	Заполнение бумажного издания специалистами по различным языковым группам может привести к дублированию данных, как в самом издании, так и в БД.	^[1]	Да, такая проблема есть, но она постепенно устраняется путем выверки рефератов.
7	При заполнении БД возникают ошибки.	^[1]	Как показано в ^[1] число ошибок может составлять 2-4 %.
8	Отсутствие англоязычной информации в БД затрудняет ее продвижение на Западе.	^[1]	Это действительно так. Частично эта проблема была решена с появлением Информационно-справочной версия БД. Но исходные файлы (в формате PDF) еще не переведены.

Примечания

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ ¹² Polyakov V., Solovyev V., Wichmann S., Belyaev O. - Using WALS and Jazyki mira. Language Typology v.13, 2009, p. 135-165. ISSN 1430-0532 (на английском)
↑ Поляков В.Н., Соловьев В.Д. - Компьютерные модели и методы в типологии и компаративистике. Монография. Казань: КГУ, 2006. 210 с.
↑ Saitou, Naruya and Masatoshi Nei - The neighbor-joining method: a new method for reconstructing phylogenetic trees. Molecular Biology and Evolution 4: 1987. pp. 406-425

Литература

На русском языке

Виктория Ярцева, Борис Серебренников (Ред.). Принципы описания языков мира. М: Наука, 1976, 343 с.
Виноградов В.А., Новиков А.И., Ярославцева Е.И. База данных «Языки мира» как инструмент лингвистического исследования // Вопросы языкознания. − 2003. − №3. C. 3-14.
Журинская М.А., Новиков А.И., Ярославцева.Е.И. Энциклопедическое описание языков. М., "Наука", 1986, 207 с.
Поляков В. Н. Проблема онтогенеза языка и новые перспективы использования лингвистических баз данных, Вестник МГЛУ, Выпуск 13, 2011, 175-181. ISSN 1993-4750
Поляков В.Н., Ярославцева Е.И. Квантитативные закономерности типологического сдвига в языках Евразии (на материале БД «Языки мира» ИЯ РАН). Ученые записки Казанского университета. Серия: Гуманитарные науки, т.150, кн. 2, 2008, с.97-118. ISSN 1815-6126.
Соловьев В.Д., Байрашева В.Р. Статистические параметры грамматик кыпчакского и огузского языков. Ученые записки КГУ. Серия: Гуманитарные науки, Т.149, кн.4, 2007. с. 104-108. ISSN 1815-6126.
Теоретические основы классификации языков мира. (Ред: В. Ярцева) Издательство: Наука. 1980 г. 208 c.
Ярославцева Е.И. Грамматикон, его виды и аналоги // Язык, сознание, коммуникация: Сб. статей./ Ред. В. В. Красных, А. И. Изотов. - М.: Диалог-МГУ, 1999. Вып. 10. 160 с. ISBN 5-89209-503-7
Ярославцева Е.И. Компьютерная база данных «Языки Мира» и ее возможные применения. Автореф. … д-ра фил. наук по специальности 10.02.21 − прикладная лингвистика. − ИЯз РАН, 2005.
Ярцева В.Н. (отв. ред.) Языки и диалекты мира. Проспект и словник. М.: Наука, 1982. - 208 с.

На английском языке

Ivan Anisimov, Vladimir Polyakov, Valery Solovyev. Database “Languages of the World”. New Version. New Research Horizons. Collection of Papers of the First International Forum on Cognitive Modeling (14-21 September, 2013, Italy, Milano-Marittima). In 2 parts. / Edited by S. Masalóva V. Solovyev. - Part 1. Cognitive Modeling in Linguistics: Proceedings of the XIV International Conference « Cognitive Modeling in Linguistics. CML-2013». Rostov-on-Don: Southern Federal University Press, 2013. P. 27-34. ISBN 918-5-87872-731-0

Ссылки

The World Atlas of Language Structures (WALS) Online
The Automated Similarity Judgment Program (ASJP) Online

Ekb-oskab.ru

Прием лома металлов

Статьи