Публикуем обзор статьи (Kassian et al., 2021) Permutation test applied to lexical reconstructions partially supports the Altaic linguistic macrofamily от одного из ее соавторов. В статье методами компаративистики показана неслучайность сходств языковых семей, входящих в алтайскую макросемью.
Илья Егоров, н.с. ШАГИ РАНХиГС (Москва)
Алтайская проблема
Алтайская гипотеза предполагает родство, т.е. происхождение от общего языка-предка, пяти языковых семей Евразии: тюркской, монгольской, тунгусо-маньчжурской, японской (кроме японских диалектов включает рюкюские языки) и корейского языка. Эта гипотеза существует в двух версиях. “Узкая” версия предполагает только родство тюркских, монгольских и тунгусо-маньчжурских языков. В московской школе компаративистики их принято называть ядерными алтайскими языками. “Широкая” версия включает также корейский и японский. Все вместе это называется алтайской макросемьей. Иногда термин алтайская (макро)семья используют только для клады, включающей тюркские, монгольские и тунгусо-маньчжурские языки, а говоря о единстве с корейский и японским, употребляют термин трансевразийская макросемья.

Рисунок 1. Современная территория распространения языковых семей, которые включаются в алтайскую (трансевразийскую) макросемью.
Алтайская гипотеза в ее узком варианте с добавлением корейского была сформулирована Густавом Рамстедтом еще в начале ХХ века (см. Рамстедт 1957). Однако первая последовательная фонетическая реконструкция праалтайского языка появилась только на рубеже тысячелетий с выходом “Этимологического словаря алтайских языков” (Starostin, Dybo, Mudrak 2003). Гипотеза Рамстедта вызвала активную критику со стороны специалистов по отдельным семьям, с выходом алтайского словаря поднялась новая волна критики. История споров об алтайской проблеме изложена в обобщающей книге Вацлава Блажека (2019), которая также является хорошим введением в алтаистику.
Неслучайность сходств в фонетике, грамматике и лексике тюркских, монгольских и тунгусо-маньчжурских языков можно считать общепризнанной. Но трактовка этих сходств различна. Противники алтайской гипотезы утверждают, что они вызваны тесными и очень продолжительными контактами. Сторонники теории алтайского родства связывают часть сходств с общим происхождением этих языков, обычно признавая, что другие сходства вызваны языковыми контактами. Контактное объяснение возможно и для корейского с японским. Неслучайность сходств между двумя гипотетическими кладами ядерной алтайской и японско-корейской нуждается в дополнительном обосновании.
Доказательство родства vs предворительное сравнение
Стандартным доказательством языкового родства считается нахождение регулярных фонетических соответствий в базисной лексике. Базисная лексика — часть словаря, не зависящая от типа культуры и демонстрирующая особенную устойчивость.
На практике поиску регулярных фонетических соответствий обычно предшествует этап, когда лингвист “на глазок” оценивает сходство лексики. Формализовать этот этап работы можно путем сравнения слов по консонантным классам. Консонантные фонемы, т.е., проще говоря, согласные, подвержены изменению с ходом времени гораздо меньше, чем гласные. При этом изменения в глухости / звонкости, мягкости / твердости, придыхательности или в таких деталях, как приподнятость или опущенность кончика языка (сравните английский t и русский т), встречаются все-таки довольно часто. Если как бы закрыть глаза на эти менее существенные признаки, то согласные можно объединить в определенные классы, например П-образные, Т-образные, Н-образные, М-образные, Р-образные, шипяще-свистящие и т.д.
Каждое привлекаемое к сравнению слово редуцируется до консонантных классов. Поскольку одна из самых частотных моделей корня в языках Евразии — это согласный-гласный-согласный, удобно сравнивать структуры из двух согласных. Например, прамонгольское слово *nogoha ‘зеленый’ превращается в NK, также как и пратунгксское *ɲog ‘зеленый’, а прамонгольское *čila ‘камень’ и пратунгусское *ǯolo ‘камень’ становятся ƷL.
А что, собственно, сравниваем?
Как уже было сказано, для доказательства родства нужно исследовать в первую очередь базисную лексику. Один из самых популярных списков базисной лексики — 100-словный список Морриса Сводеша. Московской школой компаративистики в 2010 году была разработана версия этого списка со строгим уточнением каждого значения (Kassian et al. 2010). Было, например, установлено, что в значении ‘нога’ нужно брать эквивалент ‘foot’, а не ‘leg’; в значении ‘плавать’ брать глагол описывающий действия человека, а не лодки или бревна.
Для исследований в области дальнего языкового родства ключевым является принцип ступенчатости реконструкции. Это значит, что к сравнению привлекаются не слова современных языков, а реконструированные формы праязыков, чье существование не вызывает сомнений. Так, говоря об алтайском родстве, мы должны работать с пратюркскими, прамонгольскими, пратунгусскими, пракорейскими и праяпонскими формами. На практике успешную реконструкцию удается сделать только для четырех семей. Данные древнекорейских памятников и корейских диалектов слишком скудные, чтобы можно было сделать надежную реконструкцию списка Сводеша. Поэтому вместо пракорейского используется список, собранные по памятникам позднего среднекорейского периода (XV-XVI вв.).
Фонетическая реконструкция — довольно строгая процедура, но все же она допускает некоторую свободу в интерпретации. Разные исследователи могут восстанавливать немного разные фонемы праязыка на основании одних и тех же регулярных соответствий или признавать разные системы соответствия. Иногда эти расхождения могут быть серьезными и касаться принадлежности согласного к одному или другому консонантному классу. Так в случае с японским Сергей Анатольевич Старостин реконструировал d- в тех местах, где другие лингвисты реконструируют y-. Это обстоятельство заставляет использовать две версии праяпонской реконструкции.
Если фонетическая реконструкция уже давно является строгим методом, то реконструкция значения долгое время делалось на глазок. Ноу-хау московской школы компартивистики — строгий метод ономасиологической реконструкции. Ономасиологическая реконструкция предполагает, что исследователь подбирает оптимальный корень (или основу), которым могло выражаться данное значение в праязыке. Иными словами, это реконструкция от значения к форме. Строгим этот метод делают 5 критериев, по которым осуществляется такой отбор:
- Представленность корня в разных подгруппах языковой семьи должна быть такая, чтоб она предполагала минимальное количество семантических переходов в истории языков этой семьи.
- Даже если корень нашелся в языках разных подгрупп, они не должны быть географически смежными. Это нужно чтобы исключить заимствования и ареальные влияния.
- Если корень имеет внешние параллели за пределами семьи или группы, он более предпочтителен, чем тот, что представлен лишь в данной группе или семье.
- Предпочтение отдается непроизводным корням, а основы с аффиксами и корнесложения считаются более слабыми кандидатами.
- Сценарий изменений значения корня в отдельных языках должен предполагать типологически более вероятные развития с точки зрения типологии семантических переходов.
Таким образом было реконструировано четыре списка (пратюркский, прамонгольский, пратунгусо-маньчжурский, праяпонский), при этом японский в двух версиях (с d-реконструкцией С.А. Старостина и с консервативной y-реконструкцией), и один список собран по среднекорейским памятникам.
Как доказать, что сходства неслучайны?
Для доказательства неслучайности сходств используется перестановочный тест. Принцип перестановочного теста прост. Одинаковые структуры из двух согласных (биконсонантные структуры) в каждой паре языков помечаются как совпадения. Дальше один из списков перемешивается в случайном порядке, и снова оценивается количество совпадений. Если сделать таких перестановок достаточно много, то можно понять среднюю вероятность случайного совпадения биконсонантных структур между списками. На основе этого показателя можно оценить, какова вероятность того, что совпадения, имеющиеся в исходных списках случайные. Чем меньше такая вероятность, тем более статистически значимы эти совпадения. Так выглядит классический перестановочный тест, он не взвешенный, это значит, что все потенциальные совпадения биконсонантных структур имеют одну цену (один вес).
Но в настоящей работе использован взвешенный перестановочный тест (еще одно ноу-хау московской школы), который устроен следующим образом. 110 сводешевских концептов ранжированы по своей типологической устойчивости, например, слово ‘глаз’ в целом стабильнее в языках мира, чем слово ‘грудь’, слово ‘новый’ стабильнее, чем слово ‘круглый’. Чем выше индекс стабильности у концепта, тем выше цена за биконсонантное совпадение в этом концепте. Дешевизна совпадений в низко стабильных концептах оправдана тем, что чем менее стабилен концепт, тем выше вероятность лексической замены, которая, в свою очередь, может быть случайно созвучна слову из другого языка.
Что показало автоматическое сравнение?
Алгоритм обнаружил 66 пар биконсонантных совпадений в списках Сводеша пяти языковых семей. Сравним этот результат со взглядом авторов “Этимологического словаря алтайских языков”, в котором этимологически родственные слова определяются по регулярным фонетическим соответствиям, а не по консонантным классам. Получается, что среди выявленных алгоритмом соответствий 11 (17%) ложноположительные, т.е. эксперты их не признают родственными. А еще 74 пары, которые лингвисты считают родственными, алгоритм не выявил. В этих случаях фонетические изменения привели к смене консонантного класса. Относительно небольшое количество ложноположительных результатов можно считать достоинством метода.
Перестановочный тест показал высокую статистическую значимость совпадений между ядерными алтайскими семьями (тюркской, монгольской и тунгусо-маньчжурской). Сравнение с японским дало более слабый результат: статистическую значимость имеют только японско-тюркские и японско-тунгусские совпадения.
А вот совпадения лексики любого из четырех языков с корейским статистической значимости не показали. Это может быть связано с историей корейской фонетики. Большинство неначальных согласных в этом языке исчезли, а в начале некоторых слов добавилось s. Эти процессы очень сильно изменили структуру корня. Неудивительно, что в такой ситуации метод консонанных классов не смог найти достаточно совпадений в других алтайских семьях.

Таблица 2. Вероятность фонетических совпадений между пятью семьями, составляющими гипотетическую алтайскую макро-семью, по данным взвешенного перестановочного теста. Сверху результаты с использованием праяпонской реконструкции С.А. Старостина, снизу с консервативной реконструкцией. Цветом обозначены статистически значимые значения: зеленым — α = 0.001; желтым — α = 0.01; красным — α = 0.05.
Доказано ли родство?
Может ли перестановочный тест доказать родство языков? Строго говоря, нет. Для доказательства родства недостаточно просто показать, что какие-то слова похожи. Должна быть продемонстрирована регулярность фонетических соответствий. Можно даже сказать, что систематические различия интересуют компаративистов намного больше, чем внешнее сходство слов. Статистически значимые результаты перестановочного теста, скорее, нужно трактовать как эвристическое указание на связь языков. Но эта связь может быть как генетической, так и обусловленной контактами.
Вместе с тем, отсутствие статистически значимых результатов перестановочного теста для биконсонантных структур не опровергает родство языков. Хотя мы и ожидаем, что большинство фонетических изменений происходит в пределах одного консонантного класса, ничто не запрещает фонетические процессы, приводящие к смене класса. Например, переход č > s или z > r довольно часто встречается в языках мира, не говоря уже просто об отпадении конечных согласных.
Высокая статистическая значимость совпадений между ядерными алтайскими семьями (тюркской, монгольской и тунгусо-маньчжурской) позволяет трактовать их и как результат контактов, и как следы генетического родства. Мы знаем, что контакты между языками этих семей имели место в древности и продолжаются по сей день. Другое дело статистически значимые совпадения в парах японский-тунгусский и японский-тюркский. Ввиду географической близости можно было бы спекулировать о древних японско-тунгусских контактах (хотя, конечно, намного больше это похоже на древнее родство). Но вот контактный сценарий с заимствованной лексикой между пратюркским и праяпонским требовал бы некоторых сильных допущений по причине громадной географической дистанции между ареалами этих языковых семей. Сценарий языкового родства в тюркско-японском случае представляется куда более экономным.
Оригинальная статья
Kassian, A., Starostin, G., Egorov, I., Logunova, E., & Dybo, A. (2021). Permutation test applied to lexical reconstructions partially supports the Altaic linguistic macrofamily. Evolutionary Human Sciences, 3, E32. doi:10.1017/ehs.2021.28
Литература
Рамстедт, Г.И. (1957). Введение в алтайское языкознание. Москва.
Blažek, V. (2019). Altaic languages: History of research, survey, classification and a sketch of comparative grammar. Masaryk University Press.
Kassian, A. S., Starostin, G., Dybo, A., & Chernov, V. (2010). The Swadesh wordlist. An attempt at semantic specification. Journal of Language Relationship, 4, 46–89.
Starostin, S. A., Dybo, A. V., & Mudrak, O. A. (2003). Etymological dictionary of the Altaic languages (Vols 1–3). Brill.
//////что в значении ‘нога’ нужно брать эквивалент ‘foot’, а не ‘leg’; в значении ‘плавать’ брать глагол описывающий действия человека, а не лодки или бревна//////
В этом и заключается главная проблема в применении математических методов к анализу данных лингвистов. Формирование исходных массивов слов (для выполнения их анализа) не формализовано.
Английское FOOT и русское ПЯТА – это две формы одного и того же слова с близкими значениями (Ф <> П). Формы слова восходят к праформе УД в значении в русском языке «всякая конечность».
Русское ПЛАВАТЬ и английское FLOAT – это две формы одного и того же слова, означающие одно и тоже (АВА <> ОА). Причем, в английский язык это слово попало с русской глагольной частицей АТЬ/ИТЬ.
Какой результат дадут математические методы анализа данных, если исходный массив слов сформирую я? Например, мой массив будет содержать всего два слова – FOOT-ПЯТА и ПЛАВАТЬ-FLOAT.
P.S. Я не нашёл сам массив слов, с которым работали авторы статьи. Ссылка из статьи к нему не ведёт. Дайте, пожалуйста, ссылку.
||||||Высокая статистическая значимость совпадений между ядерными алтайскими семьями (тюркской, монгольской и тунгусо-маньчжурской) позволяет трактовать их и как результат контактов, и как следы генетического родства. Мы знаем, что контакты между языками этих семей имели место в древности и продолжаются по сей день. Другое дело статистически значимые совпадения в парах японский-тунгусский и японский-тюркский. Ввиду географической близости можно было бы спекулировать о древних японско-тунгусских контактах (хотя, конечно, намного больше это похоже на древнее родство). Но вот контактный сценарий с заимствованной лексикой между пратюркским и праяпонским требовал бы некоторых сильных допущений по причине громадной географической дистанции между ареалами этих языковых семей.||||||
Одной из основ выделения алтайской языковой семьи являются представления о том, что сообщества, говорящие на тюркском языке, сформировались на территории Восточной Монголии. В том же регионе, где сформировались монгольский и тунгусский языки. То есть, тюркский язык должен иметь примерно такой же уровень не случайного созвучия с японским, как и два других языка. Получается, что авторы статьи оперируют только современной географией языков или отрицают представления о формировании тюркского языка на территории Восточной Монголии.
Мне не понятны сами основы компаративистики.
Например, что имеется в виду под монгольским языком? Не абстрактным, а конкретным с которым работала московская школа компаративистики. В справочнике [http://feb-web.ru/feb/litenc/encyclop/le7/le7-4511.htm] сообщается, что письменный монгольский язык окончательно сформировался в XV в. В нем имеется много заимствований из уйгурского языка. Отмечено: «Живой разговорный монгольский яз. очень сильно отличается от языка письменности, представляя собою в сущности другой язык». Что взять за основу реконструкции прамонгольского языка? Письменный монгольский язык XV в. однозначно искусственный. Сформирован для передачи буддийских духовных текстов. Благодаря заимствованиям из уйгурского языка, выделенные из него редуцированные корни дадут неслучайное созвучие с тюркским языком. Если брать диалекты современного монгольского языка, то они испытали влияние письменного.
Не понятны и частности.
/////// Например, прамонгольское слово *nogoha ‘зеленый’ превращается в NK, также как и пратунгксское *ɲog ‘зеленый’, а прамонгольское *čila ‘камень’ и пратунгусское *ǯolo ‘камень’ становятся ƷL.//////
Сочетание в словах Н_Г может быть следствием трансформации большого юса. В одних словах он закрепился как звук «Г», в других – «Н_Г». Пример: УГР <> ВЕНГР. То есть, прамонгольское слово NOGOHA в других языках может иметь форму GOHA. Эта форма есть в якутском языке – ОТ КҮӨХ: ГОХА = КЫОХ = КК. Но это формально. В бурятском «зелёный» — НОГООН. То есть, ОХ/АК и АН в этих словах суффиксы. А корень слова состоит из одного гласного звука К/Г.
А промонгольское слово ČILA вполне может быть специфической формой слова КАЛА (фарси), которое попало в монгольский через уйгурский язык.
С маньчжурами совсем не понятно. Были чжурчжэни и «малое чжурчжэньское письмо» (МЧП). В соответствии с указом императора Хунтайцзи с 1636 года чжурчжэни стали именоваться маньчжурами. Маньчжурский язык тождествен «малому чжурчжэньскому письму». В справочнике сообщается, что письменность маньчжуров «создана в 1599 на основе монг. алфавита». Наверняка имеется в виду МЧП. То есть, письменные источники по маньчжурскому языку датируются не ранее XVIIв.
Бурыкин: «монгольские и тюркские элементы в лексике языка малого чжурчжэньского письма занимают весьма значительное место и составляют около 20 процентов известного нам лексического состава языка МЧП. … Слова тюркского происхождения в языке МЧП представлены не слишком большим числом примеров».
Исходя из мнения Бурыкина, совершенно непонятны цифры вероятностей фонетических совпадений между тюркским, монгольским и маньчжурским языками (таблица). Вероятность совпадений между монгольским и маньчжурским языками минимальная, а между тюркским и маньчжурским – максимальная. В соответствии с уровнями заимствований должно быть наоборот.
P.S. Плохо, что я не имею возможность посмотреть список слов, с которыми работали авторы статьи.
В открытом доступе со статьей в разделе suppl.mat. находятся и стословник, и файл с пояснениями авторов к каждому слову. За основу для сравнения от каждой семьи берется не набор языков, а реконструированный праязык. Реконструкция же производится на материале всех известных языков семьи, как и в случае с тунгусо-маньчжурской , в которой упомянутый «маньчжурский» — лишь один из…
Из статьи: To view supplementary material for this article, please visit https://doi.org/10.1017/ehs.2021.28
Я нажимаю на ссылку и попадаю опять на эту же статью.
//////Реконструкция же производится на материале всех известных языков семьи, как и в случае с тунгусо-маньчжурской , в которой упомянутый «маньчжурский» — лишь один из…//////
Это правильно. А у каких тунгусо-маньчжурских языков в прошлом имелась своя письменность? Кроме «малого чжурчжэньского письма».
Правильно, другие статьи и не нужны. Сразу под заголовком и списком авторов имеется раздел-распашонка Article. Нажимаете на стрелку V справа, раскроется доп.список, там будут и прилож.мат.
Тунгусы обзавелись письмом недавно.
Спасибо. С приложениями разобрался.
Ещё раз посмотрел Ваш текст. Получается, что тунгусо-маньчжурская семья представлена у вас только тунгусским языком. По современному тунгусскому языку (тому, которые закреплен в недавно созданной письменности) вы реконструировали пратунгусский язык. При этом принимали во внимание и другие языки семьи. Так? А почему вы не выбрали чжурчжэньский язык, закрепленный в «малом чжурчжэньском письме»? Он же гарантированно ближе к некогда единой алтайской мегасемье.
Не уловил что хотели спросить.
Если о словах. «Тунгусы» — я имел в виду не конкретно-этническое, а лингв.определение: носители тунгусских языков тунгусо-маньчжурской семьи. В статье же Tungusic=ТМС «по-русски», т.е. включает и староманьчжурский диалект (чжурчжэней).
Или вопрос был в том, зачем брать другие языки семьи, если можно обойтись чжурчжэньским?