Участник:GW91238/Язык Z-land: различия между версиями
м стилевые правки |
мНет описания правки |
||
Строка 1: | Строка 1: | ||
{{TOC right}} | {{TOC right}} | ||
В боях [[Z-Land]] | В боях [[Z-Land]] (сленг: ''Покемоны'') могут посылать фразы на своём языке. В данной статье представлен простой анализ этого языка. | ||
== Алфавит == | == Алфавит == |
Текущая версия от 22:02, 6 февраля 2021
В боях Z-Land (сленг: Покемоны) могут посылать фразы на своём языке. В данной статье представлен простой анализ этого языка.
Алфавит
Алфавит состоит из:
- 5 гласных:
а, е, и, о, у.
- 11 согласных:
б, в, г, д, к, м, н, п, р, с, т.
Лексика
Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам:
Слова без дефисов:
- 1—11 или 15 букв;
- минимум 1 гласная;
- минимум 1 согласная (только для слов из 2 букв);
- максимум 3 гласных подряд;
- максимум 3 согласных подряд (для слов, короче 7 букв);
- максимум 4 согласных подряд (для слов от 7 букв);
Слова с дефисами (указаны паттерны, с — согласная, г — гласная):
- длина 6:
сг-сгг
; - длина 10:
гсс-сгссгс
; - длина 10:
сгссг-сгсг
; - длина 11:
сгс-гсс-сгс
.
Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 1018 или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 — 1 дефис).
Корпус
Данные для анализа
Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года).
Все фразы с запятыми (т. е. возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы.
Дата | Всего фраз | Фразы без запятых |
---|
Статистика
Общая статистика корпуса:
- Всего фраз: 3 115 596;
- Фраз без запятых: 932 620;
- Фраз с запятыми: 2 182 976;
- Слов во фразах без запятых: 3 409 746.
Длина слов
Распределение слов по длине в корпусе без запятых:
Длина слова | % слов с длиной |
---|
Распределение слов
Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью.
Например, для шаблона сг
в анализируемом корпусе слова встречались со следующей частотой:
Слово | количество в корпусе |
---|
А для шаблона гс
слова встречались со следующей частотой:
Слово | количество в корпусе |
---|
Таким образом, речь Z-Land представляет собой последовательность сгенерированных по описанным выше правилам слов с равномерным распределением внутри подгрупп правил. Разное распределение по количеству внутри одной длины слов возникает из-за алгоритма генерирования, стремящегося следовать правилам при выборе следующей буквы.