Участник:GW91238/Язык Z-land: различия между версиями
Участник:GW91238/Язык Z-land (посмотреть исходный код)
Версия от 22:02, 6 февраля 2021
, 6 февраля 2021стилевые правки
GW349581 (обсуждение | вклад) м (Стилевые правки.) |
м (стилевые правки) |
||
Строка 1: | Строка 1: | ||
{{TOC right}} | {{TOC right}} | ||
В боях [[Z-Land | В боях [[Z-Land]] ((сленг: ''Покемоны'') могут посылать фразы на своём языке. В данной статье представлен простой анализ этого языка. | ||
== Алфавит == | |||
Алфавит состоит из: | |||
* 5 гласных: <code>а, е, и, о, у.</code> | |||
* 11 согласных: <code>б, в, г, д, к, м, н, п, р, с, т.</code> | |||
= | == Лексика == | ||
= | |||
Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам: | Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам: | ||
Слова без дефисов: | Слова без дефисов: | ||
* | * 1—11 или 15 букв; | ||
* минимум 1 гласная | * минимум 1 гласная; | ||
* минимум 1 согласная (только для слов из 2 букв) | * минимум 1 согласная (только для слов из 2 букв); | ||
* максимум 3 гласных подряд | * максимум 3 гласных подряд; | ||
* максимум 3 согласных подряд (для слов, короче 7 букв) | * максимум 3 согласных подряд (для слов, короче 7 букв); | ||
* максимум 4 согласных подряд (для слов от 7 букв) | * максимум 4 согласных подряд (для слов от 7 букв); | ||
Слова с дефисами (указаны паттерны, с — согласная, г — гласная): | |||
* длина 6: <code>сг-сгг</code>; | |||
* длина 10: <code>гсс-сгссгс</code>; | |||
* длина 10: <code>сгссг-сгсг</code>; | |||
* длина 11: <code>сгс-гсс-сгс</code>. | |||
Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 10<sup>18</sup> или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 | Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 10<sup>18</sup> или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 — 1 дефис). | ||
= Корпус = | == Корпус == | ||
== Данные для анализа == | === Данные для анализа === | ||
Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года). | Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года). | ||
Все фразы с запятыми ({{nobr|т. е.}} возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы. | |||
Все фразы с запятыми (т.е. возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы. | |||
{|class="wikitable mw-collapsible mw-collapsed" style="text-align:left;" | {|class="wikitable mw-collapsible mw-collapsed" style="text-align:left;" | ||
Строка 189: | Строка 183: | ||
|} | |} | ||
== Статистика == | === Статистика === | ||
Общая статистика корпуса: | Общая статистика корпуса: | ||
* Всего фраз: 3 115 596 | * Всего фраз: 3 115 596; | ||
* Фраз без запятых: 932 620 | * Фраз без запятых: 932 620; | ||
* Фраз с запятыми: 2 182 976 | * Фраз с запятыми: 2 182 976; | ||
* Слов во фразах без запятых: 3 409 746 | * Слов во фразах без запятых: 3 409 746. | ||
== Длина слов == | === Длина слов === | ||
Распределение слов по длине в корпусе без запятых: | Распределение слов по длине в корпусе без запятых: | ||
{|class="wikitable mw-collapsible mw-collapsed" style="text-align:left;" | {|class="wikitable mw-collapsible mw-collapsed" style="text-align:left;" | ||
!Длина слова||% слов с длиной | !Длина слова||% слов с длиной | ||
|- | |- | ||
|1||3 | |1||3,33 | ||
|- | |- | ||
|2||18 | |2||18,71 | ||
|- | |- | ||
|3||20 | |3||20,86 | ||
|- | |- | ||
|4||25 | |4||25,18 | ||
|- | |- | ||
|5||13 | |5||13,86 | ||
|- | |- | ||
|6||8 | |6||8,23 | ||
|- | |- | ||
|7||5 | |7||5,55 | ||
|- | |- | ||
|8||2 | |8||2,19 | ||
|- | |- | ||
|9||0 | |9||0,84 | ||
|- | |- | ||
|10||0 | |10||0,73 | ||
|- | |- | ||
|11||0 | |11||0,42 | ||
|- | |- | ||
|15||0 | |15||0,11 | ||
|} | |} | ||
== Распределение слов == | === Распределение слов === | ||
Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью. | Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью. | ||
Строка 459: | Строка 453: | ||
|} | |} | ||
Таким образом, речь | Таким образом, речь Z-Land представляет собой последовательность сгенерированных по описанным выше правилам слов с равномерным распределением внутри подгрупп правил. Разное распределение по количеству внутри одной длины слов возникает из-за алгоритма генерирования, стремящегося следовать правилам при выборе следующей буквы. | ||
== Ссылки == | |||
[https://yadi.sk/d/cpQOtZ64hLGFtQ Файлы с фразами можно скачать]. |