Участник:GW91238/Язык Z-land: различия между версиями
GW349581 (обсуждение | вклад) м (Стилевые правки.) |
м (стилевые правки) |
||
Строка 1: | Строка 1: | ||
{{TOC right}} | {{TOC right}} | ||
В боях [[Z-Land | В боях [[Z-Land]] ((сленг: ''Покемоны'') могут посылать фразы на своём языке. В данной статье представлен простой анализ этого языка. | ||
== Алфавит == | |||
Алфавит состоит из: | |||
* 5 гласных: <code>а, е, и, о, у.</code> | |||
* 11 согласных: <code>б, в, г, д, к, м, н, п, р, с, т.</code> | |||
= | == Лексика == | ||
= | |||
Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам: | Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам: | ||
Слова без дефисов: | Слова без дефисов: | ||
* | * 1—11 или 15 букв; | ||
* минимум 1 гласная | * минимум 1 гласная; | ||
* минимум 1 согласная (только для слов из 2 букв) | * минимум 1 согласная (только для слов из 2 букв); | ||
* максимум 3 гласных подряд | * максимум 3 гласных подряд; | ||
* максимум 3 согласных подряд (для слов, короче 7 букв) | * максимум 3 согласных подряд (для слов, короче 7 букв); | ||
* максимум 4 согласных подряд (для слов от 7 букв) | * максимум 4 согласных подряд (для слов от 7 букв); | ||
Слова с дефисами (указаны паттерны, с — согласная, г — гласная): | |||
* длина 6: <code>сг-сгг</code>; | |||
* длина 10: <code>гсс-сгссгс</code>; | |||
* длина 10: <code>сгссг-сгсг</code>; | |||
* длина 11: <code>сгс-гсс-сгс</code>. | |||
Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 10<sup>18</sup> или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 | Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 10<sup>18</sup> или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 — 1 дефис). | ||
= Корпус = | == Корпус == | ||
== Данные для анализа == | === Данные для анализа === | ||
Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года). | Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года). | ||
Все фразы с запятыми ({{nobr|т. е.}} возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы. | |||
Все фразы с запятыми (т.е. возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы. | |||
{|class="wikitable mw-collapsible mw-collapsed" style="text-align:left;" | {|class="wikitable mw-collapsible mw-collapsed" style="text-align:left;" | ||
Строка 189: | Строка 183: | ||
|} | |} | ||
== Статистика == | === Статистика === | ||
Общая статистика корпуса: | Общая статистика корпуса: | ||
* Всего фраз: 3 115 596 | * Всего фраз: 3 115 596; | ||
* Фраз без запятых: 932 620 | * Фраз без запятых: 932 620; | ||
* Фраз с запятыми: 2 182 976 | * Фраз с запятыми: 2 182 976; | ||
* Слов во фразах без запятых: 3 409 746 | * Слов во фразах без запятых: 3 409 746. | ||
== Длина слов == | === Длина слов === | ||
Распределение слов по длине в корпусе без запятых: | Распределение слов по длине в корпусе без запятых: | ||
{|class="wikitable mw-collapsible mw-collapsed" style="text-align:left;" | {|class="wikitable mw-collapsible mw-collapsed" style="text-align:left;" | ||
!Длина слова||% слов с длиной | !Длина слова||% слов с длиной | ||
|- | |- | ||
|1||3 | |1||3,33 | ||
|- | |- | ||
|2||18 | |2||18,71 | ||
|- | |- | ||
|3||20 | |3||20,86 | ||
|- | |- | ||
|4||25 | |4||25,18 | ||
|- | |- | ||
|5||13 | |5||13,86 | ||
|- | |- | ||
|6||8 | |6||8,23 | ||
|- | |- | ||
|7||5 | |7||5,55 | ||
|- | |- | ||
|8||2 | |8||2,19 | ||
|- | |- | ||
|9||0 | |9||0,84 | ||
|- | |- | ||
|10||0 | |10||0,73 | ||
|- | |- | ||
|11||0 | |11||0,42 | ||
|- | |- | ||
|15||0 | |15||0,11 | ||
|} | |} | ||
== Распределение слов == | === Распределение слов === | ||
Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью. | Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью. | ||
Строка 459: | Строка 453: | ||
|} | |} | ||
Таким образом, речь | Таким образом, речь Z-Land представляет собой последовательность сгенерированных по описанным выше правилам слов с равномерным распределением внутри подгрупп правил. Разное распределение по количеству внутри одной длины слов возникает из-за алгоритма генерирования, стремящегося следовать правилам при выборе следующей буквы. | ||
== Ссылки == | |||
[https://yadi.sk/d/cpQOtZ64hLGFtQ Файлы с фразами можно скачать]. |
Версия от 22:02, 6 февраля 2021
В боях Z-Land ((сленг: Покемоны) могут посылать фразы на своём языке. В данной статье представлен простой анализ этого языка.
Алфавит
Алфавит состоит из:
- 5 гласных:
а, е, и, о, у.
- 11 согласных:
б, в, г, д, к, м, н, п, р, с, т.
Лексика
Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам:
Слова без дефисов:
- 1—11 или 15 букв;
- минимум 1 гласная;
- минимум 1 согласная (только для слов из 2 букв);
- максимум 3 гласных подряд;
- максимум 3 согласных подряд (для слов, короче 7 букв);
- максимум 4 согласных подряд (для слов от 7 букв);
Слова с дефисами (указаны паттерны, с — согласная, г — гласная):
- длина 6:
сг-сгг
; - длина 10:
гсс-сгссгс
; - длина 10:
сгссг-сгсг
; - длина 11:
сгс-гсс-сгс
.
Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 1018 или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 — 1 дефис).
Корпус
Данные для анализа
Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года).
Все фразы с запятыми (т. е. возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы.
Дата | Всего фраз | Фразы без запятых |
---|---|---|
26.06.2016 | 31076 | 9269 |
30.06.2016 | 31744 | 9430 |
05.07.2016 | 31130 | 9455 |
07.07.2016 | 30076 | 8797 |
15.07.2016 | 38423 | 11462 |
20.07.2016 | 33504 | 9994 |
28.07.2016 | 33291 | 9901 |
30.07.2016 | 32807 | 9770 |
31.07.2016 | 37414 | 11281 |
04.08.2016 | 41615 | 12338 |
12.08.2016 | 36121 | 10850 |
14.08.2016 | 38714 | 11621 |
23.08.2016 | 37389 | 11260 |
24.08.2016 | 39016 | 11708 |
26.08.2016 | 39628 | 11733 |
28.08.2016 | 35936 | 10862 |
10.09.2016 | 39367 | 11834 |
14.09.2016 | 40434 | 12121 |
20.09.2016 | 41901 | 12797 |
23.09.2016 | 42582 | 12845 |
24.09.2016 | 42534 | 12824 |
27.09.2016 | 43187 | 12867 |
29.09.2016 | 43313 | 12812 |
08.10.2016 | 42585 | 12657 |
11.10.2016 | 44297 | 13170 |
12.10.2016 | 43384 | 12948 |
21.10.2016 | 39179 | 11710 |
28.10.2016 | 39123 | 11750 |
09.11.2016 | 42478 | 12987 |
10.11.2016 | 37894 | 11399 |
11.11.2016 | 37890 | 11309 |
13.11.2016 | 42478 | 12901 |
15.11.2016 | 42749 | 12758 |
16.11.2016 | 44410 | 13437 |
17.11.2016 | 42954 | 12756 |
24.11.2016 | 66005 | 19616 |
07.12.2016 | 43200 | 12854 |
11.12.2016 | 46026 | 13940 |
12.12.2016 | 50292 | 15122 |
01.07.2018 | 49102 | 14633 |
02.07.2018 | 47854 | 14293 |
03.07.2018 | 48090 | 14422 |
04.07.2018 | 49355 | 14656 |
05.07.2018 | 48782 | 14745 |
06.07.2018 | 47526 | 14145 |
07.07.2018 | 44732 | 13516 |
08.07.2018 | 46456 | 14066 |
09.07.2018 | 48643 | 14428 |
10.07.2018 | 49234 | 14664 |
11.07.2018 | 48523 | 14639 |
12.07.2018 | 47058 | 13983 |
13.07.2018 | 46715 | 13985 |
14.07.2018 | 43864 | 13092 |
15.07.2018 | 45012 | 13215 |
16.07.2018 | 41737 | 12532 |
17.07.2018 | 42075 | 12628 |
18.07.2018 | 43547 | 13020 |
19.07.2018 | 47018 | 14124 |
20.07.2018 | 42014 | 12474 |
21.07.2018 | 42029 | 12645 |
22.07.2018 | 44803 | 13572 |
23.07.2018 | 42587 | 12802 |
24.07.2018 | 43259 | 12986 |
25.07.2018 | 42123 | 12461 |
26.07.2018 | 41514 | 12444 |
27.07.2018 | 42558 | 12818 |
28.07.2018 | 43726 | 12955 |
29.07.2018 | 46038 | 13840 |
30.07.2018 | 46229 | 13627 |
31.07.2018 | 47453 | 14059 |
01.08.2018 | 48521 | 14707 |
02.08.2018 | 47338 | 14108 |
03.08.2018 | 43935 | 13191 |
Статистика
Общая статистика корпуса:
- Всего фраз: 3 115 596;
- Фраз без запятых: 932 620;
- Фраз с запятыми: 2 182 976;
- Слов во фразах без запятых: 3 409 746.
Длина слов
Распределение слов по длине в корпусе без запятых:
Длина слова | % слов с длиной |
---|---|
1 | 3,33 |
2 | 18,71 |
3 | 20,86 |
4 | 25,18 |
5 | 13,86 |
6 | 8,23 |
7 | 5,55 |
8 | 2,19 |
9 | 0,84 |
10 | 0,73 |
11 | 0,42 |
15 | 0,11 |
Распределение слов
Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью.
Например, для шаблона сг
в анализируемом корпусе слова встречались со следующей частотой:
Слово | количество в корпусе |
---|---|
ба | 3827 |
бе | 3854 |
би | 3864 |
бо | 3734 |
бу | 3827 |
ва | 3891 |
ве | 3877 |
ви | 3852 |
во | 3773 |
ву | 3894 |
га | 3815 |
ге | 3889 |
ги | 3841 |
го | 3906 |
гу | 3830 |
да | 3855 |
де | 3895 |
ди | 3771 |
до | 3745 |
ду | 3881 |
ка | 3881 |
ке | 3708 |
ки | 3775 |
ко | 3906 |
ку | 3800 |
ма | 3834 |
ме | 3852 |
ми | 3951 |
мо | 3924 |
му | 3724 |
на | 3790 |
не | 3726 |
ни | 3804 |
но | 3889 |
ну | 3742 |
па | 3755 |
пе | 3829 |
пи | 3802 |
по | 3844 |
пу | 3811 |
ра | 3819 |
ре | 3816 |
ри | 3895 |
ро | 3872 |
ру | 3780 |
са | 3839 |
се | 3762 |
си | 3894 |
со | 3912 |
су | 3781 |
та | 3903 |
те | 3799 |
ти | 3860 |
то | 3721 |
ту | 3953 |
А для шаблона гс
слова встречались со следующей частотой:
Слово | количество в корпусе |
---|---|
аб | 7903 |
ав | 7808 |
аг | 7766 |
ад | 7653 |
ак | 7818 |
ам | 7869 |
ан | 7529 |
ап | 7681 |
ар | 7792 |
ас | 7729 |
ат | 7775 |
еб | 7944 |
ев | 7857 |
ег | 7699 |
ед | 7783 |
ек | 7934 |
ем | 7809 |
ен | 7859 |
еп | 7807 |
ер | 7610 |
ес | 7745 |
ет | 7697 |
иб | 7696 |
ив | 7707 |
иг | 7777 |
ид | 7886 |
ик | 7634 |
им | 7874 |
ин | 7794 |
ип | 7703 |
ир | 7636 |
ис | 7854 |
ит | 7764 |
об | 7796 |
ов | 7801 |
ог | 7671 |
од | 7723 |
ок | 7681 |
ом | 7780 |
он | 7780 |
оп | 7693 |
ор | 7599 |
ос | 7810 |
от | 7946 |
уб | 7687 |
ув | 7869 |
уг | 7898 |
уд | 7833 |
ук | 7666 |
ум | 7522 |
ун | 7806 |
уп | 7829 |
ур | 7816 |
ус | 7820 |
ут | 7695 |
Таким образом, речь Z-Land представляет собой последовательность сгенерированных по описанным выше правилам слов с равномерным распределением внутри подгрупп правил. Разное распределение по количеству внутри одной длины слов возникает из-за алгоритма генерирования, стремящегося следовать правилам при выборе следующей буквы.