В боях Покемоны могут посылать фразы на своём языке.

В данной статье представлен простой анализ этого языка.

Алфавит

5 гласных: а е и о у

11 согласных: б в г д к м н п р с т

Лексика

Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам:

Слова без дефисов:

  • 1 - 11 или 15 букв
  • минимум 1 гласная
  • минимум 1 согласная (только для слов из 2 букв)
  • максимум 3 гласных подряд
  • максимум 3 согласных подряд (для слов, короче 7 букв)
  • максимум 4 согласных подряд (для слов от 7 букв)

Слова с дефисами (указаны паттерны, с - согласная, г - гласная):

  • длина 6: сг-сгг
  • длина 10: гсс-сгссгс
  • длина 10: сгссг-сгсг
  • длина 11: сгс-гсс-сгс


Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 1018 или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 - 1 дефис).

Корпус

Данные для анализа

Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года).

Файлы с фразами можно скачать по этой ссылке.

Все фразы с запятыми (т.е. возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы.

Дата Всего фраз Фразы без запятых
26.06.2016 31076 9269
30.06.2016 31744 9430
05.07.2016 31130 9455
07.07.2016 30076 8797
15.07.2016 38423 11462
20.07.2016 33504 9994
28.07.2016 33291 9901
30.07.2016 32807 9770
31.07.2016 37414 11281
04.08.2016 41615 12338
12.08.2016 36121 10850
14.08.2016 38714 11621
23.08.2016 37389 11260
24.08.2016 39016 11708
26.08.2016 39628 11733
28.08.2016 35936 10862
10.09.2016 39367 11834
14.09.2016 40434 12121
20.09.2016 41901 12797
23.09.2016 42582 12845
24.09.2016 42534 12824
27.09.2016 43187 12867
29.09.2016 43313 12812
08.10.2016 42585 12657
11.10.2016 44297 13170
12.10.2016 43384 12948
21.10.2016 39179 11710
28.10.2016 39123 11750
09.11.2016 42478 12987
10.11.2016 37894 11399
11.11.2016 37890 11309
13.11.2016 42478 12901
15.11.2016 42749 12758
16.11.2016 44410 13437
17.11.2016 42954 12756
24.11.2016 66005 19616
07.12.2016 43200 12854
11.12.2016 46026 13940
12.12.2016 50292 15122
01.07.2018 49102 14633
02.07.2018 47854 14293
03.07.2018 48090 14422
04.07.2018 49355 14656
05.07.2018 48782 14745
06.07.2018 47526 14145
07.07.2018 44732 13516
08.07.2018 46456 14066
09.07.2018 48643 14428
10.07.2018 49234 14664
11.07.2018 48523 14639
12.07.2018 47058 13983
13.07.2018 46715 13985
14.07.2018 43864 13092
15.07.2018 45012 13215
16.07.2018 41737 12532
17.07.2018 42075 12628
18.07.2018 43547 13020
19.07.2018 47018 14124
20.07.2018 42014 12474
21.07.2018 42029 12645
22.07.2018 44803 13572
23.07.2018 42587 12802
24.07.2018 43259 12986
25.07.2018 42123 12461
26.07.2018 41514 12444
27.07.2018 42558 12818
28.07.2018 43726 12955
29.07.2018 46038 13840
30.07.2018 46229 13627
31.07.2018 47453 14059
01.08.2018 48521 14707
02.08.2018 47338 14108
03.08.2018 43935 13191

Статистика

Общая статистика корпуса:

  • Всего фраз: 3 115 596
  • Фраз без запятых: 932 620
  • Фраз с запятыми: 2 182 976
  • Слов во фразах без запятых: 3 409 746

Длина слов

Распределение слов по длине в корпусе без запятых:

Длина слова % слов с длиной
1 3.33
2 18.71
3 20.86
4 25.18
5 13.86
6 8.23
7 5.55
8 2.19
9 0.84
10 0.73
11 0.42
15 0.11

Распределение слов

Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью.

Например, для шаблона сг в анализируемом корпусе слова встречались со следующей частотой:

Слово количество в корпусе
ба 3827
бе 3854
би 3864
бо 3734
бу 3827
ва 3891
ве 3877
ви 3852
во 3773
ву 3894
га 3815
ге 3889
ги 3841
го 3906
гу 3830
да 3855
де 3895
ди 3771
до 3745
ду 3881
ка 3881
ке 3708
ки 3775
ко 3906
ку 3800
ма 3834
ме 3852
ми 3951
мо 3924
му 3724
на 3790
не 3726
ни 3804
но 3889
ну 3742
па 3755
пе 3829
пи 3802
по 3844
пу 3811
ра 3819
ре 3816
ри 3895
ро 3872
ру 3780
са 3839
се 3762
си 3894
со 3912
су 3781
та 3903
те 3799
ти 3860
то 3721
ту 3953

А для шаблона гс слова встречались со следующей частотой:

Слово количество в корпусе
аб 7903
ав 7808
аг 7766
ад 7653
ак 7818
ам 7869
ан 7529
ап 7681
ар 7792
ас 7729
ат 7775
еб 7944
ев 7857
ег 7699
ед 7783
ек 7934
ем 7809
ен 7859
еп 7807
ер 7610
ес 7745
ет 7697
иб 7696
ив 7707
иг 7777
ид 7886
ик 7634
им 7874
ин 7794
ип 7703
ир 7636
ис 7854
ит 7764
об 7796
ов 7801
ог 7671
од 7723
ок 7681
ом 7780
он 7780
оп 7693
ор 7599
ос 7810
от 7946
уб 7687
ув 7869
уг 7898
уд 7833
ук 7666
ум 7522
ун 7806
уп 7829
ур 7816
ус 7820
ут 7695

Таким образом, речь покемонов представляет собой последовательность сгенерированных по описанным выше правилам слов с равномерным распределением внутри подгрупп правил. Разное распределение по количеству внутри одной длины слов возникает из-за алгоритма генерирования, стремящегося следовать правилам при выборе следующей буквы.