В боях Z-Land (сленг: Покемоны) могут посылать фразы на своём языке. В данной статье представлен простой анализ этого языка.
Алфавит
Алфавит состоит из:
5 гласных: а, е, и, о, у.
11 согласных: б, в, г, д, к, м, н, п, р, с, т.
Лексика
Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам:
Слова без дефисов:
1—11 или 15 букв;
минимум 1 гласная;
минимум 1 согласная (только для слов из 2 букв);
максимум 3 гласных подряд;
максимум 3 согласных подряд (для слов, короче 7 букв);
максимум 4 согласных подряд (для слов от 7 букв);
Слова с дефисами (указаны паттерны, с — согласная, г — гласная):
длина 6: сг-сгг;
длина 10: гсс-сгссгс;
длина 10: сгссг-сгсг;
длина 11: сгс-гсс-сгс.
Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 1018 или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 — 1 дефис).
Корпус
Данные для анализа
Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года).
Все фразы с запятыми (т. е. возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы.
Дата
Всего фраз
Фразы без запятых
26.06.2016
31076
9269
30.06.2016
31744
9430
05.07.2016
31130
9455
07.07.2016
30076
8797
15.07.2016
38423
11462
20.07.2016
33504
9994
28.07.2016
33291
9901
30.07.2016
32807
9770
31.07.2016
37414
11281
04.08.2016
41615
12338
12.08.2016
36121
10850
14.08.2016
38714
11621
23.08.2016
37389
11260
24.08.2016
39016
11708
26.08.2016
39628
11733
28.08.2016
35936
10862
10.09.2016
39367
11834
14.09.2016
40434
12121
20.09.2016
41901
12797
23.09.2016
42582
12845
24.09.2016
42534
12824
27.09.2016
43187
12867
29.09.2016
43313
12812
08.10.2016
42585
12657
11.10.2016
44297
13170
12.10.2016
43384
12948
21.10.2016
39179
11710
28.10.2016
39123
11750
09.11.2016
42478
12987
10.11.2016
37894
11399
11.11.2016
37890
11309
13.11.2016
42478
12901
15.11.2016
42749
12758
16.11.2016
44410
13437
17.11.2016
42954
12756
24.11.2016
66005
19616
07.12.2016
43200
12854
11.12.2016
46026
13940
12.12.2016
50292
15122
01.07.2018
49102
14633
02.07.2018
47854
14293
03.07.2018
48090
14422
04.07.2018
49355
14656
05.07.2018
48782
14745
06.07.2018
47526
14145
07.07.2018
44732
13516
08.07.2018
46456
14066
09.07.2018
48643
14428
10.07.2018
49234
14664
11.07.2018
48523
14639
12.07.2018
47058
13983
13.07.2018
46715
13985
14.07.2018
43864
13092
15.07.2018
45012
13215
16.07.2018
41737
12532
17.07.2018
42075
12628
18.07.2018
43547
13020
19.07.2018
47018
14124
20.07.2018
42014
12474
21.07.2018
42029
12645
22.07.2018
44803
13572
23.07.2018
42587
12802
24.07.2018
43259
12986
25.07.2018
42123
12461
26.07.2018
41514
12444
27.07.2018
42558
12818
28.07.2018
43726
12955
29.07.2018
46038
13840
30.07.2018
46229
13627
31.07.2018
47453
14059
01.08.2018
48521
14707
02.08.2018
47338
14108
03.08.2018
43935
13191
Статистика
Общая статистика корпуса:
Всего фраз: 3 115 596;
Фраз без запятых: 932 620;
Фраз с запятыми: 2 182 976;
Слов во фразах без запятых: 3 409 746.
Длина слов
Распределение слов по длине в корпусе без запятых:
Длина слова
% слов с длиной
1
3,33
2
18,71
3
20,86
4
25,18
5
13,86
6
8,23
7
5,55
8
2,19
9
0,84
10
0,73
11
0,42
15
0,11
Распределение слов
Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью.
Например, для шаблона сг в анализируемом корпусе слова встречались со следующей частотой:
Слово
количество в корпусе
ба
3827
бе
3854
би
3864
бо
3734
бу
3827
ва
3891
ве
3877
ви
3852
во
3773
ву
3894
га
3815
ге
3889
ги
3841
го
3906
гу
3830
да
3855
де
3895
ди
3771
до
3745
ду
3881
ка
3881
ке
3708
ки
3775
ко
3906
ку
3800
ма
3834
ме
3852
ми
3951
мо
3924
му
3724
на
3790
не
3726
ни
3804
но
3889
ну
3742
па
3755
пе
3829
пи
3802
по
3844
пу
3811
ра
3819
ре
3816
ри
3895
ро
3872
ру
3780
са
3839
се
3762
си
3894
со
3912
су
3781
та
3903
те
3799
ти
3860
то
3721
ту
3953
А для шаблона гс слова встречались со следующей частотой:
Слово
количество в корпусе
аб
7903
ав
7808
аг
7766
ад
7653
ак
7818
ам
7869
ан
7529
ап
7681
ар
7792
ас
7729
ат
7775
еб
7944
ев
7857
ег
7699
ед
7783
ек
7934
ем
7809
ен
7859
еп
7807
ер
7610
ес
7745
ет
7697
иб
7696
ив
7707
иг
7777
ид
7886
ик
7634
им
7874
ин
7794
ип
7703
ир
7636
ис
7854
ит
7764
об
7796
ов
7801
ог
7671
од
7723
ок
7681
ом
7780
он
7780
оп
7693
ор
7599
ос
7810
от
7946
уб
7687
ув
7869
уг
7898
уд
7833
ук
7666
ум
7522
ун
7806
уп
7829
ур
7816
ус
7820
ут
7695
Таким образом, речь Z-Land представляет собой последовательность сгенерированных по описанным выше правилам слов с равномерным распределением внутри подгрупп правил. Разное распределение по количеству внутри одной длины слов возникает из-за алгоритма генерирования, стремящегося следовать правилам при выборе следующей буквы.