Abstract and keywords
Abstract (English):
Putem analiza vyyavleny harakteristiki glasnyh zvukov russkogo yazyka v shepotnoy rechi. Razrabotany dva algoritma dlya programmnogo ras-poznavaniya glasnyh zvukov.

Keywords:
shepotnaya rech', glasnye zvuki, raspoznavanie rechi, fonema, intensivnost', rechevye tehnologii
Text
Text (PDF): Read Download

Введение

Системы распознавания речи в настоящее время получили широкое распространение. Многими компаниями были представлены голосовые ассистенты, позволяющие использовать функции смартфона или компьютера с помощью голосовых команд. Примерами таких ассистентов могут служить: SIRI от компании Apple, Cortana от компании Microsoft, Google Assistant, Amazon Alexa и Алиса от компании Яндекс. Более того, недавним вариантом применения систем распознавания речи стали умные колонки от компаний Google и Amazon, которые управляются голосом и могут не только воспроизводить музыку, но и взаимодействовать с системами умного дома, узнавать новости, заказывать такси и совершать покупки в магазине. Также голосовые помощники от Google, Apple и Amazon встраивают в автомобили для управления аудиосистемой автомобиля и навигацией.

Однако для русского языка ситуация существенно хуже. Поддержка добавляется позже, чем для английского языка, или вообще отсутствует (Microsoft Cortana, Google Assistant, Amazon Alexa), а умные колонки не представлены официально на российском рынке.

Распознавание речи также используется в DLP-системах (Data Loss Prevention). Эти системы применяют для предотвращения утечек информации из информационной системы [1]. Информация может быть передана с помощью устной речи, при использовании Skype или других мессенджеров. Так как прослушивание всех переговоров вручную очень затруднительно, особенно в крупных компаниях, необходимы системы автоматического распознавания речи.

Исследования в области распознавания русской речи, а также те, которые направлены на выявление уникальных характеристик шепотной речи, являются актуальными, так как способствуют повышению точности распознавания человеческой речи. В рамках данной работы проводится выявление характеристик гласных звуков русского языка в шепотной речи и разработка алгоритмов для программного распознавания таких звуков. В рамках исследования применялась классификация звуковых единиц из научного труда [2].

Анализ характеристик шепотной речи

Звуки речи - результат колебательного движения воздушной среды. Источниками звуков речи являются колебания голосовых связок в гортани и трение воздушной струи о стенки речевого аппарата. Характеристиками звуков речи являются их высота, интенсивность, спектр и длительность, причем длительность понимается просто как протяженность звука во времени [2].

Основное отличие шепотной речи от вокализованной состоит в том, что шепотная речь происходит от турбулентного шума, создаваемого трением воздуха в гортани и над ней. Голосовые связки при этом не вибрируют. Таким образом, в шепотной речи отсутствуют частота основного тона и гармоническая структура [3].

Исследования шепотной речи ведутся за рубежом с середины двадцатого века. Так, в исследовании [4] говорится о смещении областей с максимальной интенсивностью в спектре шепотной речи относительно вокализованной, иногда сопровождающемся значительным расширением этих областей.

В исследовании [5] приводятся частоты областей с максимальной интенсивностью для гласных английского языка и сделан вывод, что для восприятия шепотных гласных достаточно одной такой области.

Также были получены значения областей с максимальной интенсивностью шепотных гласных для сербского [6], чешского [7] и японского [8] языков.

Однако исследования шепотной речи для русского языка крайне малочисленны. В работе [9] представлены максимально выраженные спектральные составляющие для шепотных гласных русского языка. Значения интервалов частот представлены в табл. 1.

Таблица 1

Диапазоны частот максимально выраженных спектральных составляющих

Гласный

а

и

о

у

э

Диапазон, Гц

915-1260

100-200

3125-3675

770-915

100-200

630-770

770-915

1990-2310

 

В исследованиях Н.Г. Андреевой и др. сделан вывод, что для распознавания гласных «а», «о» и «у» нельзя использовать ни значения частот спектральных максимумов, ни соотношения этих частот. Выполнено сравнение характеристик гласных «и», «ы» и «э» для вокализованной речи. Показано, что, во-первых, абсолютные значения спектральных максимумов далеко не всегда отражают фонетическую принадлежность гласных. Во-вторых, отношение частот первых двух спектральных максимумов может быть использовано как признак, характеризующий фонетическую принадлежность звука.

В исследовании [10] представлен алгоритм распознавания шепотных гласных китайского языка на основе значения усиления передаточной функции голосового тракта. Средняя доля распознанных гласных составила 85 %.

В исследовании [11] описывается распознавание шепотной речи с помощью мел-частотных кепстральных коэффициентов и скрытых марковских моделей в чистых и зашумленных условиях. Доля распознанных слов составила 80 % для чистых и 59 % для зашумленных условий соответственно.

Значения первых двух спектральных максимумов для шепотных гласных одинаковых категорий в различных языках могут отличаться (даже при сходном количестве фонетических категорий), что может быть обусловлено не только языковыми особенностями, но и методами определения значений частот этих максимумов. Действительно, в спектрах шепотных гласных выраженные по амплитуде спектральные компоненты могут занимать широкие (до нескольких сотен герц) полосы. В связи с этим проблему выделения спектральных максимумов в шепотных гласных каждый исследователь решает индивидуально. Таким образом, несмотря на проведенные исследования, нельзя сказать, что акустические особенности шепотных гласных изучены достаточно.

Модификация программного комплекса

Для выявления характеристик звуковых единиц используется приложение SpeechSoft [12]. Приложение производит обработку звукового сигнала и выводит результаты обработки в виде графиков. Программный комплекс состоит из следующих модулей:

  • модуль создания фильтров и набора шаблонов;
  • модуль свертки сигнала с фильтрами;
  • модуль определения номера канала основного тона;
  • модуль вычисления частоты;
  • модуль сегментации на вокализованные и невокализованные участки;
  • модуль получения параметров гармоник;
  • модуль сегментации по максимальным по интенсивности гармоникам;
  • графический модуль.

На рис. 1 представлена структурная схема Speech Soft.

Для подробного анализа звуковых единиц и разработки алгоритмов программного распознавания оказалось недостаточно гласных выходных данных приложения SpeechSoft, поэтому в программу была добавлена функция вывода в файл массивов со значениями частоты и интенсивности для каждого отсчета.

В качестве входных данных для работы использовались мгновенные значения частоты F(t, k) и мгновенные интенсивности сигнала Inten(t, k). Эти значения вычисляются для каждого момента времени (отсчета) t и на каждом из 128 каналов фильтрации k. Для хранения мгновенных значений частоты и интенсивности используются одномерные массивы с типом данных double.

Алгоритм определения гласного звука по номерам диапазонов

Было решено разделить весь спектр на шесть диапазонов:

  • меньше 300 Гц;
  • от 300 до 550 Гц;
  • от 550 до 700 Гц;
  • от 700 до 1200 Гц;
  • от 1200 до 1800 Гц;
  • выше 1800 Гц.

Такое разделение соответствует разделению гласных по ряду и подъему. Так, для гласных верхнего подъема («и», «ы», «у») первый спектральный максимум находится в диапазоне частот до 300 Гц, для гласных среднего подъема («о», «э») – от 300 до 550 Гц, для гласного нижнего подъема («а») – от 550 до 700 Гц. Для гласных переднего ряда («и», «э») второй спектральный максимум находится в диапазоне частот от 1800 Гц, для гласных среднего ряда («ы», «а») – от 1200 до 1800 Гц, для гласных заднего ряда («у», «о») – от 700 до 1200 Гц.

На вход алгоритма (рис. 2), определяющего гласные по номерам диапазонов с наибольшими максимумами интенсивности, подаются массивы значений частоты и соответствующих им значений интенсивности. На первом этапе алгоритм разбивает эти массивы на блоки по 128 значений. В каждом блоке содержатся значения частоты и интенсивности для одного отсчета.

Затем каждый отсчет делится на шесть диапазонов, описанных выше. В каждом диапазоне вычисляется максимум интенсивности, затем полученные шесть максимумов сравниваются друг с другом, определяются два наибольших максимума и номера диапазонов этих максимумов.


Для каждого гласного звука были эмпирически установлены наиболее часто встречающиеся номера диапазонов (рис. 3). Эти номера представлены в табл. 2.

Для каждого отсчета определялась принадлежность к звуку (рис. 4).

                                                                                                                                                                                               Таблица 2

Номера диапазонов с наибольшими максимумами интенсивности для гласных

Гласный

а

и

о

у

ы

э

Номер

5 и 6

2 и 3

4 и 5

3 и 4

3 и 6

4 и 6

 

Изначально для определения звука выбирался гласный, к которому принадлежало наибольшее количество отсчетов. В ходе работы выяснилось, что для звуков «а» и «э» характерно наличие большого количества отсчетов, отнесенных к звуку «о», а для звука «о» отсчеты, отнесенные к звукам «а» или «э», не характерны; для «ы» характерно большое количество отсчетов, отнесенных к «и», а для звука «и» отсчеты, отнесенные к звуку «ы», не характерны. Поэтому были добавлены еще три правила:

  • если количество отсчетов, отнесенных к «о», наибольшее и число, равное частному количества отсчетов «а» и количества отсчетов «о», больше 0,1, то звук определяется как «а»;
  • если количество отсчетов, отнесенных к «о», наибольшее и количество отсчетов «э» больше 0, то звук определяется как «э»;
  • если количество отсчетов, отнесенных к «и», наибольшее и число, равное частному количества отсчетов «ы» и количества отсчетов «и», больше 0,1, то звук определяется как «ы».

Аналогичным образом работает алгоритм определения гласного по номерам диапазонов с наибольшими средними интенсивностями, только для работы применяются значения средней интенсивности в каждом диапазоне. Для этого в каждом диапазоне вычисляется суммарная интенсивность, затем она делится на количество каналов, входящих в диапазон. Определяются два диапазона с наибольшей средней интенсивностью и номера этих диапазонов.

После этого для каждого отсчета определяется принадлежность к звуку (рис. 5).

Изначально для определения звука выбирался гласный, к которому принадлежало наибольшее количество отсчетов. Затем были добавлены еще два правила:

  • если количество отсчетов, отнесенных к «у», наибольшее и число, равное частному количества отсчетов «и» и количества отсчетов «у», больше 0,5, то звук определяется как «и»;
  • если количество отсчетов, отнесенных к «а», наибольшее и число, равное частному количества отсчетов «э» и количества отсчетов «а», больше 0,1, то звук определяется как «э».

Оценка работы алгоритма

Для оценки работы алгоритмов использовался речевой материал, полученный в работах [13; 14]. Каждый диктор должен был записать набор слогов с согласными звуками «в», «г», «д» и всеми гласными звуками. Перечень записанных речевых единиц (РЕ) представлен в табл. 3.

 

                                                                                                                                         Таблица 3

Перечень записанных речевых единиц

Звуковая единица

РЕ1

РЕ2

РЕ3

Атт

ва

га

да

Итт

ви

ги

ди

Отт

во

го

до

Утт

ву

гу

ду

Ы

вы

гы

ды

Этт

вэ

гэ

дэ

 

Диктор произносил каждую речевую единицу три раза шепотом. Запись велась с частотой дискретизации 8 кГц и количеством каналов 1. В записи речевого материала участвовали семь дикторов, обезличенный список которых представлен в табл. 4.

                                                                                                                                                                                                     Таблица 4

                                                                                      Обезличенный список дикторов

Диктор

1

2

3

4

5

6

7

Пол

М

М

Ж

М

М

Ж

Ж

Возраст

23

47

51

21

22

22

22

 

В итоге было получено 126 записей. Каждая запись содержит три звуковые единицы.

Записи были обработаны приложением SpeechSoft для получения файлов с массивами частот и интенсивностей. Затем были построены графики с двумя наибольшими максимумами интенсивности для всех речевых единиц. На рис. 6 представлен график, построенный для речевой единицы «ва» (по оси абсцисс – дискретное время, по оси ординат – частота).

Диктор должен был произнести каждую речевую единицу три раза. На графике четко видны области, где расположены максимумы интенсивности для каждого произнесения. Во всех трех случаях они находятся в интервалах 1400-1600 Гц и 1800-2100 Гц. Эти интервалы соответствуют пятому и шестому диапазонам. Во втором и третьем случаях в начале звука также наблюдаются максимумы в интервале 1600-1800 Гц, однако их количество невелико.

Результаты тестирования алгоритмов, использующих максимумы и средние значения интенсивности для определения гласного, представлены в табл. 5 и 6 соответственно.

                                                                                                                                                                                                                                                         Таблица 5

Результаты тестирования алгоритма определения гласного по номерам диапазонов

с наибольшими максимумами интенсивности

Гласный

а

и

о

у

ы

э

Распознано

78 %

67 %

94 %

72 %

56 %

83 %

Ошибка 1 рода

17 %

42 %

28 %

11 %

19 %

33 %

Ошибка 2 рода

22 %

33 %

6 %

28 %

44 %

17 %

 

Как видно из табл. 5, лучше всего были распознаны гласные «о» и «э». Наихудшие результаты - у «и» и «ы». Наибольшая доля ошибок 1 рода приходится на звук «и», наименьшая – на звук «у».

                                                                                                                                                                                                                                                                                     Таблица 6

Результаты тестирования алгоритма определения гласного по номерам диапазонов с наибольшими средними интенсивностями

Гласный

а

и

о

у

ы

э

Распознано

92 %

86 %

81 %

89 %

53 %

39 %

Ошибка 1 рода

11 %

86 %

22 %

33 %

3 %

6 %

Ошибка 2 рода

8 %

14 %

19 %

11 %

47 %

61 %

 

Как видно из табл. 6, лучше всего были распознаны «а», «у» и «и». Наихудшие результаты - у «ы» и «э». Средняя доля правильно распознанных звуков для первого алгоритма составляет 75 %, для второго алгоритма – 73 %.

Заключение

Исследование шепотной речи позволяет определить более точные параметры звуков по сравнению с уже существующими системами распознавания речи. Отсутствие наложения гармонических колебаний на формантную структуру речевого сигнала позволяет получить неискаженную картину форманты. Результатом исследования стала разработка алгоритмов определения гласного звука, основанных на номерах диапазонов для максимумов интенсивности и наибольших средних интенсивностей, и их программная реализация. Рассматриваемый программный комплекс благодаря разработанным алгоритмам приобрел возможность распознавать ударные звуки, произнесенные шепотом, с надежностью не менее 70 %. Данная модификация программы позволит осуществлять корректное и более точное распознавание речи.

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках базовой части государственного задания ТУСУР на 2017-2019 гг. (проект № 2.8172.2017/8.9).

References

1. Mescheryakov, R.V. K voprosu ob issledovanii biologicheskih parametrov cheloveka v zaschischennyh sistemah / R.V. Mescheryakov, A.A. Konev // Doklady Tomskogo gosudarstvennogo universiteta sistem upravleniya i radioelektroniki. - 2010. - T. 1. - № 1. - S. 131-136.

2. Bulanin, L.L. Fonetika sovremennogo russkogo yazyka / L.L. Bulanin. - M.: Vyssh. shk., 1970. - 207 s.

3. Cirillo, J. Communication by unvoiced speech: the role of whispering / J. Cirillo // Annals of the Brazilian Academy of Sciences. - 2004. - Vol. 76. - № 2. - P. 413-423.

4. Meyer-Eppler, W. Realization of Prosodic Features in Whisperes Speech / W. Meyer-Eppler // Journal of the Acoustical Society of America. - 1957. - Vol. 29. - № 1. - P. 104-106.

5. Thomas, I.B. Perceived Pitch of Whispered Vowels / I.B. Thomas // Journal of the Acoustical Society of America. - 1969. - Vol. 46. - № 2. - P. 468-470.

6. Jovicic, S.T. Formant Feauture Differences between Whisperes and Voices Sustained Vowels / S.T. Jovicic // Acta Acustica United whih Acustica. - 1998. - Vol. 84. - P. 739-743.

7. Grepl, M. The F1-F2 Vowel Chart for Czech Whispered Vowels A, E, I, O, U / M. Grepl [et al.] // Biomedical Papers of the Medical Faculty of the University Palacky, Olomouc, Czech Repub. - 2007. - Vol. 151. - № 2. - P. 353-356.

8. Ito, T. Analysis and recognition of whispered speech / T. Ito [et al.] // Speech Communication. - 2005. - Vol. 45. - P. 139-152.

9. Uplisova, K.O. Akusticheskie priznaki glasnyh zvukov s negarmonicheskoy strukturoy / K.O. Uplisova // XHII sessiya Rossiyskogo akusticheskogo obschestva: sb. tr. - M.: GEOS, 2010. - T. 3. - S. 88-92.

10. Gong Chenghui. Tone Recognition of Chinese Whispered Speech / Gong Chenghui // Pacific-Asia Workshop on Computational Intelligence and Industrial Application. - 2008. - P. 418-422.

11. Chen-Yu Yang. Noise-robust whispered speech recognition using a non-audible-murmur microphone with vts compensation / Chen-Yu Yang // The 8th International Symposium on Chinese Spoken Language Processing. - 2012. - P. 220-223.

12. Konev, A.A. Model' i algoritmy analiza i segmentacii rechevogo signala: avtoref. dis. … kand. tehn. nauk / A.A. Konev. - Tomsk, 2007. - 20 s.

13. Egoshin, N.S. Identifikaciya parametrov rechevogo signala / N.S. Egoshin, A.A. Konev, A.Yu. Yakimuk // Elektronnye sredstva i sistemy upravleniya. - 2015. - № 1-2. - S. 147-150.

14. Yakimuk, A.Yu. Programmnyy kompleks dlya avtomatizacii modelirovaniya segmentacii rechevyh signalov i vokal'nyh ispolneniy / A.Yu. Yakimuk, A.A. Konev, A.O. Osipov // Vestnik Irkutskogo gosudarstvennogo tehnicheskogo universiteta. - 2017. - T. 21. - № 10 (129). - S. 53-64.

Login or Create
* Forgot password?