Главная страница

В. Ю. Шелепов, А. В. Ниценко, Г. В. Дорохина, М. Х. Карабалаева, А. К. Бурибаева о распознавании речи на основе межфонемных переходов


Скачать 69.15 Kb.
НазваниеВ. Ю. Шелепов, А. В. Ниценко, Г. В. Дорохина, М. Х. Карабалаева, А. К. Бурибаева о распознавании речи на основе межфонемных переходов
Дата10.02.2016
Размер69.15 Kb.
ТипАнализ

В. Ю. Шелепов, А.В. Ниценко, Г.В. Дорохина, М.Х. Карабалаева, А.К.Бурибаева


О распознавании речи на основе межфонемных переходов


(Институт информатики и искусственного интеллекта ДонНТУ,

Институт проблем искусственного интеллекта НАН и МОН Украины, г. Донецк,

Евразийский национальный университет им. Гумилева, Астана)
В работе описан метод распознавания речи на основе межфонемных переходов. Подробно изложены преимущества данного подхода. Результаты исследования могут быть полезны при распознавании сверхбольших словарей.

Стремясь создать систему пофонемного распознавания русских и систему пофонемного распознавания казахских слов, авторы данной работы долгое время пытались использовать в качестве элементов распознавания стационарные части звуков речи (см.[2-4]). К этому нас побуждало, то, что общее количество таких звуков (гласных, звонких согласных, шипящих, аффрикат и т. д.) в каждом из упомянутых языков - невелико, всего несколько десятков. Однако хорошо известен эффект коартикуляции: влияние друг на друга соседних звуков. Например, согласный звук заметно меняется, если за ним следует огубленный гласный (о,ё,у,ю). Учитывая важнейшую роль пар соседних звуков в слове, авторы решились бы сформулировать свою сегодняшнюю точку зрения в виде следующего тезиса:

Ключ к распознаванию речи лежит в межфонемных переходах.
Далее для определенности будем говорить о распознавании русских слов.

Анализ высказанного утверждения можно начать со следующего простого эксперимента. Используя какую-либо известную программу работы со звуком, например «Sound Forge», запишем два произвольных слова, а затем вырежем стационарные (серединные) части составляющих их звуков. Воспроизведя получившийся звуковые сигналы, мы можем на слух определить, какие слова звучат. Напротив, вырезав межфонемные переходы, и оставив стационарные части фонем, мы затруднимся на слух различить, например, слова «мама» и «лама».

Итак, речь – это межфонемные переходы. А что же такое стационарные части звуков? Остановимся на гласных. Их стационарные части – это, образно говоря, вокал. В вокале пропеваются именно гласные. Согласные в пении представляют собой короткие вставки между гласными. Студенты вокальных отделений консерваторий знают, какого труда стоит добиться кантилены – плавного, неразорванного согласными звучания. Однако платой за это временами является недостаточная разборчивость того, что мы слышим с оперной сцены.

Следующий аргумент относительно роли при распознавании межфонемных переходов – использование при DTW-распознавании ([1], см. также [3]) эталонов слов, полученных удалением стационарных частей звуков, из которых эти слова состоят. Эксперименты показывают, что такое распознавание не менее успешно, чем распознавание по «полным» эталонам.

Далее мы условимся называть выделяемый нами участок межфонемного перехода диффоном. При этом отметим, что наш участок для каждого межфонемного перехода внутри слова имеет стандартную длину и короче того, что обычно понимается под диффоном - отрезок от середины предшествующего звука до середины следующего.

Перечислим теперь некоторые преимущества предлагаемого подхода:

  1. При использовании диффонов появляется надежный способ различения между собой звуков [б], [г], [д].

Выдержка звонких взрывных согласных [б], [г], [д] включает два момента: во-первых, органы речи образуют полную смычку; во-вторых, напор воздуха ее прорывает. На рисунках 1 - 3 приведены визуализации сигналов, соответствующих словам «САБО», «САГА» и «САДА» (родительный падеж слова «САД»), содержащих звонкие взрывные звуки [б], [г], [д].

Рисунок 1. Сигнал, отвечающий слову «сабо»

Рисунок 2. Сигнал, отвечающий слову «сага»

Рисунок 3. Сигнал, отвечающий слову «сада»
На них видно, что большая часть участков, отвечающих этим звукам, является квазипериодической. Этот факт легко понять, если попытаться произнести эти звуки изолированно, без последующего гласного. Мы видим, что еще до взрыва начинают звучать голосовые связки, они и создают квазипериодический отрезок в сигнале. Отличия же между указанными звуками в приведенных словах сосредоточены на очень коротком переходе к последующему звуку. Поэтому, работая со стационарными частями, мы были лишены возможности различать указанные звуки между собой. При использовании межфонемных переходов такая возможность появляется.

  1. Появляется надежный способ различения между собой звуков [к], [п], [т] в середине слова. Пример – слова «папа», и «пата» (родительный падеж от шахматного термина «пат»).

На рисунке 4 приведена визуализация сигнала, отвечающего слову «ЛАПА».

Рисунок 4. Сигнал, отвечающий слову «лапа»
Поскольку при произнесении глухих взрывных [к], [п], [т] также есть момент полного перекрытия голосового тракта, но голосовые связки в этот момент молчат, то в сигнале появляется характерный паузообразный сегмент. Работая со стационарными частями, мы были лишены возможности различать между собой и эти звуки. С использованием диффонов такая возможность появляется.

  1. Становятся надежно различимыми парные твердые и мягкие согласные. Это особенно важно в конце слова, когда нет дополнительных различителей в виде последующего гласного. Примеры – пары слов «кон» и «конь», «мол» и «моль».

  2. Появляются новые возможности в распознавании сверхбольших словарей.

На последнем остановимся подробнее. Имея достаточно совершенную систему автоматической сегментации (разбиения записанного слова на участки, отвечающие отдельным звукам) и автоматического отнесения каждого звука к гласным (у начальной метки участка проставляется идентификатор W), звонким согласным (C), шипящим (F) и паузам (P), мы разработали систему, которая, используя стационарные части звуков, классифицировала их в рамках указанных классов. Она должна была различить между собой гласные, различить между собой звонкие согласные и различить между собой шипящие и свистящие звуки. В ходе этого довольно частыми были отказы от распознавания, что приводило к необходимости вместо определения одного из двух звуков допускать возможность присутствия каждого из них. (Напомним, что мы с самого начала отказывались от распознавания между собой [б], [г], [д], а также от различения между собой [к], [п], [т]). В результате вместо конкретного распознанного слова мы получали список слов – кандидатов на распознавание. Отметим, что его размер на порядки меньше размера исходного словаря. В полученном списке пользователь двойным щелчком мыши выделял нужное слово. При этом автоматически создавался голосовой эталон с именем соответствующей леммы (словарная форма слова), который позволял в последующем, используя алгоритм DTW, в большинстве случаев распознавать словоформы этого слова, отождествляя их с данной леммой. В случае, когда упомянутый список кандидатов сводился к одному слову, эталон для него создавался без дополнительного указания пользователя. Таким образом, исключая эти не часто встречавшиеся случаи, пользователю приходилось по ходу распознавания самому создавать эталоны всех произносимых слов.

В то время как распознаваемые словари могут насчитывать сотни тысяч и даже миллионы словоформ русских слов, количество диффонов по порядку величины есть квадрат от количества транскрипций звуков русской речи, числом всего около 1300. При наличии удобной программы (такая программа имеется) звуковые файлы всех диффонов пользователь может создать, что называется, «в один присест». Далее у нас есть программа, которая по написанному русскому слову создает его транскрипцию, синтезирует из диффонов звуковой файл этого слова и создает соответствующий DTW-эталон.

Возвратимся к описанной программе распознавания большого словаря. Теперь мы получаем возможность, пользуясь сравнительно небольшой величиной списка кандидатов на распознавание, синтезировать из диффонов звуковые файлы содержащихся в нем слов, автоматически создать эталоны этих слов и вести DTW – распознавание по этим эталонам в пределах указанного списка. Результат – однозначное распознавание слова без дополнительного вмешательства пользователя.

Сделаем дополнительные замечания. Спрашивается, зачем синтезировать из диффонов звуковой файл слова? Не проще ли, распознавая диффоны между собой, получить их список, соответствующий слову, и по нему распознать слово? Нет, не проще. Дело в том, что диффонов достаточно мало для обучения, но слишком много для распознавания словаря этих диффонов, в особенности учитывая, что это короткие звуковые единицы, а DTW–распознавание естественно, тем надежнее, чем длиннее и разнообразнее по составу распознаваемые объекты. Создание синтезированных слов – как раз шаг в этом направлении и он позволяет использовать DTW–распознавание целых слов со всеми его преимуществами.
ЛИТЕРАТУРА
1. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. - Киев: Наук. думка. - 1987. - 262 с.

2. В.Ю. Шелепов, А.В. Ниценко, А.В. Жук, Д.С.Азаренко. О распознавании фонем с помощью анализа речевого сигнала в частотной и временной областях. Приложение к распознаванию синтаксически связных фраз. // Речевые технологии - Москва – 2008.- №2.- С. 43-52

3. Шелепов В.Ю. Лекции о распознавании речи. — Донецк: IПШI «Наука i освiта», 2009. — 196 с.

4. Шелепов В.Ю., Ниценко А.В., Карабалаева М.Х. Распознавание казахских гласных путем анализа в частотной и временной областях. Кибернетика и системный анализ (в печати).
Шелепов В. Ю., Ниценко А.В., Дорохина Г.В., Қарабалаева М.Х., Бөрібаева Ә.К.

Фонемааралық өтулер негізінде сөйлеуді тану жайында.

Жұмыста фонемааралық өтулер негізінде сөйлеуді тану әдісі сипатталған. Берілген тәсілдің артықшылықтары толық көрсетілген. Зерттеу нәтижелері үлкен көлемді сөздіктерді тану кезінде қолдану өте қолайлы.

About speech recognition on a basis transition of between phonemes

Shelepov V., Nicenko А., Dorokhina G., Karabalayeva М., Buribayeva A.

The method of recognition of speech on a basis transition of between phonemes in work is described. Advantages of the given approach are in detail stated. Results of research can be useful at recognition of the superbig dictionaries.