misle.ru страница 1
скачать файл
Использование искусственной нейронной сети для оценки близости векторов акустических параметров.

Мисюрёв А.В., Подрабинович А.Я, Брухтий А.В.



Аннотация. Описываются алгоритм и реализованная на его основе программа распознавания речи, использующие искусственную нейронную сеть для оценки степени сходства векторов акустических параметров.

1 Введение

Недостатки, имеющиеся у существующих в настоящее время систем распознавания речи могут объяснятся неполным соответствием между реальной речью и математическими моделями, лежащими в основе используемых методов. Качество системы распознавания речи определяется многими параметрами. В частности, большую роль играют точность распознавания, устойчивость системы к шумам, степень зависимости от диктора, зависимость от параметров микрофона. Построения полной математической модели, учитывающей все необходимые параметры, представляется сложной задачей. Возможно, более естественным является применение непараметрических методов, в частности, искусственных нейронных сетей.

Одним из наиболее простых способов включения таких методов в систему распознавания является использование искусственных нейронных сетей на стадии акустико-фонетического анализа. Системы распознавания такого типа могут использовать искусственную нейронную сеть для оценки сходства между векторами акустических параметров. Поиск наилучшего соответствия между входным речевым сигналом и эталонами слов из словаря может проводиться традиционными методами.

2 Использование искусственных нейронных сетей для акустико-фонетического анализа.

В работах /1-9/ можно найти описания результатов экспериментов по использованию искусственных нейронных сетей для распознавания отдельных звуков (гласных, согласных), а также групп звуков (например, переднеязычных, среднеязычных, заднеязычных). На вход искусственной нейронной сети могут подаваться параметры, описывающие спектр акустического сигнала. Кроме того, входные параметры могут также отражать динамику изменения спектра и контекст, что позволяет проводить распознавание более крупных речевых единиц, например, слогов.

В целом можно сказать, что полученная в этих экспериментах надежность распознавания сравнима с надежностью распознавания традиционными методами акустико-фонетического анализа. Несмотря на достаточно большое количество работ в этой области, методика использования искусственных нейронных сетей для акустико-фонетического анализа в реальных системах распознавания речи представляется не вполне сформировавшейся. Остается недостаточно ясным вопрос о том, как связана надежность распознавания отдельных звуков и надежность работы всей системы распознавания речи в целом.

Далее описываются алгоритм и реализованная на его основе программа распознавания речи, использующие искусственную нейронную сеть для оценки степени сходства векторов акустических параметров.



3 Алгоритм распознавания.

Можно выделить следующие стадии процесса распознавания.



  • Ввод акустического сигнала в компьютер и выделение границ слов.

  • Выделение параметров, характеризующих спектр сигнала.

  • Использование искусственной нейронной сети для оценки степени близости акустических параметров.

  • Сравнение с эталонами в словаре.

Поступающий на вход системы распознавания акустический сигнал разбивается на интервалы продолжительностью 12.8мс. На этих интервалах вычисляются параметры, характеризующие спектр акустического сигнала, а также его изменение по времени. Полученные таким образом вектора акустических параметров преобразуются при помощи искусственной нейронной сети. Нейронная сеть имеет один внутренний слой, 39 входных параметров, 39 узлов на внутреннем уровне и 19 выходных параметров. Последовательность выходных векторов нейронной сети сравнивается с эталонами из словаря. Для сравнения используется либо динамическое программирование, либо лучевой поиск. После того, как входной речевой сигнал распознан, качество распознавания оценивается как разность расстояний от входной последовательности до правильного слова и до самого близкого из неправильных слов.

Хочется отметить, что в данном алгоритме критерий обучения нейронной сети основывается не на правильности классификации отдельных звуков, а на основе улучшения суммарной оценки качества распознавания для всех слов из обучающей последовательности.

Искусственная нейронная сеть используется не для классификации поступающих на вход векторов акустических параметров, а для преобразования их в пространство векторов, более пригодное для последующего сравнения с эталонами из словаря. В процессе обучения происходит как модификация коэффициентов нейронной сети, так и формирование эталонов слов. Полученные таким образом нейронная сеть и эталоны могут учитывать такие факторы, как особенности конкретного используемого алгоритма поиска в словаре, различия в произнесении слов различными дикторами, особенности конкретного словаря и другую, достаточно разнородную информацию.


4 Программа распознавания слов.

Для обучения и тестирования программы распознавания был использован ранее подготовленный речевой набор данных. Лексический материал для этого набора включал три группы словоформ:



  • названия цветов красок (93 словоформы);

  • названия месяцев (12 словоформ);

  • названия чисел месяца (62 словоформы).

Дикторы, произносившие тексты из этого лексического материала (7 мужчин и 2 женщины), не являлись профессиональными дикторами. Тексты из каждой группы произносились диктором несколько раз.

Каждый текст представлял собой либо одно слово, либо сочетание двух слов, которые произносились слитно (например, “двадцать четвертое”). Сложные слова могли быть произнесены как слитно (“светлоголубой”), так и с небольшой паузой между частями слова (“светло-голубой”).

После обучения программы распознавания было проведено её тестирование на новых дикторах. Точность распознавания составляла 95-98% в зависимости от диктора и словаря. Несмотря на небольшое количество дикторов, участвовавших в обучении и тестировании программы, можно сделать вывод, что использование данного подхода позволяет уменьшить степень зависимости программы распознавания речи от диктора. В частности, в то время как среди дикторов, участвовавших в обучении программы, большинство составляли мужчины, при тестировании не наблюдалось больших отличий при распознавании женских и мужских голосов.

На основе описанной выше программы была разработана демонстрационная программа, работающая в реальном времени. Точность распознавания при этом несколько понизилась, так как добавились ошибки, связанные с выделением границ слов, с посторонними шумами, различиями в параметрах микрофонов, особенностями звуковых карт и драйверов. Тем не менее надежность распознавания оказалась достаточной для организации простого диалога между человеком и компьютером. Программа демонстрировалась на выставке КОМТЕК 97. В процессе демонстрации результаты работы программы (оцифрованная речь и результаты распознавания) записывались на жесткий диск. Полученная таким образом акустическая база данных может быть использована для дальнейшего развития программы.

Литература.

1. Bingio T., De Mori R. Use of neural networks for the recognition of place of articulation // IEEE Int.conf. on acoustics, speech and signal processing, ICASSP-88, 1988, Vol.1, p.103-106.

2. Bourlard H., Wellekens C.J. Speech dynamics and recurrent neural networks // IEEE Int.conf.on acoustics, speech and signal processing, ICASSP-89, 1989, Vol.1, p.33-36.

3. Bourlard H, Hermansky H, Nelson M, Towards increasing speech recognition error rates // Speech Communication, 18, 1996, pp 205-231.

4. Hochberg M.M., Renals S.J., Robinson A.J and Cook G.D. Recent improvements to the ABBOT large vocabulary CSL system. // Proc. IEEE Int. Conf. Acout Speech Signal Proc. ICASSP-95, 1995, Detroit MI. pp.405-408.

5. Huang W., Lippmann R., Gold B. A neural net aproach to speech recognition//IEEE Int. Conf. on acoustics, speech and signal processing, ICASSP- 99, 1988, Vol.1, p.99-102.

6. Liung H.S., Zue V.W. Some phonetic recognition experiments using artificial neural nets//IEEE Int.Cong. on acoustics, speech and signal processing, ICASSP-88, 1988, Vol.1, p.422-425.

7. Niles L., Lilverman H., Tajchmen G., Bush M. How limited training data can allow a neural network t outperform an "optimal" statistical classifier//IEEE Int.conf.on acoustics, speech and signal processing, ICASSP-89, 1989, Vol.1, p.17-20.



8. Sawai H., Waibel A., Miyatake M., Shicano K. Spotting japanese SV-syllables and phonemes using time-delay neural networks //IEEE Int.conf.on acoustics, speech and signal processing, ICASSP-89, 1989, Vol.1, p.25-28.

9. Tank D.W., Hopfield J.J. Concentrating informarion in time: analog neural network with application to speech recognition problems//Int.conf.on neural networks, ICNN, 1987, p.455-468.
скачать файл


Смотрите также: