Что является системой автоматического распознавания ценовых моделей. Применение систем распознавания речи

В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей , сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Виды систем

На сегодня существует два типа систем распознавания речи - работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice , Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Сейчас применяется также технология SIND (без привязки к голосу конкретного человека).

Применение

Основным преимуществом голосовых систем является дружественность к пользователю - он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню . Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

  • Голосовой набор в различной технике (мобильники , компьютеры , и пр.)
  • Голосовой ввод текстовых сообщений в смартфонах и прочих мобильных компьютерах

См. также

  • Цифровая обработка сигналов

Примечания

Ссылки

Категории:

  • Распознавание речи
  • Речевая коммуникация
  • Применение искусственного интеллекта
  • Средства реабилитации для людей с нарушением опорно-двигательного аппарата
  • Средства реабилитации для людей с нарушением зрения

Wikimedia Foundation . 2010 .

Смотреть что такое "Распознавание речи" в других словарях:

    Процесс преобразования речи в текст. Системы распознавания речи характеризуются: объемом словаря понимаемых слов; допустимой беглостью речи; степенью зависимости от настойки на речь конкретного лица. По английски: Speech recognition См. также:… … Финансовый словарь

    распознавание речи - — Тематики электросвязь, основные понятия EN speech recognition …

    распознавание речи - kalbos atpažinimas statusas T sritis automatika atitikmenys: angl. speech perception; speech recognition; voice recognition vok. Spracherkennung, f rus. распознавание речи, n pranc. reconnaissance de parole, f; reconnaissance vocale, f … Automatikos terminų žodynas

    распознавание речи, зависящее от особенностей голоса - Процедура распознавания, основанная на учете особенностей голоса говорящего. Распознаваемый речевой сигнал обычно разделяется на короткие фрагменты, каждый из которых сравнивается с образцами речи, хранимыми в памяти. Выбирается тот, с которым… … Справочник технического переводчика

    распознавание речи, не зависящее от особенностей голоса - Метод преобразования речи в осмысленную текстовую информацию без настройки на тембр голоса конкретного абонента. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М. Горностаева. Москва,… … Справочник технического переводчика

    автоматическое распознавание речи - Процесс или технология, которые воспринимают сигнал обычной речи в качестве входного сигнала и выдают в качестве выходного сигнала кодированную версию сказанного (слово, команда, выражение, предложение и т. д.) (МСЭ Т Y.2271, МСЭ Т P.10/ G.100).… … Справочник технического переводчика

    Образов Оптическое распознавание символов Распознавание рукописного ввода Распознавание речи … Википедия

    Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… … Википедия

    Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… … Википедия

Книги

  • Распознавание и понимание смысла речи в шумах на основе стохастики , В. В. Насыпный. Стохастика - это стохастическая информационная технология, разработанная в России. Она позволяет создавать эффективные интеллектуальные системы, работающие в реальном времени и исключающие…

Энциклопедичный YouTube

    1 / 5

    Введение в распознавание речи

    LANGMaster Распознавание речи

    Субтитры

История

Первое устройство для распознавания речи появилось в 1952 году , оно могло распознавать произнесённые человеком цифры . В 1962 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking (англ.) русск. , VoiceNavigator (англ.) русск. ) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых интерфейсов безмолвного доступа (silent speech interfaces, SSI). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Классификация систем распознавания речи

Системы распознавания речи классифицируются:

  • по размеру словаря (ограниченный набор слов, словарь большого размера);
  • по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
  • по типу речи (слитная или раздельная речь);
  • по назначению (системы диктовки, командные системы);
  • по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
  • по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
  • по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:

  • Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
  • Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Методы и алгоритмы распознавания речи

«… очевидно, что алгоритмы обработки речевого сигнала в модели восприятия речи должны использовать ту же систему понятий и отношений, которой пользуется человек.»

Сегодня системы распознавания речи строятся на основе принципов признания [кем? ] форм распознавания [неизвестный термин ] . Методы и алгоритмы, которые использовались до сих пор, могут быть разделены на следующие большие классы:

Классификация методов распознавания речи на основе сравнения с эталоном.

  • Динамическое программирование - временные динамические алгоритмы (Dynamic Time Warping).

Контекстно-зависимая классификация. При её реализации из потока речи выделяются отдельные лексические элементы - фонемы и аллофоны, которые затем объединяются в слоги и морфемы.

  • Методы дискриминантного анализа, основанные на Байесовской дискриминации (Bayesian discrimination);
  • Скрытые Марковские модели (Hidden Markov Model);
  • Нейронные сети (Neural networks).

Архитектура систем распознавания

Типичная [ ] архитектура статистических систем автоматической обработки речи.

  • Модуль шумоочистки и отделение полезного сигнала.
  • Акустическая модель - позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи.
  • Языковая модель - позволяют определить наиболее вероятные словесные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта - слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.
  • Декодер - программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания слитной речи.
  1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
  2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
  3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)
  4. Далее параметры речи поступают в основной блок системы распознавания - декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

Признаки эмоционально окрашенной речи в системах распознавания

Спектрально-временные признаки

Спектральные признаки:

  • Среднее значение спектра анализируемого речевого сигнала;
  • Нормализованные средние значения спектра;
  • Относительное время пребывания сигнала в полосах спектра;
  • Нормализованное время пребывания сигнала в полосах спектра;
  • Медианное значение спектра речи в полосах;
  • Относительная мощность спектра речи в полосах;
  • Вариация огибающих спектра речи;
  • Нормализованные величины вариации огибающих спектра речи;
  • Коэффициенты кросскорреляции спектральных огибающих между полосами спектра.

Временные признаки:

  • Длительность сегмента, фонемы;
  • Высота сегмента;
  • Коэффициент формы сегмента.

Спектрально-временные признаки характеризуют речевой сигнал в его физико-математической сущности исходя из наличия компонентов трех видов:

  1. периодических (тональных) участков звуковой волны;
  2. непериодических участков звуковой волны (шумовых, взрывных);
  3. участков, не содержащих речевых пауз.

Спектрально-временные признаки позволяют отражать своеобразие формы временного ряда и спектра голосовых импульсов у разных лиц и особенности фильтрующих функций их речевых трактов. Характеризуют особенности речевого потока, связанные с динамикой перестройки артикуляционных органов речи говорящего, и являются интегральными характеристиками речевого потока, отражающими своеобразие взаимосвязи или синхронности движения артикуляционных органов говорящего.

Кепстральные признаки

  • Мел-частотные кепстральные коэффициенты;
  • Коэффициенты линейного предсказания с коррекцией на неравномерность чувствительности человеческого уха;
  • Коэффициенты мощности частоты регистрации;
  • Коэффициенты спектра линейного предсказания;
  • Коэффициенты кепстра линейного предсказания.

Большинство современных автоматических систем распознавания речи сосредотачивают усилия на извлечении частотной характеристики речевого тракта человека, отбрасывая при этом характеристики сигнала возбуждения. Это объяснено тем, что коэффициенты первой модели обеспечивают лучшую разделимость звуков. Для отделения сигнала возбуждения от сигнала речевого тракта прибегают к кепстральному анализу .

Амплитудно-частотные признаки

  • Интенсивность, амплитуда
  • Энергия
  • Частота основного тона (ЧОТ)
  • Формантные частоты
  • Джиттер (jitter) - дрожание частотная модуляция основного тона (шумовой параметр);
  • Шиммер (shimmer) - амплитудная модуляция на основном тоне (шумовой параметр);
  • Радиальная базисная ядерная функция
  • Нелинейный оператор Тигер

Амплитудно-частотные признаки позволяют получать оценки, значения которых могут меняться в зависимости от параметров дискретного преобразования Фурье (вида и ширины окна), а также при незначительных сдвигах окна по выборке. Речевой сигнал акустически представляют собой распространяемые в воздушной среде сложные по своей структуре звуковые колебания, которые характеризуются в отношении их частоты (числа колебаний в секунду), интенсивности (амплитуды колебаний) и длительности. Амплитудно-частотные признаки несут необходимую и достаточную информацию для человека по речевому сигналу при минимальном времени восприятия. Но применение этих признаков не позволяет в полной мере использовать их в качестве инструмента идентификации эмоционально окрашенной речи.

Признаки нелинейной динамики

Для группы признаков нелинейной динамики речевой сигнал рассматривается как скалярная величина, наблюдаемая в системе голосового тракта человека. Процесс речеобразования можно считать нелинейным и анализировать его методами нелинейной динамики. Задача нелинейной динамики состоит в нахождении и подробном исследовании базовых математических моделей и реальных систем, которые исходят из наиболее типичных предложений о свойствах отдельных элементов, составляющих систему, и законах взаимодействия между ними. В настоящее время методы нелинейной динамики базируются на фундаментальной математической теории, в основе которой лежит теорема Такенса (англ.) русск. , которая подводит строгую математическую основу под идеи нелинейной авторегрессии и доказывает возможность восстановления фазового портрета аттрактора по временному ряду или по одной его координате. (Под аттрактором понимают множество точек или подпространство в фазовом пространстве, к которому приближается фазовая траектория после затухания переходных процессов.) Оценки характеристик сигнала из восстановленных речевых траекторий используются в построении нелинейных детерминированных фазово-пространственных моделей наблюдаемого временного ряда. Выявленные отличия в форме аттракторов можно использовать для диагностических правил и признаков, позволяющих распознать и правильно идентифицировать различные эмоции в эмоционально окрашенном речевом сигнале.

Параметры качества речи

Параметры качества речи по цифровым каналам:

  • Слоговая разборчивость речи;
  • Фразовая разборчивость речи;
  • Качество речи по сравнению с качеством речи эталонного тракта;
  • Качество речи в реальных условиях работы.

Основные понятия

  • Разборчивость речи - относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов.
  • Качество речи - параметр, характеризующий субъективную оценку звучания речи в испытуемой системе передачи речи.
  • Нормальный темп речи - произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 2,4 с.
  • Ускоренный темп речи - произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 1,5-1,6 с.
  • Узнаваемость голоса говорящего - возможность слушателей отождествлять звучание голоса, с конкретным лицом, известным слушателю ранее.
  • Смысловая разборчивость - показатель степени правильного воспроизведения информационного содержания речи.
  • Интегральное качество - показатель, характеризующий общее впечатление слушателя от принимаемой речи.

Применение

Основным преимуществом голосовых систем объявлялась дружественность к пользователю . Речевые команды должны были избавить конечного пользователя от необходимости использования сенсорных и иных методов ввода данных и команд.

  • Голосовые команды
  • Голосовой ввод текста

Успешными примерами использования технологии распознавания речи в мобильных приложениях являются: ввод адреса голосом в Яндекс.Навигаторе, голосовой поиск Google Now.

Помимо мобильных устройств, технология распознавания речи находит широкое распространение в различных сферах бизнеса:

  • Телефония: автоматизация обработки входящих и исходящих звонков путём создания голосовых систем самообслуживание в частности для: получения справочной информации и консультирования, заказа услуг/товаров, изменения параметров действующих услуг, проведения опросов, анкетирования, сбора информации, информирования и любые другие сценарии;
  • Решения "Умный дом": голосовой интерфейс управления системами «Умный дом»;
  • Бытовая техника и роботы: голосовой интерфейс электронных роботов; голосовое управление бытовой техникой и т.д;
  • Десктопы и ноутбуки: голосовой ввод в компьютерных играх и приложениях;
  • Автомобили: голосовое управление в салоне автомобиля - например, навигационной системой;
  • Социальные сервисы для людей с ограниченными возможностями.

См. также

  • Цифровая обработка сигналов

Примечания

  1. Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits , J. Acoust. Soc. Am. 24 (6) pp. 637-642
  2. Account Suspended
  3. Современные проблемы в области распознавания речи. - Auditech.Ltd . Проверено 3 марта 2013. Архивировано 15 марта 2013 года.
  4. http://фоноскопическая.рф/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf
  5. http://booksshare.net/books/med/chistovich-la/1976/files/fizrech1976.djvu
  6. http://revistaie.ase.ro/content/46/s%20-%20furtuna.pdf
  7. http://www.ccas.ru/frc/papers/mestetskii04course.pdf
  8. Распознавание речи | Центр Речевых Технологий | ЦРТ . Проверено 20 апреля 2013. Архивировано 28 апреля 2013 года.
  9. http://pawlin.ru/materials/neiro/sistemy_raspoznavaniya.pdf
  10. http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
  11. http://eprints.tstu.tver.ru/69/1/3.pdf
  12. http://www.terrahumana.ru/arhiv/10_04/10_04_25.pdf
  13. Диссертация на тему «Исследование психофизиологического состояния человека на основе эмоциональных признаков речи» автореферат по специальности ВАК 05.11.17, 05.13.01 - Прибор…
  14. ГОСТ Р 51061-97. ПАРАМЕТРЫ КАЧЕСТВА РЕЧИ. СИСТЕМЫ НИЗКОСКОРОСТНОЙ ПЕРЕДАЧИ РЕЧИ ПО ЦИФРОВЫМ КАНАЛАМ. . Архивировано 30 апреля 2013 года.

Ссылки

  • Технологии распознавания речи , www.xakep.ru
  • И. А. Шалимов, М. А. Бессонов. Анализ состояния и перспектив развития технологий определения языка аудиосообщения .
  • Как устроена технология распознавания речи Yandex SpeechKit от Яндекса | Хабрахабр
  • Технология распознавания речи Yandex SpeechKit от Яндекса

Распознавание речи -- процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Обратной задачей является синтез речи. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. В 1962 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox. Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Классификация систем распознавания речи.

Системы распознавания речи классифицируются:

  • · по размеру словаря (ограниченный набор слов, словарь большого размера);
  • · по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
  • · по типу речи (слитная или раздельная речь);
  • · по назначению (системы диктовки, командные системы);
  • · по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
  • · по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
  • · по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:

  • · Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
  • · Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Архитектура систем распознавания

Типичная архитектура статистических систем автоматической обработки речи.

  • · Модуль шумоочистки и отделение полезного сигнала.
  • · Акустическая модель -- позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи.
  • · Языковая модель -- позволяют определить наиболее вероятные словесные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта -- слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.
  • · Декодер -- программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания слитной речи.

Этапы распознавания:

  • 1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
  • 2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
  • 3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)
  • 4. Далее параметры речи поступают в основной блок системы распознавания -- декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.
  • · Голосовое управление
  • · Голосовые команды
  • · Голосовой ввод текста
  • · Голосовой поиск

Успешными примерами использования технологии распознавания речи в мобильных приложениях являются: ввод адреса голосом в Яндекс Навигаторе, голосовой поиск Google Now.

Помимо мобильных устройств, технология распознавания речи находит широкое распространение в различных сферах бизнеса:

  • · Телефония: автоматизация обработки входящих и исходящих звонков путём создания голосовых систем самообслуживание в частности для: получения справочной информации и консультирования, заказа услуг/товаров, изменения параметров действующих услуг, проведения опросов, анкетирования, сбора информации, информирования и любые другие сценарии;
  • · Решения "Умный дом": голосовой интерфейс управления системами «Умный дом»;
  • · Бытовая техника и роботы: голосовой интерфейс электронных роботов; голосовое управление бытовой техникой и т.д.;
  • · Десктопы и ноутбуки: голосовой ввод в компьютерных играх и приложениях;
  • · Автомобили: голосовое управление в салоне автомобиля -- например, навигационной системой;
  • · Социальные сервисы для людей с ограниченными возможностями.

программный автоматизация ввод распознавание

  • 9. Фонологические позиции. Сильные и слабые фонемы.
  • 10. Позиционные чередования гласных фонем. Количественная и качественная редукция гласных фонем.
  • 11. Позиционные чередования согласных фонем. Ассимиляция и диссимиляция по глухости/звонкости и по твердости/мягкости.
  • 12. Исторические чередования фонем.
  • 13. Падение редуцированных гласных фонем и последствия этого явления.
  • 14. Чередования, связанные с историей носовых звуков в древнерусском языке.
  • 15. Палатализация заднеязычных.
  • 17. Фонетическая транскрипция. Фонематическая транскрипция
  • 18. Слог. Слогораздел. Типы слогов.
  • 19. Фонетическое слово. Ударение
  • 20. Речевой такт. Интонация
  • 21. Ударение. Интонационные конструкции
  • 21. Фраза. Интонация
  • 22. Понятие об орфоэпии
  • 23. Основные правила русского литературного произношения.
  • 24. Произношение гласных под ударением. Произношение безударных гласных.
  • 25. Произношение отдельных согласных звуков.
  • 26. Произношение групп согласных.
  • 27. Произношение некоторых грамматических форм.
  • 28. Произношение некоторых аббревиатур. Особенности произношения иноязычных слов.
  • 29. Трудные случаи усвоения ударения в русском языке.
  • 30. Развитие русского литературного произношения.
  • 31. Грамматическое кодирование
  • 32. Семантическое кодирование. Двухаргументные (временные признаки): причинность.
  • 33. Семантическое кодирование. Двухаргументные (временные признаки): следствие, результат, цель.
  • 34. Семантическое кодирование. Двухаргументные (временные признаки): превращение, изменение
  • 35. Семантическое кодирование. Двухаргументные (временные признаки): взаимодействие, группировка, общность, объединение
  • 36. Семантическое кодирование. Двухаргументные (временные признаки): разделение, влияние, условие, вхождение.
  • 37. Семантическое кодирование. Двухаргументные (временные признаки): соответствие, управление, подчинение, зависимость.
  • 38. Семантическое кодирование. Одноаргументные (постоянные признаки):свойство, необходимость, возможность, вероятность, есть, нет.
  • 39. Семантическое кодирование. Одноаргументные (постоянные признаки): истинность, ложность.
  • Семантический код. Его цели. Предназначение. Принцип построения. Возможности.
  • Предназначение семантического кода. Термин «смысл».
  • Предназначение семантического кода. Текст. Информация. Гипертекст в освоении информации.
  • 43. Грамматический и семантический анализ при семантическом кодировании.
  • 44. Русский семантический словарь сочетаемости и ассоциативный словарь при семантическом кодировании.
  • Предназначение семантического кода. Системный изоморфизм.
  • Предназначение семантического кода. Принцип необходимого и достаточного.
  • Предназначение семантического кода. Связность классов и подклассов
  • 48. Предназначение семантического кода. Принцип иерархичности/ неиерархичности.
  • 49. Предназначение семантического кода. Системная метафоричность.
  • 50. Ситуативный (ситуационный) семантический код.
  • 51. Семантическое кодирование. Выравнивающе-толковательный код. Матрешный код.
  • 52. Основные задачи и ключевые понятия речевого интерфейса.
  • 53. Исторический обзор проблемы распознавания и синтеза речи.
  • 54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
  • 55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
  • 56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
  • 57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
  • 58. Информационная и модуляционная структура речевого сигнала.
  • 59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.
  • 60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
  • 61. Методы синтеза речевого сигнала. Формантная модель.
  • 62. Компиляционные методы синтеза речевого сигнала.
  • 63. Методы анализа речевого сигнала.
  • 64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов бпф. Метод цифровой фильтрации
  • Спектральный анализ с использованием алгоритмов бпф
  • 65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала. Спектральный анализ на основе линейного предсказания
  • Формантно-параметрическое описание речевого сигнала
  • 66. Метод кепстральных коэффициентов. Особенности восприятия речи. Свойства рецептивного восприятия речи человеком. Метод кепстральных коэффициентов
  • 67. Свойства рецептивного восприятия речевых сигналов. Природа слуховых (фонетических) признаков речевого сигнала. Свойства рецептивного восприятия речевых сигналов
  • Природа слуховых (фонетических) признаков речевого сигнала
  • 68. Свойства восприятия минимальных смыслоразличительных элементов речи
  • 69. Синтез речи по тексту. Структура синтезатора речи по тексту.
  • Структура синтезатора речи по тексту Ключевые понятия:
  • 70. Лингвистический процессор. Предварительная обработка текста. Пофразовая обработка текста.
  • Предварительная обработка текста
  • Пофразовая обработка текста
  • 71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
  • Пример работы лингвистического процессора
  • 72. Просодический процессор
  • 73.Фонетический процессор. Артикуляторно-фонетический процессор. Формантный фонетический процессор.
  • 74. Аллофонный фонетический процессор. Акустический процессор.
  • 75. Аппроксимация геометрии речевого такта. Акустический процессор, основанный на компиляционных методах синтеза речи.
  • 76. Классификация систем автоматического распознавания речи. Методы автоматического распознавания речи.
  • 77. Классификация методов распознавания речи.
  • 78. Метод динамического программирования.
  • 79. Метод скрытых марковских моделей.
  • Под системами автоматического распознавания речи (САРР) понимают системы, преобразующие входную речь (речевой сигнал) в распознанное сообщение. При этом распознанное сообщение может быть представлено как в форме текста этого сообщения, так и

    преобразовано сразу в форму, удобную для его дальнейшей обработки с целью формирования ответной реакции системы. Изначально перед системой автоматического распознавания речи ставится задача преобразования текста в речь. Поэтому в английской литературе эти системы называются Speech To Text System. Часто системы автоматического распознавания речи называют также просто системами распознавания речи (СРР).

    Упрощенная структурная схема системы автоматического распознавания речи приведена на рис.

    Под моделью анализа речевого сигнала понимают блок, в задачи которого входит анализ входного сигнала, во-первых, с целью отнесения его к числу речевых, а во-вторых, для выделения в составе полученного сигнала компонент, которые являются основными для

    распознавания полученного сообщения. К таким компонентам относятся параметры, описывающие речь, аналогичные тем, которые формируются в процессе синтеза речи. Набор указанных параметров зависит от избранного метода распознавания.

    Модель распознавания речи и принятия решения – это блок, в рамках которого осуществляется формирование распознанного сообщения на основе анализа последовательности параметров, полученных из первого блока. Например, если используется формантная модель описания речи, то на основе полученных в первом блоке частот формант строится последовательность распознанных фонем, составляющих входное сообщение. При этом осуществляется принятие решения о том, распознано ли входное сообщение правильно. При принятии решения, в частности, возможны следующие решения: сообщение распознано правильно (подтверждением этого является текст, соответствующий нормам естественного языка) либо

    сообщение не распознано или распознано не правильно (такое решение принимается в случае наличия в распознанном сообщении явных, трудно исправимых автоматически ошибок или вообще полной бессмыслицы).

    В качестве ограничений, накладываемых на САРР, можно привести следующие характеризующие их параметры:

    Вид распознаваемой речи (пословное произношение с паузами в стиле речевых команд; четкое произношение без пауз в стиле “диктант”; спонтанная речь);

    Объём словаря (ограниченный до 100, 200 и т.д. слов; неограниченный);

    Степень зависимости от диктора (дикторозависимые; дикторонезависимые);

    Синтаксические ограничения (отдельные слова; типовые фразы; искусственный язык; естественный язык);

    Условия приёма речевых сигналов (контактные микрофоны; удаленные на расстояние более 1 м микрофоны);

    Условия применения СРР (слабые или сильные помехи);

    Надежность распознавания.

    Практические приложения речевого интерфейса

    Прежде чем перейти к рассмотрению примеров практического использования речевого интерфейса, сравним его с наиболее распространенными в настоящее время средствами взаимодействия пользователя с компьютером: клавиатурой и дисплеем. Следует отметить по крайней мере три принципиальных отличия речевого интерфейса:

    1) явный недостаток клавиатуры и дисплея заключается в том, что для общения с компьютером человеку нужно пройти специальную подготовку. В то же время речь – это естественный интерфейс для любого, даже неподготовленного человека. Речь снижает в резкой степени психологическое расстояние между человеком и компьютером. Если появляется речевой интерфейс, то круг пользователей компьютером может стать неограниченным;

    2) речь сама по себе никак механически не привязана к компьютеру и может быть связана с ним через системы коммуникаций, например, телефон. Речевой интерфейс сокращает физическое расстояние между человеком и компьютером. Это дополнительно расширяет круг потенциальных пользователей компьютеров и делает речевой интерфейс идеальным средством для оздания систем массового информационного обслуживания;

    3) можно обращаться с компьютером в полной темноте, с закрытыми глазами, в условиях занятости рук рычагами управления, с завязанными руками и в другой экстремальной обстановке. Это свойство даёт оперативность и мобильность общения, освобождение рук и разгрузку зрительного канала восприятия при получении информации. Это исключительно важно, например, для диспетчера большой энергетической системы или пилота самолёта и водителя автомобиля. Кроме того, компьютерные системы становятся более доступными людям с нарушением зрения.

    В настоящее время речевые компьютерные технологии уже достаточно широко распространены и развиваются в нескольких направлениях, основные из которых представлены на рис.

  • Финансовые рынки обладают свойством создавать модели, которые нередко предвещают дальнейшее направление движения. Ценовые модели формируются из сочетаний последовательных пиков и впадин, при этом у каждой фигуры есть свой механизм образования и определенная графическая форма. Динамика объема сделок выступает подтверждающим фактором существования определенной модели. Все модели находят объяснение с точки зрения психологии участников рынка.
    Графический метод является одним из основных приемов распознавания ценовых моделей. Отметим, что критерии определения той или иной фигуры расплывчаты, все сигналы воспринимаются субъективно, классические методы хаотичны, Б них не прослеживается строгой системы. Несмотря на недостатки, графические методы полезны для практического применения и служат основой для проведения серьезного технического анализа.
    Распознавание графических моделей и их анализ - трудоемкое занятие, отнимающее много времени у трейдера. Даже самый опытный инвестиционный аналитик, имеющий в своем распоряжении лучшее программное обеспечение, может отслеживать от 50 до 75 ценных бумаг в день. Это слишком мало, если учитывать масштабы мировых фондовых рынков.
    Не обладая полной информацией о ценовых моделях, технический аналитик будет продолжать упускать многочисленные торговые возможности. Инвесторам необходим быстрый, простой и своевременный доступ к информации о сформировавшихся графических моделях по большому количеству финансовых инструментов с целью повышения эффективности торговли. В последнее время все большее распространение получают
    программы автоматического распознавания мартов - CPR (Chart Pattern Recognition).
    Система Recognia. Мощную систему распознавания чарт-паттернов предоставляет в распоряжение трейдера канадская компания «Recognia Inc.». Разработанная технология позволяет проводить анализ нескольких рынков ценных бумаг. Специалист должен лишь задать параметры поиска (по финансовому инст-рументу, по определенной ценовой модели и др.)Программа «сканирует» графики и выявляет инструменты, с которыми проводить финансовые операции в данный момент рациональнее всего. Канадская компания «Recognia Inc.» обеспечивает он-лайновых брокеров, управляющих инвестиционными фондами и поставщиков финансовой информации сервисом, позволяющим автоматически выявлять события и паттерны, используя запатентованную технологию.
    С помощью Recognia Service инвестор имеет возможность:
    оценить перспективы по конкретному финансовому инструменту путем просмотра недавних событий технического анализа (technical events);
    найти новые возможности для открытия позиций путем обзора ценных бумаг, для которых система Recognia обнаружила определенную ценовую фигуру;
    определить, является ли выявленное событие значимым для него, изучив его характеристики и просмотрев график;
    установить алерты по конкретным бумагам или торговым площадкам (предусмотреть формирование предупреждающих сигналов в случае обнаружения на графиках выбранных ценных бумаг);
    узнать больше о техническом анализе из представленного учебного материала.
    Можно выделить четыре этапа в работе Recognia Service (рис. 6.1).
    1) данные по открыто торгуемым финансовым инструментам, включая акции, облигации, товары, валюту и индексы, автоматически поступают в Recognia после закрытия торгов. В настоящий момент Recognia анализирует более 20 ООО ценных бумаг каждый день, торгуемых на североамериканских биржах, и планирует включить сотни финансовых инструментов с других мировых площадок;
    2) используя запатентованные алгоритмы распознавания паттернов и нейросетевые технологии, Recognia регулярно анализирует ценовые данные по этим финансовым инструментам, автоматически обнаруживая текущие и исторические ценовые модели на графиках. В разработке данной технологии участвовали эксперты в области технического анализа;
    3) результаты проведенного анализа поступают клиентам компании, которые создают на своих сайтах соответствующие разделы;
    4) инвесторы, брокеры и управляющие портфелями используют паттерны (модели) для обнаружения новых торговых возможностей и для подтверждения сигналов, полученных другими способами. Клиенты могут предоставлять информацию о выявленных ценовых паттернах бесплатно или организовывать платный сервис. Конечные пользователи формируют запрос на выявление паттернов по любым доступным параметрам (название бумаги, биржа, сектор, вид паттерна и др.)На сайте https://example.recognia.com/demo представлена демонстрационная версия Recognia On-Line Broker Product, которая обеспечивает доступ ко всем функциональным возможное - тям, но при ограниченном наборе финансовых инструментов и поступлении ценовой информации с задержками.
    Recognia On-Line Broker Product обеспечивает инвесторов следующими инструментами:
    Technical Event Stock Scrccner (рис. 6.2.) составляет список финансовых инструментов, которые отвечают введенным пользователем критериям. Инвестору необходимо задать параметры поиска, характеризующие искомое событие технического анализа: тип, дату, продолжительность, «медвежий» или «бычий» сигналы и т.д. Пользователь также может ввести и другие критерии поиска; биржу, отрасль, тип инструмента, объемы торгов и уровень цен. Например, необходимо найти акции нефтегазового сектора, которые недавно продемонстрировали ценовую модель разворота - «двойное дно». По таким бумагам ожидается движение цены вверх;
    Technical Event Lookup. Данная функция позволяет получать список всех недавних событий технического анализа для конкретной бумаги или индекса. Все события для выбранной бумаги группируются на четыре различных класса:
    а) классические паттерны (Classic Pattern) - традиционные графические модели, например, «двойная вершина» или «голова и плечи»;
    б) краткосрочные паттерны (Short-term Pattern) или свечные модели;
    в) индикаторы (Indicator) - события, основанные на скользящих средних;
    г) осцилляторы (Oscillator), например, MACD или RSI.
    Визуализация результатов распознавания. На рис. 6.3 представлен пример выявления Recognia графической модели. Инвестор получает следующую информацию: краткое описание события (паттерна), дату события и вероятный целевой диапазон иены. График включает линии, которые образуют паттерн, иконку, указывающую на дату события, а также линии тренда.
    Q Recognta Inc. ZOOd
    Chart Pattem Recognition for MetaStock (CPR) - дополнительная программа-эксперт для MetaStock, которая позволяет автоматически распознавать шесть классических трендовых моделей разворота («голова и плечи» на вершине и в основании, Лтройная вершина», «тройное основание», «двойная вершина» и «Двойное основание») и три трендовые модели продолжения
    («симметричный треугольник», «восходящий треугольник» и «нисходящий треугольник»). Эти графические модели являются наиболее надежными.
    Когда программа выявляет паттерн, блок Expert Commentary, отвечающий за выдачу рекомендаций трейдеру при обнаружений паттернов на графике, информирует, где лучше разместить защитные стоп-приказы и какова ожидаемая цена актива. Программа отмечает выявленную неновую модель на графике, гене-рирует сигналы для входа и выхода из позиции. CPR позволяет быстро сканировать множество графиков в поисках ценовых паттернов.
    1. Распознавание модели «голова и плечи». Основные правила для данной модели:
    1) предшествующий восходящий тренд: три и более последовательных пика;
    2) левое плечо следует после коррекционного снижения;
    3) подъем до нового уровня выше левого плеча;
    4) снижение иены до уровня предыдущего минимума;
    5) третий подъем не достигает верхней точки средней вершины;
    6) закрытие ниже линии шеи.
    Как только цена опускается ниже уровня «шеи», программа CPR выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания вниз от точки прорыва линии «шеи» расстояния от верхней точки «головы» до уровня следующей впадины. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда. Информация о целевых ценах отражается в Expert Commentary.
    Если минимальная целевая цена не достигается в течение определенного периода времени или цена поднимается выше линии «шеи», то модель отменяется. Максимальный временной период для достижения минимальной целевой цены эквивалентен расстоянию от левого «плеча» до правого.
    2. Распознавание модели «тройная вершина». Основные правила для данной модели:
    Лпредшествующий восходящий тренд: три и более последовательных пика;


    4) снижение цены до уровня предыдущего минимума;
    5) третий подъем достигает уровня предыдущих двух вершин;
    6) закрытие ниже линии поддержки.
    Как только цена опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания средней высоты трех вершин до линии поддержки вниз от точки прорыва. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда.

    3. Распознавание модели «двойная вершина». Основные правила для данной модели:

    2) левая вершина следует после коррекционного снижения;
    3) новый подъем до уровня левой вершины;
    4) закрытие ниже уровня предыдущей впадины.
    Как только цена опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания высоты первой вершины до линии поддержки вниз от точки прорыва. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда.
    Если минимальная целевая цена не достигается в течение определенного периода времени или цена поднимается выше линии поддержки, то модель отменяется. Максимальный временной период для достижения минимальной целевой цены эквивалентен расстоянию от левой вершины до правой.
    4. Распознавание модели «восходящий треугольник». Основные правила для данной модели:
    1) предшествующий восходящий тренд: два и более последовательных пика;
    2) левая вершина следует после коррекционного снижения;
    3) новый подъем до уровня левой вершины;
    4) коррекция формирует вторую впадину выше предыдущей;
    5) подъем выше предыдущего пика - точка прорыва.
    Линии тренда, проведенные вдоль пиков и впадин треугольника, сходятся. Пройдя по горизонтали 2/3 или 3/4 длины треугольника, цена обычно прорывает его в направлении предшествующей тенденции. Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется.
    Как только цена поднимается выше уровня сопротивления, СРЯ выдает сигнал на покупку при открытии следующей торговой сессии. Минимальный временной период для достижения целевой цены эквивалентен расстоянию от первой вершины/ впадины до второй вершины/впадины. Целевая цена определяется путем откладывания вверх от точки прорыва полдлины основания треугольника.
    5. Распознавание модели «нисходящий треугольник». Основные правила для данной модели:
    лпредшествующий нисходящий тренд: две и более последовательные впадины;
    2) левая впадина следует после коррекционного подъема;
    3) новое снижение до уровня левой впадины;
    4) подъем формирует вторую вершину ниже предыдущей;
    5) падение ниже уровня предыдущей впадины - точка прорыва.
    Как только цепа опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии (рис. 6.4). Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется. Минимальный временной период для достижения целевой цены эквивалентен расстоянию от первой вершины/впадины до второй вершины/впадины. Целевая цена определяется путем откладывания вниз от точки прорыва полдлины основания треугольника.
    6. Распознавание модели «симметричный треугольник». Основные правила для данной модели:
    1) предшествующий восходящий или нисходящий тренд: два и более последовательных пика;
    2) левая вершина (впадина) следует после коррекционного снижения (подъема);
    3) подъем (снижение) ниже (выше) уровня предыдущей вершины (впадины);
    4) снижение (подъем) формирует вторую впадину (вершину) выше (ниже) предыдущей;
    5) прорыв линии тренда.
    Как только цена поднимается выше уровня сопротивления, CPR выдает сигнал на покупку на открытии следующей торговой сессии. Если цена опускается ниже уровня поддержки, CPR выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется. Минимальный временной период для достижения Целевой цены эквивалентен расстоянию от первой вершины/ впадины до второй вершины/впадины. Целевая цена определяется путем откладывания от точки прорыва поддлины основания треугольника.
    В CPR имеются средства анализа и классификации данных в виде дополнительного программного обеспечения к пакету Excel: AnalyzerXL, DownioaderXL, RTQuotesXL, PredictorXL, BulkQuotesXL, ClassifierXL, PortfolioXL, OptionsXL, их возможности представлены в табл. 6.1.
    В самое последнее время появились новые программные системы распознавания чарт-паттернов, такие как: Pattem z - Pattem Recognition Software (http: // www.thepattemsite.com); Ramp-chart Pattern Recognition Scanner (http; // www.newadawn.com); Omni trader chart pattern Recognition Module 2 (http: // www.onmitrader.com); IBFX - PRS - Pattern Recognition System (http: // www.ibfx.com)



    Понравилась статья? Поделитесь с друзьями!