Фрагмент для ознакомления
2
С точки зрения философских наук речь и интеллект очень тесно взаимодействуют. Чем четче речь, чем она понятнее, структурированнее, тем выше уровень интеллекта человека. Достаточно сравнить сельского и городского жителя, уровень познаний в различных областях будет значительно разниться.
Речь - вид деятельности человека, а сам речевой процесс будет зависеть целиком и полностью от человека.
Профессиональное владение речью позволяет человеку выйти на качественно новый уровень. Кроме того, речь выдает уровень культуры. Обладая четкой, увлекательной речью и достаточно высоким уровнем коммуникабельности человек способен быстро находить общий язык с любым собеседником.
В современное время особенностями воспроизведения звуков, на привычных нам частотах и особом порядке обладают даже машины. Все дело в том, что они, компьютерные программы способны синтезировать человеческую речь.
Углубляясь в тонкости функционирования звуковых «подражателей» стоит отметить, что сам процесс синтеза речи становится возможным благодаря воспроизведению определенного набора звуков, через передачу сигнала, определенных заданными параметрами.
В современных условиях синтез речи активно используется разработчиками поисковых систем, например, для помощи людям с нарушениями опорно-двигательного аппарата, путем тональной выдачи необходимой текстовой информации. В общем и целом, синтез речи предназначен лишь для конкретного получателя информации, в роли которого выступает только человек.
В связи с тем, что входным элементом синтеза речи является текст, актуальность и востребованность программы будет зависеть непосредственно от языка потребителя, ведь как известно, в каждом языке есть и своя фонетика, и свое произношение, и быстротечность речи. Таким образом, первоочередной задачей программы синтеза речи является анализ текста и подготовка его к воспроизведению. Один из вариантов синтеза речи – использование комбинации конкатенативного метода формантного синтеза. При такой конфигурации требуемый выходной сигнал создается на основе конкатенации отдельных элементов акустического сигнала, взятых из речи человека. Учитывая все перечисленные требования, для работоспособности программы необходима достаточно обширная цифровая база данных отдельных синтезируемых фрагментов.
При воспроизведении, заданные фрагменты выстраиваются в определенной последовательности, заданной программой. Все это предназначено для придания сигналу определенных просодических характеристик (тон, частота, длительность, энергичность). При умелом использовании этих элементов можно сгенерировать единый требуемый сигнал.
Рассмотрим основные подсистемы блока подготовки текста (нормализации). На начальном этапе определяются специальные части текста, такие как числа, дроби, даты, времена и другие. Эти данные преобразуются в последовательность слов. Этот конвертер предназначен отдельно для каждого типа таких специальных символов, в зависимости от языка синтезатора и контекста. Многие системы синтеза речи выполняют проверку орфографии. В этом случае необходимо спроектировать или экспортировать словарь и реализовать возможность отмены изменений и сохранения новых слов, введенных пользователем в такой словарь.
Выделение первых единиц языка - слов. Входной текст преобразуется в список словоформ. Знаки препинания также остаются в этом списке, так как они необходимы для дальнейшей обработки.
Анализ пунктуации. Самый простой способ осуществить этот анализ-просмотреть знаки препинания и расставить паузы различной длины в предложениях по просодическим правилам. Такие паузы повышают естественность генерируемого речевого сигнала.
Не менее интересным для нашего исследования также является фонетический транскриптор, который обрабатывает полученный список слов, преобразуя их в необходимый набор минимальных языковых единиц. При разработке транскриптора можно опираться на базу данных транскрипции различных слов, но такая база данных будет занимать очень большой объем памяти. Другой подход заключается в хранении основных правил преобразования словоформ в фонемы. Нужно разработать алгоритм, который использует эти правила и пропускает через них каждое слово.
Далее идет формирование просодических характеристик. Просодические характеристики означают тон, акцент и ритм языка. Физические аналоги этих понятий - частота основного тона, энергия и длительность сигнала, которые понадобятся для генерации речевого сигнала. Рассмотрим основные подсистемы блока генерации сигналов. База данных акустических сигналов является основным компонентом любых систем синтеза речи, построенных с использованием этого метода. Размерность элементов может варьироваться в зависимости от реализации и предметной области. Это могут быть фонемы, аллофоны или даже целые слова. Формат для каждой конкретной системы синтеза речи определяется с учетом особенностей языка и реализации. Языковые единицы, используемые в базе данных, лучше всего хранить в формате «wav» из-за удобства обработки информации в этом формате.
Процесс создания базы данных состоит из 2 этапов:
а) начальный этап, на котором сохраняются все языковые единицы, произносимые носителем языка-донора;
б) языковые единицы обрабатываются перед вводом в базу данных.
Стоит отметить, что в зависимости от частоты сгенерированного сигнала будет зависеть тембр воспроизводимого голоса, который представляется в виде женского или мужского.
Каждый из нас сталкивается с таким загадочным явлением, как искусственный интеллект. В повседневной жизни именно он позволяет голосовым помощникам и поисковым системам распознавать человеческую речь и угадывать желания пользователей. Я расскажу о том, как именно устроена эта технология и какие перспективы ждут эту сферу разработок в ближайшее время.
Искусственный интеллект — это очень обширный термин, в рамках которого уже существуют и еще находятся в стадии разработки множество алгоритмов, предназначенных для выполнения широчайшего спектра практических задач. Но что на самом деле умеют современные программы искусственного интеллекта, и какими принципами они руководствуются во время работы? Мы поговорим про одну из ключевых особенностей машинного разума, с которой каждый из нас регулярно сталкивается в повседневности — способность голосовых помощников распознавать человеческую речь.
Для процесса распознавания голоса в наше время используются специально разработанные программы. Для его измерения программа использует ряд звуковых параметров: частоту и длину звуковой волны в определенный момент времени. К примеру, когда вы общаетесь с популярным британским голосовым помощником «Alexa», программное обеспечение разбивает ваш голос на 25-миллисекундные слайды, а потом преобразует каждый из отрезков в цифровые сигнатуры, после чего сигнатурные блоки сравниваются с внутренним каталогом звуков программы, пока количество совпадений не будет достаточно высоким, чтобы искусственный интеллект «перевел» цифры в понятный ему буквенный запрос.
Таким образом и происходит распознавание, анализ и воспроизведение выдаваемой вами речи, или голосового текстового сообщения (запроса), предназначенного для последующего использования в качестве базовой компоненты.
1.2. История создания голосовых помощников.
Сейчас нам достаточно правильно задать вопрос, чтобы уточнить у Siri, или Алисы рецепт любого блюда в процессе приготовления пищи или попросить прочитать сказку детям на ночь. Это вполне привычные для нашей жизни сценарии. Отбросив старые предрассудки, опираясь на современные технологии, человек создает себе подобных «помощников», способных давать ответы на задаваемые вопросы на понятном нам «языке», ведь именно так мы воспринимаем информацию, которая изначально имеет вид чуждого и непонятного нам сигнала. Человек, при помощи традиционных средств коммуникации, просто не способен его уловить.
Голосовые помощники стали неотъемлемой частью общественного сознания. С течением времени им уделяется все большее значение.
Как говорится, лень – двигатель прогресса! Как бы это прискорбно не звучало, но все интеллектуальные «помощники» предназначены лишь для того, чтобы облегчить наши труды, упростить поиски, освободить руки и т.п.
В ближайшем будущем их роль в жизни современного общества только усилится, под влиянием объективных причин действительности.
Современные технологии позволяют нам достаточно легко справляться с теми трудностями, которые возникают при передаче речи, но мало кто знает, что «родились» голосовые ассистенты в конце 1930-х годов, когда были предприняты первые шаги на пути к распознаванию голоса с использованием технологий. В то далекое время, созданию качественного помощника препятствовали две достаточно серьезные проблемы:
- наличие в языке омонимов, т.е. слов, имеющих одинаковое звучание, но при этом обозначающих разные понятия;
- непрекращающиеся посторонние шумы, которые принято называть фоном, мешавшем вычленению речи пользователя от остальных звуков.
Ученым нашего времени удалось достаточно успешно решить возникающие вопросы и преодолеть препятствия путем создания современного машинного обучения. Нейронные сети, используемые в современных компьютерах, способны самостоятельно анализировать контекст и достаточно эффективно определять основной источник звука, при этом отсеивая ненужные звуки.
Однако пришли разработчики к этому не сразу. Путь был достаточно долгим, а сам процесс создания – трудоемким, затянувшимся на долгие 80 лет.