Yandex SpeechKit: зачем нужен и как использовать

Опубликовано 22 июля 2020 в 18:47 (Обновлено 2 ноября 2023)

Время чтения: 4 мин

В этом материале мы поговорим о Yandex SpeechKit - речевых технологиях на базе машинного обучения.

Yandex SpeechKit
Yandex SpeechKit

Что это такое

Я не могу не привести цитату от самой компании Яндекс:

Yandex SpeechKit - это речевые технологии на базе машинного обучения для создания голосовых помощников, автоматизации колл-центров, контроля качества сервиса и других задач. Наши технологии лежат в основе голосового помощника Алиса, а теперь адаптированы для вашего бизнеса.

Яндекс

Официальный сайт

Зачем нужен

Что входит в эти "речевые" технологии о которых говорят в Яндексе? Среди основных заявленных направлений можно выделить:

  1. Автоматизация колл-центров
  2. Телемаркетинг
  3. Умные голосовые помощники
  4. Озвучивание контента и транскрибация в текст
  5. Решения для слабовидящих

В основном все эти решения для серьезных компаний и на платной основе. Но ниже мы обсудим как простой владелец сайта может использовать эти технологии и даже бесплатно.

Сколько стоит Yandex SpeechKit

На официальном сайте Yandex SpeechKit есть калькулятор стоимости. Так, за синтез речи в 10000 знаков за месяц Яндекс с вас возьмет чуть более 13 рублей.

Пример расчета стоимости Yandex SpeechKit
Пример расчета стоимости Yandex SpeechKit

За распознавание речи в виде аудио ролика - за 10 минут Яндекс снимет около 6,5 рублей.

Но использовать SpeechKit можно и бесплатно и мы дальше об этом поговорим.

Еще одна интересная функция - Brand Voice Adaptive. Это цифровая копия голоса конкретного человека по заданным заранее шаблонам. За 1 месяц и с ценой от 150 000 рублей вы сможете создать абсолютно уникальный голос для своих нужд.

Как мы видим, расценки начинаются от нескольких рублей и до сотен тысяч в зависимости от потребностей клиентов Яндекса.

Опыт использования

Итак, опишу небольшой, но интересный опыт по использованию Yandex SpeechKit, который в скором времени 100% заполонит весь Youtube.

В чем суть появившейся ранее идеи в умах некоторого количества предприимчивых людей? Идея простая - используем удобный инструмент от Яндекса для озвучивания текста, добавляем фото или скринкаст и заливаем всё на Youtube. Просмотры идут, деньги капают.

Ссылка на демо с возможностью скачивать звуковые файлы - Yandex Speech Kit Demo.

Для справки из Википедии: Скринкастинг (англ. screen — экран и англ. broadcasting — передача, вещание) — тип подкастинга, позволяющий передавать для широкой аудитории видеопоток с записью происходящего на компьютере пользователя. Скринкастинг часто используется в сфере образования для обучения чему-либо.

В общем, много мозгов не нужно, чтобы сделать такой ролик. Yandex SpeechKit позволяет озвучивать и скачивать сразу озвученные файлы в формате .ogg. Ограничение на длину строки 5000 символов, что более чем нужно, если вы хотите сделать новостной канал с короткими роликами.

Процесс создания ролика довольно простой.

  1. Пишем или где-то берем текст новости
  2. Копируем текст в демо Яндекс Speech Kit жмем "Синтезировать речь"
  3. Скачиваем звуковой файл
  4. Конвертируем файл онлайн в .wav
  5. Записываем экран компьютера (скринкаст)
  6. В программе Windows Movie Maker делаем ролик из звукового файла и скринкаста
  7. Заливаем видео на Youtube

Какие были дополнительные нюансы по процессу?

Мне нужно было сделать интро перед роликом. Т.к. я не видео-аниматор и не видео-монтажер, то пошел простым путем - создал через html и css анимацию для лого и записал её через скринкастинг.

После чего обрезал в Windows Movie Maker и наложил звук для интро, который был бесплатно скачан с какого-то онлайн сервиса.

Также возникала сложность с интонацией во время записи текста. У Искусственного Интеллекта Яндекса три настроения:

  • радостный
  • раздраженный
  • нейтральный

Кроме того, на момент публикации было доступно 8 дикторов - 5 женских голосов и 3 мужских.

Стоит оговориться, что некоторые дикторы изначально не под русский язык. Мне подошел "Филипп" для новостей, а вот, например, если у вас медицинский сайт, то вам лучше использовать диктора "Ермил" и настроение "нейтральный".

Также пришлось повозиться с ударениями и вопросительными предложениями. Для передачи слов-омографов, нужно использовать "+" перед ударной гласной, например, "з+амок" или "зам+ок".

Чтобы отметить паузу между словами используйте "-".

Интересно, что после того как я разместил свой экспериментальный ролик мне Google в Youtube подсунул в рекомендациях канал "News of Stars" (это не реклама, это по теме), который делает всё так как я описал выше, но вообще не заморачивается с ударениями и интонацией.

К тому же даже для грустных новостей они используют диктора "Филипп" с настроением "радостный". На многих видео использован голос "Элис" от Яндекс SpeechKit.

При этом они скорость озвучки оставляли 1.0x, а я подбирал более реальную либо 1.2x либо 1.3x. Здесь нужно отталкиваться от текста.

Так как я делал всё с нуля, то на всё про всё ушел где-то один вечер. При конвейерном подходе можно делать легко 2-3 видео в день и при этом бесплатно, как это делает канал, который я привел в пример.

Можно ли на этом заработать? У канала "News of Stars" более 42000 подписчиков, и это при том, что они используют озвучку через Яндекс и наверняка используют чужие тексты и фото.

Думаю, что при дальнейшем развитии ИИ и доступности таких инструментов как SpeechKit в ближайшем будущем подобные "видео" заполонят весь интернет.

Опубликовано 22 июля 2020 в 18:47

Теги:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Uzabila