fau74 | Право говорить

Попытался я тут немного облегчить себе жизнь и вместо диктовки курсов под запись генерить их в TTS. Эти машинки вроде как уже умеют работать клонированным голосом и можно сделать дублера с железной глоткой, который будет начитывать записи вместо меня.

Оказалось, что системы эти живут под девизом "Я где нормальный, а где и беспощаден!"

Что на входе: слайды и тексты к слайдам, уже готовые, только читай.
Что хотелось получить на выходе: аудиофайлы с текстами, начитанными моим голосом.

Попытка раз. Селфхост система под названием GPT-SoVITS.
Шесть гигов, локальная установка. Сорокаминутный аудиофайл более ранней записи - научить ее моему голосу. Несколько часов пошаговой возни "нарежь то, разметь это...". И в результате у меня отличная модель, которая реально говорит моим голосом... на каком-то диалекте китайского. На русском - не умеет.

Side note. Промпты надо писать кааанкретные. Спросил нейронку, какие из селфхост решений синтеза речи лучше всего умеют клонировать голос - она мне парочку и назвала. И по шагам объяснила, как ставить и как настраивать. Только это мне было очевидно, что читать надо будет на русском - а ей-то откуда, она в одно жало весь шарик окучивает...

Попытка два. Вторая selfhost система, xtts, вроде как русский обещает уметь. Десять гигов. Тоже настройка, образцы голоса, обучение. Результат говорит голосом, примерно похожим на мой, но беда даже не в этом - он говорит как нерусский ПТУшник, впервые увидевший примерно четверть слов и понятия не имеющий как они произносятся. Можно убить еще часов десять и натаскать на максимально точное соответствие моему голосу, но толку-то?

Окей. Селфхост не прошел. Делаем аккаунт на elevenlabs и даже платим им 11 баксов за подписку. Голос... вот тут вообще без претензий. Обучился так, что сам себя могу перепутать. Не зря лидерами зовутся в голосовой теме.

Пробуем озвучить рабочий текст.

Ой.

Есть у технических айтишных презентаций одно общее свойство - там термины попадаются. Английские. А элевеновская студийка у проекта держит один язык. И попытки произнести английские термины в русском тексте звучат местами просто офигительно. "После сообщения сип траИнг идет сообщение сип рингИнг", и ни в чем себе не отказывай. SetupCall местами звучит как СетапСолл, REGISTER произносится с ударением на второй слог вместо первого.

Нет, инструмент для оверрайда произношения там есть. Словарик такой. Только в этом словарике "произношение" прописывается просто буквами, никакого специального формата нет, стандартные транскрипции не понимаются, символ ударения не понимается, в чистом виде метод ненаучного тыка. Не нравится произношение траИнг? Пиши в произношение "трАинь", глядишь, допрет где ты ударение хочешь видеть. Не доперло? Пробуй "трААинь", "трА-инь", "трАынь", может, какой-то вариант и сработает. Вишенка на тортике - оно case sensitive, вариант с большой буквы (ну а вдруг это слово в начале предложения?) просто напиши другим правилом. И если отметить, что нужно выбирать только целое слово, будет попадать в обработку только слово, ограниченное пробелами. С точкой, запятой, скобкой, кавычкой - нет.

И отдельное веселье от того, что на английские слова эти правила срабатывают через раз. Похоже, периодически до движка доходит, что это, наверное, другой язык. А для другого языка - другие словари, которые редактировать и дополнять нельзя, бо проект только в своем языке настраивается. А дефолтные словари, например, заставляют читать /etc/ как "эт цетера". Офигительный путь к конфигам получается...

В общем, пошел я курс начитывать.

(голосом мужика из лифта) ELEVEN!!!

Flat | Top-Level Comments Only

Муж интересуется, ко-процессор или со-процессор? ;)

Все, что ты перечислил, имеет место быть в гуглодвижке TTS. Я уже лет семь его юзаю, слушаю книги. Слово он умеет читать только в одном варианте. Язык избыточен, и я уже привыкла, что read только рид, и никогда рэд, Гугл-tts знает только один вариант. Зато если слово с большой буквы, то это будет имя собственное, так что если герой отвечает Nice одним словом, то TTS думает, что это Нис, то есть Ницца. И да, одна книга, один язык, один фю...

А, еще его 's сбивает с толку. роджер, роджерс, но рогер'с. И так везде. И Dr. то доктор Смит, а то dry смит, понятия не имею, почему. И за все эти годы никакого прогресса, вообще. Несколько девайсов сменила, а tts все тот же.

Я это к чему. Имитация голоса - это одно, а TTS, по твоим записям, похоже на этот самый гуглодвижок у всех сервисов, что ты использовал.

Этот движок стоит бесплатно на андроидных девайсах, букридеры умеют его юзать.

Edited 2026-03-17 20:54 (UTC)

На андроидных девайсах есть разные TTS системы, объединеные одним простым моментом: они слабые по определению. Потому что слаба платформа.

И нет, у тех платформ, что я использовал, не гуглодвижок с андроида.
Ни у болида Формулы-1, ни даже у Жигулей привод не педальный :)

Но жалобы как на педали :))) Голос-то распозналии научились имитировать, это понятно, что совсем другое, а именно чтение текста - в чем различие?

Edited 2026-03-19 06:22 (UTC)

Ну если ты не заметила - как минимум у гугловой читалки есть коротенький набор готовых голосов. По паре штук на язык, один мужской, один женский. Научить ее читать конкретным голосом, которого он не знает, достаточно сложно, если вообще предусмотрено. А я писал про задачу "читать моим голосом".

Дальше. Эмокоррекция - можешь читать как пономарь, а можешь с выражением. С каким - регулируется.

Приделать свой (или какой другой голос) AI-агенту, чтобы с ним разговаривать.

Переделывать голос на лету - не просто в тональное смещение, а в конкретный голос.

Ну и так далее.

Это все про голос. Это понятно, я ж говорю, две разные вещи. Я про чтение текста, не про выражение, а что один язык, один вариант слова, вот это все.

Так для чтения текста и используется голос. И для озвучки текста, чтобы использовать нужный голос, движки тоже делают разные. Это не то, что ты берешь какой-то "универсальный" движок TTS и насаживаешь на его выход нужный тебе голос - и разбор текста, и конвертация его в фонемы, и линковка фонем между собой у каждого свои, чтобы работали со своим представлением голоса. Нельзя взять модель голоса от SoVITS и запихнуть в elevenlabs, не подружатся.

Можно ехать по дороге на палочке верхом, на велосипеде, на байке или в мерседесе. Это все будет "ехать", но движки под капотом - разные.

Можно семь лет юзать гугловский TTS - но это не повод считать, что у всех TTS сервисов под капотом именно он.

Мы о разном. Два компонента. Голос, понятно, что ты используешь не гугловские программы.

Аналогия другая. Ты пассажир и пересел с телеги в Мерседес, это правда. Но водитель - тот же Иванушка-дурачок. Он неграмотный, правил движения не знает. И вот этот Иванушка по твоему же описанию от гугловсекобесплатного неотличим, делает те же ошибки. Он научился говорить твоим голосом и верными интонациями, он говорит красиво, но... английское слово в русском тексте не прочтет. Я про это.

Edited 2026-03-20 08:18 (UTC)

Право говорить

no subject

no subject

no subject

no subject

no subject

no subject

no subject