fau74: (Default)
[personal profile] fau74

Попытался я тут немного облегчить себе жизнь и вместо диктовки курсов под запись генерить их в TTS. Эти машинки вроде как уже умеют работать клонированным голосом и можно сделать дублера с железной глоткой, который будет начитывать записи вместо меня.

Оказалось, что системы эти живут под девизом "Я где нормальный, а где и беспощаден!"

Что на входе: слайды и тексты к слайдам, уже готовые, только читай.
Что хотелось получить на выходе: аудиофайлы с текстами, начитанными моим голосом.

Попытка раз. Селфхост система под названием GPT-SoVITS.
Шесть гигов, локальная установка. Сорокаминутный аудиофайл более ранней записи - научить ее моему голосу. Несколько часов пошаговой возни "нарежь то, разметь это...". И в результате у меня отличная модель, которая реально говорит моим голосом... на каком-то диалекте китайского. На русском - не умеет.

Side note. Промпты надо писать кааанкретные. Спросил нейронку, какие из селфхост решений синтеза речи лучше всего умеют клонировать голос - она мне парочку и назвала. И по шагам объяснила, как ставить и как настраивать. Только это мне было очевидно, что читать надо будет на русском - а ей-то откуда, она в одно жало весь шарик окучивает...

Попытка два. Вторая selfhost система, xtts, вроде как русский обещает уметь. Десять гигов. Тоже настройка, образцы голоса, обучение. Результат говорит голосом, примерно похожим на мой, но беда даже не в этом - он говорит как нерусский ПТУшник, впервые увидевший примерно четверть слов и понятия не имеющий как они произносятся. Можно убить еще часов десять и натаскать на максимально точное соответствие моему голосу, но толку-то?

Окей. Селфхост не прошел. Делаем аккаунт на elevenlabs и даже платим им 11 баксов за подписку. Голос... вот тут вообще без претензий. Обучился так, что сам себя могу перепутать. Не зря лидерами зовутся в голосовой теме.

Пробуем озвучить рабочий текст.

Ой.

Есть у технических айтишных презентаций одно общее свойство - там термины попадаются. Английские. А элевеновская студийка у проекта держит один язык. И попытки произнести английские термины в русском тексте звучат местами просто офигительно. "После сообщения сип траИнг идет сообщение сип рингИнг", и ни в чем себе не отказывай. SetupCall местами звучит как СетапСолл, REGISTER произносится с ударением на второй слог вместо первого.

Нет, инструмент для оверрайда произношения там есть. Словарик такой. Только в этом словарике "произношение" прописывается просто буквами, никакого специального формата нет, стандартные транскрипции не понимаются, символ ударения не понимается, в чистом виде метод ненаучного тыка. Не нравится произношение траИнг? Пиши в произношение "трАинь", глядишь, допрет где ты ударение хочешь видеть. Не доперло? Пробуй "трААинь", "трА-инь", "трАынь", может, какой-то вариант и сработает. Вишенка на тортике - оно case sensitive, вариант с большой буквы (ну а вдруг это слово в начале предложения?) просто напиши другим правилом. И если отметить, что нужно выбирать только целое слово, будет попадать в обработку только слово, ограниченное пробелами. С точкой, запятой, скобкой, кавычкой - нет.

И отдельное веселье от того, что на английские слова эти правила срабатывают через раз. Похоже, периодически до движка доходит, что это, наверное, другой язык. А для другого языка - другие словари, которые редактировать и дополнять нельзя, бо проект только в своем языке настраивается. А дефолтные словари, например, заставляют читать /etc/ как "эт цетера". Офигительный путь к конфигам получается...

В общем, пошел я курс начитывать.

(голосом мужика из лифта) ELEVEN!!!


Date: 2026-03-19 06:21 am (UTC)
mithrilian: (Default)
From: [personal profile] mithrilian
Но жалобы как на педали :))) Голос-то распозналии научились имитировать, это понятно, что совсем другое, а именно чтение текста - в чем различие?
Edited Date: 2026-03-19 06:22 am (UTC)

Date: 2026-03-19 08:44 pm (UTC)
mithrilian: (Default)
From: [personal profile] mithrilian
Это все про голос. Это понятно, я ж говорю, две разные вещи. Я про чтение текста, не про выражение, а что один язык, один вариант слова, вот это все.

Date: 2026-03-20 08:14 am (UTC)
mithrilian: (Default)
From: [personal profile] mithrilian
Мы о разном. Два компонента. Голос, понятно, что ты используешь не гугловские программы.

Аналогия другая. Ты пассажир и пересел с телеги в Мерседес, это правда. Но водитель - тот же Иванушка-дурачок. Он неграмотный, правил движения не знает. И вот этот Иванушка по твоему же описанию от гугловсекобесплатного неотличим, делает те же ошибки. Он научился говорить твоим голосом и верными интонациями, он говорит красиво, но... английское слово в русском тексте не прочтет. Я про это.
Edited Date: 2026-03-20 08:18 am (UTC)

Profile

fau74: (Default)
Faust

March 2026

S M T W T F S
1234567
891011121314
1516 1718192021
22232425262728
293031    

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 22nd, 2026 12:59 pm
Powered by Dreamwidth Studios