Найкращі ШІ для озвучування тексту українською
16 January 2024
Вступ
Технологія, яка перетворює текст на звук називається TTS, або Text-to-Speech (текст у мову). Вона має широкий спектр застосувань, від освіти та розваг до бізнесу та комунікації.
Існує безліч платформ для створення аудіо на основі тексту. Запис може бути згенерований різними мовами та голосами, в залежності від можливостей сервісу.
Ми зробили рейтинг найкращих TTS технологій, що можуть створювати аудіо українською мовою.
ElevenLabs
В основі роботи цього штучного інтелекту лежить мультимовна модель. Тобто він не має окремих голосів для різних мов. Натомість користувачу доступна вся бібліотека для генерації аудіозапису вибраною мовою (українська, англійська, польська та інші).
Бібліотека має великий набір голосів з різноманітними характеристиками та емоційним забарвленням. До прикладу, можна вибрати озвучування тексту дитиною або ветераном. Сайт має зручний інтерфейс. Він містить такий функціонал як вибір голосу, просунуті налаштування, відтворення аудіо згідно внесеного тексту та можливість звантажити запис.
Отримане аудіо звучить дуже природно, слова читаються з правильним наголосом, інтонація справляє враження, наче текст читається реальним диктором. Інколи все ж зустрічаються помилки у прочитанні тексту. Переважно вони спричинені друкарськими помилками або не правильною пунктуацією. Неточності в озвучуванні деяких слів можна виправити, перефразувавши словосполучення або речення.
Платформа має безкоштовний та платні плани. Безоплатно користувачу надається можливість генерації 10 000 символів на місяць. Платні підписки збільшують ліміт на символи, а також надають можливість додавати власний голос до бібліотеки.
Приклад озвучування тексту
Clipchamp
Це безкоштовний відеоредактор від Майкрософт, що має додаткову опцію озвучування тексту.
Бібліотека містить безліч мов таких як українська, англійська, німецька, французька, та багато інших. Кожна мова має власний набір дикторів. Українською мовою пропонується два голоси: Остап та Поліна. Саме ці голоси представлені у більшості TTS, хоч вони й можуть мати іншу назву.
Згенероване аудіо має хорошу якість, ШІ дотримується пунктуації та переважно правильно озвучує слова. Проте трапляються і помилки. У такому випадку варто перефразувати словосполучення, або ж ціле речення.
Clipchamp - це програма, що встановлюється за замовчуванням разом з Windows 11. Вона має як безкоштовний, так і платний план, проте на роботу TTS це не впливає. Програма також має вебверсію та доступна для роботи в браузері.
Приклад озвучування тексту
Voiser
Ця платформа, окрім озвучування тексту, має безліч інших сервісів на основі штучного інтелекту таких як транскрибація та створення власного голосу для синтезу мовлення.
Бібліотека TTS налічує більш ніж 75 мов. Українською, окрім вже відомих Остапа та Поліни, доступний також голос Валерії.
Звук аудіодоріжки дуже хороший. Як і у випадку Clipchamp ШІ може допускати помилки в наголосі та вимові. Щоб цьому зарадити треба переписати текст.
На платформі є можливість не просто вводити текст, а розділяти його на логічні блоки та вставляти паузи.
Voiser має декілька планів. Використовуючи безплатну підписку користувач має змогу генерувати до 3 500 символів в місяць. Опції звантаження згенерованого аудіо немає в безкоштовному плані.
Приклад озвучування тексту
QuData
QuData - це український стартап 2018 року, який виник в процесі розробки ігор. Проте, впроваджені ними методи машинного навчання вийшли далеко поза сферу геймдеву. На даний момент, окрім tts, сервіс надає безліч послуг з використання ШІ, включаючи аналіз тексту, зображень та розпізнання мови.
Не дивлячись на широкий спектр послуг, бібліотека синтезу мовлення досить обмежена. Вона містить лише 10 мов, а українська має 4 голоси: Анатолій, Марʼяна, Наталія та Володимир. При генерації аудіо користувач має можливість самостійно вказувати правильний наголос, що покращує правильність вимови.
Не дивлячись на корисний функціонал, якість звуку залишає бажати кращого. Голос звучить роботизовано та нерівно.
Послуги синтезу мовлення на даній платформі повністю безкоштовні.
Бонус (PlayHT)
Ця платформа зі штучним інтелектом містить вищезгадані голоси для озвучування тексту українською мовою, а саме: Остап, Поліна, Валерія (в PlayHT Юлія). Безкоштовний план надає можливість згенерувати до 2 500 символів.
Проте, безкоштовна підписка включає в себе можливість генерації одного кастомного голосу. Для цього треба завантажити відео чи аудіо, де людина говорить не менше 30 секунд. Штучний інтелект чудово копіює особливості мови та тембр людини. На жаль, на момент написанні статті ця функція доступна лише англійською мовою.
Приклад озвучування тексту
Висновок
Технології TTS розвиваються дуже швидко, і в найближчому майбутньому вони стануть ще більш досконалими. Це відкриє нові можливості для створення аудіоконтенту, освіти, розваг та інших сфер людської діяльності.