[PROJEKT] Automatyczne tworzenie audiobooków za pomocą lokalnego modelu AI

titanfarmer · 5 Październik 2025 15:38

Dlaczego?

Czytając śmieszne krótkofalarskie pasty i wspomnienia, stwierdziłem że fajnie by było tego posłuchać w formie audiobooka.

Napisałem mały skrypcik pythonowy który potrafi:

wygenerować w prosty sposób audiobooka używając LOKALNIE modelu coqui/XTTS-v2 · Hugging Face
użyć dostępnych w nim głosów żeńskich i męskich
wygenerować audiobooka kopiując swój własny głos (wskazujesz mu format .wav z wycinkiem jakiejś ścieżki dźwiękowej która trwa co najmniej 10s i model sobie go kopiuje)

Testowane lokalnie na laptoku bez dedykowanego GPU z pythonem 3.10.

Jak na razie zahardcodowany jest tylko język polski (nie ma najmniejszego problemu żeby to zmienić ale obecnie skrypt posiada tylko tę opcję)
Model czasem wstawia dziwne znaki. Podejrzewam że jest to zależne od tego jak sformatowany jest wejściowy tekst. Jeszcze tego nie rozkminiłem
Używacie na własną odpowiedzialność. Jesli chcecie użyć tego do czegoś więcej niż “FUN” to warto zajrzeć na licencję coqui/XTTS-v2 · Hugging Face

vazhnov · 9 Październik 2025 16:06

Self-hosted LLMs are nice :)