Dlaczego?
Czytając śmieszne krótkofalarskie pasty i wspomnienia, stwierdziłem że fajnie by było tego posłuchać w formie audiobooka.
Co?
Napisałem mały skrypcik pythonowy który potrafi:
- wygenerować w prosty sposób audiobooka używając LOKALNIE modelu coqui/XTTS-v2 · Hugging Face
- użyć dostępnych w nim głosów żeńskich i męskich
- wygenerować audiobooka kopiując swój własny głos (wskazujesz mu format .wav z wycinkiem jakiejś ścieżki dźwiękowej która trwa co najmniej 10s i model sobie go kopiuje)
Jak tego użyć?
Cały kod i instrukcja jest na GitHub - MrDarthShoe/audiobooker: Simple audiobook creator using local LLM
Testowane lokalnie na laptoku bez dedykowanego GPU z pythonem 3.10.
Ograniczenia
- Jak na razie zahardcodowany jest tylko język polski (nie ma najmniejszego problemu żeby to zmienić ale obecnie skrypt posiada tylko tę opcję)
- Model czasem wstawia dziwne znaki. Podejrzewam że jest to zależne od tego jak sformatowany jest wejściowy tekst. Jeszcze tego nie rozkminiłem
- Używacie na własną odpowiedzialność. Jesli chcecie użyć tego do czegoś więcej niż “FUN” to warto zajrzeć na licencję coqui/XTTS-v2 · Hugging Face