[PROJEKT] Automatyczne tworzenie audiobooków za pomocą lokalnego modelu AI

Dlaczego?

Czytając śmieszne krótkofalarskie pasty i wspomnienia, stwierdziłem że fajnie by było tego posłuchać w formie audiobooka.

Co?

Napisałem mały skrypcik pythonowy który potrafi:

  • wygenerować w prosty sposób audiobooka używając LOKALNIE modelu coqui/XTTS-v2 · Hugging Face
  • użyć dostępnych w nim głosów żeńskich i męskich
  • wygenerować audiobooka kopiując swój własny głos (wskazujesz mu format .wav z wycinkiem jakiejś ścieżki dźwiękowej która trwa co najmniej 10s i model sobie go kopiuje)

Jak tego użyć?

Cały kod i instrukcja jest na GitHub - MrDarthShoe/audiobooker: Simple audiobook creator using local LLM

Testowane lokalnie na laptoku bez dedykowanego GPU z pythonem 3.10.

Ograniczenia

  • Jak na razie zahardcodowany jest tylko język polski (nie ma najmniejszego problemu żeby to zmienić ale obecnie skrypt posiada tylko tę opcję)
  • Model czasem wstawia dziwne znaki. Podejrzewam że jest to zależne od tego jak sformatowany jest wejściowy tekst. Jeszcze tego nie rozkminiłem
  • Używacie na własną odpowiedzialność. Jesli chcecie użyć tego do czegoś więcej niż “FUN” to warto zajrzeć na licencję coqui/XTTS-v2 · Hugging Face
3 Likes

Self-hosted LLMs are nice :)