Fish Speech 1.5 : un synthétiseur vocal multilingue open source prêt à l'emploi

1. Présentation générale

Fish Speech 1.5 est le nouveau moteur de synthèse vocale (TTS) développé par Fish Audio, construit sur les architectures VQ‑GAN et Llama. Cette solution, déployable immédiatement, simplifie la production de voix artificielles : aucune configuration complexe ni matériel spécialisé n'est nécessaire. Un simple navigateur suffit pour générer une parole fluide et naturelle dans plusieurs langues.

1.1 Atouts principaux

Support multilingue : couvre 12 langues courantes, dont le chinois, l’anglais, le japonais, etc.
Qualité sonore élevée : entraîné sur plus d’un million d’heures de données audio, le rendu est proche d’une voix humaine.
Clonage vocal : seulement 5 à 10 secondes d’audio de référence suffisent pour imiter un timbre particulier.
Accélération GPU : exploitation des cartes NVIDIA pour une inférence rapide.
Simplicité d’utilisation : interface web intuitive, accessible sans connaissances techniques.

2. Guide de démarrage rapide

2.1 Accès à l’interface web

Après avoir lancé le conteneur, l’interface est disponible à l’adresse :

https://gpu-{ID_instance}-7860.web.gpu.csdn.net/

La page se divise en trois zones principales :

Zone de saisie : champ de texte, sélecteur de langue, upload d’audio de référence.
Zone de contrôle : bouton de génération, commandes de lecture.
Zone de sortie : affichage de la forme d’onde, lien de téléchargement.

2.2 Synthèse vocale basique

Saisissez le texte à convertir (500 caractères maximum recommandé).
Sélectionnez la langue correspondante dans le menu déroulant.
Cliquez sur « Démarrer la synthèse ».
Attendez la fin du traitement (généralement 3 à 10 secondes).
Écoutez ou téléchargez le fichier .wav produit.

Astuce : l’utilisation judicieuse de la ponctuation améliore nettement le rythme et le naturel. Par exemple, « l’intelligence artificielle, transforme, notre manière de travailler » sonne plus respiré qu’un texte continu.

3. Fonctionnalités avancées

3.1 Clonage vocal en pratique

Le clonage vocal est l’une des caractéristiques phares de Fish Speech 1.5 :

Préparez un échantillon audio de 5 à 10 secondes, parlé par une seule personne, sans bruit de fond.
Téléversez ce fichier dans la zone « Audio de référence ».
Indiquez précisément le texte correspondant à cet échantillon.
Saisissez le nouveau texte à synthétiser.
Cliquez sur « Démarrer la synthèse ».

Conseils pour un meilleur résultat :

Utilisez de préférence un fichier WAV avec un taux d’échantillonnage de 16 kHz ou 24 kHz.
Évitez les mots de remplissage (« euh », « hein ») sauf s’ils sont souhaités.
Un environnement calme et un microphone de qualité améliorent la fidélité du clonage.

3.2 Réglage des paramètres

Paramètre	Rôle	Valeur recommandée	Ajustement
Top-P	Contrôle la diversité	0,7	Plus la valeur est haute, plus la voix varie.
Température	Aléatoire	0,7	Une valeur trop élevée peut rendre la voix instable.
Pénalité de répétition	Réduit les répétitions	1,2	À augmenter pour les longs textes.
Vitesse d’élocution	Débit de parole	1,0	La plage optimale se situe entre 0,8 et 1,2.

Configurations par scénario :

Lecture de livre audio : température = 0,6, vitesse = 0,9
Voix de service client : Top-P = 0,8, pénalité de répétition = 1,3
Contenu pour enfants : température = 0,9, vitesse = 1,1

4. Architecture technique

4.1 Conception du modèle

Fish Speech 1.5 repose sur une architecture en deux étapes :

Encodeur VQ‑GAN : transforme la parole en une séquence de tokens discrets.
Décodeur Llama : génère les tokens de parole à partir du texte conditionnel.

Cette combinaison allie l’efficacité des GAN et la puissance de génération des grands modèles de langage, assurant une synthèse cohérente sur de longs extraits.

4.2 Gestion multilingue

Le modèle traite différentes langues via une représentation phonémique unifiée :

Caractéristiques de prononciation partagées en couche basse.
Couches d’adaptation spécifiques à chaque langue.
Détection automatique des langues mixtes.

Répartition des données d’entraînement :

| Langue  | Volume (heures) | Nombre de voix |
|---------|----------------|----------------|
| Chinois  | >300 000       | 120+           |
| Anglais  | >300 000       | 200+           |
| Japonais | >100 000       | 80+            |
| Autres   | 10 000-20 000   | 20-50          |

5. Cas d’usage

5.1 Création de contenu

Doublage automatique de vidéos courtes : génération en masse de commentiares dans différents styles.
Production de livres audio : synthèse continue sur de longs textes avec un timbre constant.
Podcasts multilingues : version rapide d’un même contenu dans plusieurs langues.

5.2 Applications professionnelles

Service cleint intelligent : génération dynamique de réponses personnalisées.
Produits éducatifs : lecture de textes, explications d’exercices.
Développement de jeux : dialogues de PNJ générés en temps réel.

5.3 Usage personnel

Lecture de livres électroniques : personnalisation de la voix.
Mémos vocaux : transformation de texte en fichier audio.
Apprentissage des langues : démonstration de prononciation authentique.

6. Problèmes courants et solutions

6.1 Optimisation des performances

Problème : la synthèse est lente

Vérifiez l’utilisation du GPU avec nvidia-smi.
Réduisez la longueur de chaque texte (découpez les longs documents en segments).
Assurez-vous qu’aucun autre processus ne monopolise la mémoire vidéo.

Problème : la voix semble artificielle

Ajoutez la température et le Top-P.
Vérifiez la ponctuation dans le texte.
Essayez une option de langue différente si elle existe.

6.2 Gestion du service

Consulter l’état du service :

supervisorctl status fishspeech

Redémarrer le service :

supervisorctl restart fishspeech

Consulter les journaux :

tail -100 /root/workspace/fishspeech.log

Étiquettes: Fish Speech 1.5 TTS VQ-GAN Llama clonage vocal

Publié le 8 juin à 03h14

L'Atelier Monstre