Le projet LiveTalking (anciennement metahuman-stream) offre une solution avancée pour la création et la diffusion de doubles numériques interactifs en temps réel. Il intègre la synchronisation audio-vidéo pour des dialogues fluides, atteignant un niveau de qualité adapté à un usage commercial. La solution prend en charge les sorties WebRTC et caméra virtuelle, éliminant le besoin d'une infrastructure SRS distincte. Grâce à une image préconfigurée sur UCloud, le déploiement est considérablement accéléré, permettant une mise en œuvre rapide d'applications de diffusion de doubles numériques performantes.
Avantages du Déploiement via Image UCloud pour la Diffusion de Doubles Numériques
L'utilisation d'une image UCloud simplifie grandement le processus de déploiement pour la diffusion de doubles numériques via WebRTC et SRS. Cette approche élimine la nécessité d'une configuration environnementale complexe et d'étapes d'installation fastidieuses, permettant aux utliisateurs de commencer rapidement. De plus, l'image UCloud autorise l'ouverture de ports arbitraires, dispensant du déploiement d'un serveur SRS séparé, ce qui réduit significativement la complexité et les coûts de mise en œuvre.
Étapes de Déploiement en un Clic avec l'Image UCloud
1. Acquisition du Code Source
Clonez le dépôt du projet en exécutant la commande suivante dans votre terminal :
git clone https://gitcode.com/GitHub_Trending/me/metahuman-stream
2. Utilisation de l'Image UCloud
L'image UCloud est disponible à l'adresse : https://www.compshare.cn/images/4458094e-a43d-45fe-9b57-de79253befe4?referral_code=3XW3852OBmnD089hMMrtuU&ytag=GPU_GitHub_livetalking. Créez une instance à partir de cette image pour un fonctionnement immédiat, sans configuration environnementale complexe.
3. Lancement du Service
Après la création de l'instance, assurez-vous que les ports TCP:8010 et UDP:1-65536 sont ouverts sur le serveur. Lancez ensuite le service comme suit :
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
Connexion et Utilisation Côté Client
Connexion via Navigateur Web
Ouvrez votre navigateur à l'adresse http://<ip_serveur>:8010/webrtcapi.html</ip_serveur>. Cliquez sur 'start' pour lancer la vidéo du double numérique. Saisissez ensuite du texte dans le champ prévu à cet effet et soumettez-le. Le double numérique lira le texte fourni.
Connexion via Client Dédié
Vous pouvez également opter pour une connexion via un client dédié. Le lien de téléchargement est : https://pan.quark.cn/s/d7192d8ac19b. Après téléchargement, suivez les instructions pour vous connecter et utiliser l'application.
Optimisation des Performances et Points d'Attention
Indicateurs de Performance
Le journal du backend affiche inferfps (images par seconde pour l'inférence graphique) et finalfps (images par seconde pour la diffusion finale). Les deux valeurs doivent être supérieures à 25 pour un fonctionnement en temps réel. Si inferfps est suffisant mais finalfps ne l'est pas, cela indique une limitation des performances du CPU.
Les performances varient en fonction du modèle et de la carte graphique :
| Modèle | Modèle de Carte Graphique | FPS |
|---|---|---|
| wav2lip256 | 3060 | 60 |
| wav2lip256 | 3080Ti | 120 |
| musetalk | 3080Ti | 42 |
| musetalk | 3090 | 45 |
| musetalk | 4090 | 72 |
Le modèle wav2lip256 nécessite une carte graphique 3060 ou supérieure, tandis que musetalk requiert une 3080Ti ou supérieure.
Résolution des Problèmes Courants
Si vous rencontrez des problèmes d'accès à Hugging Face lors de l'installation ou de l'exécution, exécutez la comande suivante avant de démarrer :
export HF_ENDPOINT=https://hf-mirror.com
Pour les problèmes de connexion vidéo, consultez la solution détaillée à l'adresse : https://mp.weixin.qq.com/s/MVUkxxhV2cgMMHalphr2cg. La section FAQ peut également vous aider à résoudre les problèmes d'installation courants.
Le déploiement simplifié via l'image UCloud pour la diffusion de doubles numériques avec WebRTC et SRS vous permet de disposer rapidement d'une application de diffusion performante et stable. Que ce soit pour des présentations commerciales ou des projets personnels, cette solution offre une expérience utilisateur exceptionnelle.
Projet metahuman-stream : https://gitcode.com/GitHub_Trending/me/metahuman-stream