Guide de déploiement de l'image open-source Qwen3.5-9B : démarrage complet via app.py dans le répertoire root
1. Aperçu du projet
Qwen3.5-9B est un nouveau modèle de langage open-source développé par Alibaba Cloud, offfrant une amélioration complète par rapport à la série Qwen3. Ce modèle utilise une architecture hybride innovante qui améliore considérablement les capacités de compréhension multimodale et de généralisation des tâches tout en maintenant un rasionnement efficace.
Caractéristiques principales :
- Architecture multimodale unifiée : Réalise une représentation unifiée vision-langage par un entraînement à fusion précoce, surpassant de manière significative la génération précédente en raisonnement, encodage et compréhension visuelle
- Système d'experts hybride efficace : Combine un réseau Delta à porteuse avec une architecture MoE épaisse, permettant un raisonnement à haut débit et faible latence
- Généralisation par renforcement : Entraîné sur des millions de tâches par renforcement, améliorant considérablement l'adaptation aux scénarios complexes
Spécifications techniques :
- Nom du modèle : unsloth/Qwen3.5-9B
- Framework de service : Gradio Web UI
- Environnement d'exécution : Accélération GPU CUDA
- Port par défaut : 7860
2. Préparation de l'environnement
2.1 Exigences matérielles
- GPU : Carte graphique NVIDIA A100/A10G ou équivalent (≥24 Go de VRAM)
- RAM : Mémoire système ≥64 Go
- Stockage : SSD ≥100 Go (fichiers du modèle ≈18 Go)
2.2 Dépendances logicielles
Assurez-vous que le système possède :
- Python 3.8-3.10
- CUDA 11.7/11.8
- cuDNN 8.x
- Chaîne d'outils de base (git, wget, tar)
# Vérification de l'installation CUDA
nvidia-smi
nvcc --version
3. Processus de déploiement
3.1 Récupération des fichiers du modèle
Utilisation recommandée de l'image officielle ou téléchargement depuis Hugging Face :
# Utilisation de la version pré-installée (recommandé)
cd /root/Qwen3.5-9B
# Ou téléchargement manuel
git clone https://huggingface.co/unsloth/Qwen3.5-9B
cd Qwen3.5-9B
3.2 Installation des dépendances Python
Création et activation de l'environnement virtuel :
python -m venv qwen_env
source qwen_env/bin/activate
pip install -r requirements.txt
Dépendances clés :
- torch==2.1.0+cu117
- transformers==4.36.0
- gradio==3.50.0
- flash-attn==2.3.3
4. Démarrage du service
4.1 Méthode de démarrage de base
Exécution dans le répertoire du modèle :
python /root/Qwen3.5-9B/app.py
Après le démarrage, afffichage d'un journal similaire :
Running on local URL: http://0.0.0.0:7860
To create a public link, set `share=True` in `launch()`
4.2 Paramètres de démarrage avancés
Modification possible via app.py :
demo.launch(
server_name="0.0.0.0",
server_port=7860,
share=False, # Définir sur True pour générer un lien public
auth=("username", "password") # Ajouter une authentification d'accès
)
5. Vérification du service
5.1 Accès local
Ouvrir dans le navigateur :
http://localhost:7860
5.2 Exemple d'appel API
Test de l'interface avec curl :
curl -X POST http://localhost:7860/api/predict \
-H "Content-Type: application/json" \
-d '{"data": ["Bonjour, présentez-moi Qwen3.5"]}'
6. Résolution des problèmes courants
6.1 Mémoire CUDA insuffisante
Symptôme : RuntimeError: CUDA out of memory Solution :
- Réduire le paramètre batch_size
- Ajouter l'option de quantisation
--load-in-4bit - Utiliser
max_split_size_mbpour optimiser l'allocation de la VRAM
6.2 Conflits de dépendances
Symptôme : ImportError ou conflit de version Étapes de résolution :
# Recréer un environnement propre
deactivate
rm -rf qwen_env
python -m venv qwen_env
source qwen_env/bin/activate
pip install --upgrade pip
pip install -r requirements.txt --no-cache-dir
6.3 Port déjà utilisé
Symptôme : Address already in use Méthode de résolution :
# Trouver le processus utilisant le port
lsof -i :7860
# Terminer le processus en conflit
kill -9 <PID>
# Ou modifier le port de démarrage
python app.py --port 7861
7. Conclusion
Ce guide vous a permis d'accomplir :
- Comprendre les avantages techniques fondamentaux de Qwen3.5-9B
- Configurer l'environnement GPU et installer les dépendances
- Maîtriser les méthodes de démarrage de base et avancée
- Apprendre à vérifier le service et résoudre les problèmes
Suggestions d'exploration supplémentaire :
- Tester l'impact de différentes précisions de quantification (4bit/8bit) sur les performances
- Construire des applications complexes en combinant avec LangChain
- Utiliser vLLM pour accélérer le débit de raisonnement