Guide de déploiement de l'image open-source Qwen3.5-9B : démarrage complet via app.py dans le répertoire root

1. Aperçu du projet

Qwen3.5-9B est un nouveau modèle de langage open-source développé par Alibaba Cloud, offfrant une amélioration complète par rapport à la série Qwen3. Ce modèle utilise une architecture hybride innovante qui améliore considérablement les capacités de compréhension multimodale et de généralisation des tâches tout en maintenant un rasionnement efficace.

Caractéristiques principales :

Architecture multimodale unifiée : Réalise une représentation unifiée vision-langage par un entraînement à fusion précoce, surpassant de manière significative la génération précédente en raisonnement, encodage et compréhension visuelle
Système d'experts hybride efficace : Combine un réseau Delta à porteuse avec une architecture MoE épaisse, permettant un raisonnement à haut débit et faible latence
Généralisation par renforcement : Entraîné sur des millions de tâches par renforcement, améliorant considérablement l'adaptation aux scénarios complexes

Spécifications techniques :

Nom du modèle : unsloth/Qwen3.5-9B
Framework de service : Gradio Web UI
Environnement d'exécution : Accélération GPU CUDA
Port par défaut : 7860

2. Préparation de l'environnement

2.1 Exigences matérielles

GPU : Carte graphique NVIDIA A100/A10G ou équivalent (≥24 Go de VRAM)
RAM : Mémoire système ≥64 Go
Stockage : SSD ≥100 Go (fichiers du modèle ≈18 Go)

2.2 Dépendances logicielles

Assurez-vous que le système possède :

Python 3.8-3.10
CUDA 11.7/11.8
cuDNN 8.x
Chaîne d'outils de base (git, wget, tar)

# Vérification de l'installation CUDA
nvidia-smi
nvcc --version

3. Processus de déploiement

3.1 Récupération des fichiers du modèle

Utilisation recommandée de l'image officielle ou téléchargement depuis Hugging Face :

# Utilisation de la version pré-installée (recommandé)
cd /root/Qwen3.5-9B

# Ou téléchargement manuel
git clone https://huggingface.co/unsloth/Qwen3.5-9B
cd Qwen3.5-9B

3.2 Installation des dépendances Python

Création et activation de l'environnement virtuel :

python -m venv qwen_env
source qwen_env/bin/activate
pip install -r requirements.txt

Dépendances clés :

torch==2.1.0+cu117
transformers==4.36.0
gradio==3.50.0
flash-attn==2.3.3

4. Démarrage du service

4.1 Méthode de démarrage de base

Exécution dans le répertoire du modèle :

python /root/Qwen3.5-9B/app.py

Après le démarrage, afffichage d'un journal similaire :

Running on local URL:  http://0.0.0.0:7860
To create a public link, set `share=True` in `launch()`

4.2 Paramètres de démarrage avancés

Modification possible via app.py :

demo.launch(
    server_name="0.0.0.0",
    server_port=7860,
    share=False,  # Définir sur True pour générer un lien public
    auth=("username", "password")  # Ajouter une authentification d'accès
)

5. Vérification du service

5.1 Accès local

Ouvrir dans le navigateur :

http://localhost:7860

5.2 Exemple d'appel API

Test de l'interface avec curl :

curl -X POST http://localhost:7860/api/predict \
-H "Content-Type: application/json" \
-d '{"data": ["Bonjour, présentez-moi Qwen3.5"]}'

6. Résolution des problèmes courants

6.1 Mémoire CUDA insuffisante

Symptôme : RuntimeError: CUDA out of memory Solution :

Réduire le paramètre batch_size
Ajouter l'option de quantisation --load-in-4bit
Utiliser max_split_size_mb pour optimiser l'allocation de la VRAM

6.2 Conflits de dépendances

Symptôme : ImportError ou conflit de version Étapes de résolution :

# Recréer un environnement propre
deactivate
rm -rf qwen_env
python -m venv qwen_env
source qwen_env/bin/activate
pip install --upgrade pip
pip install -r requirements.txt --no-cache-dir

6.3 Port déjà utilisé

Symptôme : Address already in use Méthode de résolution :

# Trouver le processus utilisant le port
lsof -i :7860
# Terminer le processus en conflit
kill -9 <PID>
# Ou modifier le port de démarrage
python app.py --port 7861

7. Conclusion

Ce guide vous a permis d'accomplir :

Comprendre les avantages techniques fondamentaux de Qwen3.5-9B
Configurer l'environnement GPU et installer les dépendances
Maîtriser les méthodes de démarrage de base et avancée
Apprendre à vérifier le service et résoudre les problèmes

Suggestions d'exploration supplémentaire :

Tester l'impact de différentes précisions de quantification (4bit/8bit) sur les performances
Construire des applications complexes en combinant avec LangChain
Utiliser vLLM pour accélérer le débit de raisonnement

Étiquettes: Qwen3.5-9B Gradio CUDA GPU déploiement de modèles

Publié le 9 juin à 03h31

L'Atelier Monstre