Guide de déploiement de l'image open-source Qwen3.5-9B : démarrage complet via app.py dans le répertoire root

Guide de déploiement de l'image open-source Qwen3.5-9B : démarrage complet via app.py dans le répertoire root

1. Aperçu du projet

Qwen3.5-9B est un nouveau modèle de langage open-source développé par Alibaba Cloud, offfrant une amélioration complète par rapport à la série Qwen3. Ce modèle utilise une architecture hybride innovante qui améliore considérablement les capacités de compréhension multimodale et de généralisation des tâches tout en maintenant un rasionnement efficace.

Caractéristiques principales :

  • Architecture multimodale unifiée : Réalise une représentation unifiée vision-langage par un entraînement à fusion précoce, surpassant de manière significative la génération précédente en raisonnement, encodage et compréhension visuelle
  • Système d'experts hybride efficace : Combine un réseau Delta à porteuse avec une architecture MoE épaisse, permettant un raisonnement à haut débit et faible latence
  • Généralisation par renforcement : Entraîné sur des millions de tâches par renforcement, améliorant considérablement l'adaptation aux scénarios complexes

Spécifications techniques :

  • Nom du modèle : unsloth/Qwen3.5-9B
  • Framework de service : Gradio Web UI
  • Environnement d'exécution : Accélération GPU CUDA
  • Port par défaut : 7860

2. Préparation de l'environnement

2.1 Exigences matérielles

  • GPU : Carte graphique NVIDIA A100/A10G ou équivalent (≥24 Go de VRAM)
  • RAM : Mémoire système ≥64 Go
  • Stockage : SSD ≥100 Go (fichiers du modèle ≈18 Go)

2.2 Dépendances logicielles

Assurez-vous que le système possède :

  • Python 3.8-3.10
  • CUDA 11.7/11.8
  • cuDNN 8.x
  • Chaîne d'outils de base (git, wget, tar)
# Vérification de l'installation CUDA
nvidia-smi
nvcc --version

3. Processus de déploiement

3.1 Récupération des fichiers du modèle

Utilisation recommandée de l'image officielle ou téléchargement depuis Hugging Face :

# Utilisation de la version pré-installée (recommandé)
cd /root/Qwen3.5-9B

# Ou téléchargement manuel
git clone https://huggingface.co/unsloth/Qwen3.5-9B
cd Qwen3.5-9B

3.2 Installation des dépendances Python

Création et activation de l'environnement virtuel :

python -m venv qwen_env
source qwen_env/bin/activate
pip install -r requirements.txt

Dépendances clés :

  • torch==2.1.0+cu117
  • transformers==4.36.0
  • gradio==3.50.0
  • flash-attn==2.3.3

4. Démarrage du service

4.1 Méthode de démarrage de base

Exécution dans le répertoire du modèle :

python /root/Qwen3.5-9B/app.py

Après le démarrage, afffichage d'un journal similaire :

Running on local URL:  http://0.0.0.0:7860
To create a public link, set `share=True` in `launch()`

4.2 Paramètres de démarrage avancés

Modification possible via app.py :

demo.launch(
    server_name="0.0.0.0",
    server_port=7860,
    share=False,  # Définir sur True pour générer un lien public
    auth=("username", "password")  # Ajouter une authentification d'accès
)

5. Vérification du service

5.1 Accès local

Ouvrir dans le navigateur :

http://localhost:7860

5.2 Exemple d'appel API

Test de l'interface avec curl :

curl -X POST http://localhost:7860/api/predict \
-H "Content-Type: application/json" \
-d '{"data": ["Bonjour, présentez-moi Qwen3.5"]}'

6. Résolution des problèmes courants

6.1 Mémoire CUDA insuffisante

Symptôme : RuntimeError: CUDA out of memory Solution :

  1. Réduire le paramètre batch_size
  2. Ajouter l'option de quantisation --load-in-4bit
  3. Utiliser max_split_size_mb pour optimiser l'allocation de la VRAM

6.2 Conflits de dépendances

Symptôme : ImportError ou conflit de version Étapes de résolution :

# Recréer un environnement propre
deactivate
rm -rf qwen_env
python -m venv qwen_env
source qwen_env/bin/activate
pip install --upgrade pip
pip install -r requirements.txt --no-cache-dir

6.3 Port déjà utilisé

Symptôme : Address already in use Méthode de résolution :

# Trouver le processus utilisant le port
lsof -i :7860
# Terminer le processus en conflit
kill -9 <PID>
# Ou modifier le port de démarrage
python app.py --port 7861

7. Conclusion

Ce guide vous a permis d'accomplir :

  1. Comprendre les avantages techniques fondamentaux de Qwen3.5-9B
  2. Configurer l'environnement GPU et installer les dépendances
  3. Maîtriser les méthodes de démarrage de base et avancée
  4. Apprendre à vérifier le service et résoudre les problèmes

Suggestions d'exploration supplémentaire :

  • Tester l'impact de différentes précisions de quantification (4bit/8bit) sur les performances
  • Construire des applications complexes en combinant avec LangChain
  • Utiliser vLLM pour accélérer le débit de raisonnement

Étiquettes: Qwen3.5-9B Gradio CUDA GPU déploiement de modèles

Publié le 9 juin à 03h31