Guide complet : Déployer GLM-4-9B-Chat-1M avec vLLM et intégration LangChain

Imaginons que vous demandiez à une IA d'analyser un roman de 300 pages en une seule fois, ou de traiter un rapport financier complet d'une entreprise cotée en bourse. Les modèles d'IA traditionnels sont généralement limités à quelques milliers de caractères, ce qui nécessite de fragmenter les documents longs en sections plus petites. Cette approche présente des inconvénients : complexité de mise en œuvre et perte potentielle du contexte global.

Le modèle GLM-4-9B-Chat-1M a été développé précisément pour répondre à cette problématique. Sa caractéristique principale réside dans sa capacité à traiter jusqu'à 1 million de tokens, équivalant à 2 millions de caractères chinois. Cette capacité permet de soumettre des documents entiers, qu'il s'agisse de livres complets, de rapports détaillés ou de vastes ensembles de documents, pour une analyse cohérente et contextuelle.

Un avantage considérable de ce modèle réside dans sa'efficacité opérationnelle : il fonctionne avec un seul GPU,-type RTX 3090 ou 4090, réduisant considérablement les coûts de déploiement pour les entreprises. Ce guide détaille étape par step le déploiement de ce modèle et son intégration avec LangChain pour créer des outils personnalisés.

2. Préparation de l'environnement et déploiement rapide

2.1 Spécifications matérielles et logicielles

Avant de commencer, vérifiez que votre environnement respecte les critères suivants :

GPU : mémoire vidéo d'au moins 24 Go (RTX 3090/4090 ou équivalent)
RAM : 32 Go minimum
Système d'exploitation : Ubuntu 20.04+ ou CentOS 7+
Python : version 3.8 ou supérieure

2.2 Déploiement du service vLLM

La méthode la plus simple pour déployer GLM-4-9B-Chat-1M consiste à utiliser vLLM, le framework d'accélération recommandé. Exécutez les commandes suivantes dans votre terminal :

# Installation de vLLM
pip install vllm

# Lancement du service API (version量化ée INT4)
python -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat-1m \
    --dtype auto \
    --gpu-memory-utilization 0.9 \
    --max-model-len 1048576 \
    --enable-chunked-prefill \
    --max-num-batched-tokens 8192

Cette configuration effectue plusieurs opérations essentielles :

Chargement de la version INT4 quantifiée (consommation mémoire de 9 Go)
Activation du préremplissage par blocs pour améliorer la vitesse d'inférence
Définition de la longueur maximale de traitement à 1M de tokens
Lancement du service API sur le port par défaut 8000

Après quelques minutes d'attente, le message "Uvicorn running on http://0.0.0.0:8000" confirme le bon fonctionnement du service.

3. Vérification du fonctionnement du service API

Avant de procéder à l'intégration avec LangChain, il est recommadné de vérifier le bon fonctionnement du service API. Créez un script de test :

import openai
from openai import OpenAI

# Configuration de la connexion au service vLLM local
client = OpenAI(
    api_key="token-abc123",
    base_url="http://localhost:8000/v1"
)

# Test de génération de texte court
response = client.chat.completions.create(
    model="THUDM/glm-4-9b-chat-1m",
    messages=[{"role": "user", "content": "Bonjour, présentez-vous"}],
    max_tokens=100
)

print(response.choices[0].message.content)

L'exécution de ce script révèle la réponse générée par le modèle, confirmant que le service API fonctionne correctement.

4. Intégration de base avec LangChain

Intégrons maintenant le service vLLM dans LangChain, un framework puissant pour le développement d'applications IA permettant de combiner diverses capacités intelligentes.

4.1 Installation des bibliothèques nécessaires

pip install langchain langchain-openai

4.2 Création du modèle de chat LangChain

from langchain_openai import ChatOpenAI
from langchain.schema import HumanMessage

# Initialisation du modèle LangChain connecté à vLLM
llm = ChatOpenAI(
    model_name="THUDM/glm-4-9b-chat-1m",
    openai_api_key="token-abc123",
    openai_api_base="http://localhost:8000/v1",
    max_tokens=1000
)

# Test de l'intégration LangChain
messages = [HumanMessage(content="Décrivez vos capacités en 50 mots")]
response = llm.invoke(messages)
print(response.content)

Cette intégration permet d'utiliser le modèle GLM-4-9B-Chat-1M localement de la même manière que l'API OpenAI.

5. Implémentation pratique des outils personnalisés

GLM-4-9B-Chat-1M prend en charge la fonctionnalité Function Call, permettant au modèle d'appeler intelligemment vos fonctions d'outils définies. Implémentons un cas d'utilisation concret : un outil d'analyse de documents longs.

5.1 Définition des outils d'analyse de documents

Créons plusieurs outils pratiques pour le traitement de documents :

import re
from datetime import datetime
from typing import List, Dict, Any
from langchain.tools import tool

@tool
def extraire_points_cles(texte_long: str) -> str:
    """Extraire les points clés d'un texte long"""
    phrases = texte_long.split('。')
    phrases_importantes = phrases[:5]
    return "。".join(phrases_importantes) + "。"

@tool  
def calculer_temps_lecture(texte: str) -> dict:
    """Estimer le temps nécessaire pour lire le texte"""
    nombre_caracteres = len(texte) / 2
    temps_minutes = nombre_caracteres / 300
    
    return {
        "nombre_caracteres": int(nombre_caracteres),
        "temps_minutes": round(temps_minutes, 1),
        "estimation": f"environ {int(temps_minutes)} minutes"
    }

@tool
def rechercher_sections_par_theme(texte: str, theme: str) -> List[str]:
    """Trouver les paragraphes liés à un thème spécifique"""
    paragraphes = texte.split('\n\n')
    paragraphes_relevants = []
    
    for para in paragraphes:
        if theme.lower() in para.lower():
            paragraphes_relevants.append(para[:200] + "...")
            
    return paragraphes_relevants[:3]

5.2 Association des outils à LangChain

Configurons le modèle pour qu'il puisse utiliser ces outils de manière intelligente :

from langchain.agents import initialize_agent, AgentType
from langchain.memory import ConversationBufferMemory

# Création de la liste d'outils
outils = [extraire_points_cles, calculer_temps_lecture, rechercher_sections_par_theme]

# Initialisation de l'Agent avec outils
memoire = ConversationBufferMemory(memory_key="historique_chat", return_messages=True)

agent = initialize_agent(
    outils,
    llm,
    agent=AgentType.OPENAI_FUNCTIONS,
    memory=memoire,
    verbose=True
)

5.3 Test des appels d'outils

Vérifions que le modèle utilise correctement nos outils définis :

# Simulation d'un document long
document_long = """
Le développement de la technologie d'intelligence artificielle a connu des progrès significatifs ces dernières années.
Dans le domaine du traitement du langage naturel, l'émergence des grands modèles linguistiques a complètement transformé 
la interaction homme-machine. GLM-4-9B-Chat-1M, en tant que modèle de compréhension de contexte ultra-long, peut traiter 
jusqu'à 1 million de tokens de contenu textuel. Cette technologie est précieuse pour l'analyse de documents, 
les systèmes de问答 sur les bases de connaissances, et les tâches de résumé de textes longs.
Les entreprises peuvent utiliser ce modèle pour traiter de nombreux contrats, manuels techniques et articles académiques.
"""

# Demande au modèle d'utiliser les outils pour traiter le document
resultat = agent.run(
    f"Analysez le document suivant, extrayez les points clés et estimez le temps de lecture : {document_long}"
)
print(resultat)

Le modèle appelle automatiquement les outils extraire\_points\_cles et calculer\_temps\_lecture, puis fournit une réponse synthétisée.

6. Scénarios réels de traitement de documents longs

Dans la pratique, il faut souvent traiter des documents longs aux formats PDF ou Word. Voici un exemple complet :

6.1 Chargement et prétraitement des documents

import PyPDF2
from typing import Optional

@tool
def charger_document_pdf(chemin_fichier: str, pages_max: Optional[int] = None) -> str:
    """Charger un document PDF et extraire le contenu textuel"""
    texte = ""
    try:
        with open(chemin_fichier, 'rb') as fichier:
            lecteur = PyPDF2.PdfReader(fichier)
            total_pages = len(lecteur.pages)
            pages_a_lire = min(pages_max, total_pages) if pages_max else total_pages
            
            for i in range(pages_a_lire):
                page = lecteur.pages[i]
                texte += page.extract_text() + "\n\n"
                
        return f"Chargement réussi de {pages_a_lire} pages, environ {len(texte)/2:.0f} caractères"
    except Exception as e:
        return f"Échec du chargement : {str(e)}"

# Ajout aux outils disponibles
outils.append(charger_document_pdf)

6.2 Flux complet d'analyse de documents longs

# Réinitialisation de l'Agent avec tous les outils
agent_avec_pdf = initialize_agent(
    outils,
    llm,
    agent=AgentType.OPENAI_FUNCTIONS,
    memory=memoire,
    verbose=True
)

# Exécution de la tâche d'analyse complète
resultat_analyse = agent_avec_pdf.run(
    "Chargez et analysez les 20 premières pages du document '/chemin/vers/votre/document.pdf', "
    "extrayez les points clés, calculez le temps de lecture et identifiez tous les paragraphes concernant 'applications techniques'"
)

print("Résultat de l'analyse :", resultat_analyse)

7. Techniques avancées et recommandations d'optimisation

7.1 Configuration d'optimisation des performances

Pour optimiser les performances de GLM-4-9B-Chat-1M, ajoutez ces paramètres au lancement de vLLM :

python -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat-1m \
    --dtype auto \
    --gpu-memory-utilization 0.9 \
    --max-model-len 1048576 \
    --enable-chunked-prefill \
    --max-num-batched-tokens 8192 \
    --tensor-parallel-size 1 \
    --swap-space 4 \
    --disable-log-stats

7.2 Stratégies pour le triatement de textes ultra-longs

Pour les textes approchant 1 million de tokens, une stratégie de traitement par blocs est recommandée :

@tool
def traiter_document_long_par_blocs(texte: str, taille_bloc: int = 200000) -> list:
    """Diviser un texte très long en blocs traitables"""
    blocs = []
    for i in range(0, len(texte), taille_bloc):
        bloc = texte[i:i + taille_bloc]
        blocs.append(f"Bloc texte {i//taille_bloc + 1}: {bloc}")
    return blocs

7.3 Gestion des erreurs et mécanisme de nouvelle tentative

Dans un environnement de production, une gestion appropriée des erreurs est essentielle :

from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
def requete_agent_robuste(question: str, tentatives_max: int = 3) -> str:
    """Requête avec mécanisme de nouvelle tentative"""
    try:
        return agent.run(question)
    except Exception as e:
        if tentatives_max > 0:
            print(f"Échec de la requête, tentatives restantes : {tentatives_max}")
            return requete_agent_robuste(question, tentatives_max - 1)
        else:
            return f"Échec de la requête : {str(e)}"

8. Conclusion

À travers les étapes présentées dans ce guide, vous avez réussi à déployer le modèle GLM-4-9B-Chat-1M et à réaliser son intégration avec LangChain ainsi que l'appel d'outils personnalisés. Cette combinaison offre des capacités puissantes pour le traitement de textes longs.

Points essentiels retenus :

Maîtrise du déploiement d'un modèle à contexte étendu via vLLM
Compréhension des méthodes d'intégration entre LangChain et les modèles locaux
Mise en œuvre d'outils personnalisés permettant à l'IA d'exécuter des tâches spécifiques
Connaissance des bonnes pratiques et techniques d'optimisation pour le traitement de documents longs

Applications pratiques :

Analyse et extraction de points clés dans les contrats d'entreprise
Résumé rapide de rapports de recherche volumineux
Système de问答 intelligent pour la documentation technique
Extraction d'informations clés dans les articles académiques

Vous pouvez désormais aborder ces documents longs qui étaient auparavant impossibles à analyser en raison des limitations de longueur. Laforce de GLM-4-9B-Chat-1M réside dans sa capacité à maintenir une compréhension contextuelle à longue distance, offrant un avantage distinctif pour les tâches complexes impliquant des textes étendus.

Pour découvrir davantage d'images IA et explorer divers scénarios d'utilisation, consultez les ressources spécialisées proposant des images préconfigurées couvrant l'inférence de grands modèles, la génération d'images, la génération vidéo, l'ajustement de modèles et d'autres domaines, avec support pour le déploiement en un clic.

Étiquettes: glm vLLM langchain LLM Python

Publié le 27 juin à 06h48

L'Atelier Monstre