Le modèle GLM-4v-9b, un développement open-source de Zhipu AI datant de 2024, est un modèle multimodal vision-langage de 9 milliards de paramètres. Sa capacité distinctive réside non seulement dans sa compréhension visuelle, mais également dans son aptitude à interpréter le contenu textuel des images, offrant un support bilingue anglais-chinois.
Lors d'évaluations rigoureuses, GLM-4v-9b a démontré des performances remarquables dans des tâches telles que la description d'images, la réponse visuelle aux questions et la compréhension de diagrammes. Il surpasse des modèles reconnsu comme GPT-4-turbo, Gemini 1.0 Pro, Qwen-VL-Max et Claude 3 Opus. Un atout majeur est sa prise en charge native des images haute résolution jusqu'à 1120×1120 pixels, garantissant une reconnaissance claire des caractères même les plus petits, souvent rencontrés sur les tableaux blancs.
Capacités distinctives de GLM-4v-9b
- Fonctionnement sur une seule carte graphique RTX 4090 (nécessite seulement 9 Go de VRAM après quantification INT4).
- Excellence en reconnaissance optique de caractères (OCR) pour le chinois et compréhension des graphiques.
- Prise en charge des dialogues multi-tours pour affiner la compréhension des détails visuels.
- Licence open-source favorable à l'utilisation commerciale, même pour les petites entreprises.
Exemple concret : Traitement d'un tableau blanc de réunion
Imaginons la photo d'un tableau blanc prise après une réunion, remplie de notes manuscrites, de flèches, de schémas et de points clés. Ce type d'image contient généralement :
- Des textes manuscrits, parfois peu lisibles.
- Des diagrammes et des logigrammes.
- Des flèches et des connecteurs symbolisant des relations logiques.
- Des zones encadrées ou cerclées pour accentuer l'importance.
Extraction textuelle intelligente
Lorsque GLM-4v-9b traite une telle image, il procède d'abord à l'extraction de l'ensemble des contenus textuels. Le modèle parvient à identifier le texte avec une grande précision, tout en conservant la structure et la hiérarchie d'origine. Pour les écritures manuscrites claires, le taux de précision dépasse souvent les 95%.
Voici un exemple de transcription d'un contenu typique de tableau blanc :
Planification de projet - 15 mars 2024
Objectif principal : Lancement du produit au T2
Jalons clés :
1. Confirmation des exigences (fin mars)
2. Développement achevé (15 avril)
3. Phase de test (16-30 avril)
4. Lancement officiel (1er mai)
Allocation des ressources :
- Équipe de développement : 5 personnes
- Équipe de test : 2 personnes
- Chef de produit : 1 personne
Points de risque :
* Délai serré
* Dépendance API tierce
Génération automatisée de diagrammes de relations logiques
Au-delà de l'extraction textuelle, GLM-4v-9b excelle dans la déduction des relations logiques entre les éléments visuels et la production d'un diagramme structuré. Ce processus transforme des notes disparates en une représentation visuelle cohérente et facilement compréhensible.
graph TD
A[Réunion de planification de projet] --> B[Lancement produit T2]
B --> C[Jalons clés]
C --> D[Confirmation des exigences]
C --> E[Développement achevé]
C --> F[Phase de test]
C --> G[Lancement officiel]
B --> H[Allocation des ressources]
H --> I[Équipe de développement : 5 personnes]
H --> J[Équipe de test : 2 personnes]
H --> K[Chef de produit : 1 personne]
B --> L[Points de risque]
L --> M[Délai serré]
L --> N[Dépendance API tierce]
D --> O[Fin mars]
E --> P[15 avril]
F --> Q[16-30 avril]
G --> R[1er mai]
Applications pratiques
Automatisation des comptes rendus de réunion
Plutôt que d'assigner un rédacteur de procès-verbal, une simple photo du tableau blanc permet à GLM-4v-9b de :
- Extraire tout le contenu textuel.
- Identifier les annotations par couleur (par exemple, rouge pour les priorités, bleu pour les actions).
- Générer un compte rendu structuré.
- Dégager les actions et les responsables associés.
Création de cartes mentales
Pour les séances de brainstorming, le modèle peut générer des cartes mentales à partir du tableau blanc :
Sujet central : Idée Nouveau Produit
├── Caractéristiques fonctionnelles
│ ├── Authentification utilisateur
│ ├── Visualisation des données
│ └── Support mobile
├── Pile technologique
│ ├── Frontend : React
│ ├── Backend : Node.js
│ └── Base de données : MongoDB
└── Planification temporelle
├── Conception du prototype : 2 semaines
├── Développement : 6 semaines
└── Tests : 2 semaines
Organisation de plans de projet
Le modèle est capable d'identifier les échéanciers, les jalons et les dépendances pour produire un diagramme de Gantt ou un tableau de planification de projet.
Détails techniques
Gestion de la haute résolution
La capacité de GLM-4v-9b à traiter des entrées de 1120×1120 pixels est cruciale pour la reconnaissance des tableaux blancs. Contrairement aux modèles standards qui pourraient flouter les petits caractères, ce modèle maintient une grande clarté des détails.
| Type de modèle | Résolution maximale | Capacité de reconnaissance des petits caractères |
|---|---|---|
| Modèle de vision standard | 512×512 | Ne reconnaît que les grands caractères |
| GLM-4v-9b | 1120×1120 | Reconnaît les petits caractères sur tableau blanc |
Support multilingue
Bien que l'exemple soit en chinois, GLM-4v-9b excellle également dans la gestion de contenus mixtes anglais-chinois, une caractéristique précieuse pour les équipes internationales où les termes techniques en anglais et les explications en chinois se côtoient fréquemment.
Compréhension des relations logiques
Le modèle ne se contente pas de reconnaître le texte ; il interprète également les éléments visuels pour comprendre les relations :
- Les flèches indiquent un ordre ou un flux.
- Les cadres ou encerclés signalent des points clés.
- Les différentes couleurs peuvent catégoriser l'information.
- La disposition spatiale suggère une hiérarchie.
Retour d'expérience utilisateur
L'utilisation de GLM-4v-9b pour la numérisation de tableaux blancs est impressionnante :
- **Rapidité :** Une photo standard de tableau blanc est traitée en 10 à 15 secondes.
- **Précision :** Quasi parfaite pour le texte imprimé, et supérieure à 90% pour le manuscrit clair.
- **Préservation du format :** Maintient les numérotations, listes et structures hiérarchiques originales.
- **Compréhension logique :** Identifie correctement plus de 80% des relations logiques, surtout celles clairement indiquées par des flèches.
Les fonctionnalités les plus utiles incluent la distinction automatique entre titres et corps de texte, la reconnaissance des cases à cocher et des tâches, l'extraction des dates et des échéances, la génération de formats de texte éditables, et l'exportation vers divers formats comme Markdown ou Word.
Bilan des capacités
GLM-4v-9b représente une avancée majeure dans le traitement des tableaux blancs. Ce n'est pas un simple outil d'OCR, mais un assistant intelligent qui saisit la sémantique complète du contenu visuel.
Ses avantages clés sont :
- **Gain de temps :** Élimine le besoin de transcription manuelle des réunions.
- **Fiabilité accrue :** Minimise les erreurs de retranscription.
- **Visualisation optimisée :** Génère automatiquement des diagrammes de relations.
- **Partage facilité :** Produit des documents standardisés.
Pour les réunions quotidiennes, la planification de projets ou les sessions de brainstorming, GLM-4v-9b peut transformer le contenu chaotique d'un tableau blanc en informations organisées. De plus, sa capacité à fonctionner sur une carte graphique grand public rend cette puissance IA accessible à toutes les équipes.