Optimisation et Déploiement de D-FINE : Quantification INT8 et Inférence en Précision Mixte FP16

L'optimisation des modèles de détection d'objets en temps réel comme D-FINE est cruciale pour réduire la latence et l'empriente mémoire sur le matériel de production. Bien que D-FINE offre des performances de pointe nativement, l'application de techniques de quantification peut multiplier la vitesse d'inférence par 2 ou 4 tout en divisant l'utilisation de la mémoire vive par deux ou plus.

Configuration de l'environnement de déploiement

Pour mettre en œuvre ces optimisations, un environnement spécifique basé sur TensorRT est nécessaire. Voici les étapes de configuration initiales :

# Initialisation de l'environnement virtuel
conda create -n dfine_opt_env python=3.11
conda activate dfine_opt_env

# Installation des frameworks de base
pip install torch==2.1.0 torchvision==0.16.0 
pip install onnx==1.15.0 onnxsim==0.4.35

# Bibliothèques pour l'accélération NVIDIA
pip install tensorrt==10.4.0 pycuda==2024.1
pip install opencv-python pillow numpy==1.24.4

Exportation vers le format ONNX

Le passage au format ONNX est l'étape intermédiaire obligatoire avant la compilation TensorRT. D-FINE intègre des scripts pour exporter le modèle incluant le post-traitement.

# Exportation d'une variante spécifique (ex: modèle large 'l')
python tools/deployment/export_onnx.py \
    -c configs/dfine/dfine_hgnetv2_l_coco.yml \
    -r weights/dfine_l_coco.pth \
    --check \
    --simplify

Le module d'exportation encapsule généralement la logique suivante pour garantir l'intégration des étapes finales :

class DFineInferenceModule(nn.Module):
    def __init__(self, cfg_model, cfg_postprocessor):
        super().__init__()
        self.detector = cfg_model.deploy()
        self.post_process = cfg_postprocessor.deploy()

    def forward(self, x, original_dims):
        raw_preds = self.detector(x)
        # Retourne les boîtes, scores et classes après traitement
        return self.post_process(raw_preds, original_dims)

Quantification INT8 avec TensorRT

La quantification INT8 réduit la précision des poids et des activations de 32 bits à 8 bits. Cela nécessite une phase de calibration pour minimiser la perte de précision.

Compilation du moteur INT8

trtexec --onnx="dfine_l_coco.onnx" \
        --saveEngine="dfine_l_int8.engine" \
        --int8 \
        --calib="calibration_cache.bin" \
        --memPoolSize=workspace:2048 \
        --verbose

Préparation des données de calibration

La fonction suivante illustre comment préparer les échantillons pour le calibrateur TensorRT :

def build_calibration_loader(data_dir, batch_count=500, input_size=(640, 640)):
    """Génère un flux de données pour la quantification INT8"""
    import cv2
    import os
    
    samples = []
    files = [f for f in os.listdir(data_dir) if f.lower().endswith(('.jpg', '.jpeg'))]
    
    for i in range(min(batch_count, len(files))):
        path = os.path.join(data_dir, files[i])
        frame = cv2.imread(path)
        frame = cv2.resize(frame, input_size)
        # Transformation CHW et normalisation
        blob = frame.transpose(2, 0, 1).astype(np.float32) / 255.0
        samples.append(blob)
        
    return np.ascontiguousarray(samples)

Optimisation en Précision Mixte FP16

Le mode FP16 est souvent le meilleur compromis car il offre un gain de vitesse substantiel (souvent > 2x) sans nécessiter de jeu de données de calibration complexe, tout en conservant une précision quasi iedntique au FP32.

# Génération d'un moteur optimisé FP16
trtexec --onnx="dfine_l_coco.onnx" \
        --saveEngine="dfine_l_fp16.engine" \
        --fp16 \
        --avgTiming=50

Analyse Comparative de la Quantification

Mode de Précision	Usage Mémoire	Accélération Relative	Conservation de la Précision (mAP)
FP32 (Référence)	100%	1.0x	100%
FP16	~50%	2.2x - 2.8x	> 99.5%
INT8	~25%	3.5x - 4.2x	97% - 99%

Implémentation de l'Inférence avec TensorRT

Pour utiliser le moteur compilé (.engine), nous devons créer un wrapper de gestion des ressources GPU via l'API Python de TensorRT.

class TensorRTInferenceManager:
    def __init__(self, engine_file):
        self.runtime = trt.Runtime(trt.Logger(trt.Logger.WARNING))
        with open(engine_file, "rb") as f:
            self.engine = self.runtime.deserialize_cuda_engine(f.read())
        self.execution_context = self.engine.create_execution_context()

    def run_detection(self, input_tensor, target_sizes):
        # Configuration des dimensions pour les entrées dynamiques
        self.execution_context.set_input_shape("images", input_tensor.shape)
        self.execution_context.set_input_shape("orig_target_sizes", target_sizes.shape)
        
        # Gestion des buffers GPU (simplifié)
        # ... allocation et transfert via pycuda ...
        
        # Exécution asynchrone
        self.execution_context.execute_v2(bindings=self.gpu_bindings)
        return self.get_results()

Analyse de la Sensibilité des Couches

Certaines parties de l'architecture D-FINE sont plus sensibles à la perte de précision que d'autres lors du passage en INT8 :

Mécanismes d'Attention : Haute sensibilité. Il est recommandé de forcer ces couches en FP16 si la perte de mAP est trop importante.
Couches de Raffinement de Distribution : Sensibilité moyenne. L'utilisation d'une calibration par canal (per-channel) est préférable.
Backbone (HGNetv2) : Faible sensibilité. Supporte très bien la quantification agressive.

Résolution des Problèmes Courants

Symptôme	Cause Probable	Action Corrective
Bruit important dans les boîtes englobantes	Erreur de quantification des couches de régression	Utiliser l'option `--first_last="FP16"` ou une calibration Entropy.
Chute brutale de la précision globale	Données de calibration non représentatives	Augmenter la diversité du jeu de calibration (inclure des scènes variées).
Échec de l'exportation ONNX	Incompatibilité d'opérateurs dynamiques	Vérifier la version de ONNX et utiliser `onnx-simplifier`.

Pour maximiser les performances, l'activation des options de timing approfondi lors de la compilation avec trtexec permet à TensorRT de tester des centaines d'algorithmes (kernels) différents pour chaque couche, garantissant ainsi la solution la plus rapide pour le matériel spécifique utilisé.

Étiquettes: D-FINE TensorRT INT8 FP16 ONNX

Publié le 21 juin à 19h34

L'Atelier Monstre