Fonctionnalités avancées du compilateur PyTorch 2

PyTorch 2 intègre des technologies de compilation avancées pour améliorer les performances des modèles de deep learning, notamment via l'optimisation des graphes de calcul et la génération de code spécifique au matériel.

Un compilateur de deep learning traduit le code haut niveau des frameworks vers un code bas niveau optimisé pour le matériel cible. Il optimise les performances en fusionnant les opérateurs, en réduisant les surcharges d'appels et en générant des noyaux optimisés pour le matériel spécifique (GPU, TPU, etc.).

Processus du compilateur dans PyTorch 2

L'API torch.compile() déclenche un processus de compilation qui comporte plusieurs étapes clés :

Capture du graphe : Représentation graphique du calcul du modèle. Technologies : TorchDynamo, TorchFX, FX IR
Différentiation automatique : Traçage du graphe avant et arrière avec décomposition en opérateurs primitifs. Technologies : AOTAutograd, Aten IR
Optimisation : Optimisations au niveau du graphe et fusion d'opérateurs. Technologie par défaut : TorchInductor
Génération de code : Production de code C++ ou GPU spécifique. Technologies : TorchInductor, Triton

Ces étapes transforment le code en représentations intermédiaires (IR) progressivement abaissées, ce qui correspond à la conversion automatique d'opérations de haut niveau vers des opérations primitives supportées par le matériel.

Exemple de processus de compilation

Considérons une fonction mathématique simple pour illustrer le processus. Nous définissons une fonction qui combine des opérations trigonométriques :

import torch

def compute_expression(x):
    return torch.exp(torch.sin(x)) + torch.log(torch.abs(torch.cos(x)))

L'application de torch.compile() ne doit pas modifier la fonctionnalité. Vérifions que la sortie reste cohérente pour une entrée aléatoire :

original_output = compute_expression(input_tensor)
compiled_func = torch.compile(compute_expression)
compiled_output = compiled_func(input_tensor)
assert torch.allclose(original_output, compiled_output, atol=1e-6)

Étape 1 : Capture du graphe

TorchDynamo intercepte l'exécution Python et convertit le code en un graphe FX. Nous pouvons inspecter ce graphe en utilisant un backend de compilation personnalisé :

def debug_backend(gm, inputs):
    # Afficher la représentation IR du graphe
    print("Structure du graphe capturé:")
    print(gm.graph)
    
    # Sauvegarder une visualisation du graphe
    dot_graph = gm.graph.to_dot()
    with open("grape_computation.dot", "w") as f:
        f.write(str(dot_graph))
    
    return gm.forward

torch._dynamo.reset()
debug_compiled = torch.compile(compute_expression, backend=debug_backend)
output = debug_compiled(torch.randn(5, device='cuda'))

Le graphe FX obtenu est une représentation fidèle des opérations, mais dans un format structuré optimisé pour les transformations ultérieures.

Étape 2 : Différentiation automatique

Pour l'entraînement, le compilateur doit aussi gérer le calcul des gradients. AOTAutograd trace à la fois le graphe avant et le graphe arrière nécessaires pour la rétropropagation.

# Calcul avec gradients
input_grad = torch.randn(5, device='cuda', requires_grad=True)
output = debug_compiled(input_grad)
loss = output.sum()
loss.backward()  # Déclenche la génération du graphe arrière

Étape 3 : Optimisations et fusion d'opérateurs

TorchInductor, le compilateur par défaut, applique plusieurs optimisations :

Fusion des opérations élément par élément (comme les fonctions trigonométriques)
Planification mémoire optimale
Réduction des transferts CPU/GPU
Optimisation des dispositions de données

Étape 4 : Génération de code spécifique

Pour les GPU, TorchInductor génère du code Triton optimisé. Pour les CPU, il utilise des optimisations avec OpenMP. Le code généré est spécialisé pour la forme des tenseurs et le matériel cible.

Optimisations matériel spécifiques

Les compilateurs modernes exploitent les caractéristiques du matériel :

Utilisation de la précision mixte (FP16/BF16) quand c'est supporté
Minimisation de la communication hôte/appareil
Génération de noyaux optimisés pour la hiérarchie mémoire spécifique

Les techniques de compilation permettent des gains significatifs en performance et en efficacité énergétique, particulièrement importantes pour le déploiement de modèles de deep learning à grande échelle.

Étiquettes: PyTorch TorchInductor TorchDynamo compilation deep learning optimisation GPU

Publié le 15 juin à 22h31

L'Atelier Monstre