Démystification du taux d'activation sparse dans les architectures MoE pour grands modèles de langage

1. Architectures MoE et réalité des taux d'activation L'affirmation selon laquelle « GPT-4 possède 1,8 billion de paramètres et n'en utilise que 2% par token » circule abondamment, mais elle simplifie à outrance une réalité technique complexe. En tant qu'ingénieurs ayant déployé des dizaines de modèles de différentes échelles, nous pouvons affi ...

Publié le 25 juin à 02h29