Swin Transformer : Architecture Polyvalente pour les Tâches Visuelles et Multimodales

Analyse Approfondie de l'Architecture Swin Transformer Mécanisme d'Attention par Fenêtres Décalées Le Swin Transformer résout les limittaions de complexité computationnelle des Vision Transformers (ViT) classiques lors du traitement d'images haute résolution. Cette optimisation repose sur le calcul de l'auto-attention restreint à des fenêtres l ...

Publié le 14 juin à 00h57

Ensemble de données pour la détection de l'utilisation du téléphone: adaptation aux tâches de classification et détection par apprentissage profond avec YOLO

Présentation de l'ensemble de données Cet ensemble de données a été conçu spécifiquement pour entraîner des modèles de détection d'objets à identifier les téléphones portables utilisés par des personnes dans des images. Il contient plus de 10 000 images annotées, provenant de divers environnements intérieurs et extérieurs. Caractéristiques prin ...

Publié le 12 juin à 00h35