Détection et reconnaissance de piétons et véhicules par apprentissage profond et YOLOv5

Contexte et signification

Avec l'urbanisation croissante, la surveillance du trafic et la prévention des accidents sont devenues essentielles. Les technologies de détection de piétons et véhicules jouent un rôle clé dans les systèmes de transport intelligents. L'utilisation de l'apprentissage profond a permis d'améliorer significativement la précision et la rapidité de ces détections, ouvrant la voie à des applications en temps réel comme la surveillance routière et les véhicules autonomes.

Principes théoriques des algorithmes

Réseaux de neurones convolutifs (CNN)

Les CNN sont des modèles d'apprentissage profond conçus pour traiter des données visuelles. Inspirés du système visuel biologique, ils extraient des caractéristiques spatiales via des couches successives. La couche de convolution applique des filtres pour détecter des motifs comme les bords ou textures, suivie de fonctions d'activation pour introduire la non-linéarité. Les couches de pooling réduisent la dimensionnalité et renforcent la robustesse. Enfin, les couches entièrement connectées mappent les caractéristiqeus extraites vers des classes spécifiques, avec des techniques comme le Dropout pour améliorer la généralisation.

Algorithme de détection d'objets YOLOv5

YOLOv5 est un détecteur d'objets en une étape qui effectue la localisation et la classification en une seule passe. Son architecture comprend un réseau backbone pour l'extraction de caractéristiques, un réseau neck pour fusionner les caractéristiques multi-échelles, et un réseau head pour générer les prédictions. YOLOv5 se distingue par sa rapidité d'inférence, adaptée aux applications temps réel, ainsi que par sa précision et sa flexibilité, permettant d'ajuster la taille du modèle selon les contraintes matérielles. Sa capacité de généralisation assure des performances fiables dans divers environnements.

Mise en œuvre de la détection

Jeux de données

La collecte de données implique la capture d'images dans différents contextes (rues urbaines, routes rurales) et conditions (éclairage, météo), combinée à l'exploitation de bases publiques. Les annotations sont réalisées avec des outils comme LabelImg pour délimiter les objets et assigner des classes. Le jeu de données est divisé en ensembles d'entraînement, de validation et de test, avec des techniques d'augmentation telles que les rotations, redimensionnements et retournements pour améliorer la robustesse du modèle.

Configuration de l'environnement expérimental

La mise en place requiert des bibliothèques comme PyTorch pour le deep learning et des outils de prétraitement. Le modèle YOLOv5 est configuré via un fichier YAML définissant les chemins des données et les classes.

Expérimentations et analyse des résultats

Après préparation des données, l'entraînement est lancé avec des hyperparamètres ajustés. L'évaluation sur l'ensemble de validation utilise des métriques comme la mAP (mean Average Precision), la précision et le rappel pour valider l'efficacité du modèle. Ensuite, le modèle peut être exporté dans des formats comme ONNX pour le déploiement en production.

Exemple de préparation des données


import os
import shutil
import random

# Chemins de base pour les données
repertoire_principal = 'donnees_brutes'
dossier_images = os.path.join(repertoire_principal, 'images')
dossier_etiquettes = os.path.join(repertoire_principal, 'etiquettes')

# Initialisation des répertoires d'entraînement et validation
chemin_train_images = os.path.join(dossier_images, 'entrainement')
chemin_val_images = os.path.join(dossier_images, 'validation')
chemin_train_etiquettes = os.path.join(dossier_etiquettes, 'entrainement')
chemin_val_etiquettes = os.path.join(dossier_etiquettes, 'validation')

for chemin in [chemin_train_images, chemin_val_images, chemin_train_etiquettes, chemin_val_etiquettes]:
    os.makedirs(chemin, exist_ok=True)

# Répertoires sources des images et étiquettes brutes
src_images = 'source/images'
src_etiquettes = 'source/etiquettes'

# Répartition aléatoire des données (80% entraînement, 20% validation)
fichiers_images = [f for f in os.listdir(src_images) if f.lower().endswith(('.jpg', '.png'))]
random.shuffle(fichiers_images)
seuil = int(0.8 * len(fichiers_images))

for idx, fichier in enumerate(fichiers_images):
    nom_base = os.path.splitext(fichier)[0]
    fichier_etiquette = nom_base + '.txt'
    
    if idx < seuil:
        dest_images = chemin_train_images
        dest_etiquettes = chemin_train_etiquettes
    else:
        dest_images = chemin_val_images
        dest_etiquettes = chemin_val_etiquettes
    
    shutil.move(os.path.join(src_images, fichier), os.path.join(dest_images, fichier))
    if os.path.exists(os.path.join(src_etiquettes, fichier_etiquette)):
        shutil.move(os.path.join(src_etiquettes, fichier_etiquette), os.path.join(dest_etiquettes, fichier_etiquette))

Configuration du fichier YAML


# Fichier de configuration pour YOLOv5
train: donnees/images/entrainement
val: donnees/images/validation

# Nombre et noms des classes
nombre_classes: 2
classes: ['pieton', 'vehicule']

Une fois entraîné, le modèle est évalué et déployé pour la détection en temps réel, fournissant des coordonnées de délimitasion et des étiquettes pour chaque objet détecté dans les flux vidéo ou images.

Étiquettes: YOLOv5 CNN détection d'objets vision par ordinateur Python

Publié le 4 juin à 01h42

L'Atelier Monstre