Tutoriel d'utilisation du projet TD3_BC

Guide complet du projet TD3_BC

Implémentation PyTorch de TD3+BC par l'auteur, une variante simple de TD3 pour l'apprentissage par renforcement hors ligne.

Structure du répertoire du projet

TD3_BC/
├── LICENSE
├── README.md
├── TD3_BC.py
├── main.py
├── run_experiments.sh
└── utils.py

LICENSE : Fichier de licence du projet, utilisant la licence MIT.
README.md : Documentation du projet, contenant une introduction de base et les instructions d'utilisation.
TD3_BC.py : Fichier d'implémentation de l'algorithme principal, contenant l'implémentation spécifique de l'algorithme TD3+BC.
main.py : Fichier de démarrage principal du projet, responsable de l'initialisation et de l'exécution des expériences.
run_experiments.sh : Script d'exécution des expériences, utilisé pour automatiser l'exécution des expériences.
utils.py : Fichier des fonctions utilitaires, contenant des fonctions вспомогательные et des classes utilitaires.

Présentation du fichier de démarrage

main.py

main.py est le fichier de démarrage du projet, responsable de l'initialisation et de l'exécution des expériences. Voici le contenu principal et la présentation des fonctionnalités :

import TD3_BC
import utils

def demarrer():
    # Initialisation de l'environnement et des paramètres
    environnement = utils.creer_env("nom_environnement")
    parametres = utils.charger_params("chemin_fichier_config")
    
    # Création de l'agent TD3+BC
    agent = TD3_BC.TD3_BC(environnement, parametres)
    
    # Exécution de l'expérience
    agent.entrainer()

if __name__ == "__main__":
    demarrer()

Initialisation de l'environnement : Utilisation de la fonction utils.creer_env pour créer une instance d'environnement.
Chargement des paramètres : Utilisation de la fonction utils.charger_params pour charger les paramètres du fichier de configuration.
Création de l'agent : Création d'une instance de l'agent TD3+BC, en passant l'environnement et les paramètres.
Exécution de l'expérience : Appel de la méthode entrainer de l'agent pour démarrer l'entraînement.

Présentation du fichier de configuration

config.yaml

Le fichier de configuration config.yaml contient divers paramètres nécessaires à l'exécution du projet. Voici un exemple du contenu du fichier de configuration :

nom_environnement: "HalfCheetah-v2"
taux_apprentissage: 0.001
taille_batch: 100
taille_buffer: 1000000
facteur_remise: 0.99
tau: 0.005
bruit_policy: 0.2
limite_bruit: 0.5
delai_policy: 2

nom_environnement : Nom de l'environnement, spécifiant l'environnement d'apprentissage par renforcement à utiliser.
taux_apprentissage : Taux d'apprentissage, contrôlant le pas de mise à jour du modèle.
taille_batch : Taille du lot, nombre d'échantillons extraits du pool d'expérience à chaque entraînement.
taille_buffer : Taille du pool d'expérience, nombre maximum d'échantillons d'expérience à stocker.
facteur_remise : Facteur de remise, utilisé pour calculer la remise des récompenses futures.
tau : Paramètre de mise à jour douce, contrôlant la vitesse de mise à jour du réseau cible.
bruit_policy : Bruit de politique, utilisé pour l'exploration.
limite_bruit : Limitation du bruit, limitant la valeur maximale du bruit.
delai_policy : Délai de politique, contrôlant la fréquence de mise à jour de la politique.

En modifiant les paramètres dans le fichier de configuration, vous pouvez ajuster le comportement d'entraînement et les performances du modèle.

Étiquettes: TD3 BC PyTorch apprentissage-renforcement offline-RL

Publié le 11 juin à 02h39

L'Atelier Monstre