Guide de Démarrage Rapide pour le Projet Kolors

Kolors est un modèle avancé de génération d'images à partir de texte, basé sur la diffusion latente. Développé par l'équipe Kolors de Kuaishou, il a été entraîné sur des milliards de paires texte-image. Ce modèle excelle dans la qualité visuelle, la précision sémantique complexe et le rendu des caractères chinois et anglais, offrant des performances notables pour la compréhension et la génération de contenu en chinois.

Installation et Configuration

Prérequis Système

Python 3.8+
PyTorch 1.13.1+
Transformers 4.26.1+
CUDA 11.7+ (recommandé)

Obtention du Code et Installation des Dépendances

Pour commencer, clonez le dépôt et installez les dépendances nécessaires. Il est conseillé d'utiliser un environnement virtuel.


# Assurez-vous que git-lfs est installé
apt-get install git-lfs

# Clonez le dépôt du projet
git clone https://github.com/Kwai-Kolors/Kolors.git
cd Kolors

# Créez et activez un environnement virtuel (exemple avec conda)
conda create --name kolors python=3.8
conda activate kolors

# Installez les dépendances listées dans requirements.txt
pip install -r requirements.txt

# Installez le package du projet
python3 setup.py install

Téléchargement des Poids du Modèle

Vous pouvez télécharger les poids pré-entraînés de plusieurs manières :


# Utilisation de huggingface-cli pour télécharger les poids
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

# Alternative : clonage avec git lfs si vous avez déjà cloné le repo principal
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

Exemples d'Utilisation

Génération d'Images via Script

Lancez le script d'échantillonnage pour générer une image à partir d'un texte prédéfini.


python3 scripts/sample.py

L'image générée sera sauvegardée dans scripts/outputs/sample_text.jpg.

Interface Web de Démonstration

Pour une expérience itneractive, démarrez l'interface web.


python3 scripts/sampleui.py

Intégration avec Diffuesrs

Pour utiliser Kolors avec la bibliothèque diffusers de Hugging Face, assurez-vous d'avoir la dernière version.


# Clonez le dépôt de diffusers si nécessaire et installez-le
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install

Voici un exemple de code Python pour la génération d'images :


import torch
from diffusers import KolorsPipeline

# Charger le pipeline Kolors pré-entraîné
# Utilisation de float16 pour une meilleure performance sur GPU compatible
pipeline = KolorsPipeline.from_pretrained(
   "Kwai-Kolors/Kolors-diffusers",
   torch_dtype=torch.float16,
   variant="fp16"
).to("cuda")

# Définir le prompt d'entrée
prompt_text = 'Une photographie de coccinelle, macro, zoom, haute qualité, cinématographique, tenant une pancarte avec l'inscription "可图"'

# Générer l'image
generated_image = pipeline(
   prompt=prompt_text,
   negative_prompt="",  # Vous pouvez spécifier des prompts négatifs pour exclure certains éléments
   guidance_scale=5.0,  # Facteur de guidage pour l'influence du prompt
   num_inference_steps=50 # Nombre d'étapes d'inférence
)

# L'objet generated_image contient l'image générée (généralement sous forme de PIL Image)
# Vous pouvez ensuite sauvegarder ou afficher l'image.
# generated_image.images[0].save("output_kolors.png")

Cas d'Usage et Bonnes Pratiques

Génération d'images haute fidélité : Utilisez Kolors pour créer des visuels de haute qualité à partir de descriptions textuelles.
Contrôle de pose avec ControlNet : Explorez l'intégration de ControlNet pour diriger la pose des sujets dans les images générées.
Personnalisation avec Dreambooth-LoRA : Appliquez les techniques Dreambooth et LoRA pour entraîner le modèle sur vos propres données et générer des images personnalisées.

Projets Écosystémiques Associés

Diffusers : Bibliothèque PyTorch pour expérimenter avec divers modèles de diffusion texte-image.
ComfyUI : Interface utilisateur graphique conviviale pour la génération d'images, compatible avec Kolors.
Gradio : Framework pour créer et partager des démonstrations d'applications de machine learning.

Étiquettes: diffusion latente Génération d'images modèle texte-image IA générative PyTorch

Publié le 15 juin à 21h30

L'Atelier Monstre