Installation de Scrapy sous CentOS

Introduction

Scrapy est un framework open-source de web scrapnig pour Python, s'appuyant sur l'architecture Twisted. Il offre une boîte à outils complète pour le téléchargement et l'extraction de données à partir du web.

Environnement requis

  • CentOS 5.4
  • Python 2.7.3

Étapes d'installation

1. Installer Python 2.7.3

Téléchargez et compilez Python 2.7.3 à partir des sources :

curl -O http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz
tar -xvf Python-2.7.3.tgz
cd Python-2.7.3
./configure
make && make install

Vérifiez l'installation en exécutant :

python2.7 --version

2. Installer setuptools

Obtenez et installez setuptools pour la gestion des paquets Python :

curl -L http://pypi.python.org/packages/source/s/setuptools/setuptools-0.6c11.tar.gz -o setuptools-0.6c11.tar.gz
tar -zxvf setuptools-0.6c11.tar.gz
cd setuptools-0.6c11
python2.7 setup.py install

3. Installer Twisted et ses dépendacnes

Utilisez easy_install pour installer Twisted, qui inclut automatiquement zope.interface :

easy_install Twisted

Si nécessaire, téléchargez zope.interface manuellement :

curl -L http://pypi.python.org/packages/source/z/zope.interface/zope.interface-4.0.1.tar.gz -o zope.interface-4.0.1.tar.gz
tar -zxvf zope.interface-4.0.1.tar.gz
cd zope.interface-4.0.1
python2.7 setup.py install

4. Installer w3lib

Installez la bibliothèque w3lib pour le traitement des URLs et des textes :

easy_install -U w3lib

5. Installer lxml

Pour l'analyse XML/HTML, installez lxml via easy_install :

easy_install lxml

Vérifiez l'installation en important le module dans Python :

python2.7 -c "import lxml; print('lxml installé avec succès')"

Si des erreurs surviennent, assurez-vous que libxml2 version 2.6.28 ou supérieure est installée. Vous pouvez le télécharger depuis les dépôts officiels ou via easy_install.

6. Installer pyOpenSSL (optionnel)

Pour le support HTTPS dans Scrapy, installez pyOpenSSL. Notez que certaines versions peuvent poser des problèmes ; essayez la version 0.11 :

curl -L http://launchpadlibrarian.net/58498441/pyOpenSSL-0.11.tar.gz -o pyOpenSSL-0.11.tar.gz
tar -zxvf pyOpenSSL-0.11.tar.gz
cd pyOpenSSL-0.11
python2.7 setup.py install

7. Installer Scrapy

Installez Scrapy en utilisant easy_install :

easy_install -U Scrapy

Pour vérifier l'instalation, exécutez :

scrapy version

Cela devrait afficher la version de Scrapy installée et lister les commandes disponibles.

Notes supplémentaires

Si l'installation de pyOpenSSL échoue avec easy_install, téléchargez la version 0.11 manuellement comme décrit ci-dessus, puis réessayez l'installation de Scrapy. Assurez-vous que toutes les dépendances sont satisfaites pour éviter les erreurs d'exécution.

Étiquettes: Scrapy Python2.7 CentOS Twisted lxml

Publié le 10 juin à 16h15