Introduction
Scrapy est un framework open-source de web scrapnig pour Python, s'appuyant sur l'architecture Twisted. Il offre une boîte à outils complète pour le téléchargement et l'extraction de données à partir du web.
Environnement requis
- CentOS 5.4
- Python 2.7.3
Étapes d'installation
1. Installer Python 2.7.3
Téléchargez et compilez Python 2.7.3 à partir des sources :
curl -O http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz
tar -xvf Python-2.7.3.tgz
cd Python-2.7.3
./configure
make && make install
Vérifiez l'installation en exécutant :
python2.7 --version
2. Installer setuptools
Obtenez et installez setuptools pour la gestion des paquets Python :
curl -L http://pypi.python.org/packages/source/s/setuptools/setuptools-0.6c11.tar.gz -o setuptools-0.6c11.tar.gz
tar -zxvf setuptools-0.6c11.tar.gz
cd setuptools-0.6c11
python2.7 setup.py install
3. Installer Twisted et ses dépendacnes
Utilisez easy_install pour installer Twisted, qui inclut automatiquement zope.interface :
easy_install Twisted
Si nécessaire, téléchargez zope.interface manuellement :
curl -L http://pypi.python.org/packages/source/z/zope.interface/zope.interface-4.0.1.tar.gz -o zope.interface-4.0.1.tar.gz
tar -zxvf zope.interface-4.0.1.tar.gz
cd zope.interface-4.0.1
python2.7 setup.py install
4. Installer w3lib
Installez la bibliothèque w3lib pour le traitement des URLs et des textes :
easy_install -U w3lib
5. Installer lxml
Pour l'analyse XML/HTML, installez lxml via easy_install :
easy_install lxml
Vérifiez l'installation en important le module dans Python :
python2.7 -c "import lxml; print('lxml installé avec succès')"
Si des erreurs surviennent, assurez-vous que libxml2 version 2.6.28 ou supérieure est installée. Vous pouvez le télécharger depuis les dépôts officiels ou via easy_install.
6. Installer pyOpenSSL (optionnel)
Pour le support HTTPS dans Scrapy, installez pyOpenSSL. Notez que certaines versions peuvent poser des problèmes ; essayez la version 0.11 :
curl -L http://launchpadlibrarian.net/58498441/pyOpenSSL-0.11.tar.gz -o pyOpenSSL-0.11.tar.gz
tar -zxvf pyOpenSSL-0.11.tar.gz
cd pyOpenSSL-0.11
python2.7 setup.py install
7. Installer Scrapy
Installez Scrapy en utilisant easy_install :
easy_install -U Scrapy
Pour vérifier l'instalation, exécutez :
scrapy version
Cela devrait afficher la version de Scrapy installée et lister les commandes disponibles.
Notes supplémentaires
Si l'installation de pyOpenSSL échoue avec easy_install, téléchargez la version 0.11 manuellement comme décrit ci-dessus, puis réessayez l'installation de Scrapy. Assurez-vous que toutes les dépendances sont satisfaites pour éviter les erreurs d'exécution.