Tutoriels de Pythonia

Guides, IA, tutos et newsletter pour devenir une bête en programmation

Télécharger Apprendre-la-programmation-avec-python

Comment faire du web scraping avec Scrapy?

Mis à jour le Feb. 28, 2024, 2:35 p.m.

Niveau: Intermediate

Le Web scraping est devenu une compétence incontournable pour extraire automatiquement des données depuis le web. Dans cet article, tu découvriras pourquoi Scrapy s’est imposé comme la bibliothèque de référence en Python pour ce type de projet, et comment l’utiliser pas à pas pour lancer tes propres spiders, extraire toutes sortes de données (texte, images, fichiers), et les stocker dans le format de ton choix. C’est le guide qu’il te faut pour bien démarrer, que tu sois curieux ou déjà utilisateur d’autres outils comme BeautifulSoup ou Selenium.

Sommaire

1. Introduction
2. Qu'est-ce que Scrapy ?
3. Installation de Scrapy
4. Premiers pas avec Scrapy
5. Création d'un Spider Scrapy
6. Travail avec différents types de données
7. Stocker les données extraites
8. Manipuler le Spider et respect des sites web
9. Conclusion
FAQ

1. Introduction

Le web regorge de données, mais elles ne sont pas toujours accessibles sous une forme directement exploitable. Le web scraping permet d’automatiser leur récupération pour alimenter analyses, tableaux de bord, ou encore surveiller la concurrence. Scrapy, développé en Python, propose une approche modulaire, performante, et très utilisée par la communauté pour extraire tout type d’information de sites web, même complexes.

2. Qu’est-ce que Scrapy ?

Scrapy est un framework Python open source spécialement conçu pour le web scraping et l’extraction de données. Par rapport à d’autres outils (comme BeautifulSoup ou Selenium), il se distingue par :

Sa rapidité grâce à la gestion asynchrone des requêtes.
Sa capacité à gérer des projets de scraping de grande envergure.
Des outils intégrés pour le nettoyage, la structuration, et l’export des données.
Sa compatibilité avec Python et la possibilité d’étendre ses fonctionnalités (middlewares, pipelines, etc.).

Scrapy est donc le choix idéal pour passer à l’échelle et automatiser l’extraction régulière de données sur plusieurs sites, même dynamiques ou protégés.

3. Installation de Scrapy

Scrapy s’installe simplement via pip. Selon ta plateforme :

pip install scrapy

Si tu utilises Windows, MacOS ou Linux, la documentation officielle de Scrapy propose des instructions détaillées en cas de souci de dépendances. Il est recommandé d’installer Scrapy dans un environnement virtuel Python pour éviter les conflits de versions.

4. Premiers pas avec Scrapy

Commence par créer un nouveau projet Scrapy :

scrapy startproject monprojet

Cela va générer une arborescence avec plusieurs dossiers: spiders (où tu coderas tes robots), items (pour définir la structure des données), et pipelines (pour le traitement post-extraction). Tu peux ensuite créer ton premier spider avec :

cd monprojet
scrapy genspider exemple_spider exemple.com

Tu es prêt à explorer la structure d’un projet Scrapy, et à modifier le spider pour extraire les informations que tu cibles.

5. Création d’un Spider Scrapy

Un spider est une classe Python qui définit comment naviguer sur un site et quelles données extraire. Voici un exemple minimal :

import scrapy

class ExempleSpider(scrapy.Spider):
    name = "exemple"
    start_urls = ["https://exemple.com"]

    def parse(self, response):
        titre = response.css("title::text").get()
        yield {"titre": titre}

Ce code crée un spider qui récupère le titre d’une page. Scrapy propose de nombreux sélecteurs pour naviguer dans le HTML, et tu peux chaîner les requêtes pour explorer plusieurs pages, gérer la pagination, etc.

6. Travail avec différents types de données

Scrapy ne se limite pas au texte: tu peux extraire images, fichiers, ou n’importe quelle ressource accessible via le web. Pour cela, il suffit d’ajouter les bons sélecteurs ou d’utiliser les pipelines Scrapy pour télécharger et stocker ces fichiers automatiquement.

7. Stocker les données extraites

Les données récupérées peuvent être exportées dans différents formats (CSV, JSON, XML…) en une simple commande :

scrapy crawl exemple -o donnees.json

Tu peux aussi configurer Scrapy pour insérer directement dans une base de données ou un data warehouse, selon tes besoins.

8. Manipuler le Spider et respect des sites web

Pour rester dans l’éthique et éviter de se faire bannir, il est essentiel de :

Respecter le fichier robots.txt des sites visés.
Paramétrer des délais entre les requêtes (DOWNLOAD_DELAY).
Changer l’User-Agent ou utiliser des proxies pour éviter d’être bloqué.

Scrapy offre des réglages avancés pour gérer l’accès, les délais, et l’utilisation de proxys ou de headers personnalisés.

9. Conclusion

Scrapy est un outil utile pour passer à la vitesse supérieure dans le web scraping en Python. Il permet d’extraire des données sur des sites simples comme complexes, tout en restant performant et flexible. Pour aller plus loin, explore les spiders avancés (scraping de sites en JavaScript, gestion de formulaires, etc.) et l’automatisation de tes tâches de scraping à grande échelle.

Mais ça c'est un petit peu old school, dans le prochain tuto, nous allons voir comment utiliser Crawl4ai.

Inscrivez-vous pour ne rien louper

FAQ

Scrapy peut-il scraper des sites dynamiques ?
Oui, avec quelques astuces et des middlewares (Splash, Selenium), Scrapy peut interagir avec du contenu généré en JavaScript.
Comment éviter d’être banni par les sites web ?
Respecte les délais, alterne les User-Agents, et utilise des proxies si besoin. Consulte toujours les conditions d’utilisation du site.
Est-il légal de faire du web scraping ?
Tout dépend du site et de l’utilisation des données. Il est recommandé de lire les mentions légales et d’éviter de scraper des données sensibles ou protégées.
Quels sont les principaux concurrents de Scrapy ?
BeautifulSoup (plus simple mais moins puissant), Selenium (pour les sites très dynamiques), Requests+LXML (pour les scripts légers).

Références

Documentation officielle Scrapy
Tutoriel Scrapy (officiel)