Conception d'un Crawler Web Distribué et Intelligent à Grande Échelle

Découvrez comment concevoir un crawler web capable de collecter des milliards de pages par mois, en gérant la politesse, la priorisation et la tolérance aux pannes pour l'entraînement d'IA et les moteurs de recherche.

5 min de lectureGuide IA

Introduction

Un crawler web est un système essentiel utilisé par les entreprises d'IA et les moteurs de recherche pour collecter d'énormes quantités de données web, permettant ainsi l'entraînement de modèles d'IA et l'indexation de contenu pour les recherches. Il parcourt l'internet, visitant des milliards de pages pour construire une carte complète du web.

Précis de configuration

Élément	Version / Lien
Langage / Runtime	[Note de l'éditeur : Non spécifié dans la vidéo, mais généralement Python, Java, Go sont utilisés pour les crawlers à grande échelle]
Librairie principale	[Note de l'éditeur : Non spécifié dans la vidéo, mais des librairies de requêtes HTTP (ex: `requests` en Python) et de parsing HTML (ex: `BeautifulSoup` en Python) sont nécessaires]
APIs requises	[Note de l'éditeur : Accès HTTP/HTTPS aux serveurs web]
Clés / credentials nécessaires	[Note de l'éditeur : Non spécifié, dépend des sites à crawler et des services externes utilisés (ex: Redis)]

Guide étape par étape

Étape 1 — Initialisation et Parcours (BFS)

Étape 1 — Initialisation et Parcours (BFS)
Pour commencer le crawling, on initialise une file d'attente avec des URLs de départ (seed URLs). Le crawler visite chaque URL, télécharge la page, extrait les liens, et les ajoute à la file pour un traitement ultérieur, suivant une approche de recherche en largeur d'abord (BFS).

# Pseudo-code conceptuel pour un parcours BFS simple
queue = [seed_url_1, seed_url_2, ...] # Liste des URLs à visiter
visited_urls = set() # Ensemble pour suivre les URLs déjà visitées

while queue:
    current_url = queue.pop(0) # Défilement FIFO (premier entré, premier sorti)
    if current_url in visited_urls:
        continue # Ignorer les URLs déjà traitées
    
    # Télécharger la page
    page_content = download_page(current_url) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
    
    # Extraire les liens de la page téléchargée
    links = extract_links(page_content) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
    
    for link in links:
        if link not in visited_urls:
            queue.append(link) # Ajouter les nouveaux liens à la file d'attente
    
    visited_urls.add(current_url) # Marquer l'URL comme visitée
    # Traiter le contenu de la page (stockage, indexation, etc.)
    process_content(current_url, page_content) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]

Étape 2 — Gestion de la Politesse (Rate Limiting)

Étape 2 — Gestion de la Politesse (Rate Limiting)
Afin d'éviter de surcharger un serveur web et d'être bloqué, le crawler doit respecter des limites de taux. Cela est géré en regroupant les URLs par hôte dans des files d'attente distinctes et en introduisant des délais entre les requêtes vers le même hôte.

# Pseudo-code conceptuel pour la gestion de la politesse
host_queues = {} # Dictionnaire: host -> liste d'URLs pour cet hôte
num_queues_buckets = 1000 # Exemple: un nombre fixe de 'buckets' de files d'attente

def get_host_from_url(url):
    # Extrait le nom d'hôte (domaine) d'une URL
    # Ex: "https://www.wikipedia.com/page1" -> "wikipedia.com"
    # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
    pass

def get_queue_for_host(host):
    # Utilise une fonction de hachage pour mapper l'hôte à un 'bucket' de file d'attente
    queue_id = hash(host) % num_queues_buckets
    if queue_id not in host_queues:
        host_queues[queue_id] = [] # Initialiser la file si elle n'existe pas
    return host_queues[queue_id]

def add_url_to_queue(url):
    host = get_host_from_url(url)
    queue = get_queue_for_host(host)
    queue.append(url)

# Les threads de travail (worker threads) tirent des URLs des files d'attente
# avec des délais configurés entre les requêtes vers le même hôte.
# [Note de l'éditeur : La logique de sélection de file d'attente et de délai entre les requêtes
# pour les threads de travail n'est pas détaillée en code dans la vidéo.]

Étape 3 — Priorisation des URLs

Pour optimiser l'efficacité du crawling, un composant de priorisation évalue l'importance des nouvelles URLs. Les URLs sont classées en fonction de facteurs tels que la popularité de la page, la fréquence de mise à jour et le nombre de liens entrants, puis sont placées dans des files d'attente de priorité.

# Pseudo-code conceptuel pour la priorisation
class Prioritizer:
    def __init__(self):
        self.priority_queues = { # Files d'attente basées sur la priorité
            "high": [],
            "medium": [],
            "low": []
        }

    def rank_url(self, url, page_data=None):
        # Calculer un score de priorité basé sur des facteurs comme:
        # - popularité de la page
        # - fréquence de mise à jour
        # - nombre de liens entrants
        popularity = calculate_popularity(url, page_data) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
        update_frequency = calculate_update_frequency(url, page_data) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
        inbound_links = count_inbound_links(url, page_data) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
        
        # Logique de classement simplifiée
        if popularity > threshold_high and update_frequency > threshold_high:
            return "high"
        elif popularity > threshold_medium:
            return "medium"
        else:
            return "low"

    def add_to_frontier(self, url, page_data=None):
        priority = self.rank_url(url, page_data)
        self.priority_queues[priority].append(url) # Ajouter l'URL à la file d'attente de priorité correspondante

# Un sélecteur de file d'attente de front (Front Queue Selector) choisirait ensuite
# les URLs à crawler en privilégiant les files de haute priorité.

Étape 4 — Éviter les Duplicatas

Le web contient de nombreux contenus dupliqués ou mis en miroir. Pour éviter de crawler et de stocker inutilement ces duplicatas, deux systèmes sont mis en œuvre : "URL Seen" pour les liens déjà visités et "Content Seen" pour les pages au contenu identique.

# Pseudo-code conceptuel pour la détection de duplicatas
url_seen_store = set() # Stocke les URLs déjà vues pour éviter de les crawler deux fois
content_seen_store = set() # Stocke les hachages de contenu pour détecter les pages dupliquées

def is_url_seen(url):
    return url in url_seen_store

def mark_url_as_seen(url):
    url_seen_store.add(url)

def calculate_content_hash(page_content):
    # Génère un hachage du contenu de la page (ex: MD5, SHA256)
    # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
    pass

def is_content_seen(page_content):
    content_hash = calculate_content_hash(page_content)
    return content_hash in content_seen_store

def mark_content_as_seen(page_content):
    content_hash = calculate_content_hash(page_content)
    content_seen_store.add(content_hash)

# Lors du crawling, ces fonctions seraient utilisées pour vérifier les URLs et le contenu:
# if not is_url_seen(url):
#     # Télécharger la page
#     page_content = download_page(url)
#     if not is_content_seen(page_content):
#         # Traiter et stocker la page
#         mark_url_as_seen(url)
#         mark_content_as_seen(page_content)
#         ...

![Étape 6 — Mise à l'Échelle Distribuée et Tolérance aux Pannes](/api/generated/conception-dun-crawler-web-distribue-et-intelligent-a-grande-echelle-6u25Gc-2.png)

Étape 5 — Analyse et Filtrage du Contenu

Après le téléchargement, la page HTML est analysée pour extraire le texte utile et les liens. Un filtre d'URL est ensuite appliqué pour ignorer les liens non pertinents (ex: images, vidéos) ou interdits par le fichier robots.txt du site.

# Pseudo-code conceptuel pour l'analyse et le filtrage
import re # Exemple pour l'extraction de liens (une librairie de parsing est préférable)

def parse_html(html_content):
    # Valider le HTML, extraire le texte principal et les métadonnées
    # [Note de l'éditeur : Utiliser une librairie de parsing HTML comme BeautifulSoup ou lxml]
    useful_text = extract_main_text(html_content) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
    return useful_text

def extract_links(html_content, base_url):
    # Trouver tous les liens <a> dans le HTML
    # Convertir les liens relatifs en absolus (ex: "/about" -> "https://example.com/about")
    # [Note de l'éditeur : Utiliser une librairie de parsing HTML pour une extraction robuste]
    raw_links = re.findall(r'href=["'](.*?)(?:["']|$)', html_content) # Exemple très simplifié
    absolute_links = [convert_to_absolute(link, base_url) for link in raw_links] # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
    return absolute_links

def is_image_or_video(url):
    # Vérifie si l'URL pointe vers un fichier image ou vidéo
    return any(url.lower().endswith(ext) for ext in ['.jpg', '.png', '.gif', '.mp4', '.webm'])

def is_disallowed_by_robots(url, robots_txt_rules):
    # Vérifie si l'URL est interdite par les règles du fichier robots.txt du site
    # Exemple de règles robots.txt:
    # User-agent: Googlebot
    # Disallow: /creatorhub/*
    # Disallow: /rss/people/*/reviews
    # Disallow: /gp/pdp/member-reviews/
    # Disallow: /gp/aw/cr/
    # [Note de l'éditeur : Implémenter un parseur de robots.txt]
    pass

def filter_urls(urls, robots_txt_rules):
    filtered_urls = []
    for url in urls:
        if not is_image_or_video(url) and not is_disallowed_by_robots(url, robots_txt_rules):
            filtered_urls.append(url)
    return filtered_urls

Étape 6 — Mise à l'Échelle Distribuée et Tolérance aux Pannes

Pour gérer des milliards de pages, le crawler doit être distribué géographiquement, avec des instances de crawling opérant près des serveurs cibles. La performance est améliorée par la mise en cache DNS (ex: Redis), et la résilience est assurée par des points de contrôle (checkpoints) pour la récupération après panne.

# Pseudo-code conceptuel pour la mise en cache DNS avec Redis
import redis # Nécessite l'installation de la librairie 'redis'

dns_cache = redis.Redis(host='localhost', port=6379, db=0) # [Note de l'éditeur : Configuration Redis à adapter]

def resolve_dns_with_cache(hostname):
    ip_address = dns_cache.get(hostname)
    if ip_address:
        return ip_address.decode('utf-8') # Retourne l'IP du cache
    
    # Si non trouvé dans le cache, effectuer la résolution DNS réelle
    resolved_ip = perform_dns_lookup(hostname) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]
    dns_cache.set(hostname, resolved_ip, ex=3600) # Cache l'IP pendant 1 heure
    return resolved_ip

# Pseudo-code conceptuel pour les checkpoints
def save_crawler_state(state_data, checkpoint_id):
    # Sauvegarder l'état actuel du crawler (files d'attente, URLs vues, etc.)
    # dans un stockage persistant et distribué (base de données, S3, etc.)
    store_state(state_data, checkpoint_id) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]

def load_crawler_state(checkpoint_id):
    # Charger l'état du crawler à partir d'un checkpoint précédent
    return retrieve_state(checkpoint_id) # [Note de l'éditeur : commande/code à vérifier dans la documentation officielle]

# En cas de crash d'une instance de crawler, elle peut redémarrer à partir
# du dernier checkpoint sauvegardé, minimisant la perte de progression.

⚠️ Erreurs fréquentes et pièges

Surcharge des serveurs web (Hammering) : Envoyer trop de requêtes à un même hôte en peu de temps peut entraîner un blocage par le site, violant la politesse de crawling.
- Solution : Implémenter une gestion de la politesse en utilisant des files d'attente par hôte et en introduisant des délais configurables entre les requêtes vers le même domaine.
Crawling de contenu dupliqué : Perdre des ressources à télécharger et traiter des pages identiques ou très similaires, gaspillant bande passante et stockage.
- Solution : Utiliser des systèmes "URL Seen" (pour les liens déjà visités) et "Content Seen" (pour les pages au contenu identique via hachage) pour détecter et éviter les duplicatas.
Performance des résolutions DNS : Les requêtes DNS peuvent être lentes et devenir un goulot d'étranglement significatif à grande échelle, ralentissant le processus de téléchargement.
- Solution : Mettre en cache agressivement les résolutions DNS, par exemple en utilisant un système de cache distribué comme Redis, pour réduire la latence.
Manque de résilience : Un crash d'une partie du crawler distribué peut entraîner une perte de progression et nécessiter un redémarrage coûteux.
- Solution : Implémenter des mécanismes de checkpointing pour sauvegarder régulièrement l'état du crawler, permettant une reprise rapide et efficace après une panne.
Crawling de contenu non pertinent ou interdit : Télécharger des fichiers multimédias lourds (images, vidéos) ou des pages que les propriétaires de sites ne souhaitent pas voir indexées (via robots.txt).
- Solution : Utiliser un filtre d'URL robuste pour exclure les types de fichiers indésirables et respecter scrupuleusement les directives du fichier robots.txt de chaque site.

Glossaire

URL Frontier : La collection d'URLs en attente d'être crawlées, souvent organisée par priorité pour optimiser l'efficacité du parcours.
Politesse de Crawling : L'ensemble des règles et des pratiques qu'un crawler doit suivre pour ne pas surcharger les serveurs web, incluant le respect des limites de taux et des directives robots.txt.
Checkpointing : Le processus de sauvegarde périodique de l'état d'un système distribué pour permettre sa récupération et son redémarrage à partir d'un point connu en cas de défaillance, assurant la tolérance aux pannes.

Points clés à retenir

Les crawlers web sont des systèmes distribués complexes, essentiels pour l'entraînement des IA et les moteurs de recherche, capables de traiter des milliards de pages.
Un crawler efficace doit être rapide, distribué, poli, intelligent dans sa priorisation et résilient face aux pannes.
La politesse est assurée par des files d'attente spécifiques à chaque hôte et des délais contrôlés entre les requêtes.
La priorisation des URLs est cruciale pour crawler les pages les plus importantes en premier, souvent via des modèles de classement sophistiqués.
Les systèmes "URL Seen" et "Content Seen" sont indispensables pour éviter le traitement redondant des liens et des contenus dupliqués.
L'analyse HTML et le filtrage des URLs permettent d'extraire des liens pertinents et de respecter les exclusions définies par les sites web.
La mise à l'échelle à des milliards de pages implique une distribution géographique des crawlers, une mise en cache DNS agressive (ex: Redis) et le checkpointing pour la résilience.
La conception d'un crawler à grande échelle est un équilibre complexe entre équité, performance, intelligence et robustesse.

Ressources

ByteByteGo

Tous les guides Read in English →