Aller au contenu principal
Logo Screaming Frog
Screaming Frog

Screaming Frog : Crawler votre site comme Google

Screaming Frog SEO Spider est un crawler de bureau qui explore votre site exactement comme le ferait Googlebot. Développé au Royaume-Uni, cet outil est devenu la référence pour les audits techniques SEO. La version gratuite permet de crawler jusqu'à 500 URLs, tandis que la version payante supprime cette limite et ajoute des fonctionnalités avancées comme le crawl JavaScript, l'extraction personnalisée et les crawls planifies. C'est l'outil que j'utilisé en premier lors de chaque audit technique, car il fournit une radiographie complète du site en quelques minutes.

Installation et configuration du crawl

Screaming Frog est une application desktop disponible sur Windows, macOS et Linux. Telechargez-la depuis screamingfrog.co.uk et installez-la. La version gratuite permet de crawler jusqu'à 500 URLs, suffisant pour les petits sites. La version payante (259 $/an) supprime cette limite et debloque les fonctionnalités avancées.

Pour lancer un crawl, entrez l'URL de votre site dans la barre d'adresse et cliquez sur Start. Avant de lancer, prenez le temps de configurer les paramètres de crawl dans Configuration > Spider. Les reglages essentiels sont :

  • Vitesse de crawl : limitez a 2 ou 3 URLs par seconde pour ne pas surcharger le serveur. Pour les hébergements mutualises, descendez a 1 URL par seconde
  • Respect du robots.txt : activez cette option pour voir votre site comme Google le voit. Desactivez-la uniquement si vous souhaitez auditer les pages bloquees
  • Types de ressources : sélectionnéz les types a crawler (HTML, images, CSS, JavaScript). Pour un audit SEO standard, les pages HTML suffisent. Ajoutez les images si vous souhaitez vérifier les balises alt
  • Profondeur maximale : dans l'onglet Limits, définissez une profondeur maximale de crawl si votre site est très volumineux pour éviter de crawler des sections non pertinentes

Pour les sites utilisant du JavaScript côté client (React, Vue, Angular), activez le rendu JavaScript dans Configuration > Spider > Rendering. Screaming Frog utilisera Chromium pour exécuter le JavaScript et voir le contenu tel que Google le voit. C'est essentiel pour les sites SPA où les sites utilisant du lazy loading JavaScript.

Configurez aussi le user-agent sur Googlebot pour voir exactement ce que le robot de Google voit lors de son crawl. Cette configuration révélé parfois du cloaking involontaire ou du contenu conditionnel qui differe entre les user-agents.

Analyser les balises title et meta description

L'onglet "Page Titles" affiche toutes les balises title de votre site avec des indicateurs de problèmes. Screaming Frog détecté automatiquement les titres manquants, dupliques, trop longs (plus de 60 caractères) et trop courts (moins de 30 caractères). Triez par la colonne "Title 1 Length" pour repérer les titres tronques dans les résultats Google.

Cliquez sur un filtre (Missing, Duplicate, Over 60 Characters) pour isoler les pages problématiques. L'onglet "Meta Description" offre les mêmes filtrés pour les meta descriptions, avec un seuil de 155 caractères pour la longueur maximale.

Longueurs recommandées balises SEO

BaliseLongueur idéaleMaximumProblème si dépassé
Title50-60 caractères60 caractèresTronque dans les SERP
Meta description120-155 caractères155 caractèresTronquee dans les SERP
H120-70 caractères70 caractèresTrop vague ou keyword stuffing
URL50-75 caractères100 caractèresMoins lisible, moins de clics

Les meta descriptions dupliquees sont un problème fréquent sur les sites e-commerce où les sites avec pagination : chaque page devrait avoir une description unique et incitative au clic. Sur un catalogue de 500 produits, il n'est pas rare de trouver des dizaines de descriptions identiques générées automatiquement par le CMS.

Pour un audit efficace, exportez la listé des pages avec des problèmes de title ou meta description, croisez-les avec les données de trafic de Google Search Console et corrigez en priorité les pages les plus visitees. Une astuce avancée : utilisez l'extraction personnalisée pour extraire aussi les balises H1 et vérifier la cohérence entre le title, le H1 et le contenu de chaque page.

Detecter les erreurs techniques : 404, redirections et plus

L'onglet "Response Codes" est l'endroit où vous detecterez la majorité des erreurs techniques. Filtrez par code de statut pour isoler les problèmes et prioriser vos corrections.

Codes HTTP et actions SEO

CodeSignificationAction SEO
200OK, la page fonctionne normalementAucune action nécessaire
301Redirection permanenteVerifier la destination et les chaînes de redirections
302Redirection temporaireConvertir en 301 si la redirection est permanente
404Page non trouveeRedirection 301 vers une page pertinente ou correction du lien
410Supprimee définitivementOK si la suppression est volontaire
500Erreur serveur interneCorriger le code applicatif où la configuration serveur
503Service temporairement indisponibleVerifier l'hébergement et la charge serveur

Les erreurs 404 doivent être corrigees en priorité quand elles concernent des pages qui reçoivent des liens internes où des backlinks externes. Les redirections 301 et 302 sont normales dans certains cas, mais les chaînes de redirections (une redirection qui pointe vers une autre redirection) gaspillent le crawl budget et diluent le jus SEO. Screaming Frog les détecté automatiquement et affiche le nombre de sauts dans la chaîne.

L'onglet "Inlinks" (accessible en cliquant sur une URL dans le panneau inférieur) montre toutes les pages internes qui font un lien vers cette URL, ce qui vous aide à comprendre l'impact d'une erreur 404 et à identifier les liens internes à corriger.

Pour les erreurs sans liens entrants, vérifiez si la page a été supprimee volontairement et nettoyez les liens internes obsoletes. Exportez le rapport complet des erreurs et suivez leur résolution dans un tableau de suivi pour garantir que chaque problème est traite.

Analyser la structure des URLs et la profondeur

La structure d'URL et la profondeur de crawl sont des facteurs SEO techniques souvent negliges. Screaming Frog mesure la profondeur de chaque page, c'est-a-dire le nombre minimum de clics depuis la page d'accueil pour y accéder.

L'onglet "Site Structure" affiche un arbre visuel de votre site et une distribution de profondeur. L'objectif est que vos pages stratégiques soient accessibles en 3 clics maximum. Au-delà de 4 ou 5 niveaux, les pages risquent d'être crawlees moins fréquemment par Google et de recevoir moins de jus SEO interne.

Le rapport "URL" montre la longueur de chaque URL et détecté les problèmes courants :

  • URLs contenant des majuscules : creent des doublons potentiels car les serveurs Linux traitent les majuscules et minuscules différemment
  • Caracteres speciaux et espaces encodes : rendent les URLs illisibles et peuvent poser des problèmes de crawl (%20, %C3%A9, etc.)
  • Paramètres dynamiques : session IDs, paramètres de tri et de filtrage qui creent du contenu duplique massif sur les sites e-commerce
  • Profondeur excessive de répertoires : des URLs avec 5 niveaux de sous-dossiers ou plus signalent une architecture trop complexe

Des URLs propres et lisibles ameliorent la compréhension du contenu par Google et le taux de clic dans les SERP. Utilisez le filtre "Contains" pour détecter les URLs avec des paramètres inutiles qui creent du contenu duplique.

La visualisation en arborescence (menu Visualisations > Crawl Tree Graph) donne une vue globale de l'architecture de votre site et révèle les silos de contenu, les zones profondes et les desequilibres structurels. Cette visualisation est un outil de communication puissant pour expliquer les problèmes d'architecture à un client où une équipe technique.

Verifier les données structurées

Les données structurées (schema.org) aident Google à comprendre le contenu de vos pages et peuvent déclencher des résultats enrichis (rich snippets) dans les SERP : etoiles d'avis, prix, FAQ, fil d'Ariane et bien d'autres. Screaming Frog détecté et validé automatiquement les données structurées en JSON-LD, Microdata et RDFa.

L'onglet "Structured Data" listé tous les types de schemas trouves sur votre site avec leur statut de validation. Deux filtrés sont particulièrement utiles :

  • Validation Errors : schemas mal formes avec des erreurs de syntaxe où des propriétés obligatoires manquantes. Ces schemas ne seront pas pris en compte par Google et doivent être corriges en priorité
  • Validation Warnings : schemas incomplets auxquels il manque des propriétés recommandées. Le schema fonctionnera mais n'exploite pas tout son potentiel de résultats enrichis

Pour chaque URL, le panneau inférieur affiche le JSON-LD brut détecté, ce qui facilite le debogage. Verifiez que chaque page importante dispose du schema appropriate :

  • Article ou BlogPosting pour les articles de blog et les pages éditoriales
  • LocalBusiness pour les pages de contact et les pages locales
  • Product pour les pages produit avec prix, disponibilité et avis
  • FAQPage pour les pages FAQ et les sections de questions-réponses
  • BreadcrumbList pour le fil d'Ariane, facilitant la compréhension de la structure du site par Google
  • Service pour les pages de présentation de services et d'offres commerciales

Un audit des données structurées révèle souvent des pages stratégiques sans schema où des schemas génériques qui pourraient être enrichis. Combinez ce rapport avec le rapport de résultats enrichis de Google Search Console pour vérifier que vos schemas sont bien pris en compte par Google et qu'ils génèrent effectivement des rich snippets dans les SERP.

Generer un sitemap XML

Screaming Frog peut générer un sitemap XML optimisé à partir des données de crawl. Apres avoir crawle votre site, allez dans Sitemaps > XML Sitemap. L'outil proposé de nombreuses options de configuration pour générer un sitemap propre et conforme aux bonnes pratiques.

Les règles essentielles pour un sitemap efficace :

  • Incluez uniquement les URLs indexables : excluez les pages noindex, les pages canonicalisees vers une autre URL, les pages paginees et les pages avec un code de réponse différent de 200
  • Priorites et fréquences : définissez-les si vous le souhaitez, bien que Google les ignoré largement dans la pratique. Concentrez-vous plutôt sur la sélection des URLs a inclure
  • Include Images : cette option généré un sitemap d'images intégré, aidant Google a découvrir et indexer vos visuels. Particulièrement utile pour les sites e-commerce et les portfolios
  • Limite de 50 000 URLs : Screaming Frog respecte cette limite par fichier sitemap et créé automatiquement un index de sitemaps si nécessaire

L'étape la plus précieuse est la comparaison du sitemap généré avec votre sitemap actuel. Cette comparaison révélé trois types de divergences problématiques :

  • Pages présentés dans le sitemap mais retournant une erreur : des URLs en 404 ou 500 dans votre sitemap envoient un signal negatif à Google et gaspillent le crawl budget
  • Pages indexables absentes du sitemap : des pages stratégiques non listées dans le sitemap risquent d'être découvertes plus lentement par Google, surtout si elles manquent aussi de liens internes
  • Pages noindex incluses dans le sitemap : une contradiction qui seme la confusion chez les moteurs de recherche. Si une page est en noindex, elle n'a rien à faire dans le sitemap

Soumettez le sitemap généré dans Google Search Console et surveillez le rapport d'indexation pour vérifier que toutes les URLs soumises sont bien prises en compte. Repetez cette operation après chaque modification structurelle importante du site (ajout de pages, suppression de sections, migration).

Conseils d'expert

  • Utilisez l'extraction personnalisée (Custom Extraction) pour récupérer n'importe quel élément du code source de vos pages : prix produit, note client, nombre de commentaires ou toute balise spécifique. Configurez des règles XPath ou CSS Selector pour automatiser l'extraction.
  • Activez le rendu JavaScript pour les sites modernes (React, Next.js, Vue). Sans cette option, Screaming Frog ne voit que le HTML initial et peut manquer du contenu charge dynamiquement par JavaScript, faussant complètement l'audit.
  • Planifiez des crawls automatiques hebdomadaires (version payante) et comparez les résultats entre chaque crawl. Cela vous permet de détecter immédiatement les regressions techniques introduites par des mises à jour du site.
  • Integrez Screaming Frog avec Google Analytics et Google Search Console via l'API pour enrichir les données de crawl avec les métriques de trafic et de positionnement. Cela permet de prioriser les corrections par impact business.
  • Exportez le rapport de liens internes et importez-le dans un outil de visualisation pour cartographier le maillage interne de votre site. Les pages à fort trafic potentiel mais peu de liens internes sont des opportunités d'optimisation rapide.

Besoin d'aide pour utiliser ces outils ?

Maîtriser les outils SEO, c'est bien. Les mettre au service d'une stratégie rentable, c'est mieux.