Lors d’une refonte web, il est important de fournir aux outils de recherche un plan de redirections. Cet ensemble d’instructions indique aux moteurs ce qu’ils doivent faire avec les anciennes URLs qu’ils connaissaient et qui ont disparu dans la nouvelle version du site. Idéalement, la refonte ne touche pas aux URLs et on peut réutiliser les mêmes URLs. C’est rarement le cas et on est donc obligé de rediriger.
Chaque page web a pu accumuler du référencement au fil des ans. Si une page web disparaît, son référencement disparaît lui aussi. D’où l’importance de guider les outils de recherche et leur proposer une solution. Les moteurs décideront alors de suivre – ou pas – les instructions proposées.
Comment s’y prendre ?
Par défaut, on redirige tout. Sur les petits sites web, c’est rapide et assez simple. C’est plus compliqué dès qu’on dépasse les milliers de pages à traiter. Quand le volume de pages à traiter est important, il faut avoir une méthodologie :
- Collecter toutes les pages web connues des outils de recherche ;
- Dédoublonner les pages et décider quoi faire des paramètres d’URLs en fonction des règles historiquement présentes ;
- Prioriser et choisir s’il faut rediriger ;
- Classer les pages web à traiter pour faciliter la redirection (pages de catégorie, pages produit, page de contenu…);
- Prévoir une table de correspondance (ancienne URL -> nouvelle URL) ;
- Créer les redirections ;
- Organiser les redirections pour qu’elles soient traitées dans le bon ordre ;
- Vérifier la non-présence d’erreurs dans les redirections ;
- Publier les redirections ;
- Suivre la prise en compte des redirections
Rediriger ou ne pas rediriger ?
Est-ce que toutes les anciennes URLs méritent d’être redirigées ? Non. Les pages qui n’ont pas accumulé de référencement, les pages qui ne sont pas visitées par les moteurs, les pages qui ne sont pas accessibles aux moteurs, les pages web issues d’un piratage… peuvent se contenter d’un code d’erreur 404 ou 410. Si un jour un outil de recherche passe dessus, il prendra bonne note que l’URL n’existe plus et que ça ne sert à rien de perdre du budget crawl à revenir sur cette page.
Lister toutes les pages à traiter
Pour être certain de ne pas oublier de page web, il faut lister toutes les URLs connues. Pour cela, il faut exporter :
- Les URLs de la Google Search Console. Utiliser l’API GSC permet de collecter plus facilement les URLs
- Les URLs d’un outil de crawl tel ScreamingFrog
- Les URLs des logs serveur
- Les URLS de Google Analytics
- Les URLs de pages de destinations de Google Ads (et autres régies pub)
- Les URLs qui remontent dans Google via la commande site:
- Les URLs des fichiers sitemap.xml
- Les URLs de flux produit (par exemple le flux Google Merchant Center)
- Les URLs de la Wayback Machine (pour remonter loin dans le temps)
- Les URLs des outils webmarketing / SEO qui listent les pages positionnées
- Les URLs présentent dans le plan de redirection du site web à refondre
Dédoublonner
Maintenant que l’on a plein d’URLs, il y a certainement des doublons. En plus des doublons exacts, il faut garder un œil sur :
- les URLs en version http / https et les urls sans www / avec www
- les URLs avec et sans paramètres. Certains paramètres peuvent afficher des contenus différents, d’autres affichent le même contenu. C’est au cas par cas qu’il faut voir
- les URLs avec et sans / final
Faire la correspondance entre anciennes et nouvelles URLs
Lorsque le nombre d’URLs est très important, le plan de redirection ne peut pas se faire à la main. Rediriger 30000 URLs d’une boutique ecommerce nécessitera trop de temps si c’est fait par un humain. En plus d’être un travail abrutissant, il y a bien meilleur usage à faire d’un cerveau humain.
Heureusement, depuis quelques années, on peut se servir d’algorithmes basés sur la logique floue et le machine learning pour demander à des machines de réaliser des redirections toutes seules. On a 2 types d’outils :
- Outils de redirections basés sur les URLs. La comparaison est effectuée uniquement sur les URLs avant/après. Plus le contenu est similaire, plus il y a de chances que la redirection soit la bonne. La nouvelle URL qui a le meilleur score de similarité est proposée en face de l’URL à rediriger.
- Outils de redirections basés sur le contenu des pages. Dans ce cas, le contenu des pages avant refonte et des pages après refonte est scrapé et le contenu est comparé. Les pages qui ont le contenu le plus proche sont rapprochées et proposées pour redirection. La comparaison peut se faire sur la title, le h1 ou bien certaines portions de contenus qui auront été extraites (en se basant sur le chemin XPath par exemple). La comparaison peut aussi se faire sur le SKU, les images, les données Schema.org ou sur les avis. L’idée c’est de retrouver des portions de contenus partagés entre les 2 versions.
Ces outils fonctionnent bien mais l’IA ne vaut toujours pas un cerveau. Il faut donc viser les redirections proposées et les valider. Pour les jeux d’URLs très importants, il faut prioriser. Peut-être que les 1000 URLs ayant le plus de trafic devront être minutieusement vérifiées alors que celles qui traînent au fond des moteurs pourront être redirigées sans vérification.
S’occuper des trailing slashes
- Les URLs de pages web ne doivent pas se terminer par un /
- Les URLs de dossiers doivent se terminer par un /
C’est la règle qui s’applique… la plupart du temps.
Créer des règles par lot
Lorsque c’est possible et pour éviter d’avoir des fichiers de redirections extrêmement longs ce qui est source d’erreurs et de ralentissement pour le serveur, il faut essayer de trouver des patterns et de créer des redirections par lot. Ça impose d’utiliser des regex et des règles de redirections plus complexes mais ça simplifie la lecture et la maintenance du fichier de redirection. Si le site web à rediriger a été bien construit, c’est plus facile à mettre en place.
On peut s’en servir pour les redirections de langue ou de dossiers dans l’arborescence par exemple. On peut aussi s’en servir pour les spider-traps que sont les moteurs de filtres qui génèrent des milliers de variations à base de paramètres interchangeables.
Rediriger au mieux en restant réaliste
Idéalement, on redirige chaque URL vers son URL la plus proche. Si une page web a disparu dans la nouvelle version du site web, on redirige vers la page parente ou vers la catégorie supérieure dans l’arborescence. Et si rien ne convient, en dernière solution, on redirige vers l’accueil.
Reprendre des URLs de fiches produit périmées de la version précédente est-il vraiment utile ? Être perfectionniste prend du temps et n’amène pas forcément le petit gain de performance qui fera la différence. Il faut donc rester concret : pour certaines URLs sans grand intérêt, une redirection vers la page d’accueil et sans vérification suffit amplement.
Organiser les redirections dans le bon ordre
Les règles de redirections sont traitées dans l’ordre du début du fichier à la fin du fichier. Il faut donc être très vigilant dans la progression proposée afin d’éviter de créer des erreurs de redirection :
- Règles spécifiques VS règles génériques ;
- Règles sur portions d’URLs VS règles sur URLs complètes ;
- Règles par ordre alphabétique A->Z VS ordre Z->A.
Vérifier qu’on ne va pas tout casser
On peut mettre en production le plan de redirection lors de la refonte. Et constater une belle erreur 500 sur toutes les pages du site. Ou bien, on peut valider en amont qu’il n’y a pas d’erreur sur le fichier de redirection. Des outils comme htaccesscheck.com ou htaccess.madewithlove.com permettent de vérifier qu’il n’y a pas d’erreur dans les règles de redirection d’une part et de tester la bonne prise en compte des règles d’autre part.
Il est nécessaire de tester différentes URLs via le second outil pour s’assurer que les redirections ne vont pas impacter par mégarde d’autres URLs. Ça peut arriver lorsqu’il y a des traitements par lot ou des règles qui ne sont pas publiées dans le bon ordre ou encore lorsque plusieurs règles sont traitées à la suite alors qu’elles ne devraient pas l’être.
Bonus : se faire aider par un outil
Les redirections c’est pénible. Certains outils facilitent la tâche, automatisent et font gagner du temps. Je pense notamment à l’outil de migration SEO lyonnais https://www.swan.tools/. L’outil récupère les URLs, s’occupe de la correspondance entre anciennes URLs et nouvelles, créé le plan de redirection, le teste et génère des stats.