Avant de comprendre et parler avec les robots des moteurs de recherche, il faut d'abord voir la différence qui existe entre l'exploration et l'indexation.

  • Explorer (crawling, en anglais) est le processus automatique qui suit simplement un lien et qui récupère le contenu d'un site web.
  • Indexer (indexing, en anglais) est le processus qui répertorie et donne un sens aux pages d'un site qui ont été explorées.

Donc en résumé, le robot explore d'abord une page et en fonction du contenu qu'elle affiche, elle sera indexée par le moteur de recherche.

Le fichier robots.txt

C'est grâce au fichier robots.txt que vous pouvez contrôler quelle(s) partie(s) de votre site les robots peuvent suivre. Ce fichier est stocké à la racine de votre site Joomla.
Voici à quoi ressemble son contenu :

User-agent: *
Disallow: /administrator/
Disallow: /api/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Cette syntaxe par défaut empêche les robots d'indexer le répertoire contenant les images de votre site. Si vous souhaitez que votre site soit également présent dans la recherche de "Google Image", vous devez autoriser l'accès au dossier images (c'est à dire, là où Joomla stocke les images de votre site).
Pour ce faire, vous allez ajouter la ligne :

Allow: /images/

Dans ce cas, il est fortement conseillé de nommer vos images avec des titres descriptifs si vous souhaitez les voir apparaitre en bonne place dans les résultats de Google.

Pour qu'une page ne soit pas ou plus indéxée, vous devez appliquer une directive noindex depuis la page de l'article dans la rubrique Métadonnées de l'onglet Publication :

Comprendre et parler aux robots dans Joomla

Explications :

  • Index : indique aux robots qu'ils peuvent indexer cette page,
  • Noindex : indique aux robots que cette page ne doit pas être indexée,
  • Follow : indique aux robots que les liens sur cette page doivent être suivis,
  • Nofollow : indique aux robots que les liens de cette page ne doivent pas être suivis.

Le fichier index.php

Google traite également le fichier index.php séparément de votre page d'accueil.
Cela signifie qu'une page test.fr et la page test.fr/index.php pourraient être considérées comme étant du contenu dupliqué (même si elles sont la même chose). Si vous avez activé la réécriture des URL (SEF) dans les paramètres SEO de la configuration globale de Joomla, vous pouvez éviter cela en interdisant l'indexation d'une page s'appellant index.php. Pour ce faire, insérez la ligne suivante dans votre fichier robots.txt :

Disallow: /index.php

Le fichier Sitemap

La première étape pour que votre site figure sur les moteurs de recherche est de vous assurer qu'ils puissent le trouver. La meilleure façon pour cela est d'envoyer un fichier sitemap aux moteurs de recherche. Un sitemap est un fichier sur votre site qui indique aux moteurs de recherche les pages ajoutées ou modifiées.

Si vous souhaitez soumettre votre site à plusieurs moteurs de recherche (Google, Bing, Yandex, etc.), vous pouvez consulter l'article Soumettre son site qui vous explique toutes les procédures en détail.

Une fois que vous aurez soumis votre site, il faudra attendre de quelques jours à quelques semaines pour que les moteurs de recherche explorent et indexent vos contenus. Pour suivre cela, vous pouvez effectuer une recherche site: sur l'URL de la page d'accueil de votre site, sur Google. Si des résultats s'affichent, cela signifie que vous figurez dans l'index. Par exemple, une recherche pour site:web-eau.net renvoie ces résultats.

Votre progression :

94,59%

web-eau.net

29800 Landerneau

+33 674 502 799

daniel@web-eau.net