Contrôle des éléments indexés par Google

 

Chaque éditeur Web cherche à atteindre un objectif différent sur Internet. Certains éditeurs de journaux choisissent par exemple de permettre à leurs lecteurs d’accéder gratuitement à leurs articles les plus récents, mais de rendre payant l’accès à leurs archives. Certains souhaitent que leur site apparaisse dans toutes les catégories d’un moteur de recherche (par exemple sur Google Mobile, Google Images, etc.), tandis que d’autres préfèrent qu’il figure uniquement dans les résultats de recherche Web.

Il est important que les moteurs de recherche respectent les souhaits des éditeurs, puisqu’il s’agit de leur contenu. Toutefois, nous ne sommes pas devins ! Il est donc crucial que les administrateurs de sites Web nous communiquent la manière dont ils souhaitent que leurs contenus soient indexés. Pour ce faire, il est possible de faire appel au protocole d’exclusion des robots. Il s’agit d’une norme technique éprouvée qui indique aux moteurs de recherche quels sites ou parties de site doivent ou non apparaître dans les résultats de recherche.

Robots.txt: contrôle à l’échelle du site

Au coeur du protocole d’exclusion des robots se trouve un simple fichier texte dénommé robots.txt, devenu la norme du secteur depuis de nombreuses années. Le fichier robots.txt vous permet de contrôler l’accès au contenu de votre site à plusieurs niveaux : intégralité de votre site, répertoires individuels, pages d’un type spécifique ou même pages individuelles.

Sur mon site, il y a certaines pages que je ne souhaite pas voir indexées dans Google. Que dois-je faire pour empêcher que ces pages ne s’affichent dans les résultats de recherche de Google ?

En général, la plupart des propriétaires de sites souhaitent que Googlebot puisse accéder à leur contenu afin que leurs pages Web s’affichent dans les résultats de recherche de Google. Cependant, il peut arriver que vous ne souhaitiez pas que certaines de vos pages soient indexées. Il peut s’agir, par exemple, de pages accessibles uniquement contre paiement (ou de registres (logs) de connexions).

Vous pouvez exclure ces pages de l’index de Google en créant un fichier robots.txt que vous enregistrez dans le répertoire racine de votre serveur Web. Ce fichier robots.txt vous permet alors de répertorier les pages que les moteurs de recherche ne doivent pas indexer. La création robots.txt d’un tel fichier est un jeu d’enfant et permet aux éditeurs Web de contrôler très précisément la manière dont les moteurs de recherche accèdent à leurs sites Web.

Par exemple, si un administrateur de sites Web ne souhaite pas que ses registres (logs) de connexions internes soient indexés, son fichier robots.txt doit contenir les informations suivantes :

User-Agent: Googlebot : la ligne User-Agent (Agent-utilisateur) indique que la section suivante contient un ensemble d’instructions destiné uniquement aux robots Googlebot.

Disallow: /logs/ : La ligne Disallow (Interdire) indique aux robots Googlebot qu’ils ne doivent pas accéder aux fichiers situés dans le sous-répertoire contenant les registres de connexions de votre site.

Le propriétaire du site a ainsi clairement indiqué qu’aucune des pages contenues dans le répertoire des journaux de consignation ne devaient figurer dans les résultats de recherche de Google.

Tous les principaux moteurs de recherche liront et respecteront les instructions définies dans votre fichier robots.txt. Si vous le souhaitez, vous pouvez également définir des règles spécifiques pour chaque moteur de recherche.

Balises Méta : contrôle affiné

Outre le fichier robots.txt qui vous permet de définir de manière concise des instructions pour un grand nombre de fichiers de votre site Web, vous pouvez également utiliser les balises Méta afin de contrôler individuellement chaque page de votre site. Pour ce faire, il vous suffit d’ajouter des balises Méta au code HTML de la page Web souhaitée afin de contrôler les modalités d’indexation de cette page. Grâce à leur flexibilité, le fichier robots. txt et les balises Méta vous permettent de spécifier des règles complexes d’accès de manière relativement facile.

J’ai sur mon site un article d’actualité accessible uniquement aux utilisateurs inscrits. Que dois-je faire pour que cet article ne figure pas dans les résultats de recherche de Google ?

Pour ce faire, il vous suffit d’ajouter une balise Méta NOINDEX dans la première section <head> de cet article. Voici comment se présente l’insertion de cette balise dans le code HTML :

<html>
<head>
<meta name=”googlebot” content=”noindex”>
[...]

 

L’insertion de cette balise Méta empêche alors que Google n’indexe votre fichier.

Cependant, n’oubliez pas qu’il peut arriver que vous souhaitiez que Google indexe ce type de page, par exemple la page d’un journal archivé accessible en ligne après paiement. Tandis que Google n’affichera pas ce type de contenu dans ses résultats de recherche, certains services de Google, tels que News Archive Search, l’indexeront en indiquant clairement aux internautes que l’accès à ce contenu est payant. Pour savoir comment permettre l’indexation sur certains services uniquement, consultez la Foire aux Questions (FAQ).