Création de sites web en éco-conception

17/04/2013 Comment Google a-t-il crawlé ce blog ?

Depuis la mise en ligne de ce blog, je surveillais frénétiquement son arrivée dans l'index de Google.

En ce matin du 17 avril ... enfin ! figurent dans ses serps pas moins de 7 pages (6 articles + la home).

Toutes ont été crawlées le 9 avril. Google a donc a attendu plus d'une semaine avant de les faire ressortir !

Il a pris connaissance des URL des billets grâce à la page d'accueil où ils sont listés de manière anti-chronologique.

La question qui me taraudait concernait l'ordre dans lequel Googlebot allait traiter les liens.

Crawlerait-il d'abord les pages dont le lien href figure en premier dans le code (à savoir les derniers billets publiés) ...

... ou au contraire, les pages publiées en premier (en se basant sur la date de publication figurant à gauche du lien) ?

Eh bien ni l'un ni l'autre ! En considérant le datetime de la version cache des pages indexées, on observe que le premier billet publié (donc le dernier de la liste) a été crawlé en premier, mais pour le reste, ça ne semble procéder d'aucune logique qu'un humain puisse appréhender :

  1. à 16:26:19 GMT → le 6ème de la liste ("naissance", le plus ancien)
  2. à 16:27:14 GMT → le 1er de la liste ("WAMP", le plus récent)
  3. à 16:27:33 GMT → le 3ème de la liste ("JSON")
  4. à 16:27:47 GMT → le 2ème de la liste ("simplexml")
  5. à 16:28:14 GMT → le 4ème de la liste ("coloration syntaxique")
  6. à 16:28:29 GMT → le 5ème de la liste ("licence")

Commentaires

Ajouter un commentaire :