août 07

Google est-il malade ?


La question est volontairement provocante et fait plus ou moins écho à ce papier qui expliquait que Google ne survivrait pas pour 10 raisons. Je ne suis pas de cette faction qui prône la mort des géants ou encore de ceux qui croient réellement que Google va couler.

Par contre, des évènements récents me font penser que le géant a une indigestion.

Depuis le début de l’année, Gmail a connu deux plantages importants, toutes les URLs ont été blacklistées quelques heures (voir le post sur ce blog ici) et ce ne sont là que quelques exemples. L’indexation, de l’avis de nombreux référenceurs est plus lente qu’auparavant et maintenant des variations suspectes…

Google à été indisponible parfois quelques heures en 2004, en 2007 et déjà plusieurs fois en 2009, dont ce matin vers 7h30. Dans plusieurs pays, à différents moments et sur plusieurs services, parfois Google n’est pas là…

Parfois quelques dizaines de secondes, parfois quelques minutes, rarement plus d’une heure mais de plus en plus souvent, le géant a des ratés ! Hier c’est une bonne partie des réseaux sociaux qui avaient des difficultés avec Twitter en panne et Friendfeed en rade, ce qui perturbait facebook, la complexité est donc bien un problème global.

Les symptômes de cet épisode


Depuis plusieurs mois, nous avons développé dans ma société un petit snippet de code qui permet de surveiller l’évolution des mots clefs. Suivre son référencement, c’est bon pour nous, pour nos clients, bref, c’est toujours utile mais les outils du marché ne me satisfaisait pas, pas plus que ce que renvoie la Google API qui est un peu trop « politiquement correcte ».

Pour avoir un résultat qui m’allait, j’ai conçu l’algorithme suivant qui a été implémenté en perl par l’une de mes collaboratrices :

  1. Résolution DNS du nom www.google.fr et récupération des différentes IP des frontaux
  2. On interroge chacune de ces IP directement, depuis des IP variées et pour chacun des mots (une fois par jour)
  3. On agrège les résultats en une seule position en réalisant une moyenne des résultats obtenus
  4. On stock ca dans une base RRD pour faire de beaux graphiques

Ce système simplissime m’a mis la puce à l’oreille le 19/07/2009.

Sur un mot clef positionné depuis plus de 4 ans, en une nuit, décalage de la 6° à la 24° place… Ensuite il met 15 jours à retourner à une 8° place…? Sans faire mon mauvais joueur, je peux comprendre qu’un mot passe de la 6° à la 8° voir même la 10° place, aussi légitime et vieux soit il, mais là… 18 places d’un coup ? Sans modification des pages ?

Mais si ce n’était qu’un mot, ca irait, il en va de même pour beaucoup d’autres. Je ne voyais certes que les miens mais d’autres collègues me reportent la même chose… Pire, des variations subites ont lieu en intraday, parfois même au sein de la même heure ???

Prenons quelques exemples en jours par jours :
graph1
Le mot, même si sur le fond on s’en fout, c’est « sécurité informatique ». Alors 4 ans 5° et en une nuit 26° ??? Let me say : WTF ?

Allez, un autre :
graph2

Là c’est je t’aime, en fait non, en fait si mais petit à petit je t’aime plus… En un mois… ?
Je n’avais jamais vu un comportement aussi étrange.
graph3

Et là, c’est bonjour monsieur, votre mot clef il est 13° +/- 6 places ?

Les pistes sur cet étrange comportement


Les rois du Web nous ont pourtant habitué à la sagesse et la sobriété, à la mesure et à prendre leur temps. L’inertie est aussi une qualité, la stabilité en tout cas est une vertu en matière de Web.

Ce comportement erratique pourrait trouver ses causes dans de nombreuses raisons…

La masse salariale en recul

10 000 emplois directs ou indirects (temporaires, sous traitants, temps partiels) ont disparus récemment. Forcément, moins d’effectif, c’est moins de force de travail et ca peut jouer. Avec un travail croissant de manière exponentiel, de nombreuses activités, de nouvelles activités lancées en permanence, se priver d’une partie de la force de travail ne peut pas être transparent dans les résultats.

Google et les datacenter en « Free Cooling »

La théorie de notre directeur technique c’est que Google test sont système de « Free Cooling« . L’idée c’est de se passer de méthode de refroidissement qui coute horriblement cher en électricité (et donc pollue). Le premier datacenter dans cette norme a vu le jour en Belgique récemment mais si il fait trop chaud, il faut couper ces serveurs j’imagine.

D’où peut être une explication à un évènement récent…

Cela pourrait désynchroniser les indexes ou ne pas être si transparent que cela. Peut être que cette technologie, le coté « booster » temporaire, est plus complexe à maîtriser et que les équipes d’administrateurs font des tests pour être prêts prochainement.

Désynchronisation des indexes Google ?

Que ce soit dû ou non au Free cooling, la synchronisation de telles bases de données est un boulot de fou.

En faisant un résolve sur www.google.fr, on trouve d’habitude ca :

Shellbox:/# host www.google.fr
www.google.fr is an alias for www.google.com.
www.google.com is an alias for www.l.google.com.
www.l.google.com has address 209.85.227.99
www.l.google.com has address 209.85.227.104
www.l.google.com has address 209.85.227.147

mais parfois on a plus d’IP, 209.85.227.147, et quelques autres.

J’en ai vu jusqu’à 6. Donc le nombre de pack de frontaux varient de 3 à n… Ces packs ont des indexes spécifiques, qui ne sont pas synchrone en ce moment, ce qui est nouveau aussi.  PArfois les caches avaient des résultats différents à quelques places prêt et pendant quelques jours maximum. Maintenant, ils sont de plus en plus désynchronisés et mettent de plus de temps à converger.

Pour vous faire une idée, essayez une requête directement sur ces IPs  avec des mots clefs, vous aurez des résultats différents : http://209.85.227.103/search?hl=fr&q=mot+clef ou ici http://209.85.227.99/search?hl=fr&q=mot+clef

Ménage d’été, refonte algorithmique ?

Parfois (selon les univers de mots clefs) les résultats sont les mêmes, parfois non et de beaucoup. Les caches des différents packs sont parfois quasi synchrones d’autres fois non…? Alors Google profite t’il de l’été et donc de moins de requêtes pour réorganiser son catalogue catégories par catégories ? Un ménage estival ?

Peut être assistons nous à une refonte de l’algorithme d’indexation ? Ou alors, Google n’est pas fait que de surhomme et parfois ca coince, parfois il y a un incident de production ou même parfois on est en retard dans son travail ?

Tout simplement trop d’information ?

Peut être les détracteurs qui disent que le Web est trop vaste maintenant pour être indexés ont ils temporairement raison ?

La quantité augmente mais les liens et les interdépendances aussi. Dans un article précédent, j’expliquais que pour maitriser son temps de chargement d’une page, il faut faire grand cas de ses inclusions externes comme des feeds rss par exemple. Si on inclue une « source » de données lente, la page devient lente, il en va de même quelque part avec ces interconnexions entre plateformes sociales.

Quand on regarde la cartographie incroyable réalisée par informationarchitect ici, on comprend déjà que quelques sites à eux seuls doivent déjà générer tellement de contenu que le boulot d’indexation de fond devient en soit une incroyable gageur.

Les Rss, les blogs, les twitters, les aggrégateurs, indexes, annuaires, news etc… C’est une masse colossale de données dont le traitement demande de plus en plus à être fait en temps réel. La taille du contenu généré sur une journée online devient totalement et proprement gigantesque.

Peut-on techniquement, sans parler de talent ou de moyens, indexer tout cela ? Est-ce tout simplement faisable ? Quand on y pense, à l’impossible nul n’est tenu sauf Google en fait ?

Les sorciers du Web lance la guerre des géants, mais nous ?


Sincèrement, tout administrateur ou développeur que l’on soit, peut-on comprendre ce qui se passe dans une entreprise de cette taille ? Comprendre les défis, l’ampleur des enjeux ou des complexités ? De plus, la troisième capitalisation du Nasdaq doit forcément avoir une pression de fou, surtout avec la première capitalisation au monde qui essaye de rattraper son retard !

Microsoft avec Bing (et son accord Yahoo) en est à 10% de part de marché aux US.
La projection pour la rentrée pourrait être de 15% !

Google continue à innover en permanence à proposer toujours plus quand que le consommateur final n’ait à payer, à faire dans l’incroyable (par exemple avec la détection de visages ou de couleur dans google image). Mais Google à tué Atavista en 6 mois. Personne n’est mieux placé que les dirigeants de cette société pour savoir qu’on se fait très vite mettre à mal dans ce domaine, aussi gros et puissant soit on ! Ils en sont l’exemple même et je suis sûr que nombreuses sont les sociétés qui se régaleraient de la chute d’un tel empire et qui doivent donc y participer autant qu’elles peuvent.

Les guerres intestines entre les géants sont lancées. Apple interdit Google voice sur Iphone, Microsoft trouve un accord avec Yahoo pour reprendre des parts de marché, le jeu des 5 à 6 plus grandes entreprises technologiques mondiale est entré dans une phase de conquête et de concurrence violente, le je t’aime moi non plus récent d’Apple et Google sur l’Iphone n’en est qu’un exemple.

Cela me fait penser à ce film, que j’adore, sur l’anticipation des mouvements de ces géants, déjà culte à mon sens !

PS : Curieusement, j’ai googlé ce matin pour retrouver ce fameux article qui devait globalement dire « 10 raisons pour lesquelles google va avoir des problèmes » mais je ne l’ai pas retrouvé… Par contre dans les résultats, j’avais un Google va bien, redistribution de 1,35 Md$ de bénéfices.

Alors peut-on être juge & partie ? Créer du contenu, l’indexé, en faire de la publicité, redistribuer ou donner accès à des imgaes non libres etc…

écrit par Philippe Humeau


1 commentaire sur “Google : Indigestion ou ménage estival ?”

  1. 1. Gabriiiel Dit :

    J’ai regardé pour le keyword « sécurité informatique » vous êtes actuellement en 2° page. Pas mal. Mais moins bon qu’avant c’est sûr !

    Les variations de positions sont effectivement incompréhensibles mais ce qu’il faut se demander c’est de quelle manière est réalisée le référencement du site par rapport à la requête, une chute subite peut être « corrigée » quelques jours plus tard… ou pas, si le positionnement était en partie facilité par un grand nombre de backlinks disparus rapidement (sans être référenceur, j’ai déjà vu ce genre de variations expliquées par cette raison).

    Sinon, le plus drôle c’est sur la requête « magento ».

    Premier lien : magentocommerce.com/fr, bon, ok.
    Deuxième lien : magentocommerce.com, bon, toujours ok.
    Troisième lien : la page Wikipédia ? Wtf, quasiment pas de contenu, ah mais oui.. plein de backlinks, et surtout un PR hérité de wikipédia.org…
    Quatrième lien : http://www.comparatif-ecommerce.com/magento, pas de contenu, aucun intérêt pour l’utilisateur… ah mais oui.. plein de backlinks et de qualité…

    Fragento arrive 5° malgré le contenu énorme ;)

    Suivent un slide de Sqli, un communiqué de presse, un site à moi, le tout est intéressant mais pas pertinent par rapport à la requête « magento ».

    Même Wikigento est en fin de deuxième page.

    Comme quoi l’algorythme qui est censé raisonner comme un humain n’est pas parfait, certains paramètres ont à mon sens beaucoup trop de valeurs ce qui explique des résultats qui ne servent pas l’utilisateur (ce qui est pourtant tout l’intérêt de Google).

Poster une réponse