Pages

lundi 31 juillet 2006

Google h9, the Ultimate Search Engine

II - Google h9, « crack the code »
Here is all the story in English...

Cet article fait suite à mon billet sur Google RS2, qui tentait d'éclaircir deux des mystérieux services de Google révélés par Tony Ruscoe et repris par Zorgloob en français. Noms de code : Google RS2 et Google Weaver.

J'avais consacré tout le corps du billet au premier, à mon avis un nom de code pour décrire un service de traduction automatique des flux de syndication (RSS), ayant vocation à traduire à la volée des fils RSS ou de podcasts de/vers n'importe quelle langue, et un simple post-scriptum à Weaver :
D'après moi, ce n'est ni une allusion au tisserand (traduction de weaver en français) ni à Google Health, mais à Sigourney Weaver dans Futurama (in Love and Rocket), qui double un personnage parodiant HAL 9000, le Supercomputer, « ordinateur exceptionnel doué d'intelligence et de parole », dans 2001 : l'odyssée de l'espace.
Or les observateurs de Google savent que HAL 9000 (h9) est un concept cher à Larry Page et Sergey Brin, qu'ils nomment volontiers The Ultimate Search Engine, concept auquel j'ai décidé de m'intéresser pour mieux comprendre ce à quoi ils se réfèrent par cette appellation de moteur de recherche ultime.

Google h9 - HAL 9000 - The Ultimate Search Engine
Diapositive n° 131 du Google Inc. Factory Tour du 19 mai 2005.

* * *

Les premières traces auxquelles j'ai pu remonter datent du 29 novrembre 2002, Paul fêtait le 1er anniversaire de sa joyeuse vie :


et Outre-Atlantique, Spencer Michels interviewait différentes personnalités du Net, dont les deux compères fondateurs de Google. Vidéo disponible ici :


La retranscription des propos de Page & Brin nous donne des indications précieuses :
LARRY PAGE: And, actually, the ultimate search engine, which would understand, you know, exactly what you wanted when you typed in a query, and it would give you the exact right thing back, in computer science we call that artificial intelligence. That means it would be smart, and we're a long ways from having smart computers.

SPENCER MICHELS
: Sergey Brin thinks the ultimate search engine would be something like the computer named Hal in the movie 2001: A Space Odyssey.

SERGEY BRIN: Hal could... had a lot of information, could piece it together, could rationalize it. Now, hopefully, it would never... it would never have a bug like Hal did where he killed the occupants of the space ship. But that's what we're striving for, and I think we've made it a part of the way there.
Je crois que nous tenons ici l'explication précise du nom de code Weaver dans ces mots de Sergey Brin : « Hal ... pourrait disposer d'une quantité énorme d'informations, en recomposer le puzzle et les rationaliser. Ceci étant, il est à espérer qu'il n'attrapera jamais le même bogue que Hal 9000, qui finit par tuer les occupants du vaisseau spatial Discovery. Nous y travaillons, et je crois que nous sommes déjà sur la bonne voie... », puisque, dans Futura, Sigourney Weaver doublait un robot parodiant justement les travers de Hal !

* * *


The Ultimate Search Engine, selon Larry Page :
Le moteur de recherche ultime comprendrait précisément ce que vous voulez lorsque vous lui soumettez une requête, et vous donnerait la réponse exacte en retour, ce qu'on appelle l'intelligence artificielle en sciences de l'information. Ce qui signifie qu'il serait intelligent, et nous avons encore un long chemin à faire avant d'avoir des ordinateurs intelligents.
Je rappelle la date de l'interview : 29 novembre 2002.

Intelligence artificielle, on monte en puissance. Ce même Larry Page est d'ailleurs revenu sur ces thèmes chers à Google il n'y a pas longtemps, le 23 mai dernier à Londres, lors de la conférence Zeitgeist 06 : l'IA pourrait vite devenir une réalité, d'ici quelques années (AI could be a reality within a few years). Peter Norvig n'est-il pas un expert en IA ?

Selon les propos rapportés de Page, voici quelques-unes de ses déclarations :
People always make the assumption that we're done with search. That's very far from the case. We're probably only 5 percent of the way there. We want to create the ultimate search engine that can understand anything ... some people could call that artificial intelligence.
Et d'ajouter : ...a lot of our systems already use learning techniques.

(Les gens supposent toujours que nous avons déjà fait le tour de la question de la recherche. Or c'est très loin d'être le cas. Nous n'en sommes probablement qu'à 5% du chemin qu'il nous faudrait accomplir. Ce que nous voulons, c'est créer le moteur de recherche ultime, LE moteur de recherche, capable de TOUT comprendre, ce que d'aucuns nommeraient l'intelligence artificielle... Nombre de nos systèmes utilisent déjà des technologies d'apprentissage.)
Alors, Google, un simple moteur de recherche ?...


P.S. Parmi les services dévoilés par le scoop de Tony Ruscoe se trouve un sybillin Google Guess. Je ne sais pas quel sera le leur, mais vous connaissez déjà le mien ;-)

En attendant, j'espère que vous aurez observé la différence de regard entre Hal et Paul : Hal a l'œil cyclopique d'un lapin albinos, tandis que les yeux de mon fils ont la couleur et la profondeur des océans...

N.B.
Merci à Jean-Baptiste Boisseau, traducteur français de What is Web 2.0, l'article fondateur de Tim O'Reilly, lecteur assidu et attentif qui a remarqué mon erreur d'interprétation des mots de Page :
Les gens pensent toujours que Google = recherche. Loin s'en faut. La recherche ne représente probablement que 5% de ce que nous faisons.
Or comme je lui ai répondu en le remerciant, j'ai écrit ce billet animé par le sentiment de l'urgence. Carpe diem. Je ne voulais pas "perdre l'instant", tellement cette histoire me paraît énorme et que personne n'en parle. Sauf Adscriptor. Certes, si Search Engine Watch avait évoqué Google RS2 et Google Weaver/h9 dans l'article que Danny Sullivan publie aujourd'hui sur le sujet, l'impact serait tout autre et l'info ferait le tour du Web en moins de temps qu'il n'en faut pour le dire :-)

Tags , , , , , , , , , , , , , , , , , ,

Interview sur le Blog Emploi Challenge

Interviewé sur le Blog Emploi Challenge

Une très très brève, pour vous signaler la publication de mon interview dans le cadre du Blog Emploi Challenge :


J’ai déjà évoqué succinctement les raisons de ma canditature, or même si j'étais préparé, c'est quand même avec surprise que j'ai reçu le message de Bertrand Duperrin me demandant de bien vouloir répondre au questionnaire qui sert de canevas à l'initiative. En plein coup de feu à cause d'une grosse traduction à finir. Dilemme ! Que faire ? Temporiser, repousser l’invitation ?

Et puis non, finalement je me suis dis que certaines occasions ne passent qu’une fois, et qu’il y a des trains qu’il vaut mieux ne pas rater. Tant pis pour les nuits de travail en plus !

Alors voilà le résultat, écrit en 2 jours, dans l’urgence (comme beaucoup de mes billets), et bien que le texte soit perfectible, j’ai essayé de ne rien oublier, d’y caser l’essentiel ! Les 9 questions auxquelles je réponds :
  1. Peux-tu te présenter en quelques mots et nous parler de ton parcours professionnel ?
  2. Quelle est ta recherche aujourd’hui ?
  3. Tu as ouvert un blog. Depuis quand le tiens-tu et pourquoi t’es-tu lancé dans cette démarche ?
  4. Tu as une ligne éditoriale précise ? De quoi parles-tu ? Comment procèdes-tu ?
  5. Que t’as amené ton blog jusqu’à présent (contact, réseau, rompre l’isolement, échanges, aidé à formuler ton projet….) ?
  6. Et quelles sont les principales difficultés que tu as rencontrées au départ ? Et aujourd’hui ?
  7. Que conseillerais-tu à quelqu’un qui voudrait se lancer également ?
  8. Imagine que tu tires une « carte chance professionnelle » : le travail de tes rêves, avec le rôle que tu désires, dans le contexte que tu aimes, dans le secteur qui t’attire… celui que tu ne quitterais pour rien au monde. Raconte-nous à quoi tout cela ressemblerait.
  9. Un dernier mot à l’adresse des recruteurs ?
Le développement ici.




P.S. À noter pour les esthètes que j'ai réalisé moi-même la photo avec mon portable, donc à défaut d'être photogénique, elle a au moins le mérite d'être récente  ;-)

Par ailleurs, si l’envie vous prend de laisser un commentaire, merci de bien vouloir le faire de préférence au bas de l’interview, et non pas sur ce blog.

Bonnes vacances aux chanceux d’une part, et bon boulot aux chanceux de l’autre :-)

Tags , ,

samedi 29 juillet 2006

Google RS2, traducteur automatique de troisième génération

Google RS2, traducteur automatique de deuxième troisième génération

Here is all the story in English...

Préambule
Cadre de la situation
Qu'est-ce que Google RS2 ? (selon moi :-)
P.S. Qu'est-ce que Google h9 ? (toujours selon moi :-)

* * *
Préambule

Dans mon précédent billet, je vous invitais à lire une info de Zorgloob reprenant un scoop de Tony Ruscoe sur une panoplie de nouveaux services testés par Google.


Pas question de revenir sur le sujet, mais plutôt de tenter d'approfondir l'un de ces services, nom de code Google RS2, déjà déniché par Tony Ruscoe en juin dernier sans avoir la moindre idée de ce dont il s'agissait, et qui nous dit aujourd'hui que ce pourrait être une fonctionnalité en rapport avec le système de traduction automatique sur lequel travaille la firme, puisque le lien pointe vers Google Translate :
The link in the ‘My Account’ page points to Google Translate, so could it be anything to do with the statistical machine translation system that we know Google’s working on?
[Début]
* * *
Cadre de la situation

Étant passionné de traduction autant par goût que par métier, j'avais déjà eu l'occasion d'aborder Google et la traduction automatique, un billet dans lequel je traçais grossièrement les contours du système de Google, dont l'approche :
consiste à gaver les machines de milliards de mots de texte (ce n'est pas la matière première qui lui manque !), ce qu'on appelle la linguistique de corpus (parallèles, alignés ou non), en associant des corpus (ou corpora pour les puristes) monolingues à des bi-textes (en prenant par exemple un site bilingue, ou tri- ou n-lingue, dont les textes sont segmentés puis alignés afin de fournir une mémoire de traduction) pour y appliquer ensuite des techniques d'apprentissage statistiques permettant de construire des modèles de traduction.
Et de constater que Google était vraiment très fort, puisque, dernier arrivé dans le domaine de la TA (où les places sont chères, par ailleurs), la société se classait au premier rang (note : 0.5131) en devançant IBM (0.4646), etc., et en se détachant très nettement de Systran (0.1079), aussi bien pour la paire linguistique chinois-anglais qu'arabe-anglais, selon les résultats officiels de l'évaluation sur la traduction automatique faite par le National Institute of Standards and Technology : NIST 2005 - Machine Translation Evaluation Official Results.

Or l'édition 2006 s'est terminée hier, comme indiqué sur le Formulaire d'enregistrement au 2006 NIST Machine Translation Evaluation :


Donc, les participants ont reçu le test confidentiel de traduction automatique par courriel le 24 et l'ont rendu hier à 16h (12h EDT). Selon le protocole, le test devrait globalement se composer de textes (environ 40 mille mots), mais aussi de discours, il s'agit donc d'une évaluation données-voix. Documentation supplémentaire ici.

Pour preuve que Google a de la suite dans les idées, consultez les diapositives du Google Inc. Factory Tour du 19 mai 2005, et notamment les numéros 135 :


qui réaffirme la mission de Google, 136 :


puis de 137 à 140, qui donnent un aperçu de la précision du système (ici la n° 140) :


et enfin 145, dans le prolongement direct de ce qui précède et en rapport tout aussi direct avec ce qui suit...

[Début]
* * *
Première constatation

Le système de TA de Google est la fine fleur des technologies de pointe, ce qui se fait de mieux en la matière (le moment venu, nous verrons d'ailleurs si les résultats 2006 confirment ceux de 2005, mais je ne doute pas un instant que, là aussi, Google se classera premier), et n'a absolument aucun rapport avec ce qu'on trouve actuellement sur la page de Google translate, qui n'est autre que Systran (bien que ce ne soit pas mentionné sur sa page de FAQ). Donc, pour l'instant, Christophe Asselin a encore raison :-)

J'en ai d'ailleurs la preuve ! J'avais précédemment tenté une expérience, relatée ici, en retraduisant du français vers l'anglais, avec l'outil de TA de Yahoo (Babelfish), un extrait (traduit de l'anglais vers le français) de mon billet sur la dérive publicitaire sur Internet et les incohérences de Google, afin de tester la pertinence de la traduction automatique sur Internet. J'ai donc soumis le même extrait à Google translate  :

Le résultat est concluant :


J'ai mis l'intégralité des deux traductions de l'extrait, identiques à la virgule près, dans un PDF téléchargeable, car le tableau est trop long et mange la moitié du billet, déjà abondant par lui-même... [Début]

* * *
Qu'est-ce que Google RS2 ? (My guess)

Selon moi, la première inférence, évidente, est que Google RS2 n'a absolument rien à voir avec la page vers laquelle renvoie le lien, ni même avec la fonctionnalité de TA telle qu'on la connaît aujourd'hui (Systran). Voilà deux jours que je me perds en conjectures sur la signification possible de RS2, qui ne me dit absolument rien comme acronyme lié à la traduction. Et pourtant, j'en connais des sigles. Alors quoi, so what ?

Je vous livre la conclusion de mes élucubrations, ou, pour mieux dire, de mon intuition : RS2, nom de code de Google, = RSS (S2 = deux "S"), et le lien avec la traduction serait la mise à disposition par Google d'un service de traduction automatique des flux de syndication, pour traduire à la volée des fils RSS ou de podcasts de/vers n'importe quelle langue (à plein régime, puisque selon toute probabilité, cette fonction sera initialement "bridée" aux langues principales...).

Un service de cette nature existe déjà : NATIVETEXT


« Service gratuit qui traduit les flux RSS des blogs et des podcasts dans votre langue. Ce service s’opére grâce à la communauté car la traduction se fait par les membres et non par un système informatique. On parle de Syndication de Langue d’Origine (Native Language Syndication)
Utilisation très simple :
- créez votre compte
- ajoutez votre flux
- choissisez vos langues de traductions
- répondez à un petit questionnaire pour renseigner les traducteurs
- bienvenue au reste du monde !!
»

Source : Aurigance (pour une fois, c'est pas moi qui traduis :-)

Conclusion

La différence tient en un mot : le service de Nativetext est COMMUNAUTAIRE, celui de Google AUTOMATIQUE.
Oui, un mot qui fait toute la différence. [Début]


P.S.1 Deuxième constatation

Cette hypothèse doit absolument être mise en rapport avec cette info : Google et la recherche vocale, puisqu'une fois que Google maîtrisera avec un degré de pertinence suffisant la traduction automatique du texte, et a fortiori de la voix, je vous laisse imaginer le reste...

RS2 P.S.2 Je me plante peut-être, et si vous avez autre chose à proposer, je suis preneur. Pour autant, je suis sûr de ne pas me tromper en affirmant que Google nous prépare quelque chose de révolutionnaire avec sa fonction de traduction automatique : texte-voix, Internet, vidéo, mobiles, Adsenses personnalisés, etc., qui pourra concurrencer Google ? Pas moi, c'est sûr :-)

P.S.3 Tiens, juste parce que je me sens en forme, je vous livre une autre intuition à propos de Weaver, dont Zorgloob nous dit : « aucune information sur ce service dont le lien pointe vers http://www.google.com/h9 ». D'après moi, ce n'est ni une allusion au tisserand (traduction de weaver en français) ni à Google Health, mais à Sigourney Weaver dans Futurama (in Love and Rocket), qui double un personnage parodiant HAL 9000, le Supercomputer, « ordinateur exceptionnel doué d'intelligence et de parole », dans 2001 : l'odyssée de l'espace.

Or en langage Google, HAL 9000 (h9) est « The Ultimate Search Engine » :

Google h9 - HAL 9000 - The Ultimate Search Engine
Diapositive n° 131 du Google Inc. Factory Tour du 19 mai 2005. On comprend pourquoi l'URL n'est plus accessible ! (moi, la photo, elle me fait penser à Big Brother...) [Début]

Pour approfondir (en français) :

I - Google h9, « the Ultimate Search Engine »
II - Google h9, « crack the code »

Tags , , , , , , , , , , , , , , , , , ,

vendredi 28 juillet 2006

Google est la première marque mondiale en terme de progression

Google est la première marque mondiale en terme de progression

Un peu de potins. Publication du classement Interbrand / BusinessWeek 2006 des meilleures marques mondiales.



Pour la 6e année consécutive, ce classement annuel en valeur des meilleures marques mondiales identifie les 100 qui ont su le mieux développer des performances fortes sur un marché global hypercompétitif. Selon le communiqué de presse, « pour qu’une marque puisse intégrer le classement, celle-ci doit, par ailleurs, avoir une valeur supérieure à 2,7 milliards de dollars, faire 1/3 de ses revenus à l’étranger, rendre ses comptes publics et être intégrée à un grand nombre de marchés à travers le monde. »

Google, qui passe de la 38e place l'année dernière à la 24e en 2006, est le « gagnant toute catégorie de cette année ... avec une valeur qui augmente de 46 % ».


Comparatif avec le classement de Wired des entreprises les plus branchées (au vrai sens du terme :-)


Depuis que je m'intéresse à Google, j'ai toujours été bluffé par l'énergie que la firme de Mountain View met à construire sa brand recognition, ou reconnaissance de sa marque. Je crois qu'elle n'aura de cesse d'arriver à la première place. Rendez-vous dans 10 ans...

À noter en outre que sur les 16 sociétés du classement qui ont trait à l'informatique au sens large, seules cinq sont à proprement parler des entreprises de services Internet, puisque Microsoft, avec MSN, fait également partie de cette catégorie. Last but not least, 13 sur 16 sont américaines...

Vous avez dit suprématie ? Non, j'ai rien dit, moi...


P.S. Pour toutes celles et ceux qui veulent connaître les dernières infos sur Google, un scoop (et un site) à ne pas perdre !

Tags , , , , , , ,

Internet media à part entière : comparatif et mise en perspective


Après le billet écrit il y a une dizaine de jours sur Internet 2010 : prospective et mise en perspective, un article récemment publié sur BrandWeek, signé Mike Shields, me donne l'occasion de revenir sur certaines perspectives d'Internet à l'horizon ... 2011, c'est-à-dire dans un tout petit lustre.

Jupiter Research prévoit une forte croissance des dépenses publicitaires en ligne aux États-Unis dans les 5 ans à venir, pour atteindre 25,9 milliards $ en 2011, soit environ 9% de l'ensemble du marché publicitaire du pays. Quant aux dépenses consacrées par les acteurs économiques pour promotionner leurs produits/services sur les résultats des moteurs de recherche, elles vont passer de 41% à 43% des sommes investies en ligne sur la même période, la recherche se plaçant au premier rang des sources de revenus.

Des chiffres à rapprocher des statistiques que j'ai données dans mon précédent billet (tout en veillant à ne pas confondre e-commerce au sens large et dépenses publicitaires en ligne, celles-ci n'étant qu'une partie de celui-là), et à comparer à ceux de Yahoo, qui prévoit au niveau mondial 54,9 milliards $ en 2010 !

* * *

Bien qu'il soit difficile de faire un parallèle en prenant pour référence des pays différents, une étude récente conjointe TNS Media Intelligence et IAB (Internet Advertising Bureau), qui analyse la pub online en France, publie des chiffres qui donnent à réfléchir : près d'1 milliard d'euros d'investissements publicitaires sur le Web durant les premiers mois de 2006, soit une croissance de 57 % par rapport au même semestre 2005, avec la répartition sectorielle suivante :
  • voyage + tourisme : 29,7 %
  • informatique : 29,3 %
  • équipements sportifs : 25,2 %
  • télécommunications : 18,6 %
  • audiovisuel, photo, cinéma : 14,9 %
  • services : 11,8 %
  • distribution GMS (grandes et moyennes surfaces) : 7,6 %
Sources : données compilées à partir des différentes dépêches qui circulent, dont la plupart, soit dit en passant, se contentent de répéter ce que dit le voisin sans un minimum d'analyse. Ce n'est pas le cas d'Adscriptor, merci bien, qui souffre cependant d'une asymétrie de crédibilité dans l'information...

À comparer avec le tableau suivant, publié dans le baromètre du Journal du Net en juin 2006 :


Source : AdNetTrack / TNS Media Intelligence

Côté sites supports publicitaires, les trois premiers seraient Orange, Yahoo et MSN. Ceci étant, l'étude ne prend pas en compte les liens sponsorisés, et, donc, Google, qui est premier, selon Médiamétrie (audience de l'Internet en France en juin 2006), loin, loin devant Orange, avec près de 4 millions de visiteurs uniques en plus sur juin, une paille :


Pour la rime, une lacune de taille...

Côté comparatif avec l'étude américaine, en France aussi Internet s'accapare 9 % du marché publicitaire tous médias confondus, et aux États-Unis comme ici, le marché de la vidéo en ligne explose, puisque selon Forrester, les investissements dans le « rich media » vont connaître des taux de croissance annuels compris entre 21 et 27% au cours des cinq prochaines années, un « épanouissement » total, pour reprendre le terme de M. Jérôme de Labriffe, Président d'IAB France.

* * *

Conclusion

Parenthèse de paléontologie numérique :

Durant mes recherches pour rédiger ce billet, je suis tombé sur cette déclaration, qui remonte à un peu plus ... d'un lustre :
En 2000, l'Internet serait devenu le sixième grand média.
Toutefois, la publicité en ligne est-elle, dès aujourd'hui, une véritable source de chiffre d'affaires, tant en France que dans le reste du monde ? N'y a t-il pas pour l'heure un engouement spéculatif entretenu autour du Réseau des réseaux ?
L'étude de marché (Octobre 2000), intitulée La publicité sur internet, semble encore disponible pour la modique somme de 442 €, si ça vous intéresse...

Et cette autre :


Si vous vous demandez quels sont les 5 grands médias traditionnels :

1. Presse
2. Cinéma
3. Radio
4. Télévision
5. Affichage


Au moins, à présent nous connaissons la réponse ! Toutefois, la chose qui me rend perplexe, c'est qu'aujourd'hui on entend les mêmes propos circonspects sur les blogs (je vous prépare d'ailleurs un petit billet de derrière les fagots sur la question), qui ne laissent de me faire sourire. J'ai lu quelque part que pour ses études futures, le IAB a prévu de mieux segmenter les catégories de sites supports. Si vous voulez l'avis du soussigné, cher Monsieur de Labriffe, prenez en compte les blogs, ils sont appelés à un bel avenir, pérenne et prometteur :-)

Lien connexe : Internet 2010 : prospective et mise en perspective



Tags , , , , , , , , , , , , , ,

jeudi 27 juillet 2006

Professionnel indépendant : grand questionnaire de l'été !

Professionnel indépendant : grand questionnaire de l'été !

Je réponds à ce questionnaire qui m'a été transmis par Muriel (Electrablog), que je remercie :

#1 - Quand et quelle est votre prochaine prestation facturée ?

En début de semaine prochaine, pour la traduction d'environ 200 pages, encore à terminer (mais j'en suis à un stade avancé)...

#2 - Pour quelle raison reprendriez-vous une activité salariée classique ? Qu'est-ce qui vous manquerait le plus ?

- Pour un chèque avec un premier chiffre quelconque, suivi de plein plein de zéros, du genre G00000000000000000000000000000000000000000G10...
- Les chèques suivants :-)

#3 - Que fait un professionnel autonome l'été alors que ses clients sont à la plage ?

La plage étant à 7 km de chez moi, il est probable que j'y arriverais avant eux !

#4 - Décrivez votre principal outil de travail sans citer son nom.

Il n'y en a pas un mais plusieurs, en réseau, avec tout un tas de bigntz, de trucs et de schmurz : rétroverseurs de bougnazal, antivibreurs cystographiques, cadrans à baloches oscillantes, cribles thermo-fiduciaires, introspecteurs à longue durée, fouinasseurs à ondes courtes, stratagèmes géants montés sur chenilles, amalgameurs de fréquence à moulinette perforée, conjonctivites traceuses, prostateuses lentes à boule kère, enfigourées électriques, coltineuses de périphrases à syntaxe superposée, j'en passe et des meilleurs...

Sources : San-Antonio pour la première partie (Tango chinetoque, édition 1988), Victor Hugo pour la seconde (Hernani), c'est pas le même registre, je vous l'accorde, mais Totor aussi avait de l'humour.

#5 - Finalement, tout serait parfait si...

... j'étais en vacances :-)

INSTRUCTIONS :

- répondre à ce questionnaire sur son blog
- le faire passer à au moins une personne
- faire un trackback sur celui qui vous l'a transmis ou la présente note
- reproduire telles quelles ces 5 4 lignes en bas de votre note


P.S. Si à la lecture de ce questionnaire engagé, vous sentez l'irrépressible besoin d'y répondre sur votre blog, vous gênez pas, je vous l'échange contre un lien (ne jamais perdre de vue le sens des affaires :-)

Voir quelques-un(e)s des répondeurs ici ou .

Bon questionnaire aussi pour les participants au Blog Emploi Challenge, I comme ... information, indépendant, intermède ou interlude

[MàJ - 28 juillet 2006] Suite au commentaire de Jean-François et après avoir visité son blog, je me suis inscrit à Perso Web 2006. Vous voulez en savoir plus ?

Tags , , , ,

mercredi 26 juillet 2006

Google communique les taux de clics invalides à ses annonceurs

Actualité oblige ! Ce qui n'était hier qu'une mise à jour passe à la une aujourd'hui. J'extrais donc la dernière partie de mon billet précédent pour en faire un article à part entière :
Quant à la fraude aux clics, un problème étroitement lié avec tout ce qui précède, avant-hier le blog officiel de Google a sorti l'info de la publication d'un rapport indépendant, diligenté dans le cadre d'un précédent procès et rédigé par le Professeur Alexander Tuzhilin, qui conclut, après 47 pages d'explications :
In summary, I have been asked to evaluate Google’s invalid click detection efforts and to conclude whether these efforts are reasonable or not. Based on my evaluation, I conclude that Google’s efforts to combat click fraud are reasonable.

En bref, j'ai été mandaté pour évaluer les actions entreprises par Google afin de détecter les clics invalides (ou abusifs), et pour conclure en déterminant si ces efforts étaient "raisonnables" ou non. Selon mes estimations, j'en conclus que les efforts déployés par Google pour combattre la fraude aux clics sont "raisonnables".
Qu'en termes choisis, ces choses-là sont dites ! Mais enfin, s'il le dit...

[MàJ - 25 juillet 2006] La conclusion (la seule à laquelle il pouvait parvenir) du Professeur Tuzhilin n'aura pas beaucoup servi à Google, dont la proposition de règlement devant la justice américaine a été rejetée par les parties adverses...
[Mercredi 26 juillet 2006, 18h] : probablement sous la pression d'une décision de justice lourde de conséquences (dans les jours qui viennent, une audience se tiendra devant le juge Joe Griffin, de l'Arkansas, saisi pour évaluer et satuer sur les objections faites à la proposition de règlement avancée par Google Inc. sur la fraude aux clics), la société de Mountain View a décidé de dévoiler aux annonceurs qui enchérissent sur les AdWords quel est le taux estimé de clics invalides sur leurs mots clés :

Invalid Clicks Rate
These clicks are filtered in real-time by our systems before advertisers are charged for them. The resulting data will of course differ from one advertiser to the next. In addition, a much smaller number of invalid clicks may also be credited to advertisers’ accounts after-the-fact, as the result of a publisher being terminated from the AdSense program for invalid click activity. These will appear as account-level credits.

Ces clics sont filtrés en temps réel par nos systèmes, avant que les annonceurs ne soient facturés dessus. Les résultats vont naturellement varier d'un annonceur à l'autre. En outre, une quantité moindre de clics invalides pourra aussi être créditée au compte de l'annonceur a posteriori, dès lors que l'éditeur responsable de la fraude aux clics aura été banni du programme AdSense. Ce crédit résultera au niveau du compte de l'annonceur.
Détails supplémentaires (je viens de voir que la traduction française officielle de Google pour « invalid clicks » est « clics incorrects », un euphémisme à mon avis, mais pour une fois, on ne va pas jouer sur les mots. Il faudra voir le niveau d'implantation terminologique :-)

Une petite révolution qui intervient ... moins d'une semaine avant l'audience, serait-ce un hasard ?

MàJ - 28 juillet 2006
: Règlement accepté !

Finalement, je me suis avancé un peu vite en pensant que le rapport du Professeur Tuzhilin n'aurait pas beaucoup servi à Google, qui en sera donc de sa poche pour 90 millions de dollars, le tribunal ayant décidé de rejeter les quelque 70 objections à la proposition de règlement de Google, jugée (c'est le cas de dire) « fair, reasonable and adequate », soit « honnête, raisonnable et appropriée ». Dont acte. Même si certains ne sont pas d'accord...

Lien connexe : La dérive publicitaire sur Internet : les incohérences de Google (entre autres)...




Tags , , , , , , , , , , , , , , , , , , , ,

samedi 22 juillet 2006

Google partenaire de Go Daddy dans le business des noms de domaine

Google partenaire de Go Daddy dans le business des noms de domaine

Une actu sur laquelle je ne peux absolument pas faire l'impasse.

Lue sur le blog de John Battelle, où il mentionne un article de Scott Karp dénonçant l'hypocrisie de Google, qui d'un côté pénalise les annonceurs AdWords (voir également la question examinée sous un autre angle par Vinny Lingham), et de l'autre passe un accord avec GoDaddy, grand pourfendeur de bidonnages en tous genres sur les noms de domaine, pour qu'il mette à la disposition de ses clients (dont moi...) des pages parking monétisées grâce au service AdSense for Domains de Google. Une hypocrisie que j'observais déjà en ... février dernier ! Du genre « ma main droite ignore ce que fait ma main gauche »...

Scott Karp tient cette info de Jen Sense, qui remarque une différence ... de taille : jusqu'à présent, ce service de parking était réservé aux seuls "domaineurs" réalisant plus de 750 000 pages vues par mois. Or en proportion de la population Internet mondiale, il ne doit quand même pas y en avoir des masses ! Avec ce nouveau partenariat, la firme de Mountain View accroît considérablement son "visitorat" potentiel, puisque tout utilisateur peut dès maintenant tenter de monétiser ses domaines, une pratique commerciale très peu prisée du public francophone, mais qui fait rage Outre-Atlantique et ailleurs.

Bob Parsons joue ainsi sur les deux tableaux, puisqu'il encaisse le loyer de ses utilisateurs d'un côté, et les reversements de Google de l'autre. Service baptisé CashParking :


Les trois formules prévoient respectivement un reversement de 60, 70 ou 80% au titulaire du domaine selon l'abonnement qu'il choisit, à partir de 3,99 $/mois, 9,99 $/mois ou 24,99 $/mois, avec des rabais si vous choisissez sur un an (10%) ou deux (20%).

Il existe différentes formes de parking, comme sur Sedo, autre acteur majeur dans les noms de domaine, qui propose une offre de parking gratuit :


Il faudrait bien sûr étudier tous les critères qui rentrent en jeu (nombreux), afin de déterminer les pour et les contre, mais je n'ai franchement pas le temps.

Pour vous donner une idée de ce dont nous parlons, voici une comparaison succincte entre les statistiques fournies en exemple par GoDaddy :


et des chiffres réels, extraits d'un "portefeuille" de 7 domaines que j'ai stationnés chez Parked.com depuis 43 jours :


Petit glossaire des fondamentaux de la monétisation :
  • CTR / Click Through Ratio - ou Click Thru Rate : taux de clics (TDC), à savoir le pourcentage de vos visiteurs qui vont finir par cliquer sur une pub
  • RPC / Revenue Per Click : revenu par clic, soit le revenu réalisé à chaque fois que l'internaute clique sur une pub ; fait pendant au CPC (Cost Per Click), ou coût par clic, tarifé à l'annonceur chaque fois que sa pub s'affiche
  • RPM / Revenue Per Mil - Revenue Per Thousand Impressions : revenu par mille impressions, soit le revenu réalisé à chaque fois qu'une pub est vue mille fois ; fait pendant au Coût par 1000 impressions (ou CPM), qui est le tarif payé par l'annonceur
  • PPC (Pay Per Click), sigle qui regroupe tous les programmes de paiement au clic, tels qu'AdSense, par exemple.
Donc, mis à part mon dernier domaine, pour qui à l'évidence personne n'a le déclic (il est clair que la qualité d'un domaine parqué dépend essentiellement de son aptitude à générer du trafic en type-in, même si à mon avis les choses évolueront aussi de ce côté-là...), voici ce qui ressort :
  1. Mon taux de clics varie dans une fourchette entre 12,50 et 22,52%, soit en gros entre 1 internaute sur 5 et 1 sur 6 qui cliquent sur les pubs. Donc le CTR de 15% pris en hypothèse pour le programme CashParking est très vraisemblable
  2. Les 45 000 impressions envisagées par GoDaddy représentent env. 21,5 fois mes 2 090 visiteurs, indépendamment de la durée. Or en multipliant par 21,5 les 36,39 $ que j'ai gagnés en 1 mois et demi, ça nous donne 782,385 $, un résultat parfaitement en phase avec les 792,16 $ annoncés pour 80% de reversement
  3. Monétisation, lecture du tableau ci-dessus :
    • 4 domaines sur 7 réalisent 97% des visites et 99% du TDC ; 1 domaine génère à lui seul les 3/4 des gains : 69% des visites, mais 73% du TDC et 75% du revenu
    • En données journalières, cela donne une moyenne de 48,6 visites pour 9,5 clics, soit très exactement 1 clic tous les 5 internautes : TDC = 19,57%, et par défaut ... 0,85 $ gagné par jour (moyenne presque identique au RPC, autant dire 1 clic par jour qui rapporte !, sur 9,5)
    • Le revenu par 1000 impressions (RPM) est de 17,41 $ : 0,01741 x 2090 visites = 36,3869 $, arrondis à 36,39 $
    • Le revenu par clic (RPC) est de 0,08897 (36,39 $ / 404 clics), arrondi à 0,09 $
  4. Conclusion : toutes proportions gardées, les estimations de GoDaddy sont vraisemblables, car les gains restent en ligne avec ceux que j'ai réalisés en 43 jours, même si la période temporelle qu'il considère est plus courte (1 mois contre 1 mois et demi), mais avec 25 fois plus de domaines que les miens (100 contre mes 4 qui marchent, puisque sur les 7 stationnés, 3 ne sont absolument pas significatifs, alors que le coût annuel d'enregistrement des autres est déjà largement récupéré), contre 21,5 fois le C.A.
  5. Ne reste plus qu'à trouver les noms de domaine qui cartonnent, mais ça c'est une autre histoire...
Voilà. Donc, au vu de ces chiffres minuscules, imaginez le C.A. dégagé chaque mois par ceux qui pratiquent le domain kiting ! Un abus qui, en théorie, devrait être combattu par la longue traîne et les domaines de deuxième génération qui finiront bien par voir le jour, tôt ou tard... Cette fois, scoop d'Adscriptor, même Bob Parsons est d'accord, c'est vous dire :
Dear Jean,
The long tail proposal is certainly better than the abuse that is going on now.
Appreciate your post,
Bob Parsons, on Jul 6 2006, 14:24

(la solution proposée de la longue traîne est certainement meilleure que les abus actuellement perpétrés...)
Quant à la fraude aux clics, la suite ici...


P.S. J'allais oublier une chose importante ! Lorsque j'affirme plus haut que le coût annuel d'enregistrement des quatre domaines considérés est déjà largement récupéré, j'entends ceci :
En 1 mois et demi j'ai récupéré ma mise sur les domaines rentables, pour lesquels les droits d'enregistrement me coûtent 9,20 $ par an, soit 36,80 $ pour les 4 (si j'avais voulu mieux faire coïncider les choses, j'aurais pas pu). Donc à partir de maintenant, ce qui rentrera c'est tout bénef ... à condition que ce service soit gratuit, comme sur Parked.com, justement. Car si je devais payer l'abonnement correspondant à 269,88 $ (avec le rabais de 10% pour l'année), mon gain annuel serait de ... 2,21 $ (et encore, je calcule pas le change en Euros !).
Explication : en gardant le même rythme (36,39 $ en 43 jours), mes domaines produiraient un revenu de 308,89 $ sur 365 jours, tout juste suffisant pour couvrir l'abonnement au service et l'enregistrement des noms : 269,88 $ + 36,80 $ = 306,68 $.

Au final, Google et le Registreur (Go Daddy ou un autre...) gagnent de l'argent, et vous... des cacahouètes ! Ce genre de service n'est susceptible d'être rentable que si vous avez un nom de domaine clicable, très clicable, ou mieux encore, plusieurs, mais vraiment plusieurs :-)

Tags , , , , , , , , , , , , , , , , , , , , , , ,

dimanche 16 juillet 2006

Le monde selon Google : coup de pub pour un best-seller !


Un coup de pub après un coup de boule, histoire de faire jouer l'alternance. Moi qui croyais ne plus bloguer pendant deux semaines (traductions obligent !), c'est raté ! En faisant un peu d'egosurf sur Adscriptor, je tombe sur ces mots signés Régis Langlade :
De plus nous avons le privilège d'avoir comme préfacier le formidable Jean Véronis, et le très efficace Jean Marie Le Ray en tant que postfacier !


Bon, même si je ne partage pas la couverture avec Jean, ça le fait, je l'avoue ! Me voilà promu postfacier pour la première fois de ma vie, après ça j'espère que la prochaine sera une préface ! Et même, à la rigueur, comme E-lectra me le souhaite si gentiment  : « Vivement que vous trouviez un éditeur »... S'il y en a qui sont à l'écoute :-)

Donc, en attendant, merci aux auteurs de m'avoir accordé leur confiance :


De gauche à droite et de haut en bas : Régis LANGLADE, Sébastien BALULA, Cyril LOUIS, Philippe TORLOTING et Patrick TOURNIER.

Et merci aussi à François Cazals, l'éditeur :


pour avoir associé mon nom à celui de Jean Véronis dans cette belle aventure, née il y a tout juste quatre mois, lorsque j'ai entrepris de décortiquer la présentation de Google aux analystes financiers, avant de demander de l'aide face à l'ampleur de la tâche. Un appel qui s'est ... traduit (!) par les contributions de Régis, Sébastien, Cyril, Philippe et Patrick.

Enfin, puisque je vois que mes 77 millions de visiteurs quotidiens languissent d'en savoir plus, je vous donne le titre de ma postface : Les intemporels de Google. Donc, maintenant, pour savoir de quoi parle le livre, il ne vous reste plus qu'à le commander, pour le prix modique de 14,90 € ! Par contre, si vous êtes dubitatifs, n'hésitez pas à télécharger gratuitement le premier chapitre, et à déposer votre avis, ou à me laisser un commentaire, je ne manquerai pas d'en faire part aux intéressés.


P.S. Message aux auteurs :
J'attends avec beaucoup d'impatience un exemplaire dédicacé de toute l'équipe. À bon entendeur...


Tags , , , , , ,

samedi 15 juillet 2006

Internet 2010 : prospective et mise en perspective


Stats

Internet, c'est la loi des grands nombres, le pays des merveilles du statisticien, l'Himalaya des sondages, ça grimpe et ça descend, un pic à droite, une chute à gauche, aïe, le sondé s'est fait mal, heureusement qu'il avait son assurance, des chiffres et des courbes, vous prenez les mêmes et vous leur faites dire noir ou blanc, parfois gris, c'est selon, toujours la vieille histoire du verre à moitié vide ou à moitié plein...

Exemple récent : suite au billet de Hitwise, annonçant que MySpace devient le n° 1 mondial des sites Internet (MySpace Moves Into #1 Position for all Internet Sites), Yahoo rétorque informellement et immédiatement qu'il n'est pas question de mélanger les torchons et les serviettes (ce dont Hitwise se défend), que tout cela est faux, MySpace ne réalisant QUE 52 millions de visiteurs uniques par mois, alors que Yahoo! en engrange 129 millions tous sites propriétaires confondus. C'est le monde à l'envers, un peu comme si Eric Schmidt vous disait qu'il est numéro 1 de Yahoo! Et d'ailleurs il le dit, puisque son adresse de courriel n'est autre que EricSchmidt1@yahoo.com, ce qu'on appelle avoir le sens de l'humour...

Bon, après tout, que représente vraiment une différence de 77 millions de visiteurs ? Adscriptor les fait en un jour (j'en profite pour tous vous remercier chaleureusement), probablement Loïc Le Meur en une heure, et Google à la seconde, on va pas se chamailler pour si peu :-)


Ce qu'on appelle l'effet Zidane, ou les inédits de Zinedine : après la Google Dance, voilà la danse du coup d'boule (l'original), et ne vous inquiétez ni pour Materazzi ni pour les maux de tête, Google pense même à l'aspirine :-)
S'il est vrai que Page & Brin cherchent toujours à recruter les meilleurs, là ils tiennent une recrue de choix ! Libre, qui plus est...

* * *

Pour en revenir à nos moutons, puisqu'il s'agit de compter, les chiffres ont leur importance, dès lors qu'ils finissent toujours par se traduire en espèces sonnantes et trébuchantes. Or que nous disent-ils, ces chiffres ?

Parmi les sources de première main que j'ai consultées, il y en a une qui m'impressionne particulièrement, c'est le prospectus mis au point par Go Daddy pour son introduction en bourse. Comme j'ai déjà eu l'occasion de le dire à maintes reprises, les documents rédigés à l'intention des analystes financiers et des investisseurs ou acheteurs potentiels sont les plus pointus, et pour cause : il s'agit de convaincre et convaincre encore, en se basant sur des faits et, donc, des chiffres. C'est ainsi que le document de GoDaddy nous réserve quelques surprises, notamment sur la croissance d'Internet à l'horizon 2010 :
Selon Euromonitor International, le nombre d'internautes, estimé à 1,2 milliard dans le monde en 2005, devrait toucher près de 2,2 milliards en 2010 (prévisions supérieures à celles de Yahoo), soit une croissance annuelle d'environ 13%. Par ailleurs, notamment du fait de la montée en puissance du haut débit, ces mêmes internautes passent de plus en plus de temps en ligne, un temps dont la durée a presque doublé entre 2000 et 2005 aux États-Unis (U.S. Census Bureau).
(...)
Selon Zooknic, l'Internet comptait à peu près 94 millions de domaines enregistrés dans le monde au 31 décembre 2005, un chiffre qui, en 2010, devrait atteindre 240 millions de noms de domaine (taux de croissance annuelle de 21%).
Or aux États-Unis, selon IDC
(qui est tout de même l’un des pays les plus informatisés, et sans aucun doute le continent le plus informatisé de la planète - NdT), sur 8,1 millions d'entreprises de moins de 100 salariés (hors secteur SOHO), moins de 60% d'entre elles ont un site Web, ce qui signifie que 3,3 millions de sociétés U.S. n'ont pas encore de site ! Quant aux TPE-microentreprises (secteur SOHO), IDC estime leur nombre à 14,7 millions en 2005, dont moins de 30% seulement ont un site Internet.
(...)
Et toujours selon IDC l'e-commerce, dont le volume économique est évalué à 3 800 milliards $ en 2005, devrait globalement générer 8 500 milliards de dollars en 2009, soit un taux annuel soutenu de 22%.
Ajoutons à cela deux chiffres communiqués par Gilles : 12% du temps d'un internaute est passé à faire des recherches (400 milliards de recherches par an...), et 50% de la publicité sur internet est sur les moteurs de recherche, ce qui nous donne un marché publicitaire énorme, en pleine évolution, et des dérives qui ne le sont pas moins...

Cap vers 2010, donc, nous verrons bien si perspectives et réalité font bon ménage, puisque sur Internet il arrive parfois que la prospective soit largement dépassée par les faits ! [Début]

Lien connexe : Internet média à part entière : comparatif et mise en perspective


[MàJ - 16 juillet 2006] À propos des quelque 14 millions de petites et microentreprises nord-américaines n'ayant pas encore de présence Web (secteurs SOHO et hors SOHO), ne pas oublier que ça représente un marché considérable pour tous les ténors de la recherche et de la pub. C'est dans ce sens que doit être interprétée la décision récente de Verizon de créer une spin-off à partir de sa branche Pages Jaunes U.S. sur papier et Internet pour permettre l'accès gratuit à ses annuaires, en vue de les monétiser dans un deuxième temps, il va sans dire :
Verizon Communications Inc. (NYSE:VZ) today announced the filing of a Form 10 registration statement with the Securities and Exchange Commission in a step toward a proposed spin-off of Verizon’s domestic print and Internet yellow pages directories to its stockholders.
Source : ZDnet. Comme conclut l'article : les intérêts stratégiques de Google (déjà partenaire de Verizon pour mettre ses AdWords sur Superpages.com), amèneront-ils la firme de Mountain View à participer à l'affaire ? On peut penser que oui...

Tags , , , , , , , , , , , , , , ,

mardi 11 juillet 2006

GDrive, nom de code : Platypus. Google Drive enfin sur la rampe de lancement

GDrive, nom de code : Platypus. Google Drive enfin sur la rampe de lancement ?

Une brève sur laquelle je ne peux vraiment pas faire l'impasse. Quatre mois après les premières fuites sur GDrive, voici qu'un internaute vient de découvrir que la firme de Mountain View est effectivement en train de tester Google Drive. Nom de code : Platypus !

Je crois que le scoop va vite faire le tour de la planète Web, il suffit de voir les premiers résultats sur GDrive !

[MàJ - 15 octobre 2006] Des nouvelles fraîches, en anglais, et en français.


Donc, sans vouloir faire de redite, puisque l'info est fort bien détaillée dans Zorgloob (voir aussi, en anglais, ce billet, ou cette discussion, à ne pas perdre...), je me limiterai à souligner que la fonctionnalité me semble vraiment innovante, et qu'apparemment elle sera immédiatement disponible pour les trois principales plateformes : Windows, Mac et Linux.

Mais je rappelle aussi pour mémoire, comment le but ultime de GDrive s'inscrit dans la philosophie d'ensemble de la mission de Google, dont le stockage illimité :
Stocker 100 % des données utilisateur nous permettra d’héberger l’ensemble des fichiers des utilisateurs : courriels, historiques Web, images, signets, etc., pour les rendre accessibles depuis n'importe quelle application ou plate-forme.
(...)
Ce projet va nous permettre d’alléger le côté client pour concentrer toute la puissance côté serveur (thin client, thick server), un modèle qui renforce nos atouts vis-à-vis de Microsoft tout en offrant davantage de valeur ajoutée à l'utilisateur.
De plus, avec le 100 % stockage, la version en ligne de vos données va devenir votre copie de référence, votre original, alors que la version stockée sur votre ordinateur local fera plutôt fonction de cache, avec pour conséquence, et non des moindres, que les copies de vos données seront davantage sécurisées en ligne que sur votre propre ordinateur. Une autre implication de ce projet est que 100 % des données utilisateur stockées sont mieux valorisées sur Internet, dès lors qu’elles sont accessibles et interopérables d’une application à l’autre...
Une opinion pas franchement partagée par John Battelle à l'époque...

Enfin, dans le fameux document à l'origine des fuites, la présentation d'Eric Schmidt, Google mentionnait en parallèle à GDrive un autre nom de code, Lighthouse, dont à mon avis nous ne savons encore strictement rien...

Pour conclure, j'ai lu ce matin un article de Jérôme Bouteiller intitulé : « Google n'est plus un moteur de recherche », dont les propos prennent toute leur pertinence quand on pense à GDrive :
Même si Google continue d'investir dans son index en promettant toujours plus d'exhaustivité, l'essentiel des nouveaux produits de Google (…) doivent donc être compris comme des supports publicitaires voire comme de véritables places de marché pour Google Books, Google Video ou Google Base.
Voilà plus de quatre mois que je le dis : « Google est bien plus qu'un simple moteur de recherche » :-)


[P.S. - Encore une fois, il manque à Blogger une fonction essentielle : pouvoir confirmer la publication du message ! Je venais à peine de commencer à écrire le billet qu'il a été mis en ligne plus tôt que prévu. C'est parti tout seul...]

[MàJ - 16 juillet 2006] Les lectrices et les lecteurs attentifs, il y en a ;-), auront noté que j'ai ajouté un point d'interrogation à l'ancien titre (qui devient ainsi GDrive, nom de code : Platypus. Google Drive enfin sur la rampe de lancement ?), formidable efficacité de la ponctuation. En effet, après l'excitation du moment pour la découverte, à l'heure actuelle GDrive semble uniquement réservé à l'Intranet de Google. Or en y réfléchissant bien, il est clair que pour en faire un service universel, la firme de Moutain View aura besoin d'un ... Datacenter pharaonique, ce qui ne saurait tarder, puisqu'il est déjà en chantier !


Tags : , , , , , , , ,