http://www.themediatrend.com/wordpress/?p=3653
C’était annoncé, c’est désormais chose faite. Les premiers articles entièrement rédigés par des « robots » sont en ligne sur le site de StatSheet. Pour l’instant, ces « journalistes artificiels » ne couvrent que le sport, mais Robbie Allen, le fondateur de cette startup américaine estime que cette technologie pourrait être utilisée à l’avenir dans d’autres domaines.
Dans un article publié par Le Monde en mars 2009, Yves Eudes décrivait Stats Monkey, un programme d’intelligence artificielle développé par un laboratoire d’intelligence artificielle (infolab), rattaché à l’université de Northwestern, à Chicago:
Il [Stats Monkey] travaille automatiquement de A à Z. Il commence par télécharger les tableaux chiffrés publiés par les sites Web des ligues de base-ball, et collecte les données brutes : score minute par minute, actions individuelles, stratégies collectives, incidents… Puis il classe cette masse d’informations et reconstruit le déroulé du match en langage informatique. Ensuite, il va puiser son vocabulaire dans une base de données contenant une liste de phrases, d’expressions toutes faites, de figures de style et de mots-clés revenant fréquemment dans la presse sportive. Il va alors rédiger un article, sans fautes de grammaire ni d’orthographe.Il peut fournir plusieurs versions, rédigées dans un style plus ou moins imagé.
À l’époque, l’article avait suscité une certaine émotion. Pourtant, depuis déjà longtemps, dans l’information financière notamment, les premiers jalons de ce type de synthèse sont posés. C’est le cas à Bloomberg, comme l’expliquait déjà 1999 son fondateur Michael Bloomberg:
Pour certains sujets, nous ne faisons appel ni à des journalistes, ni à des redacteurs humains. Quand nous décrivons la valeur d’un marché à un moment donné (et non les raisons qui l’ont amené à cette situation), les deux seules choses qui comptent sont la vitesse et la précision —or ce ne sont pas les qualités essentielles de la plupart des gens. (…) Nous avons donc programmé nos ordinateurs pour qu’ils « écrivent » périodiquement une série d’articles informant nos lecteurs de l’état actueldu marché. Par exemple, la machine prend le début de la phrase « L’indice industriel Dow Jone est » et y ajoute « en hause » ou « en baisse » en fonction du résultats de calculs portant sur les mouvements de 30 valeurs entre la veille et la micro seconde où le texte s’écrit. Elle y ajoute ensuite le chifre adéquat, par exemple de 1 point, 2 points, 3 points, etc. Puis elle imprime: « les titres les plus actifs sont » et à partir du suivi en continu du volume des échanges, elle traduit automatiquement les symboles des téléscripteurs en noms d’entreprises (Procter & Gamble, General Electric, Walt Disney, etc.) et les ajoute à la phrase. [in Bloomberg par Bloomberg, Village Mondial, 1999, pages 87-88]
Avec StatSheet, en tout cas, le pas est franchi [le site semble encore instable]. Le « journalisme artificiel » sort du laboratoire et les premiers articles rédigés par des algorithmes sont en ligne, depuis août.
Schématiquement, le procédé est le suivant, explique Allan Maurer de TechJournal South: StatSheet a stocké quelque 500 millions de statistiques, 10.000 données significatives et 4.000 phrases clé. « Les articles [de vingt types différents] sont entièrement auto-générés, explique Robbie Allen, son fondateur. la seule implication humaine est la création de l’algorithme qui permet de générer les articles ». [cité par TechChrunch]


Laisser un commentaire