Google Reader - Liste de partage de Grorico

Après Stuxnet, l’âge de la parano commence

via Metaxu - Le blog de Philippe Quéau de Philippe Quéau le 17/12/10

La crête équatoriale de Japet enfin expliquée ?

via Les dernières actualités de Futura-Sciences de webmaster@futura-sciences.com (Futura-Sciences) le 18/12/10

L'un des plus étranges satellites de Saturne, Japet, est ceinturé d'un intriguant bourrelet montagneux. Selon une équipe de chercheurs américains, la destruction d'un petit corps en orbite autour du satellite pourrait expliquer cette anomalie topologique.
Japet, la troisième lune de Saturne par la taille (avec un diamètre moyen de 1.472 kilomètres) a été découverte en 1671 par l'astronome Jean-Dominique Cassini. En 2007, tout le monde attendait beaucoup du survol rapproché du satellite par...

Ouvrez, ouvrez la cage aux données

via Clochix de Clochix le 28/11/10

Le collectif Regards Citoyens organisait le 26 Novembre à la Cantine une table ronde consacrée à l'ouverture des données publique (#OpenData). L'occasion de lancer une "chasse aux données" (#DataHunt), initiative citoyenne pour répertorier les jeux de données déjà disponibles, et un site : http://www.nosdonnees.fr/. Une bonne occasion d'essayer de présenter à mes chats cette notion d'OpenData dont ils vont sans doute entendre parler de plus en plus dans les prochains mois.

(La première moitié de ce billet a été initialement rédigée à l'attention de mes collègues, d'où un ton plus policé et des positions qui ne sont pas forcément celles que je défend habituellement. Oui, je suis un sale hypocrite)

#OpenData ?

Le contexte

Depuis de nombreuses années, tant au niveau européen que national se succèdent les règlements visant à instaurer plus de transparence dans la gestion de la vie publique. Depuis 2005, les administrations sont tenues de rendre publiques la plupart de leurs informations, sous réserves qu'elles ne portent pas atteinte à la vie privée et avec certaines exceptions (éducation, culture...).
Parallèlement un mouvement venu des pays anglo-saxon, mu par la volonté de développer l'économie de l'immatériel, pousse les services de l'Etat à mettre leurs données à la disposition des entreprises. Les deux pays précurseurs en matière d'ouverture des données publiques sont les USA et la Grande-Bretagne. Les motivations et les méthodes employées dans ces contrées, car les mentalités sont fort différentes. Très schématiquement, les USA considèrent que les services publics sont au service des entreprises, productrices de la valeur ajoutée. Les partenariats public-privé et la fourniture de services publics par des sociétés privées sont courants. En France, la mise à disposition des entreprises gratuitement de bases de données financées par la collectivité peut rencontrer de fortes réticences, renforcées par certaines pratiques agressives qui peuvent légitimement faire craindre une privatisation de données publiques, et à terme une privatisation des services publics eux-mêmes. Le gouvernement actuel voit les données sont vues comme un patrimoine monétisable^[1].

Pour pouvoir se développer, le mouvement OpenData doit donc d'abord essayer de répondre à plusieurs questions :

quel cadre, comment articuler les acteurs publics et privés, sans en léser aucun et en créant les conditions favorable à l'émergence de nouveaux services;
quelle(s) licence(s) pour les données, quelles conditions pour y accéder et les utiliser : accès gratuit ou payant, autorisation de les réutiliser dans un but commercial ou non, etc;
quel format : du format de publication des données dépendra la simplicité, et donc l'effectivité de leur réutilisation. Une fois le cadre institutionnel et légal fixé, les conditions pratiques de l'ouverture ne sont pas à négliger;

L'OpenData n'en est qu'à ses balbutiements en France et commence juste à se poser ces questions. De nombreuses expériences, à l'initiative de toutes sortes d'acteurs, éclosent depuis quelques mois pour explorer des pistes de réponse.

Les enjeux

Les enjeux sont essentiellement de deux ordres :

citoyens : l'ouverture des données renforce la démocratie, en permettant aux citoyens de mieux contrôler le fonctionnement des institutions (les institutions ne devraient pas craindre cette ouverture et ce contrôle, à moins d'avoir des choses à cacher), en leur donnant des outils pour mieux comprendre le système et en les incitant à s'investir. Bref, pour les "décideurs", l'OpenData, c'est comme les réseaux sociaux, ça fait moderne, démocratique, etc. Et pour les citoyens, cela ouvre de nombreuses perspectives d'augmenter leur pouvoir d'action, de participer aux décisions les concernant;

économiques : l'accès aux données publiques ouvre ne nombreuses perspectives de développement de nouveaux services, qui eux-même créeront de la valeur et de l'activité, etc;

Les acteurs

Les premières expériences en Amérique du Nord laissent penser que la réussite des projets nécessite un réel investissement d'au moins trois types d'acteurs:

les propriétaires des données, c'est à dire les exécutifs des collectivités, doivent avoir une volonté politique d'aller dans ce sens, et réellement œuvrer pour. Cela implique qu'ils soient relativement conscients des enjeux, ou au minimum ne perçoivent pas l'OpenData comme un gadget;
les services techniques réalisant concrètement l'ouverture doivent avoir la motivation et l'expertise pour le faire. Il faut donc les convaincre que l'ouverture leur apportera plus de bénéfices que d'inconvénients, et les former;
les acteurs tiers, société civile et entreprises, doivent faire preuve de dynamisme pour d'encourager le développement des expériences : en créant rapidement rapidement de nouveaux services à valeur ajoutée, en faisant des retours aux services qui ouvrent leurs données, etc;

Les actions d'évangélisation et de formation doivent donc être dirigées vers l'ensemble de ces cibles.

Le cadre légal : les licences

A la fois par crainte d'une privatisation de données publiques, et volonté d'exploiter financièrement ce filon, les collectivités sont tentées de mettre à dispositions leurs données moyennant rémunération, ou avec des licences restreignant leur utilisation. Ainsi par exemple les premières discutions sur le sujet au Conseil de Paris mettaient l'accent sur la valorisation économique et envisageaient des licences spécifiques pour chaque jeu ouvert. Des échanges ont heureusement permis d'infléchir cette position.

L'enjeu est de trouver des licences équilibrées

permettant à n'importe quel acteur d'accéder aux données à un cout raisonnable, qui ne soit pas une barrière;
prévenant la privatisation de données publiques;
garantissant à toutes les parties un retour sur investissement, par exemple en autorisant l'exploitation commerciale de services créés à partir des données. Quant au propriétaire des données, le retour peut être financier, mais aussi en nature, via une offre de services à ses mandants;

Le premier réflexe des propriétaires de données est souvent de vouloir faire payer celles-ci ou d'interdire leur utilisation commerciale. Ce sont malheureusement d'importants freins, qui peuvent décourager d'utiliser les données, et notamment décourager les entreprises espérant un retour financier.

La tentation peut également être forte de créer des licences spécifiques, pour contrôler précisément l'utilisation de ses données. Mais cela constitue encore un frein, en rendant compliqué d'un point de vue juridique l'agrégation de données soumises à des licences différentes et souvent incompatibles.

Enfin comme en matière de licences logicielles, il faut trancher sur la question des données dérivées et l'obligation de re-publier ou non ses modifications si on enrichit les données (schématiquement, licences copyleft ou non, GPL vs BSD).

L'idéal est de se tourner vers des licences existantes, reconnues et déjà largement utilisées, par exemple celles d'Open Data Commons;

A noter qu'en France, l'Etat réfléchit à la création de contrats adaptées au droit national et a par exemple déjà créé la licence "information publique librement réutilisable".

Le format : jeux de données et API

On peut distinguer deux méthodes d'ouverture des données : par la publication de jeux de données ou d'API. Le choix dépend essentiellement du type de données : si elles sont relativement statiques (par exemple des statistiques passées), les jeux de données brutes brutes suffisent. Pour des données dynamiques (météo, état en temps réel du trafic routier, travaux de voirie, agendas, etc), on préfèrera mettre en place des API.

Pour ce qui est des jeux de données, leur qualité dépend en partie du format choisi. Si toute ouverture est intéressante, on plaidera pour l'utilisation de formats simplifiant l'utilisation des données. On peut établir une gradation de ces formats, en s'inspirant de l'échelle proposée par Tim Berners Lee. Une feuille de tableur brute vaut mieux que rien, mais un tableau sera un peu mieux, etc. L'idéal étant soit des formats avec une sémantique forte (cf les nombreuses ontologies proposées par les travaux sur le Web Sémantique), soit la disponibilité d'API permettant d'interroger automatiquement des bases de données (et l'extase est atteinte lorsque les données sont non seulement "sémantisées", mais également liées entre elles, permettant donc de les mettre en relation, de naviguer automatiquement de l'une à l'autre, ce que l'on appelle le Linked Data). Les formats disponibles sont, par ordre croissant d'intérêt :

HTML;
HTML sémantique (via les micro-formats, les micro-données ou RDFa);
formats semi-structurés (CSV...);
formats structurés (XML);
formats sémantiques (RDF);
linked data ♥;

(à noter que la libération d'information sous forme de scans publiés en PDF n'a quasiment aucun intérêt. Cela risque malheureusement d'être le cas de l'immense majorité des informations datant de plus de quelques années, qui n'existent pas au format numérique).

Techniquement, le Web dans son ensemble peut être considéré comme une vaste base de données. Si on fait abstraction de la question des licences, toute information publiée est potentiellement réutilisable. De nombreux outils existent permettant d'interroger cette base de données. Mais plus les données seront structurées (via l'utilisation de formats ad hoc ou d'API), plus il sera facile de les traiter et plus on pourra obtenir de résultats pertinents. Des informations exposées via une API ou en utilisant les technologies du Web sémantique seront très simplement manipulable, l'intégration de chaque nouvelle source ayant un cout marginal faible. A l'inverse, extraire des informations de sources non structurées demande des développements spécifiques couteux. Il faut donc dans la mesure du possible encourager la livraison d'API ou de formats fortement sémantisés.

Et concrètement ?

Les pistes pour développer l'OpenData sont nombreuses:

trouver les données : de nombreuses données sont déjà directement ou indirectement disponibles. Une partie du travail consiste à les identifier et inciter les producteurs à les ouvrir davantage : en précisant leur licence, et améliorant leur format. D'autres ne sont pas encore disponibles, il faut réfléchir à celles dont l'ouverture aurait le plus de sens, et au moyen de les rendre disponibles (par exemple via des partenariats pour la saisie / numérisation de documents papiers);
les rendre disponibles : en choisissant licences et formats. Une étape importante concerne également la sécurisation, notamment l'anonymisation des données à caractère personnel;
encourager l'utilisation et la création de services à valeur ajoutée. Cela passe souvent par l'organisation de concours, de compétitions...

Quelques exemples d'utilisation

cartographie : enrichissement de projets de cartographie libres comme OpenStreetMap avec de nombreux "calques" (services publics, commerces, endroits remarquables, circulation et stationnement, etc);
transports : horaires, disponibilité de ressources comme les vélos partagés, probabilité de trouver une place de stationnement, etc;
environnement : des lois nationales et internationales rendent obligatoire la publicité de certaines informations en matières d'environnement, de pollution, etc. On peut imaginer de nombreux services pour permettre aux gens de collecter des informations sur leur environnement;
finances publiques : publication des comptes de toutes les collectivités permettant leur analyse;
informations pratiques : la plupart des mairies disposent déjà de sites Web publiant de nombreuses informations comme les adresses et horaires des services publics. Mais ceux-ci ne sont pas encore facilement extractibles pour être réutilisés. Les publier à un format sémantique simplifierait leur reprise par d'autres sites;
on pourra regarder ce qui se passe dans des villes pilotes comme Rennes et Brest (l'ouverture a commencé), Bordeaux, Marseille, Montpellier, Nantes et Paris (projets en cours);

Les freins

Un des principaux freins à la libération des données tient à la confusion habituelle entre biens matériels et bien immatériels. Confusion entretenue par exemple lorsqu'on affirme que l'information est le nouveau pétrole. L'Etat lui même entretient cette confusion, qui parle de patrimoine et essaie de facturer au prix fort l'accès à certaines informations. Or il n'en est rien. Si j'ai un bout de pain et que je le partage, j'aurai moins à manger. Si j'ai une information et que je la partage, nous serons plusieurs à détenir l'ensemble de l'information : dans le premier cas le bilan est nul, dans le second il est positif^[2].
Beaucoup de gens craignent, en ouvrant leurs données, de s'en voir dépossédés. Il n'en est évidemment rien. Non seulement ils resteront maitres de leurs informations, mais peuvent en tirer des bénéfices secondaires, en terme de notoriété, de reconnaissance du travail effectué, d'enrichissement par des contributions externes, etc.

Une autre crainte est qu'en ouvrant ses données, soit révélé leur manque de fiabilité. La transparence expose effectivement à des retours. Ils peuvent être négatifs, certes, mais aussi positifs, contribuant à corriger et enrichir les données. Un enjeu est de réussir à encourager ce type de retour, la participation, pour que les producteurs de données tirent également un avantage de leur ouverture.

Par ailleurs, plusieurs démarches et actualités peuvent renforcer les craintes et la méfiance à l'encontre de l'OpenData :

Google est depuis longtemps accusé de pillage, que ce soit par les médias ou les éditeurs. En réaction à ses pratiques (utilisation de données sans demander gentiment la permission et fuite fiscale des bénéfices que la firme en tire), un discours protectionniste se développe de plus en plus, tant de la part des pouvoirs publics que des acteurs de l'ancienne économie qui possèdent de vastes bases de données. Ce discours veut encadrer fortement et rendre payant l'accès aux données sur le Web;
le site genealogie.com met en demeure (huissiers, procès, etc) les conseils généraux de lui permettre de numériser leurs archives, archives qu'il revend ensuite. Les CG confrontés à de telles pratiques risquent d'être particulièrement réticent face à tout nouvelle demande d'accès à leurs données.
Wikileaks bouscule en ce moment sévèrement les "puissants", en les confrontant brutalement à la mise en lumière de toutes leurs activité. Ainsi agressés, ils risquent d're de plus en plus méfiants vis à vis des concepts d'ouverture.

Compte rendu de la table ronde de Regards Citoyens

La soirée s'est bien mal engagée puisqu'elle a commencé par une intervention d'un quelconque hiérarque du cabinet de premier sinistre venu annoncer que le gouvernement se réveillait enfin sur ces sujets. Annoncé à l'issue du précédent conseil des sinistres, le projet Etalab vise à ouvrir à la fin 2011 un portail étatique des données publiques. Vu les compétences de ce gouvernement en matière de numérique et les retards inhérents à ce type de projet, il n'y a donc pas grand chose à attendre de ce côté avant longtemps. Plus intéressant, il a été interrogé sur l'amendement "moralité"^[3] Le costard-cravate et le représentant de l'APIE présents dans le public ont expliqué que cet amendement allait être ré-écrit. D'après leurs explications, l'intérieur s'apprête à rendre publiques des données du fichier des cartes grises et ne voudraient pas qu'elles puissent être utilisées par n'importe qui. L'amendement sera donc reformulé pour être rendu plus acceptable. Au passage, cela dénote à la fois l'incompréhension des enjeux (on entrouvre mais en voulant tout contrôler) et l'habitude de légiférer en se basant sur des cas particuliers.

NosDonnees.fr

Le site http://www.nosdonnees.fr/ a ensuite été présenté. C'est à la fois un annuaire des jeux de données disponibles et un Wiki pour fournir des outils aux chasseurs de données. Chacun peut donc participer et l'enrichir. Il se base sur le logiciel CKAN développé par l'Open Knowledge Foundation. Un des atouts de CKAN est de fournir une API REST pour interroger l'annuaire.

Un exemple d'ouverture en cours : Paris

Une des bonnes surprises de la table ronde fut l'évocation par deux de ses représentants du chantier d'ouverture des données initié à Paris. J'en étais resté à des informations peu encourageantes, lorsque les premières délibérations sur le sujet parlaient surtout de faire payer les données. Manifestement bien du chemin a été parcouru depuis, les personnes en charge du dossier ont l'air ouvertes et convaincues de l'utilité de la chose. Surtout, elles sont plongées concrètement dans toutes les questions, les difficultés qu'un tel chantier pose, et leur expérience est formatrice.
Première bonne nouvelle, la ville de Paris devrait finalement choisir la licence ODbL (Open Database License) que ses services juridiques sont en train de traduire en Français. Donc une licence déjà existante, et reconnue internationalement.
La deuxième bonne nouvelle est que les premiers jeux de données devraient être libérés dès janvier 2011, comme un ballon d'essai. Pour l'instant, les services concernés se livrent à un gros travail de recensement des données disponibles au sein de l'hôtel de Ville, en cherchant les jeux qui seraient facilement libérables.
Ils ont besoin de retours pour aider à convaincre les réticents de l'utilité du projet : informations sur les données qu'il serait utile de diffuser, exemples d'usage des informations déjà libérées, etc. Ils espèrent des échanges qui permettront à la mairie d'améliorer ses bases de données, et d'être plus efficace. Ils espèrent que les besoins exprimés et les usages piloteront la suite du chantier. Leur expérience concrète a été particulièrement intéressante.

Ca bouge un peu partout

Outre Paris, des intervenants ont évoqué d'autres initiatives locales, comme à Bordeaux. Les conseils régionaux d'Aquitaine, Bretagne et PACA travailleraient à définir un cadre commun d'ouverture de leurs données. Etalab n'ayant de tout façon vocation qu'à héberger les informations de l'Etat, on peut s'attendre à voir émerger de nombreux portails locaux.

Anecdote : en Grande-Bretagne, l'administration est la première utilisatrice de son portail OpenData : en effet, les services communiquaient peu entre eux, et le portail leur a fait faire de substantielles économies en leur permettant d'échanger leurs informations.

Les licences

Benjamin Jean, animateur entre autres de Veni Vidi Libri, était venu parler des aspects juridiques. Il a expliqué que la plupart des licences existantes pour les contenus (type Creative Commons) ou les logiciels traitaient essentiellement des questions de droit d'auteur et n'étaient pas adaptées pour les question spécifiques posées par les bases de données. D'où la nécessité de licences spécifiques. Sur le sujet, plutôt que de raconter des bêtises, je vous renvoie à la FAQ d'Open Data Commons.

Il évoque une particularité française, le cas des Etablissements publics à caractère administratifs (EPA) et industriel ou commercial (EPIC). Si les données des administrations sont censées être librement accessibles au public, une partie, parfois conséquente, du budget des EPA et les EPIC dépend de la vente de licences d'accès à leurs bases de données (cf par exemple l'IGN ou la BNF). En l'état actuel, il est donc peut probable qu'elles ouvrent gratuitement leurs bases, à moins d'une compensation financière de l'Etat.

Du point de vu légal, plusieurs participants insistent sur le rôle de l'Europe. C'est déjà une directive européenne qui avait inspirée la loi de 2003 qui a facilité l'accès aux données publiques, et deux autres directives en cours de transposition devraient encore encourager l'ouverture : Inspire (données géographiques) et PSI (Publi Sector Information).

Une loi de 2009 encadre la publication des données à caractère personnel: elles ne peuvent être rendues publiques que si ces données sont rendues anonymes, ou avec le consentement explicites des personnes concernées, ou via le vote d'une loi.

Les formats

La question du format des données libérées fait débat. Certains présents plaident pour faire l'effort de tout publier directement en Linked Data, RDF et compagnie. D'autres estiment que l'on vient de très loin, qu'énormément de données ne sont même pas encore disponibles en numérique au sein des administrations, et que toute libération, quel que soit le format, est donne à prendre. Le tout dans une perspective de collaboration, où les gens qui exploitent les données, citoyens ou entreprises, peuvent prendre les données brutes et se charger de les formater, de les "sémantiser".

De la nécessaire formation

J'avoue qu'une des motivation qui m'avait poussé à mettre le nez dehors pour assister à cette table ronde était la présence de Nicolas Kaiser Brill. Owni est à mon sens aujourd'hui une des plus belles expérience du Web français, en pointe sur le journalisme de données, et je voulais voir l'homme qui avait vu Julien Assange ;-). Sur le coup j'ai été plutôt déçu, Nicolas semble être un geek timide, il a peu parlé et s'est éclipsé avant la fin. Sans doute avait-il une application à finir. Il a évoqué les difficultés pour obtenir des données, mais aussi le manque de formation des journalistes, qui manquent d'outils et de formation pour analyser les flots de données qui arrivent. Il a cité en exemple des chiffres sur la Politique agricole commune, publiés par l'Europe, et qui révèlent que les deux principaux bénéficiaires indirects seraient Nestlé et le Crédit Agricole ! Faute d'habitude de la manipulation de chiffres, peu de journalistes s'y sont intéressés. A noter qu'à l'occasion des récentes annonces du gouvernement britannique, Sir Tim Berners-Lee, qui travaille sur le data.gov.uk, a prononcé un plaidoyer pour inciter les journalistes à se donner les moyens d'analyser les données qui arrivent : The responsibility needs to be with the press. Journalists need to be data-savvy. (...) But now it's also going to be about poring over data and equipping yourself with the tools to analyse it and picking out what's interesting. And keeping it in perspective, helping people out by really seeing where it all fits together, and what's going on in the country. (...) Data-driven journalism is the future

En conclusion

Finalement, tout le monde s'est accordé sur le fait que la tâche la plus importante n'est peut-être pas tant de libérer les données que de former et d'informer. L'essentiel des obstacles à l'ouverture des données ne sont pas techniques, et les problèmes techniques sont solvables (qu'il s'agisse des licences ou du format des données). La priorité est plutôt

d'informer les pouvoirs publics sur la législation (notamment leurs obligations en matière de libre accès aux documents administratifs);
d'éduquer à la compréhension et à l'interprétation des données;

Dernier point : c'est en forgeant qu'on devient forgeron : l'OpenData n'en est qu'à ses balbutiements, c'est en multipliant les expérimentations qu'on pourra découvrir tout son potentiel.

Quelques références

au niveau national a été créée l'Agence du Patrimoine Immatériel de l'Etat (APIE) chargée d'organiser le recensement et l'ouverture des données de l'Etat;
le pendant scientifique de l'APIE est le projet de recherche DataLift visant à développer un Web de données. C'est à mon sens un projet très prometteur car qui semble conscient des enjeux techniques. Mais il vient juste d'être lancé et les premiers résultats tangibles ne sont pas attendus avant plusieurs mois (années ?);
l'ouverture des données publiques est évidemment un territoire exploré par la FING;
le blog LiberTIC publie de nombreuses informations sur le sujet;
le collectif Regards Citoyens est une association œuvrant à la promotion de la démocratie électronique, entre autre en encourageant l'ouverture des données publiques;
la Gazette des communes vient de publier un dossier sur le sujet;
Data Publica est le pendant privé de NosDonnees, une initiative de recensement de données publiques ouvertes initiée par des entreprises françaises;
OpenlyLocal référence les données publiées par les collectivités locales en GB;
les sites institutionnels des états britanniques et étasuniens;

Notes

[1] le nom de la structure créée pour gérer les données de l'Etat est symptomatique : il s'agit de l'Agence du Patrimoine Immatériel (APIE)

[2] ou pas. L'information est un puissant levier de pouvoir. En détenant seul une information, je possède un pouvoir sur ceux qui l'ignorent. En la partageant, je perd mon pouvoir. L'ouverture des données partage le pouvoir et fait donc perdre aux détenteurs actuels leur avantage

[3] comme si la LOPSSI ne contenait pas assez de saloperies sécuritaires, le ministère de l'intérieur a cru bon de déposer un amendement pour soumettre à des contrôle de moralité les sociétés qui voudraient ré-utiliser des données publiques !

WikiLeaks fait craindre le "Big Business"

via Le Monde.fr : à la Une le 17/12/10

Les télégrammes de la diplomatie américaine obtenus par WikiLeaks et révélés par "Le Monde" fait frissonner les plus avertis des chefs d'entreprise.

Les robots génétiques inventeront leurs propres formes

via Les dernières actualités de Futura-Sciences de webmaster@futura-sciences.com (Futura-Sciences) le 18/12/10

Dites-lui « construis-moi un robot capable de monter un escalier » et, en utilisant seulement quelques composants simples et déjà existants, l'ordinateur, avec son algorithme « génétique », trouvera comment les assembler, à la manière d'un jeu de Lego. Il suffirait de disposer d'un système automatique d'assemblage - ce qui est déjà possible - pour créer une population de robots adaptatifs...
Au salon Euromold qui vient de se tenir à Francfort, Andreas Fischer et son équipe ont montré de curieux...

La bourse ou la vie : la rationalité des marchés au service de la loi

via Ecopublix de Guilhem le 13/12/10

Depuis la crise des subprimes, on a beaucoup entendu parler de l’irrationalité des marchés et des conséquences néfastes de celle-ci sur l’économie. Ce post se propose de se faire un peu l’avocat du diable en montrant comment, grâce au fait que les marchés ne sont généralement pas irrationnels, on peut les utiliser afin d’avoir une activité parfaitement bénéfique, à savoir détecter et mesurer des activités illégales. En effet, le cours des actions n’est pas uniquement dû au comportement de spéculateurs fous coupés de toute réalité économique, mais reflètent également pour partie ce que les actionnaires croient savoir des profits futurs de l’entreprise dont ils échangent les actions. Le cours des actions est donc affecté par le constant réajustement de ces anticipations aux nouvelles pouvant influencer ces profits futurs. Dès lors, le cours des actions, ainsi que son évolution, constitue une source d’information sur la manière dont les actionnaires pensent que les profits évolueront en fonction des évènements qui susceptibles d'affecter la vie de l’entreprise. Les cours boursiers peuvent donc être utilisés pour chercher à comprendre ce qui fait, d’après les actionnaires, la valeur de ces entreprises, et, pourquoi pas, en débusquer les activités illégales, telles que la corruption ou la vente d’arme à des pays sous embargo de l’ONU. Nous verrons donc tout d’abord pourquoi il tout à fait plausible que la réaction instantanée du cours de l’action d’une entreprise à un évènement révèle une information valable sur l’influence de celui-ci sur les profits à venir, avant de voir comment utiliser cette intuition pour détecter les activités illégales des entreprises. Ce post s’inspire d’un cours d’Eliana La Ferrara, spécialiste de ces sujets (disponible ici).

I. La méthode des event studies.

La littérature consacrée à ces questions utilise une méthode baptisée event studies (« étude d’évènements ») qui fut d’abord développée en finance à la fin des années 1960 pour comprendre, comme son nom l’indique, l’impact d’événements divers (fusions, chocs macroéconomiques…) sur le cours boursier des entreprises et donc, peut-être, sur les profits futurs de ces dernières. Comme évoqué en introduction, cette méthode suppose une certaine rationalité des marchés, avec l’idée que le cours boursier répond instantanément aux évènements en fonction de leur impact sur l’évolution anticipée des profits des entreprises. Face à une fusion, par exemple, les détenteurs d’actions qui pensent que celle-ci est mauvaise pour les profits de l’entreprise vont chercher à vendre leurs actions, tandis que ceux qui pensent la fusion est une bonne opportunité pour l’entreprise chercheront à en acheter. Il en résulte que le prix de l’action augmentera ou diminuera en fonction du poids de chaque type d’anticipation et, au final, si le prix augmente (diminue), on pourra dire que le « marché » évalue la fusion comme un évènement positif (négatif) pour l’entreprise. Au passage, une petite précision sémantique : quand je parle d’évènements, il faut comprendre évènements imprévus, car si ceux-ci étaient prévus/prévisibles, alors le cours des actions ne serait pas affecté par leur réalisation, puisqu’ils auraient déjà été incorporé dans le cours.

Mais le « marché » est composé d’une multitude d’acheteurs et de vendeurs, tous très différents. Pourquoi la somme de leurs actions souvent contradictoires peut-elle apporter une quelconque information ? En effet, les actionnaires tentent, avec l’information dont ils disposent, d’ajuster au mieux leur portefeuille d’action. Mais tous les actionnaires ne sont pas égaux : on imagine bien que le petit actionnaire a autre chose à faire que de passer sa vie à étudier en détail les activités des chacune des entreprises dont il détient des actions. On peut donc supposer que l’information dont disposent les petits actionnaires ne va guère plus loin que ce qui est disponible dans la presse économique, et que face à un évènement relativement ambigu pour son entreprise, il ne sache pas vraiment comment réagir. Il n’en va pas de même pour les gros actionnaires, souvent présents dans les instances dirigeantes des entreprises, et qui jouent beaucoup plus gros : ils ont une incitation très forte à avoir des informations précises sur les activités de leur entreprise et sont en position d’obtenir plus aisément cette information. Dès lors, la réaction du cours des actions d’une entreprise à un évènement est également influencée par l’information privée que détiennent les gros actionnaires, mieux à même d’interpréter l’impact d'un évènement que l’actionnaire moyen. On peut donc utiliser la variation des cours de l’action pour essayer de déceler cette information privée, souvent secrète, si l’on est à même d’identifier des types d’évènements permettant de la révéler par le biais de leur influence sur le cours des actions de l’entreprise.

L’un des exemples les plus fameux de la répercussion d’un évènement sur le cours boursier d’une entreprise due à la connaissance spécifique de ses actionnaires est l’explosion de la navette Challenger en 1986 (étudié par Maloney et Mulherin en 2003,) : alors qu’il a fallu plusieurs semaines à la commission d’enquête pour débusquer la pièce défectueuse, à peine une heure après l’explosion, et alors que le cours de toutes les entreprises liées à Challenger a diminué, une seule entreprise voit le cours de son action continuer à s’effondrer : Morton-Thiokol, l'entreprise justement responsable de la construction de l’élément défectueux (le fameux « O-ring »)…

II. Les event studies appliquées à la mesure des activités illégales.

Des chercheurs ont alors eu l’idée d’appliquer ce genre de méthodes à des évènements permettant de distinguer les entreprises ayant des activités illégales, et d’évaluer ainsi la part de profit qu'elles tirent de ces activités.

L’étude pionnière dans ce domaine est celle de Ray Fisman sur la corruption en Indonésie sous Suharto. Dans cet article, Fisman cherche à mettre en évidence l’importance des connections politiques à Suharto dans le profit des entreprises. Classant les entreprises cotées sur la bourse indonésienne en fonction de leur proximité avec le clan Suharto, il utilise comme « évènements » les 6 principales alertes de santé qu’a connues Suharto à la fin de son règne, et qui chacune annonçait le rapprochement de cette fin de règne. On constate alors que les entreprises les plus liées au clan Suharto voient leur cours brusquement chuter le jour de ces alertes (voir Figure 2), signe que le profit de ces entreprises n’est pas lié à leur technologie, mais à leur aptitude à obtenir des marchés par le biais de petits arrangements avec la famille Suharto. A l’aide de cette méthode, il estime que si la bourse dans son ensemble perd 1 % à la suite de ces rumeurs, chaque niveau de connexion au clan Suharto ajoute encore 0,28 point de pourcentage à cette perte (i.e. dans une situation où le marché juge l’état de santé de Suharto tellement grave que la valeur boursière dans son ensemble diminue de 1% en raison des craintes pour l’ensemble de l’économie Indonésienne, les entreprises très liées à Suharto –indice de dépendance à Suharto de 4 – perdront elles 2,02 %). Le pourcentage peut paraitre faible, mais il faut garder en tête qu’il ne s’agit là de l’impact de la variation dans la probabilité du décès de Suharto, et non pas de l’impact du décès lui-même, dont on peut penser qu’il serait bien plus grand. On notera au passage que Fisman a également appliqué cette technique aux entreprises liées à Dick Cheney, l’ex Vice-président des Etats-Unis, largement soupçonné d’avoir favorisé ses anciens employeurs dans l’obtention de contrats en Irak, mais n’a rien trouvé de probant, ce qui suggère que malgré les soupçons pesant sur lui, Dick Cheney n’a eu que peu d’influence sur l’allocation des contrats d’armement à une entreprise plutôt qu’à une autre. D’autres encore ont montré à quel point il était profitable d’être liés au Nazis dans l’Allemagne hitlérienne.

Della Vigna et La Ferrara ont recours au même type de méthode pour détecter le commerce illégal d’armes Pour ce faire, ils ont recours, tout comme Fisman, à des évènements imprévisibles survenus à l'occasion de conflits armés pour d’évaluer l’impact de ceux-ci sur les cours des entreprises de vente d'armes. L’idée est simple : les pays sous embargo de l’ONU ne doivent en théorie pas pouvoir acheter d’armes à l’étranger. Il en résulte que si un évènement imprévisible vient augmenter la durée probable du conflit, cela réduira le cours boursier des vendeurs d’armes qui respectent l’embargo (et n’auront donc pas accès à ce marché pour plus longtemps que prévu) et augmentera les cours des entreprises passant outre l’embargo (qui peuvent extraire plus de profit plus longtemps du pays sous embargo). Pour détecter ces évènements, les chercheurs utilisent la base de données Lexis Nexis Academic, qui a numérisé une très grande partie de la presse depuis les années 80, pour identifier et coder les évènements imprévisibles à même d’allonger ou de raccourcir la durée des conflits donnant lieu à embargo. Ils procèdent alors à deux types d’analyses. Tout d’abord, ils séparent les firmes situées dans des pays à faible corruption de celles situées dans les pays corrompus, l’idée étant que violer l’embargo est beaucoup moins coûteux pour les secondes que pour les premières. Ils constatent alors qu’en effet, ce sont les firmes situées dans les pays les plus corrompus qui voient leurs cours grimper quand la durée du conflit semble devoir s’allonger, et vice versa (voir figure 3). Puis ils utilisent cette même méthode pour distinguer précisément quelle entreprise semble bénéficier de ces évènements, et donc suspecte de violer l’embargo.

III. Conclusion.

Loin d’être systématiquement néfastes et irrationnels, les marchés boursiers répondent très souvent à une logique économique. Dès lors, les cours des actions et leur évolution sont pour partie déterminés par ce que l’on appelle les « fondamentaux », à savoir les profits futurs anticipés des entreprises, et non uniquement par une spéculation que l’on présente souvent comme aveugle et coupée de la réalité. Le cours des actions offre donc une source d’information sur ce que pensent les propriétaires, les actionnaires, sur l’évolution de leur entreprise, et notamment, permet de débusquer l’information privée que détiennent ceux-ci sur les activités parfois illégales de leur entreprise. Intelligemment utilisée, cette caractéristique offre des possibilités insoupçonnées, notamment pour qui partirait du postulat que les marchés boursiers pour par définition irrationnels, passant alors à côté d’un outil puissant de compréhension de la vie économique.

Liste de partage de Grorico

Après Stuxnet, l’âge de la parano commence

La crête équatoriale de Japet enfin expliquée ?

Ouvrez, ouvrez la cage aux données

#OpenData ?

Le contexte

Les enjeux

Les acteurs

Le cadre légal : les licences

Le format : jeux de données et API

Et concrètement ?

Quelques exemples d'utilisation

Les freins

Compte rendu de la table ronde de Regards Citoyens

NosDonnees.fr

Un exemple d'ouverture en cours : Paris

Ca bouge un peu partout

Les licences

Les formats

De la nécessaire formation

En conclusion

Quelques références

Notes

WikiLeaks fait craindre le "Big Business"

Les robots génétiques inventeront leurs propres formes

La bourse ou la vie : la rationalité des marchés au service de la loi

SAPÉ - Chez UBS, s'habiller est une science exacte

Portes cachées par le FBI dans OpenBSD IPSEC ?

Wikileaks : du poujadisme participatif |