La qualité du bordeaux est-elle mathématiquement prévisible ? edit

23 avril 2008

L’accumulation d’information et la sophistication croissante de la technologie donnent aux données informatiques un rôle nouveau dans la vie sociale et le fonctionnement des institutions. L’information s’infiltre dans la vie sociale, construit la perception des événements, définit les priorités et la façon dont nous les concevons et les traitons. L’analyse des bases de données permettra-t-elle de tout prédire ?

Dans un livre récent et provocateur qui devrait chagriner de nombreux humanistes (Super Crunchers: How Anything Can Be Predicted, London: John Murray, 2007), le juriste américain Ian Ayres montre comment les technologies modernes de communication et d’informatique participent à la construction de relations humaines et de profils personnels via la manipulation des données disponibles.

Ayres ouvre son livre sur un événement qui a symbolisé le début du nouvel âge qu’il cherche à décrire : le scandale créé dans les cercles œnologiques américains par un économiste de Princeton, Orley Clark Ashenfelter. On sait que la qualité des vins de Bordeaux dépend de la maturité des grappes et de la concentration du jus. Ces deux caractéristiques sont influencées par le niveau des précipitations et la température. En combinant les données sur les conditions météorologiques, Ashenfelter fut capable de prédire avec une étonnante précision la qualité des bordeaux pour les années 1989 et 1990. Sa vision mathématique du vin a bien entendu suscité l’ire d’un establishment dont les intérêts commerciaux, les rites et les activités étaient fondés sur la prédiction de la qualité du vin, mais elle valu à Ashenfelter une notoriété internationale.

L’analyse des données semble désormais pouvoir se passer de l’expertise humaine pour, sur une large gamme d’activités et d’expériences, extraire des schémas, des modes de relations et de causalité. Bien sûr, cette idée n’est pas nouvelle. On l’a souvent entendue au cours des dernières décennies, ce qui a soulevé des espoirs qui ont le plus souvent conduit à des désillusions. Mais il y a de bonnes raisons de croire qu’elle prend aujourd’hui une pertinence particulière, du fait des conditions créées par un ensemble entièrement nouveau d’arrangements technologiques, organisationnels et culturels qui capturent, stockent, traitent et font circuler des données d’une incroyable richesse. Cela donne à cette vieille idée une crédibilité qu’elle n’avait pas au temps où Hubert L. Dreyfus et quelques autres ont détruit les illusions de l’intelligence artificielle.

Ce que nous sommes et notre façon d’agir se révèle dans l’analyse et la permutation des données qui enregistrent les modèles de transactions et autres caractéristiques de chacun. La comparaison de nos habitudes et de nos choix au fil du temps et à travers différentes activités permet d’établir des profils individuels, sur la base d’éléments situés aux limites du champ de notre perception et de notre compréhension. Les profils ainsi construit vont de l’analyse de nos modes de consommation en ligne à des activités plus complexes qui, dans un cadre traditionnel, supposent une médiation ou une présence humaine ; ainsi de l’expertise médicale, juridique, financière, mais aussi de nos activités sportives, de nos préférences sexuelles, de nos partenaire et de nos relations amicales. Une bonne illustration de ces tendances est l’idée d’une « ombre numérique » (digital shadow) qui serait projetée par la quantité et la diversité de données liée à un individu sans être forcément de son propre fait. Il s’agit des données qui nous concernent mais sont produites par d’autres (caméras de surveillance, compagnies aériennes, hôpitaux), à quoi s’ajoutent les traces de nos habitudes sur Internet.

L’affirmation la plus importante d’Ayres concerne la signification des analyses de données. En simplifiant un peu, nous pouvons dire que le problème n’est plus de savoir si les machines peuvent égaler l’intelligence humaine, mais plutôt l’étendue de ce que l’on peut accomplir en se fondant sur la disponibilité de données standardisées, organisées dans des bases énormes et souvent interopérables gérées par de puissants processeurs. Ayres accumule des exemples convaincants sur une grande variété de champs (par exemple le baseball, les échecs, les vols de voiture, les rencontres amoureuses par Internet, la finance) qui démontreraient in fine la supériorité de l’analyse de données sur ce qu’il appelle l’expertise d’observation. Les affirmations d’Ayers sont stimulantes et elles viennent au bon moment. Eviter de se confronter à ces arguments reviendrait à tourner le dos à la réalité. Pour autant, nous ne partageons pas la vision optimiste selon laquelle les supercrunchers, ces programmes qui traitent des bases de données géantes, mèneront immanquablement à de meilleures décisions et encore moins à une meilleure société. Car « meilleur » est un terme éthique et non cognitif, et s’il arrive que l’éthique et la connaissance aillent de pair, le plus souvent ce n’est pas le cas. Considérons rapidement certains des problèmes que le « databasing » des modèles de vie risque de faire apparaître.

Le problème n’est pas de savoir si les ordinateurs actuels, étant donné l’énormité des bases de données et la puissance des capacités de traitements, sont plus à même que les humains d’analyser et de prédire la réalité. Dans un monde dominé par l’information technologique, qui est interopérable et granulaire, les agents et les décideurs humains sont déjà dans une position défavorisée sur le plan cognitif, de la même façon qu’un piéton ou un cycliste ne peut pas faire concurrence aux autos sur les routes.

Mais la connaissance, quelle que soit son importance, n’est qu’une partie de ce qui définit l’humanité et ses capacités d’agir. Et la médiation de la réalité telle qu’elle est effectuée par les bases de données suit des principes fondés sur une seule forme de connaissance, certes importante mais néanmoins mineure, qui favorise la classification et la normalisation des données et des événements. Par ailleurs, les données ne sont pas enregistrées au hasard. Elles doivent au contraire être conformes aux catégories de la base de données et plus largement avec la mécanique fondamentale du traitement des données informatisées. La classification et la normalisation présupposent ainsi l’opération directe ou indirecte d’un échafaudage conceptuel élaboré selon une logique dont les catégories ont du sens. La diffusion des méthodes d’analyses impliquant des bases de données implique que ce modèle prenne le pas sur d’autres schémas de perception des événements et de la vie. Ce qui est enregistré dans les bases de données doit passer par le goulot d’étranglement du modèle conceptuel sur lequel est construite la base de données et par les formes standardisées des données ou de l’information que le système technologique rend possible. Une information qui ne s’ajuste pas aux catégories de la base et à la volonté de normalisation des données ne sera probablement pas perçue, négligée, ou déformée.

Le modèle intellectuel de la base de données descend de très anciennes techniques d’enregistrement des informations : les listes, les tables, et les autres formes d’écritures non-verbales. Geoffrey Bowker rappelait récemment que les bases de données ne sont pas un produit de la révolution informatique, comme le pensent la plupart des gens, mais que « la révolution informatique est un produit de l’importance croissante des bases de données dans la pensée moderne ». L’organisation cognitive non-verbale des bases de données contraste avec les stratégies traditionnelles de narration, où le récit est essentiel pour tirer un sens de la réalité et contribue largement à la construction des trajectoires de vie et des identités personnelles. Comme l’a suggéré Lev Manovich dans The Language of New Media (MIT Press, 2001), le modèle de la base de données renverse l’ordre des éléments classiques du récit (c’est-à-dire l’intrigue et la description), en minimisant la narration et l’art de conter et en conférant énormément d’importance à la description. Les connexions logiques qui structurent les bases de données prennent l’ascendant sur d’autres formes de connexions (dialogiques, diacritiques, analogiques) et contribuent à la constitution dans la vie moderne de formes directement dérivées des associations qui apparaissent dans les bases de données données. Ces formes impactent directement les représentations et les décisions, aussi bien dans la vie personnelle de chacun que dans la définition des politiques publiques ou des stratégies d’entreprise.

Les structuralistes et post-structuralistes diront bien sûr que le modèle de la base de données ne fait que rendre évidentes les opérations logiques (polarités cognitives, différences) qui sous-tendent toute pensée et toute connaissance humaines, y compris celles qui se font jour sous d’autres formes comme le récit. Mais la distinction a ses vertus et il est important de la maintenir. Car, comme pourrait le dire Lévi-Strauss, les bases de données augmentent infiniment les permutations possibles des éléments enregistrés, du fait de la standardisation et de la granularité de leurs éléments. En outre, elles institutionnalisent leurs formes d’inscription dans le réel. On n’est plus dans une simple représentation mais dans une profonde reconfiguration du réel.

Ce bref commentaire suggère ainsi de revoir notre appréciation des développements technologiques récents. Le problème n’est plus de questionner les accomplissements ou les perspectives de l’analyse de données mais plutôt de marquer son territoire et d’interroger les présupposés cachés qui fondent sa prééminence. Comment ? En mettant l’accent sur ce qui est systématiquement exclu des principes de la construction de données et du raisonnement algorithmique, nous pouvons obtenir une vision plus précise de ce qui est gagné et de ce qui est perdu quand l’information technologique devient le principal outil de compréhension et d’action, et donc en dernier ressort de construction de la réalité. Enfin, il ne faut pas oublier, comme nous l’avons noté sur Telos dans un article précédent, que l’usage et la légitimation de la base de données et de ses dérivées cognitives sont aujourd’hui soutenus par une puissante machinerie institutionnelle, qui par dessein ou par implication donne une priorité à la logique sur les autres manière de représenter et de mener sa vie.