Michael I. Jordan est professeur d’informatique à l’université de Berkeley depuis 1998, après l’avoir été au Massachusetts Institute of Technology (MIT). Docteur en science cognitive, il est l’auteur de travaux pionniers et majeurs en apprentissage statistique (machine learning en anglais) qui s’appliquent au langage ou à la génétique. Nombre de ses anciens étudiants travaillent chez Google, Facebook, Microsoft.
Les concepts de big data et de « machine learning » sont-ils une
mode, comme il y en a eu souvent en
sciences, ou sont-ils annonciateurs de changements profonds ?
Ils sont annonciateurs de changements très profonds qui vont
arriver au cours du prochain siècle. Avant le big data, nous avions des données collectives qui permettaient de
cerner une
population. Nous avons désormais des données sur tous les individus, donc précisément sur chacun d’entre eux. Prenons l’exemple d’un moteur de recherche. Jusqu’à présent, une requête comme « Je veux un billet d’avion pour
aller à
Paris » engendrait une réponse similaire pour tous. Avec le big data, la réponse va s’adapter à la personne qui la demande, à son profil, à son
histoire personnelle.
Pour la première fois dans l’Histoire, des produits, des services, donc des marchés adaptés à chacun d’entre nous vont
être créés. On voit déjà
émerger, par exemple, une
médecine prédictive : en fonction de notre génome, on va
pouvoir calculer la probabilité d’avoir telle ou telle maladie.
Vous n’excluez pas cependant un « hiver du big data », une période sombre pour l’analyse des données massives. Pourquoi ?
Le battage médiatique autour des possibilités excitantes de l’analyse du big data est trop important. Les attentes actuelles dépassent de loin la réalité de ce que l’on peut
obtenir. Le problème est que lorsque de telles attentes ne sont pas remplies tout de suite, la déception engendrée peut
jeter un discrédit sur l’ensemble même du secteur. En oubliant que, dans toute entreprise humaine, certains problèmes complexes prennent plusieurs années, sinon des décennies, à être résolus.
Nous allons certainement
connaître des retours de bâton sur certains projets. Dans le domaine de l’
intelligence artificielle (IA), nous en avons déjà fait l’expérience à deux reprises, dans les années 1980 et 2000.
Si l’impression perçue est que le secteur du big data a échoué, les conséquences vont
devenir très réelles : il va être difficile d’obtenir des financements pour
poursuivre les recherches ou
démarrer de nouvelles
entreprises.
C’est un cercle vicieux. Les problèmes, bien réels, ne seront alors pas résolus, ce qui ne fera que
confirmer l’analyse négative sur le secteur. Cela peut
prendre une décennie pour se
remettre d’un tel engrenage.
A quel problème fait-on face ?
Nous sommes devant un problème d’ingénieur. J’aime prendre l’analogie de la construction d’un pont. Cela fait des milliers d’années que des personnes en construisent. Les gens acceptent de les
traverser, même si parfois ils s’écroulent, lors d’un tremblement de terre par exemple. Au fil des siècles, nous avons développé un
savoir, l’ingénierie civile, pour
donner des principes à ces constructions, en intégrant des contextes et des conditions différentes. Nous avons actuellement besoin de principes similaires pour
bâtir les systèmes qui utilisent des données.
Nous devons par exemple mieux
contrôler et
éviter les « faux-positifs », ces informations statistiques qui semblent correctes et ne le sont pas. De très bonnes publications scientifiques récentes s’attaquent de façon frontale à ce problème : Le « taux de découverte de faux ». Mais pour l’instant, on ne sait pas encore comment les éviter à grande échelle dans la science et l’
industrie.
Parlons justement des erreurs de prédiction actuelles. Pourquoi le grand nombre de données, sur des millions de gens, peut-il
conduire à des erreurs ?
Supposons, par exemple, que j’ai rassemblé des centaines de milliers d’informations décrivant des individus dans une base de données (film préféré, utilisation ou non d’un vélo pour aller au travail, plat favori…). Supposons maintenant que j’essaie de
prédire si ces personnes vont prendre le train la semaine prochaine.
Lorsqu’il existe des centaines de milliers de données descriptives sur une personne et qu’on analyse leurs différentes combinaisons, on se rend compte que, par le seul hasard, un grand nombre de ces combinaisons vont prédire n’importe quel résultat.
On peut, par exemple,
conclure que n’importe quelle personne appréciant le film
Rashomon d’Akira Kurosawa, allant au travail en vélo et aimant le couscous va prendre le train la semaine prochaine. Mais si nous croyons à ce type de résultats, nous allons au devant d’une grande déception car ce schéma de prédiction n’est pas reproductible.
D’ailleurs, même si l’on n’a qu’un millier d’informations descriptives sur un individu, le nombre de combinaisons possibles de ces données est supérieur au nombre d’atomes dans l’Univers. De fait, on peut
faire dire tout et son contraire à ces combinaisons.
Et ce problème ne va qu’empirer, alors que le nombre de données disponibles ne cesse de
grandir.
Quelle est la parade ?
Le défi des prochaines années est de
développer des algorithmes d’
analyses de données qui soient fiables. Il s’agit en particulier de savoir quelle sera la durée du calcul et quel en sera son taux d’erreur.
Les fondements de la science des données résident, me semble-t-il, dans la puissante combinaison de deux pensées, l’une inductive (propre aux statistiques), et l’autre, de calcul (dite aussi déductive).
Le défi de la pensée inductive est de
regarder derrière les données pour
essayer de
comprendre le phénomène réel qui a donné lieu aux données. Il s’agit d’adopter une approche mathématique systématique pour comprendre comment les données sont générées, en prenant bien en compte les biais qui peuvent
apparaître par les méthodes d’échantillonnage utilisées. La difficulté est de cerner si cela affecte notre capacité à
induire la « vérité sous-jacente » des données.
Le défi de la pensée de calcul est de
réussir à
simplifier des problèmes complexes en les morcelant et en développant des algorithmes qui ensuite les résolvent.
Gartner Group vient d’annoncer que d’ici à 2020, 2 millions d’Américains devront
partager leurs données de santé pour pouvoir trouver un
emploi. De nombreux DRH fantasment sur les données personnelles pour mieux
recruter et
gérer leurs salariés. Faut-il
calmer le jeu ? Comment la société va-t-elle
devoir s’organiser ?
Cette effervescence montre que nous aurons besoin d’un siècle au moins pour
appréhender ces nouvelles problématiques qui sont tout à la fois scientifiques, technologiques, sociétales, juridiques. Nous sommes nous-mêmes ambigus face à l’utilisation des données personnelles. Nous pouvons
percevoir leur utilisation comme une intrusion dans notre
vie privée. Tout en nous réjouissant, dans un autre
contexte, des 20 % de réduction que l’on va nous
proposer dans notre restaurant préféré, justement grâce à l’analyse de ces mêmes données.
Dans le domaine médical, par exemple, nous ne voyons pas d’un bon œil l’utilisation de nos données personnelles par un groupe d’assurance. Mais sommes prêts à les
communiquer si cela peut
permettre à quelqu’un de notre
famille de savoir s’il risque de développer certaines maladies. On voit bien que l’acceptation sociétale dépend du contexte, et il va
falloir que le système juridique s’adapte à cette nouvelle donne. Mais les mathématiciens et les informaticiens peuvent aussi y
contribuer.
De quelle manière ?
Mes travaux, et d’autres, depuis dix ans, ont montré qu’il est possible d’interroger des bases de données sans pour autant
avoir accès directement aux données individuelles. C’est ce que l’on appelle la « differential privacy ». Cela revient à
analyser la vie privée tout en la protégeant ! Nous avons en outre développé des techniques qui permettent d’ajuster un paramètre afin de
libérer plus ou moins l’accès à des données sensibles. Mais ce n’est que le début de l’histoire !
Des données sensibles, biomédicales et comportementales sont désormais propriétés de
sociétés privées. Ne faut-il pas aussi
imaginer de nouveaux cadres éthiques pour
encadrer les recherches ?
Je ne suis pas expert juridique, mais bien sûr, une réflexion doit avoir lieu. Et tous les acteurs de la société doivent y
participer. Ce n’est ni aux experts en technologie ni au marché de
dicter seuls les règles.
Les entreprises telles que Google ou
Facebook connaissent de toute façon leur fragilité. Les consommateurs ont un pouvoir, celui de se
détourner d’une entreprise qui est allé trop loin dans l’utilisation des données ou le non-respect de la vie privée. Regardez My Space. Cette entreprise a disparu car les consommateurs se sont détournés de leurs services.
Comment
aider justement les citoyens à comprendre ? N’y a-t-il pas une responsabilité, notamment des scientifiques, pour
vulgariser cette complexité actuelle ?
Nous avons en effet une responsabilité sociale. A l’université, nous sommes chercheurs et enseignants, une double casquette particulièrement nécessaire actuellement.
Nous venons d’ailleurs de
lancer, en octobre à Berkeley, un cours pilote pour les étudiants de première année intitulé « Databears ». C’est un cours transversal destiné à tous, quel que soit leur discipline. L’objectif est d’augmenter leur
culture générale sur la statistique et les données. Il y a des cours d’informatique, des conférences sur l’éthique, la propriété des données, les aspects artistiques… Tout
le monde doit avoir suffisamment de connaissances pour pouvoir participer au débat sociétal, devenir un consommateur averti qui puisse également prendre des décisions en connaissance de cause dans sa vie personnelle.
Nous sommes les premiers à le faire au niveau des très jeunes étudiants, mais toutes les
universités se rendent compte que cette approche est nécessaire.
Vous prônez, dans ce cursus, un enseignement transversal. Pourquoi ?
Nous sommes dans un nouveau siècle des Lumières. Voltaire s’intéressait à tout. Il s’agissait à l’époque d’appréhender les implications des découvertes dans tous les domaines. Les avancées actuelles rendent la période comparable.
Du reste, depuis une dizaine d’années, des universités forment des scientifiques à une triple
formation, en informatique, en statistique et en sociologie. C’est en voyant l’émergence de Facebook, Google et du développement des
réseaux sociaux et des problématiques technologiques sous-jacentes que ces types de cursus sont apparus.
Je suis
moi-même un scientifique interdisciplinaire. J’ai commencé ma formation par des études de philosophie et de sciences cognitives. Mon premier travail a été d’enseigner les neurosciences, et maintenant, je fais des
mathématiques et des statistiques. Cela permet de prendre des
idées un peu partout. Une approche transversale est primordiale pour
saisir le
monde actuel.
Une grande partie des données personnelles sont détenues par des groupes privés. Avez-vous des relations avec ces entreprises, ou restez-
vous dans le monde académique ?
En
France, c’est encore possible d’être complètement dans le monde académique, aux Etats-Unis, ça ne l’est plus. Je fais partie du AMPlab, à Berkeley, un groupe de 6 ou 7 professeurs soutenus par toutes les grandes entreprises Internet, telles que Google, Facebook,
Amazon, Microsoft… Il ne s’agit pas de budgets alloués précisément à des recherches. C’est tout simplement de l’argent pour que nous continuions nos travaux. En faisant de la recherche fondamentale qui pourra leur
servir à un moment donné. J’aime bien être associé à des entreprises car on peut
voir de façon très concrète certains problèmes.
En revanche, il est vrai que l’on a peu accès aux données. Chaque entreprise a ses propres avocats qui expliquent que cet accès n’est pas possible pour des problèmes de confidentialité de la vie privée mais aussi à cause de questions stratégiques. C’est dans les données que se trouve toute la valeur stratégique d’une entreprise.
Préféreriez - vous avoir de l’argent uniquement public ?
Le gouvernement nous donne moins d’argent qu’il y a cinq ans ou dix ans. C’est donc ces entreprises qui nous donnent des fonds. Nous n’avons pas le choix.