samedi 2 janvier 2016

mercredi 6 janvier : Michael Jordan : « Une approche transversale est primordiale pour saisir le monde actuel »

Michael Jordan : « Une approche transversale est primordiale pour saisir le monde actuel »

Cat1-2*
http://mobile.lemonde.fr/sciences/article/2015/12/01/michael-jordan-une-approche-transversale-est-primordiale-pour-saisir-le-monde-actuel_4821327_1650684.html?xtref=acc_dir

Michael I. Jordan est professeur d’informatique à l’université de Berkeley depuis 1998, après l’avoir été au Massachusetts ­Institute of Technology (MIT). Docteur en science cognitive, il est l’auteur de travaux pionniers et majeurs en apprentissage statistique (machine learning en anglais) qui s’appliquent au langage ou à la génétique. Nombre de ses anciens étudiants travaillent chez GoogleFacebookMicrosoft.

Les concepts de big data et de « machine learning » sont-ils une mode, comme il y en a eu souvent en sciences, ou sont-ils annonciateurs de changements profonds ?
Ils sont annonciateurs de changements très profonds qui vont arriver au cours du prochain siècle. Avant le big data, nous avions des données collectives qui permettaient de cerner une population. Nous avons désormais des données sur tous les individus, donc précisément sur chacun d’entre eux. Prenons l’exemple d’un moteur de recherche. Jusqu’à présent, une requête comme « Je veux un billet d’avion pour aller à Paris » engendrait une réponse similaire pour tous. Avec le big data, la réponse va s’adapter à la personne qui la demande, à son profil, à son histoire personnelle.
Pour la première fois dans l’Histoire, des produits, des services, donc des marchés adaptés à chacun d’entre nous vont être créés. On voit déjà émerger, par exemple, une médecine prédictive : en fonction de notre génome, on va pouvoir calculer la probabilité d’avoir telle ou telle maladie.
Vous n’excluez pas cependant un « hiver du big data », une période sombre pour l’analyse des données massives. Pourquoi ?
Le battage médiatique autour des possibilités excitantes de l’analyse du big data est trop important. Les attentes actuelles dépassent de loin la réalité de ce que l’on peut obtenir. Le problème est que lorsque de telles attentes ne sont pas remplies tout de suite, la déception engendrée peut jeter un discrédit sur l’ensemble même du secteur. En oubliant que, dans toute entreprise humaine, certains problèmes complexes prennent plusieurs années, sinon des décennies, à être résolus.
Nous allons certainement connaître des retours de bâton sur certains projets. Dans le domaine de l’intelligence artificielle (IA), nous en avons déjà fait l’expérience à deux reprises, dans les années 1980 et 2000.
Si l’impression perçue est que le secteur du big data a échoué, les conséquences vont devenir très réelles : il va être difficile d’obtenir des financements pour poursuivre les recherches ou démarrer de nouvelles entreprises.
C’est un cercle vicieux. Les problèmes, bien réels, ne seront alors pas résolus, ce qui ne fera que confirmer l’analyse négative sur le secteur. Cela peut prendre une décennie pour se remettre d’un tel engrenage.
A quel problème fait-on face ?
Nous sommes devant un problème d’ingénieur. J’aime prendre l’analogie de la construction d’un pont. Cela fait des milliers d’années que des personnes en construisent. Les gens acceptent de les traverser, même si parfois ils s’écroulent, lors d’un tremblement de terre par exemple. Au fil des siècles, nous avons développé un savoir, l’ingénierie civile, pour donner des principes à ces constructions, en intégrant des contextes et des conditions différentes. Nous avons actuellement besoin de principes similaires pour bâtir les systèmes qui utilisent des données.
Nous devons par exemple mieux contrôler et éviter les « faux-positifs », ces informations statistiques qui semblent correctes et ne le sont pas. De très bonnes publications scientifiques récentes s’attaquent de façon frontale à ce problème : Le « taux de découverte de faux ». Mais pour l’instant, on ne sait pas encore comment les éviter à grande échelle dans la science et l’industrie.
Parlons justement des erreurs de prédiction actuelles. Pourquoi le grand nombre de données, sur des millions de gens, peut-il conduire à des erreurs ?
Supposons, par exemple, que j’ai rassemblé des centaines de milliers d’informations décrivant des individus dans une base de données (film préféré, utilisation ou non d’un vélo pour aller au travail, plat favori…). Supposons maintenant que j’essaie de prédire si ces personnes vont prendre le train la semaine prochaine.
Lorsqu’il existe des centaines de milliers de données descriptives sur une personne et qu’on analyse leurs différentes combinaisons, on se rend compte que, par le seul hasard, un grand nombre de ces combinaisons vont prédire n’importe quel résultat.
On peut, par exemple, conclure que n’importe quelle personne appréciant le film Rashomon d’Akira Kurosawa, allant au travail en vélo et aimant le couscous va prendre le train la semaine prochaine. Mais si nous croyons à ce type de résultats, nous allons au devant d’une grande déception car ce schéma de prédiction n’est pas reproductible.
D’ailleurs, même si l’on n’a qu’un millier d’informations descriptives sur un individu, le nombre de combinaisons possibles de ces données est supérieur au nombre d’atomes dans l’Univers. De fait, on peut faire dire tout et son contraire à ces combinaisons.
Et ce problème ne va qu’empirer, alors que le nombre de données disponibles ne cesse de grandir.
Quelle est la parade ?
Le défi des prochaines années est de développer des algorithmes d’analyses de données qui soient fiables. Il s’agit en particulier de savoir quelle sera la durée du calcul et quel en sera son taux d’erreur.
Les fondements de la science des données résident, me semble-t-il, dans la puissante combinaison de deux pensées, l’une inductive (propre aux statistiques), et l’autre, de calcul (dite aussi déductive).
Le défi de la pensée inductive est de regarder derrière les données pour essayer de comprendre le phénomène réel qui a donné lieu aux données. Il s’agit d’adopter une approche mathématique systématique pour comprendre comment les données sont générées, en prenant bien en compte les biais qui peuvent apparaître par les méthodes d’échantillonnage utilisées. La difficulté est de cerner si cela affecte notre capacité à induire la « vérité sous-jacente » des données.
Le défi de la pensée de calcul est de réussir à simplifier des problèmes complexes en les morcelant et en développant des algorithmes qui ensuite les résolvent.
Gartner Group vient d’annoncer que d’ici à 2020, 2 millions d’Américains devront partager leurs données de santé pour pouvoir trouver un emploi. De nombreux DRH fantasment sur les données personnelles pour mieux recruter et gérer leurs salariés. Faut-il calmer le jeu ? Comment la société va-t-elle devoir s’organiser ?
Cette effervescence montre que nous aurons besoin d’un siècle au moins pour appréhender ces nouvelles problématiques qui sont tout à la fois scientifiques, technologiques, sociétales, juridiques. Nous sommes nous-mêmes ambigus face à l’utilisation des données personnelles. Nous pouvons percevoir leur utilisation comme une intrusion dans notre vie privée. Tout en nous réjouissant, dans un autre contexte, des 20 % de réduction que l’on va nous proposer dans notre restaurant préféré, justement grâce à l’analyse de ces mêmes données.
Dans le domaine médical, par exemple, nous ne voyons pas d’un bon œil l’utilisation de nos données personnelles par un groupe d’assurance. Mais sommes prêts à les communiquer si cela peut permettre à quelqu’un de notre famille de savoir s’il risque de développer certaines maladies. On voit bien que l’acceptation sociétale dépend du contexte, et il va falloir que le système juridique s’adapte à cette nouvelle donne. Mais les mathématiciens et les informaticiens peuvent aussi y contribuer.
De quelle manière ?
Mes travaux, et d’autres, depuis dix ans, ont montré qu’il est possible d’interroger des bases de données sans pour autant avoir accès directement aux données individuelles. C’est ce que l’on appelle la « differential privacy ». Cela revient à analyser la vie privée tout en la protégeant ! Nous avons en outre développé des techniques qui permettent d’ajuster un paramètre afin de libérer plus ou moins l’accès à des données sensibles. Mais ce n’est que le début de l’histoire !
Des données sensibles, biomédicales et comportementales sont désormais propriétés de sociétés privées. Ne faut-il pas aussi imaginer de nouveaux cadres éthiques pour encadrer les recherches ?
Je ne suis pas expert juridique, mais bien sûr, une réflexion doit avoir lieu. Et tous les acteurs de la société doivent y participer. Ce n’est ni aux experts en technologie ni au marché de dicter seuls les règles.
Les entreprises telles que Google ou Facebook connaissent de toute façon leur fragilité. Les consommateurs ont un pouvoir, celui de se détourner d’une entreprise qui est allé trop loin dans l’utilisation des données ou le non-respect de la vie privée. Regardez My Space. Cette entreprise a disparu car les consommateurs se sont détournés de leurs services.
Comment aider justement les citoyens à comprendre ? N’y a-t-il pas une responsabilité, notamment des scientifiques, pour vulgariser cette complexité actuelle ?
Nous avons en effet une responsabilité sociale. A l’université, nous sommes chercheurs et enseignants, une double casquette particulièrement nécessaire actuellement.
Nous venons d’ailleurs de lancer, en octobre à Berkeley, un cours pilote pour les étudiants de première année intitulé « Databears ». C’est un cours transversal destiné à tous, quel que soit leur discipline. L’objectif est d’augmenter leur culture générale sur la statistique et les données. Il y a des cours d’informatique, des conférences sur l’éthique, la propriété des données, les aspects artistiques… Tout le monde doit avoir suffisamment de connaissances pour pouvoir participer au débat sociétal, devenir un consommateur averti qui puisse également prendre des décisions en connaissance de cause dans sa vie personnelle.
Nous sommes les premiers à le faire au niveau des très jeunes étudiants, mais toutes les universités se rendent compte que cette approche est nécessaire.
Vous prônez, dans ce cursus, un enseignement transversal. Pourquoi ?
Nous sommes dans un nouveau siècle des Lumières. Voltaire s’intéressait à tout. Il s’agissait à l’époque d’appréhender les implications des découvertes dans tous les domaines. Les avancées actuelles rendent la période comparable.
Du reste, depuis une dizaine d’années, des universités forment des scientifiques à une triple formation, en informatique, en statistique et en sociologie. C’est en voyant l’émergence de Facebook, Google et du développement des réseaux sociaux et des problématiques technologiques sous-jacentes que ces types de cursus sont apparus.
Je suis moi-même un scientifique interdisciplinaire. J’ai commencé ma formation par des études de philosophie et de sciences cognitives. Mon premier travail a été d’enseigner les neurosciences, et maintenant, je fais des mathématiques et des statistiques. Cela permet de prendre des idées un peu partout. Une approche transversale est primordiale pour saisir le monde actuel.
Une grande partie des données personnelles sont détenues par des groupes privés. Avez-vous des relations avec ces entreprises, ou restez-vous dans le monde académique ?
En France, c’est encore possible d’être complètement dans le monde académique, aux Etats-Unis, ça ne l’est plus. Je fais partie du AMPlab, à Berkeley, un groupe de 6 ou 7 professeurs soutenus par toutes les grandes entreprises Internet, telles que Google, Facebook,Amazon, Microsoft… Il ne s’agit pas de budgets alloués précisément à des recherches. C’est tout simplement de l’argent pour que nous continuions nos travaux. En faisant de la recherche fondamentale qui pourra leur servir à un moment donné. J’aime bien être associé à des entreprises car on peut voir de façon très concrète certains problèmes.
En revanche, il est vrai que l’on a peu accès aux données. Chaque entreprise a ses propres avocats qui expliquent que cet accès n’est pas possible pour des problèmes de confidentialité de la vie privée mais aussi à cause de questions stratégiques. C’est dans les données que se trouve toute la valeur stratégique d’une entreprise.
Préféreriez - vous avoir de l’argent uniquement public ?
Le gouvernement nous donne moins d’argent qu’il y a cinq ans ou dix ans. C’est donc ces entreprises qui nous donnent des fonds. Nous n’avons pas le choix.
Propos recueillis par David Larousserie et Laure Belot

Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.