L’open source n’a pas (encore) révolutionné la science

Ouvrir les données scientifiques permettrait d'encourager la collaboration entre chercheurs | opensource.com via Flickr CC License by

Ouvrir les données scientifiques permettrait d'encourager la collaboration entre chercheurs | opensource.com via Flickr CC License by

Le partage et l'échange de données entre chercheurs étaient censés révolutionner la science. Mais, pour le moment, la mise en commun des découvertes reste théorique et bordélique.

En 2002, un article du Washington Monthly explorait une nouvelle tendance –la «biologie en open source»– et se demandait si «une bande de biologistes échangeant librement leurs données innove mieux que des chercheurs traditionnels». L'idée de base était la suivante: au lieu de planquer leurs données et d'empêcher quiconque de les utiliser, il valait mieux que les scientifiques mettent en commun leurs découvertes.

Plus de dix ans plus tard, on ne parle plus d'open source avec des guillemets et les potentiels bénéfices d'une libre circulation des données scientifiques semblent évidents. Reste que, lors de la récente conférence de la Darpa intitulée «La biologie est de la technologie», on a pu entendre un son de cloche quelque peu différent: les données scientifiques en open source sont sous-utilisées et relativement bordéliques.

Ouvrir les données scientifiques est un moyen logique d'encourager l'interdisciplinarité et la collaboration entre chercheurs, mais aussi de démocratiser des disciplines souvent très hiérarchisées. Ce qui devient particulièrement excitant et prometteur lorsqu'on couple le tout avec le big data –les ordinateurs étant aujourd'hui assez puissants pour analyser d'énormes bases de données, l'ampleur des connexions possibles et des découvertes envisageables a de quoi donner le tournis.

De telles masses de données ont d'ailleurs été à la base de récentes découvertes et autres progrès biomédicaux. Lors de la conférence de la Darpa, Joel Dudley, chercheur en informatique biomédicale au Mount Sinai Hospital de New York, a donné l'exemple d'une similarité contre-intuitive entre une maladie de peau et Alzheimer, découverte uniquement grâce à la cartographie de données à grande échelle. Il a aussi montré qu'un accès massif aux dossiers médicaux de patients et à leurs génotypes a pu permettre de nouvelles découvertes, comme l'existence de sous-populations au sein des diabétiques de type 2, où chaque groupe est prédisposé à des comorbidités spécifiques.

En coulisses

Plus l'accès à ce genre de bases de données sera ouvert, plus ce genre de recherches pourra être mené. Mais même quelque chose au potentiel aussi puissant que le mouvement open source est susceptible de végéter si personne ne veut véritablement s'en emparer. «Il ne suffit pas de rendre accessibles des données pour que des gens travaillent dessus», résume Stephen Friend, le président et co-fondateur de Sage Bionetworks, une association de promotion de l'open source scientifique.

Le plus dur, ce n'est pas de jeter vos données dans le gouffre du domaine public mais de le faire de manière intelligible

Peter Sorger, chercheur en biologie systémique à Harvard

Selon Friend, une grosse partie du problème tient à un manque de motivation. Certes, concevoir des modèles permettant d'analyser et de comparer différents jeux de données peut avoir des résultats ô combien significatifs, mais de tels processus demandent du temps et d'autres ressources pour être menés à bien, sans compter qu'une grosse partie du travail se déroule en coulisses, dans l'obscurité. Et que les scientifiques, ahem, recherchent quand même un tantinet la gloire.

Une solution, dont Sage a fait son cheval de bataille, se trouverait dans un équivalent de GitHub appliqué aux données biologiques: Synapse. GitHub est un répertoire web de logiciels permettant aux développeurs d'accéder à tout un ensemble d'outils de gestion et de suivi de projets. À chaque fois que quelqu'un en vient à finaliser une modification de code dans GitHub, on appelle cela un «commit» et, lorsque cette modification est envoyée sur le serveur, d'autres personnes peuvent le voir dans l'historique du projet. Le corollaire, c'est que, si quelqu'un fait une modification très intéressante, que ce soit la correction d'un bug ou l'ajout d'une nouvelle fonctionnalité à un programme, tout le monde est au courant. Même s'ils ne sont pas responsables de l'ensemble du projet, des utilisateurs peuvent se voir publiquement créditer telle ou telle amélioration qu'ils auront permise.

Sage voudrait que Synapse fonctionne sur le même modèle. «Savoir d'où provient quoi, c'est au cœur du système», déclare Friend. Le système suit tous les types d'organisation et de manipulation de données et permet de faciliter la collaboration entre différents chercheurs, même s'ils sont en concurrence, en enregistrant méticuleusement les actions de chacun.

Limites humaines

Un autre problème avec les données open source, c'est qu'elles sont souvent un embrouillamini de chiffres bruts issus d'expériences diverses.

«Le plus dur, ce n'est pas de jeter vos données dans le gouffre du domaine public, explique Peter Sorger, chercheur en biologie systémique à Harvard, mais de le faire de manière intelligible.»

Selon Sorger, rendre les données d'un projet utilisables par d'autres représente 20% du travail d'un chercheur. Mais «quel est l'intérêt? Il n'y en a pas. Dans aucun système de rétribution actuel, la libération de données représente un critère essentiel».

Si la bonne volonté et la curiosité ne suffisent pas à motiver les chercheurs et leur faire utiliser l'open source, il y a quelque chose qui les y amènera sans doute: les limites de l'humain.

«Nous avons des cerveaux minuscules. Nous ne pouvons plus comprendre les gros trucs, déclare Paul Cohen, gestionnaire de programme au sein du bureau information et innovation de la DARPA. Les machines compulseront la littérature, les machines concevront des modèles complexes parce que, franchement, nous en sommes incapables.»

Et quand tout ce que vous aurez à faire consistera à laisser tourner des algorithmes dans un énorme stock de données publiques, il n'y aura plus aucune raison de ne pas agglomérer toutes les données possibles.

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites et vous proposer des publicités adaptées à vos centres d’intérêt. > Paramétrer > J'accepte