MBF : une boîte à outils pour la bioinformatique, par Microsoft

Posté par  (site web personnel) . Modéré par patrick_g.
Étiquettes : aucune
24
20
juil.
2010
Science
Le 9 juillet 2010, Microsoft a annoncé la sortie d'une boîte à outils informatiques pour la biologie et plus spécialement pour les analyses de génomes. Une présentation officielle semble également avoir été faite lors de la conférence de la Société Internationale de Bioinformatique (International Society for Computational Biology, ISCB), qui s'est tenue du 9 au 13 juillet 2010 à Boston. Selon la page officielle, la suite logicielle est sous licence dite libre.

Dans la suite de la dépêche, les détails, le diable, toussa. Voilà qu'il y a quelques jours, Microsoft annonçait la sortie de la version 1.0 de sa boîte à outils pour la bioinformatique, connue aussi sous le nom Microsoft Biology Foundation (MBF). Cette plate-forme est dite agnostique d'un point de vue du langage (language-neutral) et constitue une extension du framework Microsoft .NET. L'objectif initial du projet est de fournir des outils pour la recherche en génomique. Ainsi, cette plate-forme inclut « un vaste nombre d'analyseurs de formats bioinformatiques usuels, d'algorithmes de traitement de séquences d'ADN, ARN et protéines, et un ensemble de connecteurs à des services web pour la biologie tels que NCBI BLAST » (« implements a range of parsers for common bioinformatics file formats; a range of algorithms for manipulating DNA, RNA, and protein sequences; and a set of connectors to biological web services such as NCBI BLAST »). Le projet est coordonné par un conseil consultatif des technologies, constitué par des membres de Microsoft, des industriels et scientifiques. Les personnes désireuses de se servir de la suite logicielle peuvent l'obtenir à partir du portail Microsoft Research ainsi que la documentation allant avec. Le code source est hébergé par le site du projet CodePlex de l'entreprise et est soumis aux règles de la licence Microsoft Public License (Ms-PL, approuvée par OSI).

Tout cela a l'air idyllique. Comme je suis une grande fan des produits Microsoft, je prends tout pour argent comptant : direction les mentions légales. La licence Ms-PL précise que vous pouvez utiliser, distribuer, vendre ce logiciel, mais n'impose pas la distribution du code. La clause qui me chagrine un peu est la 3.B. parlant des brevets que la présente plate-forme inclut. On ne sait pas quels sont ces brevets, mais on peut parier qu'il y en a une tonne parce que, au risque d'être désobligeante, on a vu plus libre que .NET. Cela n'a pas l'air très rassurant, mais n'est pas fâcheux pour autant.

Admettons que Microsoft veuille faire de l'open source si ça leur chante, même si la Ms-PL est incompatible avec la GNU GPL. Mais ne soyons pas grincheux, voyons voir les utilitaires que cette boîte à outils moderne contient. Une bibliothèque additionnelle ShoRuntime for MBF est fournie, laquelle est dite contenir des utilitaires pour l'analyse statistique et mathématique de haut niveau. Dans la licence de cette bibliothèque de qualité supérieure, on vous dit que vous pouvez l'utiliser seulement dans le cadre de la MBF dont on vient de parler et uniquement dans ce cadre. C'est tout de suite un peu moins libre. La clause 2 que vous acceptez dit que vous vous engagez à ne tenter de modifier aucun binaire ni le décompiler ni le soumettre à des procédés de rétro-ingénierie.

Si vous décidez que c'est trop bien, vous pouvez vous intéresser à l'extension bio-informatique pour Excel. Ici, même pas besoin d'aller dans les détails : cette extension est sous licence Ms-LPL (Microsoft Limited Permissive Licence) jugée non libre par la FSF en raison de sa clause 3.F. laquelle vous oblige à utiliser tout logiciel issu de l'original uniquement sous Microsoft Windows.

Ce n'est pas que je ne voulais pas y croire, je suis optimiste. Mais... D'un point de vue purement scientifique, cet ensemble soi-disant performant et de haute qualité fait ce que vous faites en trois lignes avec BioPerl ou BioPython. Parce que les fameux analyseurs de formats usuels dont d'aucuns se targuent d'avoir rempli leur boîte à outils bien propriétaire sont des scripts de parsing de fichiers texte. Et je passe sur tout ce que BioPerl et BioPython, mais aussi BioRuby et BioJava, contiennent comme modules déjà prêts à utiliser. Mais je pense que c'est limite de l'incompétence : avec une suite libre telle qu'EMBOSS (qui fait pratiquement le café) et tout ce qui est déjà disponible dans le dépôt Debian-Med, il y en a qui sont un peu en retard. La génomique est un pan de la bio-informatique : quid des autres qui montent à une vitesse impressionnante ? Mais j'avoue que mon préféré est l'extension pour Excel. Suis-je la seule qui pense immédiatement au langage R et à sa déclinaison pour les biostatistiques BioConductoR, à tout ce qui est développé avec Python pour le calcul scientifique, et à des applications telles qu'Octave ?

En conclusion, pour reprendre ce que disait en substance un gars sur une liste de biohacking, la Fondation Microsoft pour la Biologie est à la bioinformatique ce que l'HyperCard est au Web.

Aller plus loin

  • # Oubli

    Posté par  . Évalué à 7.

    Dans la liste des bibliothèques Bio[Langage], tu oublies Bio++ !

    http://biopp.univ-montp2.fr/

    Il a déjà tout d'un grand. :)
  • # Python scientifique et langage R

    Posté par  (site web personnel) . Évalué à 10.

    Suis-je la seule qui pense immédiatement au langage R et à sa déclinaison pour les biostatistiques BioConductoR, à tout ce qui est développé avec Python pour le calcul scientifique, et à des applications telles qu'Octave ?

    Non, tu n'es en effet pas la seule. Python pour le calcul scientifique subit un engouement de plus en plus marqué, en particulier parmi les jeunes chercheurs à travers SciPy.

    Enfin grâce au travail (entre autre) de Dirk Eddelbuettel (développeur Debian), R est bien présent dans la distribution Debian et profite de nombreux bindings.
  • # À chaque fois je fais de la "pub"...

    Posté par  . Évalué à 4.

    Sans oublier l'excellent Sage :
    [http://www.sagemath.org/]
    Son langage de programmation est python. Scipy est intégré et pour R c'est en cours.
    Ce logiciel est vraiment exceptionnel, ENFIN une boîte à outils mathématiques tout en un qui couvre un large spectre mathématique. Logiciel libre et gratuit, comme on les aime ici.
  • # BOSC 2010

    Posté par  . Évalué à 3.

    Une petite précision, la présentation de Microsoft a été faite dans le cadre de la 11ème édition de la "Bioinformatics Open Source Conference" (BOSC). Cette conférence se déroule traditionnellement en préambule d'ISMB.

    * Le site de BOSC 2010
    http://www.open-bio.org/wiki/BOSC_2010

    * Le programme et les présentations des intervenants
    http://www.open-bio.org/wiki/BOSC_2010_Schedule

    Malheureusement, la présentation de Microsoft n'est pas (encore ?) en ligne.
  • # HyperCard

    Posté par  . Évalué à 0.

    T'es vache avec HyperCard quand meme ;)
  • # HyperCard

    Posté par  . Évalué à -3.

    T'es vache avec HyperCard quand meme ;)
  • # Bioclipse

    Posté par  . Évalué à 2.

    Ça fait bien longtemps que je n'ai pas touché à des outils consacrés à la bioinfo, mais vu rapidement le projet Bioclipse (http://www.bioclipse.net/) me semble plutôt intéressant.

    Quelque screens : http://www.bioclipse.net/screenshots

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.