groub a écrit 7 commentaires

  • [^] # Re: pas de shell...

    Posté par  . En réponse au message grep et recherche approximative. Évalué à 1.

    Normalement, le MinION fait 10% d'erreur (oui, une base sur 10… Si tu es un habitué d'Illumina, c'est à ce moment que tu dois crier au scandale…), donc sur un barcode de 10 nucléotides, on devrait s'attendre a retrouver 90% des données. En pratique, avec grep, j'arrive a retrouver environ 50% de mes reads. Et beaucoup moins avec les outils dédiés que j'ai cité (ou que tu as cité et que j'ai testé aussi).
    Après, effectivement, il reste pas mal de données, et ça assemble a priori mieux avec peu de données à vrai dire, mais il y a toujours le risque de passer à côté de séquences très faiblement représentées, et c'est souvent celles-ci qui nous intéresse le plus.

    Quant aux outils que tu cites (Porechop, Albacore), il sont adaptés aux barcodes Oxford nanopore, et du coup, pas utilisable dans mon cas, car j'ai fais le choix d'utiliser mes propres barcodes pour économiser 600€. Mais honnêtement, d'après ce que j'ai vu, je ne suis pas sur que j'aurai obtenu de meilleurs résultats avec les barcode ON…

  • [^] # Re: agrep

    Posté par  . En réponse au message grep et recherche approximative. Évalué à 1.

    Mais oui, ça semble être ça !!
    Je ne vais pas pouvoir le tester immédiatement car il n'est pas installé sur la plateforme que j'utilise, mais je vais demander son installation !
    Merci Tetraf !

  • [^] # Re: Jeux de lettres

    Posté par  . En réponse au message grep et recherche approximative. Évalué à 1. Dernière modification le 12 août 2019 à 13:48.

    Oui, c'est un peu ce que proposait cappir je crois. Je n'ai pas encore eu le temps de me pencher la dessus, mais ça semble être une piste intéressante.
    Merci !

  • [^] # Re: pas de shell...

    Posté par  . En réponse au message grep et recherche approximative. Évalué à 1.

    Apparemment, tu t'y connais en bio-info, donc je peux être un peu plus précis :
    J'ai des données de séquençage NGS issues de séquençage MinION (connu pour faire beaucoup d'erreur) et je dois retirer les adaptateurs et démultiplexer mon fichier. Pour ça, j'ai essayé des logiciels dédiés (Cutadapt, Trimmomatic, Sabre, Barcode splitter…), mais j'ai du mal a retrouver mes barcodes (la fameuse séquences de 10 nucléotides), et ça marche carrément mieux avec un simple grep, mais sans pouvoir introduire de tolérance dans les mismatches.

  • [^] # Re: pas de shell...

    Posté par  . En réponse au message grep et recherche approximative. Évalué à 1. Dernière modification le 07 août 2019 à 16:17.

    Merci freem,
    Oui, il y a une pelleté de logiciels pour la bio-informatique (dont le traitement de séquences d'ADN). Il y a même des logiciels qui ont été développés pour faire exactement ce que je veux faire, mais je ne suis pas content du résultats avec mes séquences et j'obtiens de bien meilleurs résultats avec grep… sauf que je pourrais encore avoir un peu mieux en tolérant un petit pourcentage d'erreur, d'où ma demande finalement :)
    Idéalement, il faudrait que je développe mon propre outils, mais je n'ai pas encore la compétence pour ça je pense.
    En tout cas merci ! je continue de chercher !

  • [^] # Re: Tu peux utiliser les distances

    Posté par  . En réponse au message grep et recherche approximative. Évalué à 1.

    Oui, ce serait ça !
    A tester donc, mais ça s'annonce un peu chaud, je suis loin d'être un spécialiste. je vais donc regarder ton lien un peu plus en détail pour voir comment mettre ça en œuvre !

  • [^] # Re: Tu peux utiliser les distances

    Posté par  . En réponse au message grep et recherche approximative. Évalué à 1.

    Merci Cappir
    cependant, si j'ai bien compris ton lien, ça ne pourra pas me servir, car je n'ai pas été assez clair dans ma demande: la séquence que je recherche fait bien une 15aine lettres (nucléotides en langage biologiste ;) ), mais je la cherche dans des séquences qui peuvent être longues de quelques centaines à quelques milliers de nucléotides…