Forum Linux.général Scanner mes cours: quels logiciels? scanner, OCR, gestion...

Posté par (page perso) .
2
4
mai
2011

Salut à tous,

Mes cours prennent énormément de place dans mon placard, et j'aimerais les numériser pour de bon.

Je suis donc à la recherche de ce genre de choses:

  • un logiciel qui permette de scanner à la suite, sans avoir à réaliser tout le processus d'enregistrement de l'image qui vient d'être scannée (on fera ça plus tard...)
  • un éventuel logiciel d'OCR, pour les polycopiés: si il est possible de sortir un PDF avec texte sélectionnable, c'est le bonheur
  • un logiciel qui me permette ensuite d'accéder à tout ça

Est-ce que vous avez une expérience là dedans?
Un favori dans vos liens de gens qui relatent la chose?
Des logiciels à me pointer?

Je suis sous Ubuntu Natty, 64 bits, si ça peut servir.

D'autre part, il faudra que je stocke tout ça quelque part, si vous avez des idées sur le comment (sauvegarde, support physique à long terme, etc...)

Merci d'avance!

  • # Le vénérable vétérant xsane

    Posté par (page perso) . Évalué à 3.

    Si ton scanner supporte une alimentation automatique ne documents, xsane permet de faire des batch de scans, et sauf erreur tu peux ensuite générer un PDF à partir des images. Par contre, pas d'OCR à ma connaissance.

    Python 3 - Apprendre à programmer en Python avec PyZo et Jupyter Notebook → https://www.dunod.com/sciences-techniques/python-3

    • [^] # Re: Le vénérable vétérant xsane

      Posté par . Évalué à 1.

      Il y a un module d'ocr intégré. gocr peut faire le travail via des pipes.

      Systemd, the bright side of linux, toward a better user experience and on the road to massive adoption of linux for the desktop.

  • # Photocopieur

    Posté par (page perso) . Évalué à 5.

    Normalement, n'importe quel photocopieur sais faire cela de nos jours (scan). Cela sera plus rapide que d'utiliser un scanner sous linux via xsane ou équivalent.

    Parfois, il faut savoir utiliser les outils qui vont bien pour les grosses quantités ;-)

    • [^] # Re: Photocopieur

      Posté par (page perso) . Évalué à 2.

      Si c'est chez lui, il n'a peut-être pas un photocopieur sous la main...

      Ceci dit, toutafé. Je suis en train de scanner mes vieux GNU/Linux Magazine pour dépiler et faire de la place... ben même avec un 4 en 1 avec un système de passage automatique des documents... c'est long. Ca serait sûrement nettement plus rapide avec les gros photocopieurs/scanner/imprimante au boulot... mais j'y ai d'autres occupations moins personnelles.

      Note: faire des tests avant de commencer entre la résolution et le taux de compression des images, de façon à avoir des documents lisibles, mais qui ne prennent pas trop de place. Pour mes revues je suis arrivé à 200dpi et compression jpeg à 40.

      Python 3 - Apprendre à programmer en Python avec PyZo et Jupyter Notebook → https://www.dunod.com/sciences-techniques/python-3

      • [^] # Re: Photocopieur

        Posté par (page perso) . Évalué à 2.

        Ma préférence personnelle va à des scans de haute résolution (300dpi ou 600dpi) que je transforme ensuite en DjVU. C'est à ce moment que je fais des tests pour savoir quelle réduction de qualité me donne les meilleures tailles.

        • [^] # Re: Photocopieur

          Posté par (page perso) . Évalué à 2.

          C'est ce que je fais chez moi avec xsane. Je scanne en mode trait à 600 dpi au format png. C'est le réglage que j'ai trouvé le mieux pour le moment.

      • [^] # Re: Photocopieur

        Posté par . Évalué à 2.

        Je suis en train de scanner mes vieux GNU/Linux Magazine pour dépiler et faire de la place..

        Ne perds pas ton temps:
        http://chl.be/glmf/

        • [^] # Re: Photocopieur

          Posté par (page perso) . Évalué à 2.

          D'ailleurs, ce serait bien que glmf libère ses articles au bout d'un certain temps, comme lwn. En effet, j'aimerais bien savoir qu'elle est la valeur financière pour les éditions Diamonds des anciens numéros ?

          Comme c'est une édition papier et non électronique, la libération au bout d'un an serait à mon sens un compromis intéressant. Peut être deux ans pour Misc qui n'est que tous les deux mois et dont les articles sont moins périssables.

          Étant abonné aux deux depuis quelques années, je suis près à payer un peu plus pour assurer cette libération comme je le fait pour LWN.

    • [^] # Re: Photocopieur

      Posté par (page perso) . Évalué à 3.

      Normalement, n'importe quel photocopieur sais faire cela de nos jours (scan). Cela sera plus rapide que d'utiliser un scanner sous linux via xsane ou équivalent.

      Exactement, c'est aussi ce que je fais. Le seul problème à résoudre est d'accéder à une telle machine, ce qui peut impliquer un peu de recherche dans ses contacts ou d'aller chez un reprographe.

      • [^] # Re: Photocopieur

        Posté par (page perso) . Évalué à 2.

        Etant dans un laboratoire de recherche publique, j'avoue que j'en ai plusieurs à disposition ;-)

        Pour la question boulot/perso, il suffit d'arriver en avance ou de partir en retard un jour. Dans les laboratoires, les horaires sont souvent assez souples...

  • # Solution alternative au scanner

    Posté par . Évalué à 2.

    Sur un forum de paléoinformatique le problème de la numérisation massive de documentation s'était posé. Un membre avait trouvé une solution astucieuse : utiliser un appareil photo avec un pied photo. En mettant les livres sur un support à plat et en dessous de l'appareil, il arrivait à un rythme d'acquisition impressionnant et la qualité de l'appareil permettait de lire le texte confortablement.

    Si tu as déjà un appareil ça vaut le coup d'essayer pour voir si la qualité te convient. Bonne chance pour le reste de tes essais, si tu trouve une solution propre pour ton besoin, n'hésite pas à faire un retour ici :-)

  • # DocBucket

    Posté par (page perso) . Évalué à 2.

    L'auteur de ce programme l'a développé pour scanner ses papiers, la chaîne de scan - OCR - indexation peu être utilisé pour n'importe quoi.

    Le lien : I, NaPs — DocBucket, version 0.1

  • # Malodos ?

    Posté par (page perso) . Évalué à 2.

    Si tu veux scanner chez toi

    http://linuxfr.org/users/davguez/journaux/pub-sortie-de-malodos-10
    http://sites.google.com/site/malodospage/home

    If you choose open source because you don't have to pay, but depend on it anyway, you're part of the problem.evloper) February 17, 2014

  • # simple scan

    Posté par . Évalué à 3.

    un photocopieur peut être plus pratique, mais sinon le "simple scan" de gnome (fourni dans linux mint, mais je ne connais pas le nom de la commande exacte), permet de scanner à la file, et d'exporter un fichier unique en pdf à la fin. Très pratique.

    Pas d'idée pour le OCR par contre.

    Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it

  • # Tesseract

    Posté par . Évalué à 3.

    Je te conseille tesseract comme OCR pour l'avoir utilisé à profit sur du texte espagnol.
    Disponible sur les dépôts debian, ne pas oublier d'installer tesseract caractères français (sinon defaut=english sans accents).
    Format image : tif
    option -l pour la locale

    syntaxe :
    $ tesseract image.tif prefixe-texte -l fr

    • [^] # Re: Tesseract

      Posté par . Évalué à 2.

      Je viens de voir qu'il existait gscan2pdf.
      C'est la misère au niveau des dépendances, en perl (une quinzaine + les dépendances des dépendances), mais ça semble pas mal :
      http://doc.ubuntu-fr.org/gscan2pdf

      Je n'ai pas encore trouvé comment faire, mais il semble possible d'intégrer à un pdf du texte OCRisé

      Only wimps use tape backup: real men just upload their important stuff on megaupload, and let the rest of the world ~~mirror~~ link to it

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.