Forum général.cherche-logiciel Correcteur format html automatique pour hocr2pdf qui fait des segmentation fault un peu partout

Posté par . Licence CC by-sa
1
20
nov.
2013

Bonjour,
je
tente d'utiliser hocr2pdf, et ça marche … et des fois non. J'ai
plusieurs SEGMENTATION FAULT - ça dépend des fichiers.
Je pense que cela viens du fait que certains fichier reçu par tesseract
sont mal écrit en HTML. J'aimerai que ça soit, mais ça a pas l'air
d'être tout le temps : mauvais fichier = segmentation fault. Des fois
j'ai des avertissements sur le format, mais ça marche.

Merci d'avance.

  • # tesseract => text => pdf

    Posté par . Évalué à 2.

    et en changeant la sortie de tesseract pour passer par du texte ca ne serait pas mieux ?

    • [^] # Re: tesseract => text => pdf

      Posté par . Évalué à 0.

      Pourquoi un fichier serait pas bon?
      Je fais:
      $ tesseract fichier fichier.hocr -l fra hocr
      $ hocr2pdf -i fichier -o fichier.pdf < fichier.hocr.html
      et c'est au hocr2pdf que PARFOIS il y a un 'segmentation fault'.

      • [^] # Re: tesseract => text => pdf

        Posté par . Évalué à 0.

        HA! Du texte et pas du html. Oui mais, avec du texte ça sera pas mis en forme.

        • [^] # Re: tesseract => text => pdf

          Posté par . Évalué à 0.

          Avec
          du texte, y parait y avoir moins de segmentation fault, mais il en
          subsiste, et assez souvent.
          Ne serait-ce pas à cause de certains caractères? Car souvent tesseract
          indique un problème d'unclosed tag : '<|>|…'. Peut-être cela
          vient de là et hocr2pdf plante à cause de certains caractères?

    • [^] # Re: tesseract => text => pdf

      Posté par . Évalué à 1.

      Résolu.
      Faut installer CORRECTEMENT tesseract. Y a encore des erreurs (de
      tesseract) sur les fichiers anciennement concerné par le segmentation
      fault. Mais pas d'erreurs fatal et les images pdf marchent.

      Comme quoi c'est pas toujours ce que l'on pense.

      Résolu.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.