Tu veux relancer la polémique de l'autre journal ? :-)
Sérieusement, Firefox peut consommer beaucoup plus que ça sur des sites comme celui de La Poste. Tu devais prévoir 4 fois plus. Et avec si peu de Ram, les navigateurs Midori, Web ou Falkon consomment moins.
Il faut faire attention que ça change souvent. En 2012 c'était moins évident. Sur le serveur le noyau est ancien, donc je prend des benchmarks datés de 5 ans. En plus je veux grapiller dans la Ram, alors un système de fichier en moins c'est un module de moins.
Il y a eu récemment des changements dans XFS et des progrès dans F2FS qui les font passer devant Ext4. Mais bien sûr il faut ramener à son usage : un bench sur 1000 fichiers à servir ne concerne pas mon cas ni celui de ton neveu.
Ah ? en parcourant (rapidement il est vrai) les offres d'OVH, Gandi et Scaleway, ce n'est pas ce que j'ai lu. Au contraire on y propose des trucs en plus, comme des sauvegardes à bas prix.
On dirait qu'on est revenu à la situation des années 90 et 2000, pendant lesquelles la facilité du «je clique partout» avait remisé les admins au placard, alors qu'un administrateur système ne fait pas que cliquer ou taper de commandes, il a aussi les connaissances pour prévoir.
Je suis en pleine installation d'un serveur de travail pour ma copine et moi. Ma nature étant de me poser des questions avant, j'ai fait des comparaisons ce matin entre les systèmes de fichiers. Ma conclusion (inattendue) c'est que Ext4 est plus rapide que Ext2, et que Ext4 s'en sort premier ou second dans toutes les situations. Ça va d'ailleurs encore s'améliorer avec les «fast-commits», mais il faudra reformater le système de fichier pour en bénéficier dans quelques semaines.
Il ne s'agit que de Benchmarks, mais si tu veux jeter un oeil :
En plus, ce n'est probablement pas leur premier désastre informatique — il y a tellement d'occasion de perdre des données. Mais personne ne veut jamais comprendre ce que payer veut dire.
Il y a des commentaires assez lamentables sur Twitter. Des types qui se plaignent et accusent OVH, au lieu d'admettre leur propre médiocrité (ni redondance, ni serveur de secours, ni sauvegarde, etc.), ils trouvent inadmissible :
qu'un incendie brûle des serveurs et les arrête,
qu'on coupe l'électricité par sécurité,
que ce ne soit pas rétabli tout de suite,
qu'on n'intervienne pas immédiatement sur leur serveur et réclament tous les quart d'heure, en majuscules (messages supprimés depuis).
Bien sûr que la taille c'est relatif, c'est le sens de ma réponse à David. Dans tous les cas, le swab ne représentera toujours que peu d'espace disque.
Avant, je prenais des notes sur un calepin qui tenait dans mes poches ou ma main. Depuis que j'ai choisi la voie électronique, j'ai perdu beaucoup de notes en testant des logiciels, jamais assez pratiques. Avec Joplin on synchonise, ça nous rassure, mais est-ce que ça supporte la dictée quand je suis au volant de ma voiture ? On dirait que petit à petit on s'en rapproche et qu'un jour le progrès sera de faire tenir notre vie dans la poche. Mais pourquoi ? il fallait de la patience à Platon pour écrire sur des tablettes de cire, et on n'a pas jeté beaucoup de choses de ses notes lentement transformées en prose. Etc. etc.
Méfie-toi quand même tu ne peux pas mettre en veille. Et si un jour, un processus part en sucette (ça m'arrive souvent sur le web), tu ne pourras éviter le crash brutal.
Okular, le visualiseur pdf de kde peut recréer le tableau si on l'aide (Outils > Sélection de tableau).
Il y a des OCR parfaitement capable de le faire sous winwin depuis au moins 25 ans. Je n'ai jamais essayé sous Linux, mais pourquoi ne serait-ce pas possible ? en ouvrant la doc de Tesseract, je vois un exemple de sortie CSV.
Enfin il y a un outil conçu pour les journalistes, qui doivent récupérer des tableaux de partout. Il est certainement dans mes marque-pages mais là je ne trouve pas. Linuxfr a publié un article dessus il y a 5 ou 6 ans.
Les scans portaient tous le nom du livre (ou du chapitre) plus le numéro de la page impaire (quand on découd les cahiers de reliure, on obtient des feuilles imprimées recto-verso avec à gauche une page paire et a droite une impaire). La fonction orderedList met les noms dans un hash avec le numéro de page impaire en index.
«13ème apôtre» dans les commentaires est le titre du livre, pas une instrucion secrête!
Ce script sert juste à lancer les différents outils. Rien d'extraordinaire. Il est un peu inutilement compliqué dans le but de me faire réapprendre Perl, plus pratiqué depuis 5 ans. Les commentaires mélangent anglais et français.
#!/usr/bin/perlusestrict;usewarnings;# Le script prend les scans, les repagine (le livre # est reliés en cahiers, décousus pour les scans), # et met les pages dans un dossier temporaires. # Les fichiers y sont retravaillés puis copiés dans # un dossier pour l'OCR.## Les paramètres fins sont à adapter au type de scan.## reliure de latin religare# cahier de reliure = Section (bookbinding)# In bookbinding, a section, gathering, or signature is a group of sheets folded in half. # In medieval manuscripts, a gathering, or quire, was most often formed of 4 folded sheets# La technique du cahier est née avec le développement de la forme codex. useFile::Basename;useImage::Magick;# à utiliser pour gérer les chemins Win, Mac, Linux…# require File::Spec; # TODO# Page dewarping if needed# from https://mzucker.github.io/2016/08/15/page-dewarping.html# B&W binarisation or TEXTCLEANER ?# http://www.fmwconcepts.com/imagemagick/textcleaner/index.php## front and back cover are named couv# unnecessary scanned files are named # other scanned files are named with the page odd number## taille des cahiers (feuilles x 2)my$sheetNumber=8;# quire size x2# pourcentage pour redimensionner (maj ~= 33px)my$percent=92;# scans directory (base directory)my$baseDir='/home/toto/Projets/Livre';# FIXME le choper avec 'pwd'# working dirmy$tmpDir='_tmp';# final dir (OCR ready)my$ocrDir='ocr';# FIXME access rights# $dirMode = 644;# se placer dans le bon répertoire# créer les répertoires temporaires et finauxchdir$baseDir||die"Could not go in dir $baseDir\n";mkdir($tmpDir)unless-e$tmpDir;# $dirMode ?mkdir($ocrDir)unless-e$ocrDir;# $dirMode ?# get the file list, all names are odd numbers# put it in a hash with key = page number, value = file namemy@tmpList=listFiles($baseDir,'jpg');my%files=hashList(@tmpList);# create individual pages# Unfold();# improve quality with noteshrink, unpaper and further enhancementchdir$tmpDir;callUnpaper('ppm');# callNoteshrink('-U');# callSmallOperations('-N');# callNoteshrink('ppm'); # creates -N files# callSmallOperations('-N'); # creates -SO files# callUnpaper('-SO'); # creates -U filesReady('-SO');## functions## Noise Removal with noteshrink# https://github.com/mzucker/noteshrink# -p % of pixels to sample for background( default 5)# -v background value threshold % (default 25)# -s background saturation threshold % (default 20)# -S do not saturate colors# -w make background white# -n number of output colors (default 8)# -b output PNG filename basesubcallNoteshrink{my($match)=@_;@tmpList=listFiles("$baseDir/$tmpDir",$match);printscalar@tmpList." files to optimize with noteshrink : \n\n";foreachmy$file(@tmpList){# empty pages makes it crash, stupid hacknextif$fileeq'1.ppm';nextif$fileeq'2.ppm';nextif$fileeq'4.ppm';nextif$fileeq'176.ppm';# remove extensionmy$fileName=fileName($file);# '-v10', '-n12', '-S', my@args=("$baseDir/noteshrink-master/noteshrink.py",'-w',"-b$fileName",$file);system(@args)==0ordie"system @args failed (file is $file): $?";}printscalar@tmpList." png files created by noteshrink.\n";@tmpList=listFiles("$baseDir/$tmpDir",'png');printscalar@tmpList." png files to convert in ppm \n";# convert files to ppmforeachmy$file(@tmpList){my($image,$x,$filename);$image=Image::Magick->new;$image->Read($file);$filename=fileName($file);# remove 0000 from noteshrink$filename=~s/0000$//;$x=$image->Write("$filename-N.ppm");}unlink@tmpList;printscalar@tmpList." png files converted to ppm. All png deleted. \n\n";}# small operationssubcallSmallOperations{my($match)=@_;@tmpList=listFiles("$baseDir/$tmpDir",$match);print"Around ".scalar@tmpList." files to rework : \n\n";foreachmy$file(@tmpList){my($image,$w,$h,$x,$filename);$image=Image::Magick->new;print"Opened $file \n";$image->Read($file);($w,$h)=$image->Get('width','height');print" size is $w x $h pixels, ";# rescale to get optimal capital letter size > 33 pixels# not automaticaly detected, gives manual percentage$w=$w*$percent/100;$h=$h*$percent/100;print"optimize capital letter size … \n";$x=$image->Resize(width=>$w,height=>$h);# remove Scanning border if any# FIXME -trim avec +repage à cause des traitements suivants# print "remove scanning border … ";# $image->Set( fuzz=>'5%' );# $x = $image->Trim();# add small white borde to help OCR print" add a 20 pixels white border … \n";$x=$image->Shave(geometry=>'20x20');$x=$image->Border(geometry=>'20x20+20+20',bordercolor=>'white',compose=>'Over');# write image$filename=fileName($file);$x=$image->Write("$filename-SO.ppm");print" $filename.ppm saved. \n";undef$image;}print"\n".scalar@tmpList." ppm files reworked.\n\n";}# unpaper # -ni intensity, -noisefilter-intensity intensity # Intensity with which to delete individual pixels or tiny clusters of pixels. # Any cluster which only contains intensity dark pixels together will be deleted. (default: 4)# -li ratio, --blurfilter-intensity ratio# Relative intensity with which to delete tiny clusters of pixels. # Any blurred area which contains at most the ratio of dark pixels # will be cleared. (default: 0.01)# -gt ratio, --grayfilter-threshold ratio# Relative intensity of grayness which is accepted # before clearing the grayfilter mask in cases where # no black pixel is found in the mask. (default: 0.5)# w threshold, --white-threshold threshold # Brightness ratio above which a pixel is considered white. (default: 0.9)subcallUnpaper{my($match)=@_;@tmpList=listFiles("$baseDir/$tmpDir",$match);print"Around ".scalar@tmpList." files to optimize with unpaper : \n\n";foreachmy$file(@tmpList){my$filename=fileName($file);# unpaper can't overwrite, remove existing files$filename="$filename-U.ppm";unlink$filenameif-e$filename;# TODO enlever plus# '--blurfilter-intensity','1', # '--grayfilter-threshold','1',# '--noisefilter-intensity','1',# '--white-threshold','0.9',my@args=("unpaper",$file,$filename);system(@args)==0ordie"system @args failed: $?";}printscalar@tmpList." new ppm files created.\n\n";}# files ready to move in OCRsubReady{my($match)=@_;@tmpList=listFiles("$baseDir/$tmpDir",$match);print"Around ".scalar@tmpList." files to move to $ocrDir : \n";foreachmy$file(@tmpList){my($image,$x);$image=Image::Magick->new;$image->Read($file);# name updatemy$key=fileName($file);my$name=$files{$key};$x=$image->Write("$baseDir/$ocrDir/$name");print" $name saved in $ocrDir folder. \n";}print"Finished. \n\n"}# Create temporary individual page's files. # Don't forget all file's name are oddsubUnfold{print"\n\n".scalar@tmpList." files to unfold … ";# without cover files, loop is ((scalar @tmpList) / $sheetNumber) times # remove unnecessary files from the loop firstmy$zeroFiles=(scalar@tmpList)%$sheetNumber;my$goodFiles=(scalar@tmpList)-$zeroFiles;print"$zeroFiles files not kept, $goodFiles files to paginate … \n";## 13ème apôtre = in-4° de 11 cahiers# 11 cahiers -> 44 feuilles -> 88 fichiers + couverture + un scan à remonter = 90 fichiers# boucler 11 fois# sur un cahier de 8 fichiers, 1er: $first impair, 8ème: $last pair# boucler 8 fois :# couper fichier en 2 : pair / impair# écrire pair, impair# pair = pair- 2 impair = impair + 2## first page number from quire is oddmy$first=1;# start key in %files, all keys are odd numbersmy$key=$first;# every $sheetNumber files (11 times)for(my$i=0;$i<$goodFiles/$sheetNumber;$i++){# last page number from quire, evenmy$last=$first+(2*$sheetNumber)-1;for(my$i=0;$i<$sheetNumber;$i++){my$file=$files{$key};print"Will paginate $file … ";($last,$first)=paginate($file,$last,$first);print"\n";$key=$key+2;}}print"done, $goodFiles pages processed, ".$goodFiles*2." files created in $tmpDir. \n\n";}## utilities## remove extension and spacesubfileName{my($f)=@_;$f=~s/\.[a-z]+$//g;$f=~s/\-[A-Z]+$//g;$f=~s/\s+//;return$f;}# coupe, nomme, écrit# read all file formats supported by IM, but write in ppm formatsubpaginate{my($file,$even,$odd)=@_;my($image,$image1,$w,$h,$x);$image=Image::Magick->new;$image->Read($file);$image1=$image->Clone();($w,$h)=$image->Get('width','height');$w=$w/2;# first half is even$x=$image->Crop(geometry=>"$w x $h + 0 + 0");$x=$image->Write("$tmpDir/$even.ppm");print"created $tmpDir/$even.ppm ";# second half is odd$x=$image1->Crop(geometry=>"$w x $h + $w + 0");$x=$image1->Write("$tmpDir/$odd.ppm");print"and $tmpDir/$odd.ppm";# empty memoryundef$image;undef$image1;$even=$even-2;$odd=$odd+2;return$even,$odd;}# extract page number, hash with number => name of filesubhashList{my(@list)=@_;my%hash;foreachmy$l(@list){my$v=$l;$l=~s/[^0-9]+//g;$hash{$l}=$v;}return%hash;}# extraire les nombres, créer un hash nombre => fichier,# sortir une liste triée par la clé du hashsuborderedList{my(@list)=@_;my%hash;foreachmy$l(@list){my$v=$l;$l=~s/[^0-9]+//g;$hash{$l}=$v;}my@keys=sort{$a<=>$b}keys%hash;my@olist;foreachmy$key(@keys){nextif$hash{$key}=~m/\s0/;# fichiers 00push(@olist,$hash{$key});}return@olist;}# directory content (not recursive)# FIXME should use file type instead of extensionsublistFiles{my($dir,$ext)=@_;opendir(D,$dir)||die"Could not open dir $dir\n";# files and dir but (. and ..) my@content=grep{!/^\.\.?$/}readdirD;closedirD;# remove dirmy@files;foreachmy$name(@content){nextif-d$name;push@files,$nameif$name=~m/$ext/;}return@files;}
La solution smartphone est beaucoup plus efficace qu'un chargeur si on l'utilise avec OpenCamera et le script de page_dewarp, regarde la photo c'est parlant.
Les scanners avec chargeurs de documents sont pour la plupart des chargeurs de bureau. Je n'ai eu sous la main que des Brother et des Ricoh (plus ses marques dérivées : NRG, Nashuatec, etc.), ils fonctionnent bien sous Linux avec des pilotes propriétaires. Mes modèles ont 10, 15 et 20 ans, et sont tous de la récup. Le pilote Brother a le bon goût de n'être qu'un petit binaire appuyé sur Sane. Il se script donc très facilement.
Attention, les chargeurs ont la réputation d'abîmer les documents. Pour ma part, je viens de numériser sans aucun problème un livre des années 50, malgré son papier cassant (178 scans).
Les scans avec le chargeur, déjà très propres, ont été améliorés avec Noteshrink, ImageMagick et unpaper. Il y a des optimisations minuscules qui ont de gros effet sur Tesseract, en particulier la taille optimisée des majuscules, le bord blanc autour de la page et le redressement («deskewing»)dont a parlé BoaTreize. Tout ça est fait par un petit script Perl que je peux t'envoyer.
Et continues de poser des questions, ça va me faire le texte de la dépêche ! :-)
Ah zut, je viens de m'intéresser longuememnt à la question et j'ai un brouillon de dépêche à finir.
Que cherches-tu vraiment ? Parce que la sortie en texte brut, c'est la fonction de base des OCR.
Le processus est très simple : un scan de bonne qualité -> OCR -> relecture.
C'est le premier point qui est compliqué : pour obtenir une bonne image il faut la retoucher. J'utilise un processus plus simple que Boa Treize, avec des outils conçus exprès pour ça. Le site de Tesseract contient une page merveilleuse avec des outils pour améliorer la qualité du scan que j'ai presque tous essayés. Il y a des scripts et des outils graphiques.
Si tu as beaucoup de scans à faire, installe OpenCamera sur ton smartphone, pouse-le sur une pile de bouquins et lance le mode rafale. Tu dois pouvoir tourner à 20 pages minutes. Ensuite il te faudra le script de dewarping indiqué sur la page de tesseract.
NB : le meilleur OCR actuel sous Windows c'est ReadIris. Il fait beaucoup moins de petites erreurs que Tesseract qui est le meilleur OCR libre actuel (IMHO).
[^] # Re: informations manquantes
Posté par orfenor . En réponse au journal [Tutoriel] Installer Adélie Linux à la main (comme un gU4u). Évalué à 4.
Tiens, fais-toi plaisir !
[^] # Re: perles des commentaires
Posté par orfenor . En réponse au lien Ça brule chez OVH .... Évalué à 2.
[^] # Re: informations manquantes
Posté par orfenor . En réponse au journal [Tutoriel] Installer Adélie Linux à la main (comme un gU4u). Évalué à 4.
Tu veux relancer la polémique de l'autre journal ? :-)
Sérieusement, Firefox peut consommer beaucoup plus que ça sur des sites comme celui de La Poste. Tu devais prévoir 4 fois plus. Et avec si peu de Ram, les navigateurs Midori, Web ou Falkon consomment moins.
[^] # Re: Ext4 plus rapide qu'Ext2
Posté par orfenor . En réponse au journal [Tutoriel] Installer Adélie Linux à la main (comme un gU4u). Évalué à 4. Dernière modification le 10 mars 2021 à 15:39.
Il faut faire attention que ça change souvent. En 2012 c'était moins évident. Sur le serveur le noyau est ancien, donc je prend des benchmarks datés de 5 ans. En plus je veux grapiller dans la Ram, alors un système de fichier en moins c'est un module de moins.
Il y a eu récemment des changements dans XFS et des progrès dans F2FS qui les font passer devant Ext4. Mais bien sûr il faut ramener à son usage : un bench sur 1000 fichiers à servir ne concerne pas mon cas ni celui de ton neveu.
[^] # Re: perles des commentaires
Posté par orfenor . En réponse au lien Ça brule chez OVH .... Évalué à 4.
Ah ? en parcourant (rapidement il est vrai) les offres d'OVH, Gandi et Scaleway, ce n'est pas ce que j'ai lu. Au contraire on y propose des trucs en plus, comme des sauvegardes à bas prix.
On dirait qu'on est revenu à la situation des années 90 et 2000, pendant lesquelles la facilité du «je clique partout» avait remisé les admins au placard, alors qu'un administrateur système ne fait pas que cliquer ou taper de commandes, il a aussi les connaissances pour prévoir.
# informations manquantes
Posté par orfenor . En réponse au journal [Tutoriel] Installer Adélie Linux à la main (comme un gU4u). Évalué à 2.
Pour combien de Ram en tout ? et sur quels sites, avec combien d'onglets ?
512 Mo de swap, c'est un peu casse-gueule à moins d'avoir vraiment beaucoup de Ram, non ?
# Ext4 plus rapide qu'Ext2
Posté par orfenor . En réponse au journal [Tutoriel] Installer Adélie Linux à la main (comme un gU4u). Évalué à 3.
Je suis en pleine installation d'un serveur de travail pour ma copine et moi. Ma nature étant de me poser des questions avant, j'ai fait des comparaisons ce matin entre les systèmes de fichiers. Ma conclusion (inattendue) c'est que Ext4 est plus rapide que Ext2, et que Ext4 s'en sort premier ou second dans toutes les situations. Ça va d'ailleurs encore s'améliorer avec les «fast-commits», mais il faudra reformater le système de fichier pour en bénéficier dans quelques semaines.
Il ne s'agit que de Benchmarks, mais si tu veux jeter un oeil :
[^] # Re: perles des commentaires
Posté par orfenor . En réponse au lien Ça brule chez OVH .... Évalué à 8.
En plus, ce n'est probablement pas leur premier désastre informatique — il y a tellement d'occasion de perdre des données. Mais personne ne veut jamais comprendre ce que payer veut dire.
# perles des commentaires
Posté par orfenor . En réponse au lien Ça brule chez OVH .... Évalué à 10.
Il y a des commentaires assez lamentables sur Twitter. Des types qui se plaignent et accusent OVH, au lieu d'admettre leur propre médiocrité (ni redondance, ni serveur de secours, ni sauvegarde, etc.), ils trouvent inadmissible :
Photo de l'incendie d'OVH à Strasbourg par Info Trafic Alsace, reproduction autorisée
Les Dernières Nouvelles d'Alsace ont publié des photos de l'incendie presque maîtrisé (ça fume encore)
[^] # Re: Retours/avis
Posté par orfenor . En réponse au lien Ubuntu mise sur Flutter. Évalué à 9.
Vu les précédents d'Ubuntu… quand ils misent sur une nouvelle techno, elle sombre dans l'oubli 2-3 ans après ! Méfiance donc. ;-)
[^] # Re: LibreOffice l'Office du pauvre
Posté par orfenor . En réponse au journal C'est foutu pour LibreOffice. Évalué à 4. Dernière modification le 09 mars 2021 à 11:59.
C'est plus ou moins vrai. J'ai eu cette expérience par le passé, aujourd'hui je croise en majorité des gens satisfaits.
[^] # Re: Dans la langue de Jean-Baptiste Poquelin
Posté par orfenor . En réponse au lien Oh le beau bug (dans une rc1) (mais c'est un sacré bug). Évalué à 2.
Et tu n'as pas de swap ? :-)
Bien sûr que la taille c'est relatif, c'est le sens de ma réponse à David. Dans tous les cas, le swab ne représentera toujours que peu d'espace disque.
[^] # Re: Dans la langue de Jean-Baptiste Poquelin
Posté par orfenor . En réponse au lien Oh le beau bug (dans une rc1) (mais c'est un sacré bug). Évalué à 3.
Ben dis donc. C'est une grande taille pour moi. Je bosse avec 30 ou 80 Go selon les postes et je n'arrive pas à les remplir.
[^] # Re: l'été c'était mieux avant
Posté par orfenor . En réponse au journal Joplin for Ever(note). Évalué à 4.
Le calepin non, mais le stylo oui (c'est une plume à papotte).
[^] # Re: l'été c'était mieux avant
Posté par orfenor . En réponse au journal Joplin for Ever(note). Évalué à 2.
Oui mais moi ça rime (façon Paul Claudel) :-)
# l'été c'était mieux avant
Posté par orfenor . En réponse au journal Joplin for Ever(note). Évalué à 5.
Avant, je prenais des notes sur un calepin qui tenait dans mes poches ou ma main. Depuis que j'ai choisi la voie électronique, j'ai perdu beaucoup de notes en testant des logiciels, jamais assez pratiques. Avec Joplin on synchonise, ça nous rassure, mais est-ce que ça supporte la dictée quand je suis au volant de ma voiture ? On dirait que petit à petit on s'en rapproche et qu'un jour le progrès sera de faire tenir notre vie dans la poche. Mais pourquoi ? il fallait de la patience à Platon pour écrire sur des tablettes de cire, et on n'a pas jeté beaucoup de choses de ses notes lentement transformées en prose. Etc. etc.
[^] # Re: Dans la langue de Jean-Baptiste Poquelin
Posté par orfenor . En réponse au lien Oh le beau bug (dans une rc1) (mais c'est un sacré bug). Évalué à 2.
L'art de la pifométrie se perd mon cher PsychoFox.
[^] # Re: Dans la langue de Jean-Baptiste Poquelin
Posté par orfenor . En réponse au lien Oh le beau bug (dans une rc1) (mais c'est un sacré bug). Évalué à 2. Dernière modification le 05 mars 2021 à 18:37.
Méfie-toi quand même tu ne peux pas mettre en veille. Et si un jour, un processus part en sucette (ça m'arrive souvent sur le web), tu ne pourras éviter le crash brutal.
[^] # Re: Dans la langue de Jean-Baptiste Poquelin
Posté par orfenor . En réponse au lien Oh le beau bug (dans une rc1) (mais c'est un sacré bug). Évalué à 3.
Et la fragmentation alors ?
Franchement vu la taille des disques, une partition de swap c'est pas grand chose.
[^] # Re: gscan2pdf
Posté par orfenor . En réponse au journal Scanner et OCR sans passer par le cloud. Évalué à 2.
Okular, le visualiseur pdf de kde peut recréer le tableau si on l'aide (Outils > Sélection de tableau).
Il y a des OCR parfaitement capable de le faire sous winwin depuis au moins 25 ans. Je n'ai jamais essayé sous Linux, mais pourquoi ne serait-ce pas possible ? en ouvrant la doc de Tesseract, je vois un exemple de sortie CSV.
Enfin il y a un outil conçu pour les journalistes, qui doivent récupérer des tableaux de partout. Il est certainement dans mes marque-pages mais là je ne trouve pas. Linuxfr a publié un article dessus il y a 5 ou 6 ans.
[^] # Re: Processus simple et rapide.
Posté par orfenor . En réponse au journal Scanner et OCR sans passer par le cloud. Évalué à 2.
Les scans portaient tous le nom du livre (ou du chapitre) plus le numéro de la page impaire (quand on découd les cahiers de reliure, on obtient des feuilles imprimées recto-verso avec à gauche une page paire et a droite une impaire). La fonction orderedList met les noms dans un hash avec le numéro de page impaire en index.
«13ème apôtre» dans les commentaires est le titre du livre, pas une instrucion secrête!
[^] # Re: Processus simple et rapide.
Posté par orfenor . En réponse au journal Scanner et OCR sans passer par le cloud. Évalué à 4. Dernière modification le 03 mars 2021 à 23:31.
Ce script sert juste à lancer les différents outils. Rien d'extraordinaire. Il est un peu inutilement compliqué dans le but de me faire réapprendre Perl, plus pratiqué depuis 5 ans. Les commentaires mélangent anglais et français.
[^] # Re: Processus simple et rapide.
Posté par orfenor . En réponse au journal Scanner et OCR sans passer par le cloud. Évalué à 7. Dernière modification le 03 mars 2021 à 15:26.
La solution smartphone est beaucoup plus efficace qu'un chargeur si on l'utilise avec OpenCamera et le script de page_dewarp, regarde la photo c'est parlant.
Les scanners avec chargeurs de documents sont pour la plupart des chargeurs de bureau. Je n'ai eu sous la main que des Brother et des Ricoh (plus ses marques dérivées : NRG, Nashuatec, etc.), ils fonctionnent bien sous Linux avec des pilotes propriétaires. Mes modèles ont 10, 15 et 20 ans, et sont tous de la récup. Le pilote Brother a le bon goût de n'être qu'un petit binaire appuyé sur Sane. Il se script donc très facilement.
Attention, les chargeurs ont la réputation d'abîmer les documents. Pour ma part, je viens de numériser sans aucun problème un livre des années 50, malgré son papier cassant (178 scans).
Les scans avec le chargeur, déjà très propres, ont été améliorés avec Noteshrink, ImageMagick et unpaper. Il y a des optimisations minuscules qui ont de gros effet sur Tesseract, en particulier la taille optimisée des majuscules, le bord blanc autour de la page et le redressement («deskewing»)dont a parlé BoaTreize. Tout ça est fait par un petit script Perl que je peux t'envoyer.
Et continues de poser des questions, ça va me faire le texte de la dépêche ! :-)
[^] # Re: SANE + ArgyllCMS + gImageReader + Tesseract OCR + noteshrink | ImageMagick
Posté par orfenor . En réponse au journal Scanner et OCR sans passer par le cloud. Évalué à 6.
Pour redresser à la main, je préfère OCRFeeder (qui utilise unpaper pour ça) et surtout ScanTailor — Advanced ou legacy.
# Processus simple et rapide.
Posté par orfenor . En réponse au journal Scanner et OCR sans passer par le cloud. Évalué à 10. Dernière modification le 02 mars 2021 à 15:39.
Ah zut, je viens de m'intéresser longuememnt à la question et j'ai un brouillon de dépêche à finir.
Que cherches-tu vraiment ? Parce que la sortie en texte brut, c'est la fonction de base des OCR.
Le processus est très simple : un scan de bonne qualité -> OCR -> relecture.
C'est le premier point qui est compliqué : pour obtenir une bonne image il faut la retoucher. J'utilise un processus plus simple que Boa Treize, avec des outils conçus exprès pour ça. Le site de Tesseract contient une page merveilleuse avec des outils pour améliorer la qualité du scan que j'ai presque tous essayés. Il y a des scripts et des outils graphiques.
Si tu as beaucoup de scans à faire, installe OpenCamera sur ton smartphone, pouse-le sur une pile de bouquins et lance le mode rafale. Tu dois pouvoir tourner à 20 pages minutes. Ensuite il te faudra le script de dewarping indiqué sur la page de tesseract.
NB : le meilleur OCR actuel sous Windows c'est ReadIris. Il fait beaucoup moins de petites erreurs que Tesseract qui est le meilleur OCR libre actuel (IMHO).