j'ai l'impression que c po pour aujourdhui ruby
l'include de htmlentities pose un probleme de path semblerai t'il
$ ruby ./test_ruby.rb
/usr/local/lib/site_ruby/1.8/rubygems/custom_require.rb:27:in `gem_original_require': no such file to load -- htmlentities (LoadError)
from /usr/local/lib/site_ruby/1.8/rubygems/custom_require.rb:27:in `require'
from ./test_ruby.rb:3
$ sudo gem install hpricot
Select which gem to install for your platform (i486-linux)
1. hpricot 0.5.150 (mswin32)
2. hpricot 0.5.150 (jruby)
3. hpricot 0.5.150 (ruby)
4. hpricot 0.5.145 (jruby)
5. hpricot 0.5.145 (ruby)
6. hpricot 0.5.145 (mswin32)
7. Skip this gem
8. Cancel installation
> 3
Building native extensions. This could take a while...
Successfully installed hpricot-0.5.150
Installing ri documentation for hpricot-0.5.150...
lib/hpricot/builder.rb:25:61: ':' not followed by identified or operator
lib/hpricot/elements.rb:477:39: 'attr' ignored - looks like a variable
lib/hpricot/elements.rb:477:66: 'attr' ignored - looks like a variable
Installing RDoc documentation for hpricot-0.5.150...
lib/hpricot/builder.rb:25:61: ':' not followed by identified or operator
lib/hpricot/elements.rb:477:39: 'attr' ignored - looks like a variable
lib/hpricot/elements.rb:477:66: 'attr' ignored - looks like a variable
je ne sais pas si l'installation s'est deroulee correctement mais ca s'annone pas bien. Je vais tester ton script pour voir si ca reconnais hpricot
merci pour le depot
$ sudo apt-get install make
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances... Fait
Aucune version du paquet make n'est disponible, mais il existe dans la base
de données. Cela signifie en général que le paquet est manquant, qu'il est devenu obsolète
ou qu'il n'est disponible que sur une autre source
E: Aucun paquet ne correspond au paquet make
j'ai une vielle ubuntu dapper, je doit verifier peut etre mes depots.
le $sudo apt-get install ruby
ne marche pas, il me montre que ruby1.8 et 1.6 et 1.9
j'aurai du pense au lien symbolique
j'avais plus d'idee. maintenant j'ai les erreurs suivante:
apres creation du lien symbolique
$ sudo gem install hpricot
Select which gem to install for your platform (i486-linux)
1. hpricot 0.5.150 (mswin32)
2. hpricot 0.5.150 (ruby)
3. hpricot 0.5.150 (jruby)
4. hpricot 0.5.145 (ruby)
5. hpricot 0.5.145 (jruby)
6. hpricot 0.5.145 (mswin32)
7. Skip this gem
8. Cancel installation
> 4
Building native extensions. This could take a while...
ERROR: While executing gem ... (Gem::Installer::ExtensionBuildError)
ERROR: Failed to build gem native extension.
ruby extconf.rb install hpricot
extconf.rb:1:in `require': no such file to load -- mkmf (LoadError)
from extconf.rb:1
Gem files will remain installed in /usr/lib/ruby/gems/1.8/gems/hpricot-0.5.145 for inspection.
Results logged to /usr/lib/ruby/gems/1.8/gems/hpricot-0.5.145/ext/hpricot_scan/gem_make.out
Gem files will remain installed in /usr/lib/ruby/gems/1.8/gems/hpricot-0.5.145 for inspection.
Results logged to /usr/lib/ruby/gems/1.8/gems/hpricot-0.5.145/ext/hpricot_scan/gem_make.out
Moi j'ai installé ruby1.8 ca doit etre du a ca, il ne trouve pas ruby tout court.
apres une bonne heure de galere a installer ruby et hpricot
je lance
$ sudo ruby1.8 ./test_ruby.rb
test_ruby.rb est le script que tu m'a donne
j'ai les erreurs suivante:
/usr/local/lib/site_ruby/1.8/rubygems/custom_require.rb:27:in `gem_original_require': no such file to load -- hpricot (LoadError)
from /usr/local/lib/site_ruby/1.8/rubygems/custom_require.rb:27:in `require'
from ./test_ruby.rb:2
J'abandonne pour aujourdhui, à moins que tu aies une solution a ce probleme.
ps:
J'en ai appris pas mal sur le fonctionnement de ruby, ca m'a l'air puissant mais un peu complique comme language.
Salut,
Merci pour ce beau script, je voulais exactement un truc comme ca, qui soit capable de reperer les balises.
Mais comme je ne savais pas ou trouver un outil de ce genre j'ai ecrit le script bash. Je vais me plonger la tete sur ton script, meme si je ne connais pas ruby ca sera l'occasion d'etudier le language en general.
Je viens juste de me lancé une petite bataille avec apt de ubuntu dapper pour installer les librairies.
Excusez moi de répondre si tard.
Je vais utiliser régulièrement sudo, en fait j'ai commence avec su a l'école :-) et puis je n'ai jamais connu le fonctionnement sudo, ni vraiment connu sont réel interet par rapport a su.
J'ai commencé aussi a simplifie mon passe, c'est vrai qu'il est pas évident.
j'en fais souvent, et c'est pour cela que j'en ai marre de taper à chaque fois mon mot de passe. La tu m'as convaincu la, en fait j'utilise sudo a la societe avec ubuntu où je fais mon stage. mais je pensais su mieux. Jvais pas le faire puisque je commence a ouvrir mon pc en creant un serveur ftp.
En fait c'est la fleme de taper mon passe a chaque fois que je veux utiliser synaptec pour installer un ptit logiciel ou ouvrir mon serveur gproftpd alors que je suis le seul utilisateur de mon PC.
Avant j'etait un utilisateur de l'autre systeme, maintenant j'ai oublie le nom et je suis gueris de mes debuts et de ce systeme malsaint, enfin bref j'en ai gardé quelques sales habitudes telque les taches admin sans password.
Merci a tous de m'avoir donnee votre avis sur le sujet.
Ouais, je te remercie, mais j'ai deja eu un logiciel pour ca, html2text. 2eme commentaire.
Le logiciel extrait tout d'un seul coup.
C'est pas tres mal, mais un parseur me conviendrais mieux. Je ne sais pas vraiment comment ca marche mais j'imagine qu'il extrait par exemple chaque categorie (paragraphe et titre).
Le code html n'a pas vraiment beaucoup d'interet pour moi. Je te le montre plus bas:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<p style="margin-bottom: 0cm;"><b><i><font face="Georgia, serif"><font style="font-size: 16pt;" size="4"> </font><u><font size="3">Casanova
ou la dissipation</font></u></font></i></b></p>
<p style="margin-bottom: 0cm;"><br>
</p>
<p style="margin-bottom: 0cm;" align="justify"><font face="Georgia, serif"><font style="font-size: 11pt;" size="2"> Federico
Fillini reconnaissait de bonne grâce que le livre de Robert
Abirached (1961) avait inspiré son film (1976) : un portrait
sans complaisance du célébrissime aventurier
vénitien... Séducteur, certes, infatigable
baiseur,
oui, mais aussi charlatan mondain, tricheur
invétéré,
pique-assiette international et parasite professionnel, abusant des
préjugés de son temps,
obsédé par son
apparence et prêt élégamment
à tout,
incapable de créer mais sachant donner
l’impression du
génie, expert dans l’art d’accommoder
son néant -
bref, un flamboyant faux jeton.</font></font></p>
<p style="margin-bottom: 0cm;" align="justify"><font face="Georgia, serif"><font style="font-size: 11pt;" size="2">Casanova,
dernier aventurier de l’Europe baroque,
révèle de
troublantes similitudes avec l’homme moderne qui
s’agite au lieu
d’agir, consomme le monde au lieu de vivre. Avant Guy Debord
et sa
« Société du
spectacle », Robert
Abirached décrit avec brio l’homme du spectacle,
pantin
mécanique affublé d’une
liberté postiche et
courant à la poursuite du bonheur... Celui de
« raconter »
fut peut-être le seul, accomplissement de Casanova. Chez
Abirached, dans un sourire, le mystère littéraire
rachète « in
extremis » la vaine gloire
du gigolo.</font></font></p>
<p style="margin-bottom: 0cm;" align="justify"><b><i><font size="3"><font face="Georgia, serif"> <u>La
crise du personnage dans le théâtre moderne</u></font></font></i></b></p>
<p style="margin-bottom: 0cm;" align="justify"><font style="font-size: 11pt;" size="2"><font face="Georgia, serif"><b> </b>Sosie
ou fantôme, mannequin ou icône, qu’est-ce
que le
person­nage de théâtre ? Contrairement au
comédien
chargé de l’incar­ner, il n’a
guère été
étudié jusqu’ici c’est
à quoi s’emploie ce
livre, qui va constamment des œuvres à leurs
représentations,
des théo­ries aux pratiques scéniques, de
l’acteur
au spectateur. Dans une traversée de l’histoire du
théâtre,
conduite d’un point de vue origi­nal, Robert
Abirached aide à
comprendre le difficile parcours de la figuration à la
défiguration qui a marqué, depuis un
siècle, la
scène occidentale.</font></font></p>
<p style="margin-bottom: 0cm;" align="justify"><font face="Georgia, serif"><font style="font-size: 11pt;" size="2">Notre
société a-t-elle encore besoin de
l’entremise du
personnage pour se représenter, alors qu’elle se
donne
directement en spec­tacle à elle-même dans
une
omniprésente exhibition ? Cette ques­tion, si elle
concerne d’abord le théâtre et son
avenir parmi nous,
met en jeu le statut même de l’image dans le monde
moderne,
en délicate balance entre l’imaginaire et le
réel.</font></font></p>
Je vais tenter d'etre le plus clair possibe. Mais plus je pense a cet objectif et plus j'ai l'impression de m'eagarer.
J'ai resolu mon probleme par un script bash que je publie plus bas. Je dois avouer que mon probleme etait assez long a expliquer. Surtout que les documents dont j'ai parlé ne figurent sur aucune page sur le web.Je passe par plusieurs etape en utilisant text2html, gedit, un script fais maison, gnumeric (pour structurer avec des separateurs) et enfin phpmyadmin pour construire mes tables mysql.
"Je dois avouer que je n'ai pas compris toute ton histoire sur les differents formats que tu as. Tu veux dire que tous les documents html n'ont pas la même structure ?"
je n'est pas parlé de format
j'ai parlé de structure au niveau de l'enregistrement des informations, la maniere dont les livres sont copié dans le fichier html
«
NOM DE L'AUTEUR
Il ya des fois où un de ces paragraphes manque, je voulais pouvoir extraire les donnees du fichier html(par ma premiere idee un script bash, j'ai reussi grace a l'outil recommande 'html2text' plus haut ou avec un parseur comme recommande) puis les classer dans un fichier texte structuré, je remplaces les sauts de ligne par des ' @' à l'aide de gedit. j'obtiens:
auteur@titre_doc@resumé@infos_editeur@)
exemple:
"Sandra J. ALBERT@14 février Saint-Valentin@Dans un bureau de placement de New-York dont les affaires ne vont plus très bien, les employées traitent plus de leurs problèmes personnels qu'elles ne font avancer les dossiers ! Et leurs affaires de c½urs en particulier vont remonter à la surface ce 14 février, jour de la St Valentin.@Comédie psychologique avec 7 personnages : 7 femmes - Editions de la Traverse / décembre 1997@Jean-Paul ALEGRE@La Ballade des planches@« La Ballade des planches » se compose, comme « Sur un plateau » d’une série de courtes pièces sur les situations absurdes qui peuvent se produire sur un plateau ayant pour seul thème : le théâtre. L’histoire qu’elles racontent est celle que les troupes, professionnelles ou non, vivent au rythme des saisons, - théâtrales bien entendu. Les comédiens plongent dans un méli-mélo de personnages et d’intrigues, parce qu’ils sont à la recherche « de la bonne réplique » plutôt que du bon texte, spéculant sur la longueur du rôle et non sur la qualité dramatique. Ce qui nous vaut six comédies, la loufoque : « Dernière répétition », une inénarrable : « Le petit chemisier », la grotesque : « Vivons heureux en attendant la mort », la satirique : « Soyons bref », la burlesque : « C’est dur de faire l’Europe » qui invente un idiome latino-gréco-slavo-anglo-saxon des plus réjouissants, et une fantastique : « Les explorateurs », le tout assaisonné des « chants » du matériel. Quand les projecteurs auront été « débranchés », le tube de fond teint « revissé », la « planche qui craque » « rabotée », le « vieux rideau » « démonté », les costumes « rangés », les messages publicitaires passés, au détriment des pièces, que restera-t-il de la création sinon le rire ? Les scènes sont reliées par des chants, mais chacune des pièces peut-être jouée de manière indépendante.@Comédie avec une distribution évolutive de 3 à 20 personnages - Editions L’Avant-Scène n° 1004 / 15 février 1997@Jean-Paul ALEGRE@C’est Jean Moulin qui a gagné !@Le nom de Jean Moulin s’inscrit au fronton des écoles et sur les plaques des rues de nos villes. Aujourd’hui, il existe des petits Mathieu, Stéphane, Patrice, Djamel, William et Maxime, des collégiens passionnés de foot, qui savent confusément que Jean Moulin est un grand résistant, mais qui ne connaissent pas bien les événements historiques. Or, Jean Moulin était aussi un haut fonctionnaire intègre, un caricaturiste de renom, un homme qui aimait les femmes, la musique, la poésie, la peinture, la vie tout simplement... Mais il a croisé un certain Klaus Barbie, le 21 juin 1943...@Drame historique avec 30 personnages - Editions L’Avant-Scène n° 1085 /1er mars 2001@Jean-Paul ALEGRE@"
, puis ensuite les importes sur une base de donnee mysql en utilisant CSV par phpmyadmin et les fonctions d'importation de gnumerique pour les separateurs.
je vous met le script, il est assez long mais me permet d'extraire les champs depuis du texte brut et de classer les infos par un jeu de redirection, juste avant d'importe dans phpmyadmin.
Le scripts contient beaucoup d'erreurs mais fonctionne quand meme (je l'ai ecrit).
Il demande a chaque fois si le champs du texte extrait est un "auteur, titre, resume ou autre". Moi je reponds, et le script positionne le champ en question dans un fichier de sortie (celui qui servira a l'importation mysql).
un exemple du resultat attendu par le script, le separateur choisi est le "|":
Module|Sous-partie|Auteur|Titre|Resume|Info-supplementaire|
THEATRE ET JEUNESSE|Pédagogie|Sylvette Pagan|Maquillages d’enfants|Du bout des mains, devenez un peu fée avec Sylvette Pagan et toute sa troupe. Des maquillages bavards, des maquillages coquins, des costumes faciles et colorés, des perruques, des postiches pour tous les enfants les plus sages et les plus délurés.|Editions Fleurus Idées / 1989 / 48 pages|
THEATRE ET JEUNESSE|Pédagogie|SNAZAROO|Maquillages en cinq minutes|Réussissez comme un professionnel de superbes maquillages de fête en moins de cinq minutes ! Ce livre vous présente une méthode simple et rapide pour transformer les enfants en Pierrot et en clown, en princesse ou en sorcière. Le succès est garanti pour toutes les fêtes : Carnaval, anniversaires, kermesses, et... Vous trouverez dans ce livre : 30 modèles facile à faire ; des photos couleur de chaque maquillage ; un guide du matériel à employer ; des conseils techniques ; des idées toutes simples pour réaliser les accessoires indispensables.|Editions Fleurus Idées / 1992 / 46 pages|
THEATRE ET JEUNESSE|Pédagogie|Association Nationale de Recherche et d’Action Théâtrale en Milieu Scolaire et Universitaire|L’Enfant, le jeu, le théâtre - Autour des pratiques dramatiques à l’école primaire|Les activités théâtrales et dramatiques se développent en milieu scolaire : classes d’initiation, ateliers, options, formations... Qu’en est-il des pratiques avec des jeunes enfants, à l’école élémentaire ? Quels sont les enjeux, les écueils, les perspectives dans ce domaine ? Exemples, points de vue, témoignages, réflexions.., sont rassemblés dans ces deuxièmes « Cahiers Théâtre/Education » proposés par L’ANRAT (Association Nationale de Recherche et d’Action Théâtrale).|Edition Actes Sud-Papiers / 1990 / 84 pages|
........................................
Mon probleme:
Il peut manquer des champs dans le document, c'est pour ca que j'ai ecrit le script, celui ci remplace les champs manquants par 'XXX'
voici le script:
#extrait les champs auteur,titre,categorie,infos generales
#sytaxe $fic ./entete ./theme ./info
#1 prends l'entete de la table (fichiers entete, paramettre 1)
#2 prends les premieres rubriques content le module et la sous partie (fichier theme parametre 2)
#3 recupere les champs sur le texte brut (parametre 3)
#4 sortie de la table au complet (sur le fichier table)
clear
echo structure du fichier
cat ./$1
echo $(cat ./$1)>table
if [ "$champ" != "$fin" ]
then
echo " "
echo $champ
echo Que faire du champ? \(i\/num de position \(1,2,3,4\) \/v \(vide\)\/c \(concatener\)\/n \(nouvel enregistrement\)\)
read choix
case $choix in
i) echo ignore;;
v) echo champ vide;res=$res\*\|;dernier_champ_traite="";cpt_champ=$(expr $cpt_champ + 1);echo $res;;
c) echo concatene;res=$res$dernier_champ_traite$champ;;
n) echo nouvelle ligne;dernier_champ_traite="";auteur="";titre="";champ="";est_ligne_copie="faux";res="";;
1) res=$res$champ\|;auteur=$champ;dernier_champ_traite=$auteur;cpt_champ=$(expr $cpt_champ + 1);;
2) res=$res$auteur\|$champ\|;titre=$champ;dernier_champ_traite=$titre;cpt_champ=$(expr $cpt_champ + 1);;
3) res=$res$auteur\|$titre\|$champ\|;resume=$champ;dernier_champ_traite=$resume;cpt_champ=$(expr $cpt_champ + 1);;
4) res=$(cat $2)$auteur\|$titre\|$resume\|$champ\|;infos_sup=$champs;dernier_champ_traite=$infos_sup;cpt_champ=$(expr $cpt_champ + 1);est_ligne_copie="faux";;
#'@' marque une ligne invalide
*) echo choix invalide!;dernier_champ_traite="";auteur="";titre="";champ="";est_ligne_copie="vrai";res="";echo @>>./table;;
esac
cpt=$(expr $cpt + 1)
fi
if [ $cpt_champ -eq 4 ]
then
est_ligne_copie="faux"
fi
if [ "$est_ligne_copie" != "vrai" ]
then
echo $res>>./table
est_ligne_copie="vrai"
cpt_champ=0
fi
if [ "$champ" != "$fin" ]
then
echo ligne a copier\: $res
fi
done
------------------------------------------------------------------------------------------------
MERCI BEAUCOUP A CEUX QUI M'ONT LU, MERCI POUR VOS COMMENTAIRES j'ai mis le script pour bien me faire comprendre, j'espere que c'est reussi ;-). DESOLE POUR LES FAUTES D'ORTHO.
Bonjour,
Penses au services qui tournent sur ton pc. les demons, regarde si ya pas des services qui ne t'interressent pas au demarrage mais que tu aurai activer inconcienment. je pense a apache,mysql etc... si tu n'en a pas besoin.
Lance un gestionnaire de tache sur kde (ctrl+esc) ou gnome pour surveiller tes taches et consommation de ressource (menuk)
"Je ne dis pas que Linux pue. Je suis certain que c'est un très bon OS."
>>tu parles bien quand tu veux
"Son pb, c'est qu'il est supporté par des gens passionnés qui n'ont pas une logique d'industriels.">> le doit dans l'oeil tu te le fou jusqu'au genou :-), lis un peu les depeches de linuxfr
recommandations: Change de distribution, de version ou de lecteur, si ça ne marche pas.
remarque: Dans ta logique l'AUTRE systeme reconnait tout les lecteurs, en tout cas ceux de 2007, moi perso je ne pense pas.
le manchot, dure a configurer? consevable, c'est du vrai systeme.
[^] # Re: echec de hpricot, le make
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
l'include de htmlentities pose un probleme de path semblerai t'il
$ ruby ./test_ruby.rb
/usr/local/lib/site_ruby/1.8/rubygems/custom_require.rb:27:in `gem_original_require': no such file to load -- htmlentities (LoadError)
from /usr/local/lib/site_ruby/1.8/rubygems/custom_require.rb:27:in `require'
from ./test_ruby.rb:3
[^] # Re: echec de hpricot, le make
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
$ sudo gem install hpricot
Select which gem to install for your platform (i486-linux)
1. hpricot 0.5.150 (mswin32)
2. hpricot 0.5.150 (jruby)
3. hpricot 0.5.150 (ruby)
4. hpricot 0.5.145 (jruby)
5. hpricot 0.5.145 (ruby)
6. hpricot 0.5.145 (mswin32)
7. Skip this gem
8. Cancel installation
> 3
Building native extensions. This could take a while...
Successfully installed hpricot-0.5.150
Installing ri documentation for hpricot-0.5.150...
lib/hpricot/builder.rb:25:61: ':' not followed by identified or operator
lib/hpricot/elements.rb:477:39: 'attr' ignored - looks like a variable
lib/hpricot/elements.rb:477:66: 'attr' ignored - looks like a variable
Installing RDoc documentation for hpricot-0.5.150...
lib/hpricot/builder.rb:25:61: ':' not followed by identified or operator
lib/hpricot/elements.rb:477:39: 'attr' ignored - looks like a variable
lib/hpricot/elements.rb:477:66: 'attr' ignored - looks like a variable
je ne sais pas si l'installation s'est deroulee correctement mais ca s'annone pas bien. Je vais tester ton script pour voir si ca reconnais hpricot
merci pour le depot
[^] # Re: echec de hpricot, le make
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
[^] # Re: echec de hpricot, le make
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
$ sudo apt-get install make
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances... Fait
Aucune version du paquet make n'est disponible, mais il existe dans la base
de données. Cela signifie en général que le paquet est manquant, qu'il est devenu obsolète
ou qu'il n'est disponible que sur une autre source
E: Aucun paquet ne correspond au paquet make
j'ai une vielle ubuntu dapper, je doit verifier peut etre mes depots.
deb http://archive.ubuntu.com/ubuntu/ dapper-updates main restricted
deb http://archive.ubuntu.com/ubuntu/ dapper-security main restricted
deb http://archive.ubuntu.com/ubuntu/ dapper universe multiverse
deb http://archive.ubuntu.com/ubuntu/ dapper-updates universe multiverse
deb http://archive.ubuntu.com/ubuntu/ dapper-security universe multiverse
deb http://archive.ubuntu.com/ubuntu/ dapper-backports main restricted universe multiverse
deb http://security.ubuntu.com/ubuntu dapper-security main restricted
deb-src http://security.ubuntu.com/ubuntu dapper-security main restricted
deb http://security.ubuntu.com/ubuntu dapper-security universe
deb-src http://security.ubuntu.com/ubuntu dapper-security universe
deb http://fr.archive.ubuntu.com/ubuntu/ dapper universe
deb-src http://fr.archive.ubuntu.com/ubuntu/ dapper universe
sur debian ca serait fait de puis un bail, la c'est lordi de la societe ou je fait mon stage, jsuis vraiment desole.
[^] # echec de hpricot, le make
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
ci-bas:
$ sudo gem install hpricot
Need to update 2 gems from http://gems.rubyforge.org
..
complete
Select which gem to install for your platform (i486-linux)
1. hpricot 0.5.150 (mswin32)
2. hpricot 0.5.150 (jruby)
3. hpricot 0.5.150 (ruby)
4. hpricot 0.5.145 (jruby)
5. hpricot 0.5.145 (ruby)
6. hpricot 0.5.145 (mswin32)
7. Skip this gem
8. Cancel installation
> 3
Building native extensions. This could take a while...
ERROR: While executing gem ... (Gem::Installer::ExtensionBuildError)
ERROR: Failed to build gem native extension.
ruby extconf.rb install hpricot
checking for main() in -lc... yes
creating Makefile
make
sh: make : commande introuvable
C'est pas juste, decidement j'ai vraiment pas de bol :-)
[^] # Re: echec de hpricot
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
ne marche pas, il me montre que ruby1.8 et 1.6 et 1.9
j'aurai du pense au lien symbolique
j'avais plus d'idee. maintenant j'ai les erreurs suivante:
apres creation du lien symbolique
$ sudo gem install hpricot
Select which gem to install for your platform (i486-linux)
1. hpricot 0.5.150 (mswin32)
2. hpricot 0.5.150 (ruby)
3. hpricot 0.5.150 (jruby)
4. hpricot 0.5.145 (ruby)
5. hpricot 0.5.145 (jruby)
6. hpricot 0.5.145 (mswin32)
7. Skip this gem
8. Cancel installation
> 4
Building native extensions. This could take a while...
ERROR: While executing gem ... (Gem::Installer::ExtensionBuildError)
ERROR: Failed to build gem native extension.
ruby extconf.rb install hpricot
extconf.rb:1:in `require': no such file to load -- mkmf (LoadError)
from extconf.rb:1
Gem files will remain installed in /usr/lib/ruby/gems/1.8/gems/hpricot-0.5.145 for inspection.
Results logged to /usr/lib/ruby/gems/1.8/gems/hpricot-0.5.145/ext/hpricot_scan/gem_make.out
Ah j'ai pas de chance aujourd'hui.
# la classe tuiu pol :-D
Posté par abdoulfatahou . En réponse à la dépêche Qt Jambi est enfin disponible. Évalué à -6.
[^] # echec de hpricot
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
$ sudo gem install hpricot
Select which gem to install for your platform (i486-linux)
1. hpricot 0.5.150 (mswin32)
2. hpricot 0.5.150 (ruby)
3. hpricot 0.5.150 (jruby)
4. hpricot 0.5.145 (ruby)
5. hpricot 0.5.145 (jruby)
6. hpricot 0.5.145 (mswin32)
7. Skip this gem
8. Cancel installation
> 4
Building native extensions. This could take a while...
ERROR: While executing gem ... (Gem::Installer::ExtensionBuildError)
ERROR: Failed to build gem native extension.
ruby extconf.rb install hpricot
sh: ruby : commande introuvable
Gem files will remain installed in /usr/lib/ruby/gems/1.8/gems/hpricot-0.5.145 for inspection.
Results logged to /usr/lib/ruby/gems/1.8/gems/hpricot-0.5.145/ext/hpricot_scan/gem_make.out
Moi j'ai installé ruby1.8 ca doit etre du a ca, il ne trouve pas ruby tout court.
help! aidez moi.
[^] # Re: entrée
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
apres une bonne heure de galere a installer ruby et hpricot
je lance
$ sudo ruby1.8 ./test_ruby.rb
test_ruby.rb est le script que tu m'a donne
j'ai les erreurs suivante:
/usr/local/lib/site_ruby/1.8/rubygems/custom_require.rb:27:in `gem_original_require': no such file to load -- hpricot (LoadError)
from /usr/local/lib/site_ruby/1.8/rubygems/custom_require.rb:27:in `require'
from ./test_ruby.rb:2
J'abandonne pour aujourdhui, à moins que tu aies une solution a ce probleme.
ps:
J'en ai appris pas mal sur le fonctionnement de ruby, ca m'a l'air puissant mais un peu complique comme language.
[^] # Re: entrée
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
le script bash: http://pastie.caboo.se/69731
c'est plus joli a voir :-)
[^] # Re: entrée
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
Merci pour ce beau script, je voulais exactement un truc comme ca, qui soit capable de reperer les balises.
Mais comme je ne savais pas ou trouver un outil de ce genre j'ai ecrit le script bash. Je vais me plonger la tete sur ton script, meme si je ne connais pas ruby ca sera l'occasion d'etudier le language en general.
Je viens juste de me lancé une petite bataille avec apt de ubuntu dapper pour installer les librairies.
10*merci
Cordialement.
# re
Posté par abdoulfatahou . En réponse au journal Le TGV est et pourquoi la musique sous droit d'auteur de base c'est le mal(tm). Évalué à 1.
# re
Posté par abdoulfatahou . En réponse au message supprimer mot de passe root. Évalué à 1.
Je vais utiliser régulièrement sudo, en fait j'ai commence avec su a l'école :-) et puis je n'ai jamais connu le fonctionnement sudo, ni vraiment connu sont réel interet par rapport a su.
J'ai commencé aussi a simplifie mon passe, c'est vrai qu'il est pas évident.
Merci pour vos beaux conseils.
[^] # Re: Je regrette, Dave ...
Posté par abdoulfatahou . En réponse au message supprimer mot de passe root. Évalué à 1.
j'en fais souvent, et c'est pour cela que j'en ai marre de taper à chaque fois mon mot de passe. La tu m'as convaincu la, en fait j'utilise sudo a la societe avec ubuntu où je fais mon stage. mais je pensais su mieux. Jvais pas le faire puisque je commence a ouvrir mon pc en creant un serveur ftp.
En fait c'est la fleme de taper mon passe a chaque fois que je veux utiliser synaptec pour installer un ptit logiciel ou ouvrir mon serveur gproftpd alors que je suis le seul utilisateur de mon PC.
Avant j'etait un utilisateur de l'autre systeme, maintenant j'ai oublie le nom et je suis gueris de mes debuts et de ce systeme malsaint, enfin bref j'en ai gardé quelques sales habitudes telque les taches admin sans password.
Merci a tous de m'avoir donnee votre avis sur le sujet.
PS: G vu faire cette pratique en entreprise :-)
[^] # Re: entrée
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
Le logiciel extrait tout d'un seul coup.
C'est pas tres mal, mais un parseur me conviendrais mieux. Je ne sais pas vraiment comment ca marche mais j'imagine qu'il extrait par exemple chaque categorie (paragraphe et titre).
Le code html n'a pas vraiment beaucoup d'interet pour moi. Je te le montre plus bas:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<meta http-equiv="CONTENT-TYPE" content="text/html; charset=utf-8">
<title></title>
<meta name="GENERATOR" content="OpenOffice.org 2.0 (Linux)">
<meta name="AUTHOR" content="dev">
<meta name="CREATED" content="20070524;13470700">
<meta name="CHANGEDBY" content="dev">
<meta name="CHANGED" content="20070524;13474400">
<style type="text/css">
<!--
@page { size: 21cm 29.7cm; margin: 2cm }
P { margin-bottom: 0.21cm }
-->
</style>
</head>
<body style="direction: ltr;" lang="fr-FR">
<p style="margin-bottom: 0cm;"><br>
</p>
<p style="background: rgb(0, 0, 0) none repeat scroll 0% 50%; -moz-background-clip: initial; -moz-background-origin: initial; -moz-background-inline-policy: initial; margin-left: -0.25cm; margin-right: 12.5cm; margin-bottom: 0cm;" align="center">
<font face="Verdana, sans-serif"><font size="3"><b>Robert
ABIRACHED</b></font></font></p>
<p style="margin-bottom: 0cm;"><b><i><font face="Georgia, serif"><font style="font-size: 16pt;" size="4"> </font><u><font size="3">Casanova
ou la dissipation</font></u></font></i></b></p>
<p style="margin-bottom: 0cm;"><br>
</p>
<p style="margin-bottom: 0cm;" align="justify"><font face="Georgia, serif"><font style="font-size: 11pt;" size="2"> Federico
Fillini reconnaissait de bonne grâce que le livre de Robert
Abirached (1961) avait inspiré son film (1976) : un portrait
sans complaisance du célébrissime aventurier
vénitien... Séducteur, certes, infatigable
baiseur,
oui, mais aussi charlatan mondain, tricheur
invétéré,
pique-assiette international et parasite professionnel, abusant des
préjugés de son temps,
obsédé par son
apparence et prêt élégamment
à tout,
incapable de créer mais sachant donner
l’impression du
génie, expert dans l’art d’accommoder
son néant -
bref, un flamboyant faux jeton.</font></font></p>
<p style="margin-bottom: 0cm;" align="justify"><font face="Georgia, serif"><font style="font-size: 11pt;" size="2">Casanova,
dernier aventurier de l’Europe baroque,
révèle de
troublantes similitudes avec l’homme moderne qui
s’agite au lieu
d’agir, consomme le monde au lieu de vivre. Avant Guy Debord
et sa
« Société du
spectacle », Robert
Abirached décrit avec brio l’homme du spectacle,
pantin
mécanique affublé d’une
liberté postiche et
courant à la poursuite du bonheur... Celui de
« raconter »
fut peut-être le seul, accomplissement de Casanova. Chez
Abirached, dans un sourire, le mystère littéraire
rachète « in
extremis » la vaine gloire
du gigolo.</font></font></p>
<p style="margin-bottom: 0cm;" align="justify"><br>
</p>
<p style="margin-bottom: 0cm;" align="justify"><font size="3"><font face="Book Antiqua, serif"> </font></font><b><font style="font-size: 8pt;" size="1"><font face="Georgia, serif">Editions
Titanic / 1996 / 163 pages</font></font></b></p>
<p style="margin-bottom: 0cm;" align="justify"><br>
</p>
<p style="margin-bottom: 0cm;" align="justify"><br>
</p>
<p style="margin-bottom: 0cm;" align="justify"><b><i><font size="3"><font face="Georgia, serif"> <u>La
crise du personnage dans le théâtre moderne</u></font></font></i></b></p>
<p style="margin-bottom: 0cm;" align="justify"><br>
</p>
<p style="margin-bottom: 0cm;" align="justify"><font style="font-size: 11pt;" size="2"><font face="Georgia, serif"><b> </b>Sosie
ou fantôme, mannequin ou icône, qu’est-ce
que le
person­nage de théâtre ? Contrairement au
comédien
chargé de l’incar­ner, il n’a
guère été
étudié jusqu’ici c’est
à quoi s’emploie ce
livre, qui va constamment des œuvres à leurs
représentations,
des théo­ries aux pratiques scéniques, de
l’acteur
au spectateur. Dans une traversée de l’histoire du
théâtre,
conduite d’un point de vue origi­nal, Robert
Abirached aide à
comprendre le difficile parcours de la figuration à la
défiguration qui a marqué, depuis un
siècle, la
scène occidentale.</font></font></p>
<p style="margin-bottom: 0cm;" align="justify"><font face="Georgia, serif"><font style="font-size: 11pt;" size="2">Notre
société a-t-elle encore besoin de
l’entremise du
personnage pour se représenter, alors qu’elle se
donne
directement en spec­tacle à elle-même dans
une
omniprésente exhibition ? Cette ques­tion, si elle
concerne d’abord le théâtre et son
avenir parmi nous,
met en jeu le statut même de l’image dans le monde
moderne,
en délicate balance entre l’imaginaire et le
réel.</font></font></p>
<p style="margin-bottom: 0cm;" align="justify"><br>
</p>
<p style="margin-bottom: 0cm;" align="justify"><font size="3"><font face="Monotype Corsiva, cursive">
</font></font><b><font style="font-size: 8pt;" size="1"><font face="Georgia, serif">Editions
Gallimard / 1994 / 506 pages</font></font></b></p>
Etc................................
[^] # Re: apache
Posté par abdoulfatahou . En réponse au message installation de php. Évalué à 3.
[^] # Re: acpi
Posté par abdoulfatahou . En réponse au message Impossible d'arreter completement la machine. Évalué à 0.
# re: inst php
Posté par abdoulfatahou . En réponse au message installation de php. Évalué à 1.
Je ne connais pas la distribution mais sous debian synaptec gere tout ca aisement. telecharge un *.rpm sinon.
[^] # Re: entrée
Posté par abdoulfatahou . En réponse au message extraction sur page html. Évalué à 1.
J'ai resolu mon probleme par un script bash que je publie plus bas. Je dois avouer que mon probleme etait assez long a expliquer. Surtout que les documents dont j'ai parlé ne figurent sur aucune page sur le web.Je passe par plusieurs etape en utilisant text2html, gedit, un script fais maison, gnumeric (pour structurer avec des separateurs) et enfin phpmyadmin pour construire mes tables mysql.
"Je dois avouer que je n'ai pas compris toute ton histoire sur les differents formats que tu as. Tu veux dire que tous les documents html n'ont pas la même structure ?"
je n'est pas parlé de format
j'ai parlé de structure au niveau de l'enregistrement des informations, la maniere dont les livres sont copié dans le fichier html
«
NOM DE L'AUTEUR
titre du document (en gras)
resumé du document (paragraphe normale)
editeur annee de sortie (en gras)
» (sur des centaines de pages)
-------------------------------------------------------------
Il ya des fois où un de ces paragraphes manque, je voulais pouvoir extraire les donnees du fichier html(par ma premiere idee un script bash, j'ai reussi grace a l'outil recommande 'html2text' plus haut ou avec un parseur comme recommande) puis les classer dans un fichier texte structuré, je remplaces les sauts de ligne par des ' @' à l'aide de gedit. j'obtiens:
auteur@titre_doc@resumé@infos_editeur@)
exemple:
"Sandra J. ALBERT@14 février Saint-Valentin@Dans un bureau de placement de New-York dont les affaires ne vont plus très bien, les employées traitent plus de leurs problèmes personnels qu'elles ne font avancer les dossiers ! Et leurs affaires de c½urs en particulier vont remonter à la surface ce 14 février, jour de la St Valentin.@Comédie psychologique avec 7 personnages : 7 femmes - Editions de la Traverse / décembre 1997@Jean-Paul ALEGRE@La Ballade des planches@« La Ballade des planches » se compose, comme « Sur un plateau » d’une série de courtes pièces sur les situations absurdes qui peuvent se produire sur un plateau ayant pour seul thème : le théâtre. L’histoire qu’elles racontent est celle que les troupes, professionnelles ou non, vivent au rythme des saisons, - théâtrales bien entendu. Les comédiens plongent dans un méli-mélo de personnages et d’intrigues, parce qu’ils sont à la recherche « de la bonne réplique » plutôt que du bon texte, spéculant sur la longueur du rôle et non sur la qualité dramatique. Ce qui nous vaut six comédies, la loufoque : « Dernière répétition », une inénarrable : « Le petit chemisier », la grotesque : « Vivons heureux en attendant la mort », la satirique : « Soyons bref », la burlesque : « C’est dur de faire l’Europe » qui invente un idiome latino-gréco-slavo-anglo-saxon des plus réjouissants, et une fantastique : « Les explorateurs », le tout assaisonné des « chants » du matériel. Quand les projecteurs auront été « débranchés », le tube de fond teint « revissé », la « planche qui craque » « rabotée », le « vieux rideau » « démonté », les costumes « rangés », les messages publicitaires passés, au détriment des pièces, que restera-t-il de la création sinon le rire ? Les scènes sont reliées par des chants, mais chacune des pièces peut-être jouée de manière indépendante.@Comédie avec une distribution évolutive de 3 à 20 personnages - Editions L’Avant-Scène n° 1004 / 15 février 1997@Jean-Paul ALEGRE@C’est Jean Moulin qui a gagné !@Le nom de Jean Moulin s’inscrit au fronton des écoles et sur les plaques des rues de nos villes. Aujourd’hui, il existe des petits Mathieu, Stéphane, Patrice, Djamel, William et Maxime, des collégiens passionnés de foot, qui savent confusément que Jean Moulin est un grand résistant, mais qui ne connaissent pas bien les événements historiques. Or, Jean Moulin était aussi un haut fonctionnaire intègre, un caricaturiste de renom, un homme qui aimait les femmes, la musique, la poésie, la peinture, la vie tout simplement... Mais il a croisé un certain Klaus Barbie, le 21 juin 1943...@Drame historique avec 30 personnages - Editions L’Avant-Scène n° 1085 /1er mars 2001@Jean-Paul ALEGRE@"
, puis ensuite les importes sur une base de donnee mysql en utilisant CSV par phpmyadmin et les fonctions d'importation de gnumerique pour les separateurs.
je vous met le script, il est assez long mais me permet d'extraire les champs depuis du texte brut et de classer les infos par un jeu de redirection, juste avant d'importe dans phpmyadmin.
Le scripts contient beaucoup d'erreurs mais fonctionne quand meme (je l'ai ecrit).
Il demande a chaque fois si le champs du texte extrait est un "auteur, titre, resume ou autre". Moi je reponds, et le script positionne le champ en question dans un fichier de sortie (celui qui servira a l'importation mysql).
un exemple du resultat attendu par le script, le separateur choisi est le "|":
Module|Sous-partie|Auteur|Titre|Resume|Info-supplementaire|
THEATRE ET JEUNESSE|Pédagogie|Sylvette Pagan|Maquillages d’enfants|Du bout des mains, devenez un peu fée avec Sylvette Pagan et toute sa troupe. Des maquillages bavards, des maquillages coquins, des costumes faciles et colorés, des perruques, des postiches pour tous les enfants les plus sages et les plus délurés.|Editions Fleurus Idées / 1989 / 48 pages|
THEATRE ET JEUNESSE|Pédagogie|SNAZAROO|Maquillages en cinq minutes|Réussissez comme un professionnel de superbes maquillages de fête en moins de cinq minutes ! Ce livre vous présente une méthode simple et rapide pour transformer les enfants en Pierrot et en clown, en princesse ou en sorcière. Le succès est garanti pour toutes les fêtes : Carnaval, anniversaires, kermesses, et... Vous trouverez dans ce livre : 30 modèles facile à faire ; des photos couleur de chaque maquillage ; un guide du matériel à employer ; des conseils techniques ; des idées toutes simples pour réaliser les accessoires indispensables.|Editions Fleurus Idées / 1992 / 46 pages|
THEATRE ET JEUNESSE|Pédagogie|Association Nationale de Recherche et d’Action Théâtrale en Milieu Scolaire et Universitaire|L’Enfant, le jeu, le théâtre - Autour des pratiques dramatiques à l’école primaire|Les activités théâtrales et dramatiques se développent en milieu scolaire : classes d’initiation, ateliers, options, formations... Qu’en est-il des pratiques avec des jeunes enfants, à l’école élémentaire ? Quels sont les enjeux, les écueils, les perspectives dans ce domaine ? Exemples, points de vue, témoignages, réflexions.., sont rassemblés dans ces deuxièmes « Cahiers Théâtre/Education » proposés par L’ANRAT (Association Nationale de Recherche et d’Action Théâtrale).|Edition Actes Sud-Papiers / 1990 / 84 pages|
........................................
Mon probleme:
Il peut manquer des champs dans le document, c'est pour ca que j'ai ecrit le script, celui ci remplace les champs manquants par 'XXX'
voici le script:
#extrait les champs auteur,titre,categorie,infos generales
#sytaxe $fic ./entete ./theme ./info
#1 prends l'entete de la table (fichiers entete, paramettre 1)
#2 prends les premieres rubriques content le module et la sous partie (fichier theme parametre 2)
#3 recupere les champs sur le texte brut (parametre 3)
#4 sortie de la table au complet (sur le fichier table)
clear
echo structure du fichier
cat ./$1
echo $(cat ./$1)>table
cpt=1
cpt_champ=0
fin="EOF"
#infos_divers="*"
auteur="*"
titre="*"
resume="*"
infos_sup="*"
dernier_champ_traite=""
est_ligne_copie="vrai"
res=$(cat $2)
while [ "$champ" != "$fin" ]
do
champ=$( cat $3 | grep "@" | cut -d "@" -f $cpt )
if [ "$champ" != "$fin" ]
then
echo " "
echo $champ
echo Que faire du champ? \(i\/num de position \(1,2,3,4\) \/v \(vide\)\/c \(concatener\)\/n \(nouvel enregistrement\)\)
read choix
case $choix in
i) echo ignore;;
v) echo champ vide;res=$res\*\|;dernier_champ_traite="";cpt_champ=$(expr $cpt_champ + 1);echo $res;;
c) echo concatene;res=$res$dernier_champ_traite$champ;;
n) echo nouvelle ligne;dernier_champ_traite="";auteur="";titre="";champ="";est_ligne_copie="faux";res="";;
1) res=$res$champ\|;auteur=$champ;dernier_champ_traite=$auteur;cpt_champ=$(expr $cpt_champ + 1);;
2) res=$res$auteur\|$champ\|;titre=$champ;dernier_champ_traite=$titre;cpt_champ=$(expr $cpt_champ + 1);;
3) res=$res$auteur\|$titre\|$champ\|;resume=$champ;dernier_champ_traite=$resume;cpt_champ=$(expr $cpt_champ + 1);;
4) res=$(cat $2)$auteur\|$titre\|$resume\|$champ\|;infos_sup=$champs;dernier_champ_traite=$infos_sup;cpt_champ=$(expr $cpt_champ + 1);est_ligne_copie="faux";;
#'@' marque une ligne invalide
*) echo choix invalide!;dernier_champ_traite="";auteur="";titre="";champ="";est_ligne_copie="vrai";res="";echo @>>./table;;
esac
cpt=$(expr $cpt + 1)
fi
if [ $cpt_champ -eq 4 ]
then
est_ligne_copie="faux"
fi
if [ "$est_ligne_copie" != "vrai" ]
then
echo $res>>./table
est_ligne_copie="vrai"
cpt_champ=0
fi
if [ "$champ" != "$fin" ]
then
echo ligne a copier\: $res
fi
done
------------------------------------------------------------------------------------------------
MERCI BEAUCOUP A CEUX QUI M'ONT LU, MERCI POUR VOS COMMENTAIRES j'ai mis le script pour bien me faire comprendre, j'espere que c'est reussi ;-). DESOLE POUR LES FAUTES D'ORTHO.
# c'est peut etre un problemede dns?
Posté par abdoulfatahou . En réponse au message Pas d'accès à internet avec open suse 10.2. Évalué à 1.
change de dns pour voir. j'imagine via l'interface de yast.
# c'est peut etre un problemede dns?
Posté par abdoulfatahou . En réponse au message Pas d'accès à internet avec open suse 10.2. Évalué à 1.
# les services ptetre
Posté par abdoulfatahou . En réponse au message Lenteur LINUX. Évalué à 1.
Penses au services qui tournent sur ton pc. les demons, regarde si ya pas des services qui ne t'interressent pas au demarrage mais que tu aurai activer inconcienment. je pense a apache,mysql etc... si tu n'en a pas besoin.
Lance un gestionnaire de tache sur kde (ctrl+esc) ou gnome pour surveiller tes taches et consommation de ressource (menuk)
a ciao!
# precision
Posté par abdoulfatahou . En réponse au message Bug v4l kdetv. Évalué à 1.
[^] # Re: le lecteur ptetre?
Posté par abdoulfatahou . En réponse au message installation, enfin presque. Évalué à 0.
"Je ne dis pas que Linux pue. Je suis certain que c'est un très bon OS."
>>tu parles bien quand tu veux
"Son pb, c'est qu'il est supporté par des gens passionnés qui n'ont pas une logique d'industriels.">> le doit dans l'oeil tu te le fou jusqu'au genou :-), lis un peu les depeches de linuxfr
recommandations: Change de distribution, de version ou de lecteur, si ça ne marche pas.
remarque: Dans ta logique l'AUTRE systeme reconnait tout les lecteurs, en tout cas ceux de 2007, moi perso je ne pense pas.
le manchot, dure a configurer? consevable, c'est du vrai systeme.
# le lecteur ptetre?
Posté par abdoulfatahou . En réponse au message installation, enfin presque. Évalué à 2.
bon je sors, enfin on sait jamais, change de lecteur en 2007 on utilise aussi des lecteur dvd :-)