Bonjour,
Je recherche des briques logicielles capables d'extraire et de typer les données de CV dans les divers formats courant (pdf, word, etc).
Comme il s'agit notamment d'alimenter une base de carnet d'adresse, il faudrait notamment que la solution permette de reconnaître les noms et coordonnées des personnes.
Merci par avance pour vos suggestions.
# Parsing XML ?
Posté par Atem18 (site web personnel) . Évalué à 2. Dernière modification le 24 mars 2014 à 13:14.
Etant donné que l'ODT et le DOCX sont du XML, et que tu peux convertir du PDF en XML, j'imagine qu'une lib de parsing XML sera ton allié.
Le plus simple pour moi, est d'utiliser le Python et il existe justement une lib pour ça : http://docs.python.org/2/library/xml.etree.elementtree.html
Sinon, tu peux aussi utiliser BeautifulSoup : http://www.crummy.com/software/BeautifulSoup/bs4/doc/
Et enfin, si tu galère à ouvrir l'odt, une personne de stack overflow donne un code pour récupérer le content.xml : https://stackoverflow.com/questions/15629408/how-to-retrive-data-from-odt-xml-file-in-python
[^] # Re: Parsing XML ?
Posté par psychoslave__ (site web personnel) . Évalué à 2.
Le plus gros problème c'est d'établir l'association entre les données et les types (nom, rue, ville, numéro de téléphone), etc. parce que si la forme d'un CV est souvent assez régulière (les coordonnées de la personne sont en haut à droite/gauches), d'un point de vue structure du fichier tu peux avoir tout et son contraire.
La page What is CV/Resume Parsing? résume bien la problématique.
J’ai bien trouvé quelques solutions existantes (DaXtra Parser, ResumeGrabber Standard, Rchilli Resume Parser, Automated Hr Software Resume Parser), mais je n'en ai trouvé encore aucune sous licence libre.
[^] # Re: Parsing XML ?
Posté par JGO . Évalué à 8.
Tu mets sur ton site :
« Les candidats sont invités à soumettre un CV au format XML bien formé et valide avec la DTD fournie en pièce jointe. Les documents qui ne valideront pas avec Apache Xerces-C++ seront redirigés vers /dev/null. »
[^] # Re: Parsing XML ?
Posté par totof2000 . Évalué à 3.
Un formulaire html, ce serait plus simple, au moins tu es sur que c'est bien formé, et tu laisses les candidats faire le copier/coller de leur CV.
[^] # Re: Parsing XML ?
Posté par JGO . Évalué à 1.
Plus sérieusement que mon commentaire précédent, tu pourrais demander aux candidats de mettre un lien vers un profil en ligne. Ainsi tu te limites à devoir développer un parser pour les pages HTML d'une demi-douzaine de sites de réseaux professionnels. Les allergiques aux réseaux sociaux peuvent remplir un formulaire de ton site, comme suggéré dans le commentaire de totof2000.
[^] # Re: Parsing XML ?
Posté par psychoslave__ (site web personnel) . Évalué à 2.
Oui, ce sont des solutions pertinentes pour une gestion de candidatures à venir. Cependant ça ne couvre pas le cas de la récupération de données dans l’amas de CV dont on dispose déjà.
# pdfto...
Posté par Sygne (site web personnel) . Évalué à 2.
Dans mon terminal, pdf<tab> me renvoie plein de choses potentiellement utiles, dont pdftohtml et pdftotext. Pour extraire des données d'un pdf, il n'y a de toute manière pas d'autre méthode que la râche.
Plus performant, car tu verras que ça va très vite, et àmha, pas idiot pour gérer les ressources quand celles-ci sont humaines, il reste la solution de créer manuellement une fiche pour chaque CV.
Personnellement, dans ce dernier cas, je trouve bien plus efficace de ne pas utiliser de formulaire (qui oblige à donner les informations dans un ordre qui n'est pas forcément celui proposé dans le CV), mais un simple éditeur de texte et des tags qui seront ensuite parsés, par exemple:
[^] # Re: pdfto...
Posté par psychoslave__ (site web personnel) . Évalué à 2.
L’objectif est justement de remplacer la copie manuelle de données par un processus automatisé, avec deux cas de figure :
# Tabula pour du PDF
Posté par netchaiev . Évalué à 2.
J'ai vu passé une news dernièrement et j'avais mis le soft en marque-pages mais je n'ai pas encore eu le temps de le découvrir -> http://tabula.nerdpower.org/
[^] # Re: Tabula pour du PDF
Posté par psychoslave__ (site web personnel) . Évalué à 2.
Ce n'est pas suffisant pour ce que je cherche, mais c'est intéressant, je le note. Merci.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.