Forum général.cherche-logiciel Extraction de données de CV

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
1
24
mar.
2014

Bonjour,

Je recherche des briques logicielles capables d'extraire et de typer les données de CV dans les divers formats courant (pdf, word, etc).

Comme il s'agit notamment d'alimenter une base de carnet d'adresse, il faudrait notamment que la solution permette de reconnaître les noms et coordonnées des personnes.

Merci par avance pour vos suggestions.

  • # Parsing XML ?

    Posté par  (site web personnel) . Évalué à 2. Dernière modification le 24 mars 2014 à 13:14.

    Etant donné que l'ODT et le DOCX sont du XML, et que tu peux convertir du PDF en XML, j'imagine qu'une lib de parsing XML sera ton allié.

    Le plus simple pour moi, est d'utiliser le Python et il existe justement une lib pour ça : http://docs.python.org/2/library/xml.etree.elementtree.html

    Sinon, tu peux aussi utiliser BeautifulSoup : http://www.crummy.com/software/BeautifulSoup/bs4/doc/

    Et enfin, si tu galère à ouvrir l'odt, une personne de stack overflow donne un code pour récupérer le content.xml : https://stackoverflow.com/questions/15629408/how-to-retrive-data-from-odt-xml-file-in-python

    • [^] # Re: Parsing XML ?

      Posté par  (site web personnel) . Évalué à 2.

      Le plus gros problème c'est d'établir l'association entre les données et les types (nom, rue, ville, numéro de téléphone), etc. parce que si la forme d'un CV est souvent assez régulière (les coordonnées de la personne sont en haut à droite/gauches), d'un point de vue structure du fichier tu peux avoir tout et son contraire.

      La page What is CV/Resume Parsing? résume bien la problématique.

      J’ai bien trouvé quelques solutions existantes (DaXtra Parser, ResumeGrabber Standard, Rchilli Resume Parser, Automated Hr Software Resume Parser), mais je n'en ai trouvé encore aucune sous licence libre.

      • [^] # Re: Parsing XML ?

        Posté par  . Évalué à 8.

        Tu mets sur ton site :

        « Les candidats sont invités à soumettre un CV au format XML bien formé et valide avec la DTD fournie en pièce jointe. Les documents qui ne valideront pas avec Apache Xerces-C++ seront redirigés vers /dev/null. »

        • [^] # Re: Parsing XML ?

          Posté par  . Évalué à 3.

          Un formulaire html, ce serait plus simple, au moins tu es sur que c'est bien formé, et tu laisses les candidats faire le copier/coller de leur CV.

      • [^] # Re: Parsing XML ?

        Posté par  . Évalué à 1.

        Plus sérieusement que mon commentaire précédent, tu pourrais demander aux candidats de mettre un lien vers un profil en ligne. Ainsi tu te limites à devoir développer un parser pour les pages HTML d'une demi-douzaine de sites de réseaux professionnels. Les allergiques aux réseaux sociaux peuvent remplir un formulaire de ton site, comme suggéré dans le commentaire de totof2000.

        • [^] # Re: Parsing XML ?

          Posté par  (site web personnel) . Évalué à 2.

          Oui, ce sont des solutions pertinentes pour une gestion de candidatures à venir. Cependant ça ne couvre pas le cas de la récupération de données dans l’amas de CV dont on dispose déjà.

  • # pdfto...

    Posté par  (site web personnel) . Évalué à 2.

    Dans mon terminal, pdf<tab> me renvoie plein de choses potentiellement utiles, dont pdftohtml et pdftotext. Pour extraire des données d'un pdf, il n'y a de toute manière pas d'autre méthode que la râche.

    Plus performant, car tu verras que ça va très vite, et àmha, pas idiot pour gérer les ressources quand celles-ci sont humaines, il reste la solution de créer manuellement une fiche pour chaque CV.

    Personnellement, dans ce dernier cas, je trouve bien plus efficace de ne pas utiliser de formulaire (qui oblige à donner les informations dans un ordre qui n'est pas forcément celui proposé dans le CV), mais un simple éditeur de texte et des tags qui seront ensuite parsés, par exemple:

    n: nom
    p: prenom
    a: adresse, code postal ville
    c: java, c++
    o: amateur de cyclimse
    
    • [^] # Re: pdfto...

      Posté par  (site web personnel) . Évalué à 2.

      L’objectif est justement de remplacer la copie manuelle de données par un processus automatisé, avec deux cas de figure :

      • utilisation en traitement par lot pour alimenter la base de donnée structurée à partir d'un jeu de documents existants ;
      • utilisation en mode interactif pour éviter d'avoir à faire autant de copié/collé que d'entrée qu'on souhaite récupérer, remplacement par un processus de validation/correction des valeurs inférés pour chaque entrée.
  • # Tabula pour du PDF

    Posté par  . Évalué à 2.

    Tabula is a tool for liberating data tables trapped inside PDF files.
    

    J'ai vu passé une news dernièrement et j'avais mis le soft en marque-pages mais je n'ai pas encore eu le temps de le découvrir -> http://tabula.nerdpower.org/

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.