Forum Programmation.python fichier caché dans un URL

Posté par . Licence CC by-sa.
Tags : aucun
3
17
nov.
2018

Bonsoir,
j'ai un dm de python à rendre (je suis sur virtual box, ubuntu) qui consiste à extraire les données d'un fichier depuis un URL. Le problème étant que le fichier est dans un dossier caché et qu'avec BeautifulSoup j'ai du mal à l'extraire. Je suis bloquée après avoir installé BeautifulSoup. Si vous avez des conseils, je suis preneuse (c'est un fichier .reg que je suis censée trouver)

Le lien de l'URL est le suivant : https://adrianchifu.com/teachings/AMSE/MAG1/project/

  • # Politique sur les DMs

    Posté par . Évalué à 3 (+2/-0). Dernière modification le 17/11/18 à 21:11.

    Bonsoir,

    Ici la politique est assez stricte sur les DM (déjà merci d'avoir précisé que cela en était un, cela aidera peut-être à recevoir d'autres réponses).

    Donc, il faut expliquer là où ça coince plus précisément.

    Ah, et sinon, il y a probablement des moules< qui font les DMs, mais pas gracieusement. Toute heure commencée est dûe.

  • # Précision

    Posté par . Évalué à 1 (+0/-0).

    On veut extraire les données d'un fichier qui est sur une page web. Nous avons déjà réalisé différentes étapes sur ubuntu:
    - on a importé beautifulsoup et requests
    - on a installé os et on l'a importé aussi
    Le problème est le suivant : on ne sait pas comment trouver le fichier qui est .reg et qui est caché dans l'URL qui est une bibliothèque de beaucoup de fichiers différents (le fichier est introuvable à la main).
    On a donc besoin d'une étape supplémentaire pour récupérer les données du fichier mais on ne sait pas laquelle et après avoir cherché dans différents livres et forums nous sommes toujours coincés.

    • [^] # Re: Précision

      Posté par . Évalué à 1 (+0/-0).

      Bonsoir,

      Alors, première précision, pour répondre à un commentaire, il faut utiliser le bouton "répondre" :)

      Ensuite, ce n'est toujours pas clair.

      Il n'y a pas de fichier caché dans l'url.

      Hint : il vous faut trouver un fichier caché dans le vrac peut-être ?

      • [^] # Re: Précision

        Posté par . Évalué à 1 (+0/-0). Dernière modification le 17/11/18 à 21:34.

        Le fichier est dans un dossier caché :
        "in a file with the extension .reg placed in an undisclosed folder"

        J'ai cherché dans tous les dossiers manuellement, il n'y aucun fichier .reg dans le vrac.

        • [^] # Re: Précision

          Posté par . Évalué à 2 (+1/-0). Dernière modification le 17/11/18 à 21:47.

          undisclosed = non-précisé

          • [^] # Re: Précision

            Posté par . Évalué à 2 (+1/-0). Dernière modification le 17/11/18 à 22:42.

            oui certes mais en épluchant tous les dossiers je n'ai trouvé aucun fichier dont le format correspond à .reg … je ne sais pas exactement quoi chercher

            • [^] # Re: Précision

              Posté par (page perso) . Évalué à 4 (+2/-0). Dernière modification le 18/11/18 à 10:07.

              le localisation du fichier .reg doit être caché dans un fichier dans l'arborescence donné par l'url.

              Donc il faut scrappé avec beautifullsoup tous les fichiers dans les sous-repertoires à la recherche de l'url du .reg.

              Enfin, c'est ce que je crois comprendre.

              parcourir les fichiers dans les sous répertoires:
                lire le fichier
                chercher un truc en .reg
                si oui, trouver ! => fin
                sinon, continuer
              
              • [^] # Re: Précision

                Posté par . Évalué à 2 (+1/-0). Dernière modification le 18/11/18 à 10:24.

                J'ai testé avec wget et grep et je n'ai rien trouvé.

                Cela dit je n'ai pas décompressé les docx ni regardé de plus près les fichiers binaires.

                • [^] # Re: Précision

                  Posté par (page perso) . Évalué à 5 (+3/-0).

                  Idem, un coup de wget, pas de fichier .reg. Les fichiers en eux même sont juste des fichiers contenant des données aléatoires. Il y en a un seul qui contient la chaine "reg", et c'est par pur hasard. Donc on oublie le coup du fichier qui contient le lien vers le fichier .reg… Aucun fichier qui contient la chaîne "HKEY" non plus. Il y a 30 fichiers que "file" ne voit pas comme étant de l'HTML, et rien de lisible.

                  C'est un exo censé être facile ou bien la stéganographie est au programme ? _^

                  • [^] # Re: Précision

                    Posté par . Évalué à 4 (+2/-0).

                    Je n pense pas que l’exercice soit aussi difficile que cela. J'ai plutôt l'impression que ce n'est pas le bon dossier ;)

                    • [^] # Re: Précision

                      Posté par . Évalué à 4 (+3/-0).

                      En fait le fichier était véritablement indétectable suite à une erreur d'énoncé, normalement le problème est résolu et le fichier va pouvoir être trouvé, je vais m'y atteler. Merci quand même!

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.