Forum Programmation.web scrapper pour javascript

Posté par (page perso) . Licence CC by-sa.
Tags : aucun
-3
23
nov.
2019

Bonjour,

j'ai un petit défi pour un.e petit.e malin.e :
scraper une partie d'un site fait en JS.

Pour le faire rapide : on a besoin d'une base de donnée de sons pour un projet artistique.
ces sons sont téléchargeables et disponibles en CC Attribution 4.0 International (donc très libre) sur un site. L'accès aux sons est compliqué, via des player JS.
Après un mois sans nouvelles des gens qui gèrent ce site, nous avons décidé de scraper les sons.

Meuh voila… le site en 100% en javascript et bien sur… c'est très difficile de scraper dessus. Je me suis pris les pieds dans le tapis 2-3 fois.

Y a-t-il quelqu'un que ça intéresse de se casser les dents sur ce projet ? Si oui :
lajibure chez le mail de la particule nucléaire chargée positivement.

merki

  • # url du site ?

    Posté par . Évalué à 6 (+4/-0).

    de quel site parles-tu ?

    pourquoi restreindre le partage de l'information pour un truc qui pourrait intéresser d'autre gens en basculant sur un canal de communication privé ?

    Si le site en question interdit-il le scapping dans ses conditions d'utilisation, faudrait vérifier si c'est juridiquement contraignant (genre s'il faut créer un compte en acceptant des conditions générales d'utilisation, t'as pas peut-être pas le droit de faire ça).

    • [^] # Re: url du site ?

      Posté par (page perso) . Évalué à 1 (+1/-2). Dernière modification le 24/11/19 à 09:32.

      Merci de ta réponse.

      De quel site parles tu ?
      C'est un sujet un poil tendu. Donc comme tu le dis, je préfère le mettre dans la sphère privée que sur linuxfr.
      Mais rapidement, on s'est lancé dans un joli projet avec de la reconnaissance automatique d'un style de son. (Je te laisse regarder un des derniers billets de forum que j'ai écrit sur l'IA)

      Empêche t il le scrapoing.
      J'ai épluché les conditions, je n'ai rien vu de tel. Les sons sont en libres accès.

      Intéressé ou pas ? 😜

      • [^] # Re: url du site ?

        Posté par . Évalué à 3 (+1/-0).

        Intéressé ou pas ?

        si je posais ces questions là, c'est parce que ça m'intéresse suffisamment pour contribuer à une solution commune sur linuxfr, mais pas assez pour basculer sur un autre canal ;)

        Je respecte tout à fait que tu ne veuilles pas être plus explicite. Et je serais tout à fait ravi de participer si tu reviens avec des points techniques plus précis sur lesquels je serais compétent.

  • # Chercher ailleurs

    Posté par (page perso) . Évalué à 1 (+0/-0).

    Je n'ai pas les compétences techniques pour t'aider, mais n'est-il pas possible de trouver ton bonheur ailleurs? Peut être chez Wikimedia, dogmazic…
    Tu peux aussi télécharger les musiques du festival SXSW par torrent: les enregistrements ne sont pas libres a priori mais leur partage est légal, et le contenu est conséquent. Mais peut peut être que ce que tu recherches c'est les données associées (genre musical), là il faudrait les chercher ailleurs.

    Un LUG en Lorraine : https://enunclic-cappel.fr

  • # selenium

    Posté par (page perso) . Évalué à 3 (+1/-0).

    regarde selenium, et va voir les sources de weboob, qui font plein de scraping

    https://github.com/SeleniumHQ/selenium

    http://weboob.org/

    My father was a Brexit negotiator and his father before him

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.