Lien Vous pouvez dire à Google si vous refusez que votre site serve à entraîner ses IA via robots.txt

Posté par antistress (site web personnel) le 29 septembre 2023 à 23:19.

Étiquettes :

9

29

sept.

2023

https://www.numerama.com/tech/1516312-vous-pouvez-dire-a-google-si-vous-refusez-que-votre-site-serve-a-entrainer-ses-ia.html

Forum Programmation.web Comment fonctionne le mode lecture de Firefox ?

Posté par LeBouquetin (site web personnel, Mastodon) le 28 octobre 2015 à 10:41. Licence CC By‑SA.

Étiquettes :

1

28

oct.

2015

Bonjour,

Je cherche à faire du crawling sur un certain nombre de sites, et je constate avec joie (et allégresse) que le mode lecture de Firefox correspond pile-poil à ce que j'aimerais récupérer comme contenu lorsque je fais mon crawling.

Ma question est double, mais simple :

sur quoi s'appuie Firefox pour déceler la partie "utile" de la partie non utile
est-ce que vous connaissez des libs / outils qui me permettrait d'intégrer cela facilement dans un outil de crawling (…)

Journal Extraction de données du web - introduction à Scrapy (journal bookmark)

Posté par LeBouquetin (site web personnel, Mastodon) le 30 janvier 2015 à 12:27. Licence CC By‑SA.

Étiquettes :

18

30

jan.

2015

Bonjour,

Ceci est un journal bookmark.

Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.

Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."

J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (…)

Lien Télécharger tous les liens externes de wikipédia en quelques minutes

Posté par lovasoa (site web personnel) le 19 septembre 2018 à 21:57.

Étiquettes :

4

19

sept.

2018

https://github.com/lovasoa/wikipedia-externallinks-fast-extraction

Tous les contenus étiquetés avec « crawling »