Journal Naviguer sans tête dans un coquillage !
Naviguer headless consiste à surfer sur la toile d'araignée sans gui. Dans ce journal, on ne s'intéressera pas à des outils tels que Selenium WebDriver (https://www.selenium.dev/) qui permet à partir de différents langages d'interagir avec les navigateurs les plus courants, ou Weboob (WEB Outside Of Browsers, http://weboob.org/) qui permet de se connecter à différents sites depuis Python, mais plutôt à quelques outils accessibles depuis le shell : curl, Wget, Lynx, Chromium et Firefox. On abordera en particulier (…)
Journal Script pour se désinscrire massivement des listes publicitaires
Bonjour,
j’ai un compte de messagerie que je n’utilise plus beaucoup, entre autres choses parce qu’il est sévèrement spammé (typiquement 15 pourriels par jour). Je sais qu’il est conseillé de ne pas cliquer sur les liens de désinscription, mais pour ce compte je n’ai plus grand’chose à perdre. J’ai donc décidé d’expérimenter la chose à grande échelle (pas question de le faire à la main, je vais m’épuiser à ce rythme‑là).
Je ne suis bien sûr pas le seul à (…)
« Internet est cassé » ou plutôt : comment tester du TCP ou de l’UDP
N. D. L. A. : cet article est généré via une commande du type ansible-playbook InternetEstCassé.yml pour tester réellement les commandes.
Internet est cassé. Le Web ne marche plus. Le réseau est pété. Ça marche pas. Ce site est indisponible. Des lutins bloquent ma connexion. Les tuyaux sont bouchés. Y a Firefox qui veut pas, etc. Quand il y a un souci de réseau, toutes sortes d’imprécations, de suppositions, de supplications ou de raisons sont lancées. Peut‐on aller plus loin et essayer d’y voir plus clair, de déboguer un peu le souci et d’identifier le problème.
On va parler un peu d'IP — surtout la version 4 —, de TCP, d’UDP, d’ICMP, d’ARP, de DNS, de HTTP, etc., d’un peu de vue pratique de vérification du bon fonctionnement ou de recherche d’un souci. En dehors des pages Wikipédia, une lecture utile : la RFC 1180 « A TCP/IP Tutorial » (avec une traduction en français disponible).
Nouvelles versions logicielles du projet GNU en avril 2019
Le projet GNU diffuse tous les mois la liste des nouvelles versions de ses logiciels. Jetons‐y un coup d’œil pour découvrir de nouveaux logiciels inconnus (de moi), des infâmes bogues disparus ou les promesses de solutions à tous nos besoins ; bref, de nouvelles versions annoncées allant de la corrective mineure à la version attendue depuis des années ; et l’on va donc parler de dico
, emacs
, gama
, gawk
, gnuastro
, gnuhealth-client
, gnunet
, gnupg
, gnutls
, libcdio
, nano
, parallel
, rush
, taler
, shepherd
et wget
.
Journal Télécharger tous les fichiers PDF d’un site web
Il y a quelque temps j'ai eu besoin de télécharger tous les PDF d'un gros site web, et puis d'un autre…
J'ai cherché un moment comment obtenir ce que je voulais avec wget
mais sans grand succès, soit wget explore récursivement le site en téléchargeant toutes les pages, soit il ne récupère que les fichiers voulus, mais je n'ai pas trouvé comment associer les deux comportements (et il serait logique que wget
ait besoin de télécharger les pages du site (…)
Forum Astuces.divers Graver la copie d'un site internet
Bonjour à tous,
Là où je travaille, je dois faire la sauvegarde "statique" d'un ancien site internet, navigable.
J'ai récupérer le contenu du site à l'aide de wget, et je souhaite maintenant graver ce site sur dvd, qu'on en parle plus…
Ce site est base une CMS "old school", avec des noms compliquées pour les ressources avec plein de paramètres passés dans les requêtes, sensible à la casse, long…
Ma copie statique doit être navigable. J'ai essayé de graver la (…)
Forum Programmation.shell astuce : wget trop lent, axel prend le relai
Le problème
Un fichier archive à télécharger, premier réflexe :
wget http://url/vers/mon/fichier
Et au bout que quelques minutes se dire : "Zut, il est gros ce fichier et c'est lent, ça ne sature même pas mon lien ADSL…"
Second réflexe : j'aurai dû utiliser axel.
Dilemme, je kill le wget en cours et relance avec axel ? Dommage pour tous ces octets qui ont déjà fait un si long voyages.
Si je pouvais dire à axel que wget a déjà (…)
Forum Linux.général Problème de langue en clonant un site web avec wget
Salut à tous !
à défaut de trouver un PDF, je cherche à cloner ce site web : http://kernel-handbook.alioth.debian.org/
et le résultat est… en japonais !
wget -pkr http://kernel-handbook.alioth.debian.org/#contents
comment faire pour l'avoir en anglais ?
ps: les balises de formatage du texte marchent pas.
Forum Astuces.divers Télécharger Arte+7
Salut à tous
Voici une nouvelle version de mon téléchargeur pour Arte+7.
Passez la liste des urles Arte+7 en paramètres, et hop!
Les options :
* -q HD|DVD
: qualité, HD par défaut
* -t <tentatives>
: nombre de tentatives pour wget
Il nécessite toujours BeautifulSoup 4, mais il utilise wget désormais. La reprise sur erreur ou interruption est gérée par celui-ci.
#!/usr/bin/python3
# -*- coding: utf-8 -*-
#
# Téléchargeur pour Arte+7 via wget
# Ceci est une adaptation du
(…)