Journal Naviguer sans tête dans un coquillage !

Posté par  (site web personnel) . Licence CC By‑SA.
18
24
avr.
2020

Naviguer headless consiste à surfer sur la toile d'araignée sans gui. Dans ce journal, on ne s'intéressera pas à des outils tels que Selenium WebDriver (https://www.selenium.dev/) qui permet à partir de différents langages d'interagir avec les navigateurs les plus courants, ou Weboob (WEB Outside Of Browsers, http://weboob.org/) qui permet de se connecter à différents sites depuis Python, mais plutôt à quelques outils accessibles depuis le shell : curl, Wget, Lynx, Chromium et Firefox. On abordera en particulier (…)

Journal Script pour se désinscrire massivement des listes publicitaires

Posté par  (site web personnel) . Licence CC By‑SA.
Étiquettes :
47
17
fév.
2020

Bonjour,

j’ai un compte de messagerie que je n’utilise plus beaucoup, entre autres choses parce qu’il est sévèrement spammé (typiquement 15 pourriels par jour). Je sais qu’il est conseillé de ne pas cliquer sur les liens de désinscription, mais pour ce compte je n’ai plus grand’chose à perdre. J’ai donc décidé d’expérimenter la chose à grande échelle (pas question de le faire à la main, je vais m’épuiser à ce rythme‑là).

Je ne suis bien sûr pas le seul à (…)

« Internet est cassé » ou plutôt : comment tester du TCP ou de l’UDP

Posté par  (site web personnel) . Édité par Arkem, Davy Defaud et Yves Bourguignon. Modéré par Julien Jorge. Licence CC By‑SA.
Étiquettes :
35
3
juil.
2019
Ligne de commande

N. D. L. A. : cet article est généré via une commande du type ansible-playbook InternetEstCassé.yml pour tester réellement les commandes.

Internet est cassé. Le Web ne marche plus. Le réseau est pété. Ça marche pas. Ce site est indisponible. Des lutins bloquent ma connexion. Les tuyaux sont bouchés. Y a Firefox qui veut pas, etc. Quand il y a un souci de réseau, toutes sortes d’imprécations, de suppositions, de supplications ou de raisons sont lancées. Peut‐on aller plus loin et essayer d’y voir plus clair, de déboguer un peu le souci et d’identifier le problème.

On va parler un peu d'IP — surtout la version 4 —, de TCP, d’UDP, d’ICMP, d’ARP, de DNS, de HTTP, etc., d’un peu de vue pratique de vérification du bon fonctionnement ou de recherche d’un souci. En dehors des pages Wikipédia, une lecture utile : la RFC 1180 « A TCP/IP Tutorial » (avec une traduction en français disponible).

Nouvelles versions logicielles du projet GNU en avril 2019

Posté par  (site web personnel) . Édité par ZeroHeure, Davy Defaud et Pierre Jarillon. Modéré par Davy Defaud. Licence CC By‑SA.
Étiquettes :
53
28
avr.
2019
GNU

Le projet GNU diffuse tous les mois la liste des nouvelles versions de ses logiciels. Jetons‐y un coup d’œil pour découvrir de nouveaux logiciels inconnus (de moi), des infâmes bogues disparus ou les promesses de solutions à tous nos besoins ; bref, de nouvelles versions annoncées allant de la corrective mineure à la version attendue depuis des années ; et l’on va donc parler de dico, emacs, gama, gawk, gnuastro, gnuhealth-client, gnunet, gnupg, gnutls, libcdio, nano, parallel, rush, taler, shepherd et wget.

Journal Télécharger tous les fichiers PDF d’un site web

Posté par  (site web personnel) . Licence CC By‑SA.
15
5
avr.
2018

Il y a quelque temps j'ai eu besoin de télécharger tous les PDF d'un gros site web, et puis d'un autre…

J'ai cherché un moment comment obtenir ce que je voulais avec wget mais sans grand succès, soit wget explore récursivement le site en téléchargeant toutes les pages, soit il ne récupère que les fichiers voulus, mais je n'ai pas trouvé comment associer les deux comportements (et il serait logique que wget ait besoin de télécharger les pages du site (…)

Forum Astuces.divers Graver la copie d'un site internet

Posté par  (Mastodon) . Licence CC By‑SA.
Étiquettes :
0
30
sept.
2016

Bonjour à tous,

Là où je travaille, je dois faire la sauvegarde "statique" d'un ancien site internet, navigable.
J'ai récupérer le contenu du site à l'aide de wget, et je souhaite maintenant graver ce site sur dvd, qu'on en parle plus…

Ce site est base une CMS "old school", avec des noms compliquées pour les ressources avec plein de paramètres passés dans les requêtes, sensible à la casse, long…

Ma copie statique doit être navigable. J'ai essayé de graver la (…)

Forum Programmation.shell astuce : wget trop lent, axel prend le relai

Posté par  . Licence CC By‑SA.
Étiquettes :
10
18
mar.
2016

Le problème

Un fichier archive à télécharger, premier réflexe :

wget http://url/vers/mon/fichier

Et au bout que quelques minutes se dire : "Zut, il est gros ce fichier et c'est lent, ça ne sature même pas mon lien ADSL…"

Second réflexe : j'aurai dû utiliser axel.

Dilemme, je kill le wget en cours et relance avec axel ? Dommage pour tous ces octets qui ont déjà fait un si long voyages.

Si je pouvais dire à axel que wget a déjà (…)

Forum Linux.général Problème de langue en clonant un site web avec wget

Posté par  . Licence CC By‑SA.
Étiquettes :
1
20
sept.
2015

Salut à tous !
à défaut de trouver un PDF, je cherche à cloner ce site web : http://kernel-handbook.alioth.debian.org/

wget -pkr http://kernel-handbook.alioth.debian.org/#contents
et le résultat est… en japonais !
comment faire pour l'avoir en anglais ?

ps: les balises de formatage du texte marchent pas.

Forum Astuces.divers Télécharger Arte+7

Posté par  . Licence CC By‑SA.
Étiquettes :
9
29
mai
2014

Salut à tous

Voici une nouvelle version de mon téléchargeur pour Arte+7.
Passez la liste des urles Arte+7 en paramètres, et hop!

Les options :
* -q HD|DVD : qualité, HD par défaut
* -t <tentatives> : nombre de tentatives pour wget

Il nécessite toujours BeautifulSoup 4, mais il utilise wget désormais. La reprise sur erreur ou interruption est gérée par celui-ci.

#!/usr/bin/python3
# -*- coding: utf-8 -*-
#
# Téléchargeur pour Arte+7 via wget
# Ceci est une adaptation du
(…)