Vous faites chier avec vos trucs genre Anubis qui cassent mes petits scrapers python :(
Là, je voulais gentiment scraper les missions sur le Fandom de Cyberpunk 2077 pour pouvoir faire mon arbre de mission.
Et pouf, on se fait rembarrer parce qu'on utilise pas un vrai navigateur :
$ curl -v https://cyberpunk.fandom.com/wiki/Cyberpunk_2077_Main_Jobs
> Host: cyberpunk.fandom.com
> User-Agent: curl/8.18.0
> Accept: */*
>
< HTTP/2 403
Dans ces cas là, pas le choix, Selenium WebDriver.
WebDriver est lib multilangage pour contrôler un navigateur web tel que firefox ou chrome.
Minimal Viable Product®
#!/usr/bin/env python3
from pathlib import Path
from selenium import webdriver
from selenium.webdriver.common.by import By
def main():
output_dir = Path("html")
output_dir.mkdir(exist_ok=True)
driver = webdriver.Firefox()
driver.get("https://cyberpunk.fandom.com/wiki/Cyberpunk_2077_Main_Jobs")
links = [
(link.get_attribute("title"), link.get_attribute("href"))
for link in driver.find_elements(By.CSS_SELECTOR, ".navbox li a")
]
for link_title, link_href in links:
page_file = output_dir / f"{link_title}.html"
if page_file.exists():
print(f"{link_title} already exists, skipping")
continue
print(f"Saving {link_title} from {link_href}")
driver.get(link_href)
content_node = driver.find_element(By.CSS_SELECTOR, ".mw-parser-output")
page_file.write_text(content_node.get_attribute("outerHTML"))
driver.quit()
if __name__ == "__main__":
main()
j'trouve ça moins élégant que Hishel. Mais bon.


# Par rapport à hishel
Posté par abriotde (site web personnel, Mastodon) . Évalué à 3 (+2/-1).
C'est surtout plus gourmand en ressources…
Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
[^] # Re: Par rapport à hishel
Posté par steph1978 . Évalué à 4 (+2/-0).
Justement
C'est quoi le rapport avec Selenium ?
[^] # Re: Par rapport à hishel
Posté par abriotde (site web personnel, Mastodon) . Évalué à 4 (+2/-0). Dernière modification le 22 février 2026 à 01:14.
Hishell fait un wget avec du cache alors que Sélénium simule un navigateur complet.
En tout cas la raison de passer à Sélénium plutôt que de rester sur une solution plus légère est de contourner les systèmes anti-bots.
Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
# curl-impersonate ?
Posté par sebas . Évalué à 2 (+0/-0).
Et curl-impersonate, ça ne t'aiderait pas ?
[^] # Re: curl-impersonate ?
Posté par cg . Évalué à 4 (+2/-0).
Non, car Anubis s'appuie sur des calculs effectués en JavaScript par le navigateur.
[^] # Re: curl-impersonate ?
Posté par sebas . Évalué à 2 (+0/-0).
Ok.
Remarque, c'est logique, sinon les robots l'utiliseraient pour tourner la protection.
[^] # Re: curl-impersonate ?
Posté par Benjamin Henrion (site web personnel) . Évalué à 2 (+0/-0). Dernière modification le 22 février 2026 à 13:37.
Ya pas d'outils en ligne de commande pour interpréter le JS?
[^] # Re: curl-impersonate ?
Posté par Psychofox (Mastodon) . Évalué à 3 (+0/-0).
Tu n'as jamais entendu parler de nodejs ni de bun?
[^] # Re: curl-impersonate ?
Posté par Psychofox (Mastodon) . Évalué à 4 (+1/-0).
J'ai oublié de préciser que l'important n'est pas d'exécuter le js, mais la colle entre http, js et la gestion des cookies.
[^] # Re: curl-impersonate ?
Posté par jtremesay (site web personnel) . Évalué à 5 (+3/-0).
un script capable de gérer du http, du js, du cookie et la glue entre tout ça, ça commence à sacrément ressembler à un navigateur web.
[^] # Re: curl-impersonate ?
Posté par Psychofox (Mastodon) . Évalué à 3 (+0/-0).
C'est justement ce que je fais remarquer ;-)
[^] # Re: curl-impersonate ?
Posté par Benjamin Henrion (site web personnel) . Évalué à 2 (+0/-0).
Oui mais c'est pas la même quantité de code.
[^] # Re: curl-impersonate ?
Posté par Gil Cot ✔ (site web personnel, Mastodon) . Évalué à 3 (+1/-0).
Le web est foutu pour les vrais humains comme moi : je n’ai pas toujours la java qui scripte l’emmerdification :(
“It is seldom that liberty of any kind is lost all at once.” ― David Hume
# Maintenant que c'est mon jour... 😈
Posté par volts (Mastodon) . Évalué à 5 (+4/-1). Dernière modification le 20 février 2026 à 19:02.
J'ai mon petit avis sur tes déconvenues avec tes scripts python, à force d'être une petite main derrière un certain effort de veille sur DLFP : ce n'est pas sur Anubis que tu dois taper pour soulager ta frustration, il est au fond qu'une innocente mesure de légitime défense contre une invasion barbare bien plus vaste.
Ce qu'il te faut, c'est idéalement massacrer toutes les écrevisses et autres crustacés de la bêtise artificialisées à coup de bombe thermonucléaire, jusqu'à que les bots meurent d'extinction et que la banqueroute de leurs créateurs s'ensuive.
Voilà, ça, c'est dit…
Cependant, je doute fort que la moule moyenne ait l'expertise et les moyens de se mettre à niveau d'un Herr Doktor Folamour en Do it yourself (quoique… chez les amerloques, c'est démontré que ce n'est pas si impossible que ça😇).
En s'inspirant d'une astuce d'un apiculteur qui a tenter de résoudre ses problèmes à sa façon (pour lui, c'était d'arrêter le décès inexpliqué en masse de ses abeilles),je peux te suggérer ceci : tu envoies un courrier papier (oui, tu as bien lu; c'est important pour la suite) à notre Grandissime et Intelligentissime Manu pour lui implorer de mener une Guerre Sainte au nom de la French Tech à coup de M51 contre les zombies philosophiques mangeuse de création humaine fraîche qui se terrent dans les couloirs à la lumière vacillante de certains centres de donnée. Pour faire bonne impression, tu n'oublieras d'inclure dans la lettre le cadavre du pauvre processus python qui a été abattu en plein vol par l'invocation algorithmique d'Anubis (mon apiculteur du marché, lui, a mis une ouvrière morte dans sa lettre).
Si tu as bien suivies mes instructions, tu auras une visite garantie du SAV de la République qui pourrait arranger une médiation auprès de La Présidence.
Euh… je te laisse, j'ai une personne en noir qui veut me parler à l'interphone 😨
[^] # Re: Maintenant que c'est mon jour... 😈
Posté par Ysabeau 🧶 (courriel, site web personnel, Mastodon) . Évalué à 2 (+0/-1).
Tu es sûr que ce ne sont pas de types en blanc avec une chemise bizarre avec de drôles de grandes manches ?
Je n’ai aucun avis sur systemd
[^] # Re: Maintenant que c'est mon jour... 😈
Posté par Gil Cot ✔ (site web personnel, Mastodon) . Évalué à 3 (+1/-0). Dernière modification le 21 février 2026 à 00:17.
Non, non, ils sont en noir et diversifiés de peau mais pas de genre.

Ils sont venus le
flashouillerilluminer“It is seldom that liberty of any kind is lost all at once.” ― David Hume
[^] # Re: Maintenant que c'est mon jour... 😈
Posté par Ysabeau 🧶 (courriel, site web personnel, Mastodon) . Évalué à 4 (+1/-0).
Note qu'on n'a pas de nouvelles de lui depuis…
Je n’ai aucun avis sur systemd
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.