Anubis et cie

Posté par jtremesay (site web personnel) le 19 février 2026 à 19:03. Licence CC By‑SA.

Étiquettes :

fév.

2026

Vous faites chier avec vos trucs genre Anubis qui cassent mes petits scrapers python :(

Là, je voulais gentiment scraper les missions sur le Fandom de Cyberpunk 2077 pour pouvoir faire mon arbre de mission.

Et pouf, on se fait rembarrer parce qu'on utilise pas un vrai navigateur :

$ curl -v https://cyberpunk.fandom.com/wiki/Cyberpunk_2077_Main_Jobs
> Host: cyberpunk.fandom.com
> User-Agent: curl/8.18.0
> Accept: */*
> 
< HTTP/2 403

Dans ces cas là, pas le choix, Selenium WebDriver.

WebDriver est lib multilangage pour contrôler un navigateur web tel que firefox ou chrome.

Minimal Viable Product®

#!/usr/bin/env python3
from pathlib import Path

from selenium import webdriver
from selenium.webdriver.common.by import By


def main():
    output_dir = Path("html")
    output_dir.mkdir(exist_ok=True)

    driver = webdriver.Firefox()
    driver.get("https://cyberpunk.fandom.com/wiki/Cyberpunk_2077_Main_Jobs")

    links = [
        (link.get_attribute("title"), link.get_attribute("href"))
        for link in driver.find_elements(By.CSS_SELECTOR, ".navbox li a")
    ]
    for link_title, link_href in links:
        page_file = output_dir / f"{link_title}.html"
        if page_file.exists():
            print(f"{link_title} already exists, skipping")
            continue
        print(f"Saving {link_title} from {link_href}")

        driver.get(link_href)
        content_node = driver.find_element(By.CSS_SELECTOR, ".mw-parser-output")
        page_file.write_text(content_node.get_attribute("outerHTML"))

    driver.quit()


if __name__ == "__main__":
    main()

j'trouve ça moins élégant que Hishel. Mais bon.

Modern Problems Require Modern Solutions

# Par rapport à hishel

Posté par abriotde (site web personnel, Mastodon) le 20 février 2026 à 03:28. Évalué à 3 (+2/-1).

C'est surtout plus gourmand en ressources…

Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.

Répondre
- [^] # Re: Par rapport à hishel
  
  Posté par steph1978 le 20 février 2026 à 11:49. Évalué à 4 (+2/-0).
  
  Justement
  
  Hishel - Elegant HTTP Caching for Python
  
  C'est quoi le rapport avec Selenium ?
  
  Répondre
  - [^] # Re: Par rapport à hishel
    
    Posté par abriotde (site web personnel, Mastodon) le 22 février 2026 à 01:11. Évalué à 4 (+2/-0). Dernière modification le 22 février 2026 à 01:14.
    
    Hishell fait un wget avec du cache alors que Sélénium simule un navigateur complet.
    En tout cas la raison de passer à Sélénium plutôt que de rester sur une solution plus légère est de contourner les systèmes anti-bots.
    
    Sous licence Creative common. Lisez, copiez, modifiez faites en ce que vous voulez.
    
    Répondre
# curl-impersonate ?

Posté par sebas le 20 février 2026 à 15:10. Évalué à 2 (+0/-0).

Et curl-impersonate, ça ne t'aiderait pas ?

With the modified curl in this repository, the TLS and HTTP handshakes look exactly like those of a real browser.

Répondre
- [^] # Re: curl-impersonate ?
  
  Posté par cg le 20 février 2026 à 20:17. Évalué à 4 (+2/-0).
  
  Non, car Anubis s'appuie sur des calculs effectués en JavaScript par le navigateur.
  
  Répondre
  - [^] # Re: curl-impersonate ?
    
    Posté par sebas le 20 février 2026 à 20:57. Évalué à 2 (+0/-0).
    
    Ok.
    Remarque, c'est logique, sinon les robots l'utiliseraient pour tourner la protection.
    
    Répondre
    - [^] # Re: curl-impersonate ?
      
      Posté par Benjamin Henrion (site web personnel) le 22 février 2026 à 13:37. Évalué à 2 (+0/-0). Dernière modification le 22 février 2026 à 13:37.
      
      Ya pas d'outils en ligne de commande pour interpréter le JS?
      
      Répondre
      - [^] # Re: curl-impersonate ?
        
        Posté par Psychofox (Mastodon) le 22 février 2026 à 20:54. Évalué à 3 (+0/-0).
        
        Tu n'as jamais entendu parler de nodejs ni de bun?
        
        Répondre
        
        [^] # Re: curl-impersonate ?
        
        Posté par Psychofox (Mastodon) le 22 février 2026 à 21:00. Évalué à 4 (+1/-0).
        
        J'ai oublié de préciser que l'important n'est pas d'exécuter le js, mais la colle entre http, js et la gestion des cookies.
        
        Répondre
        
        [^] # Re: curl-impersonate ?
        
        Posté par jtremesay (site web personnel) le 23 février 2026 à 16:16. Évalué à 5 (+3/-0).
        
        un script capable de gérer du http, du js, du cookie et la glue entre tout ça, ça commence à sacrément ressembler à un navigateur web.
        
        Répondre
        
        [^] # Re: curl-impersonate ?
        
        Posté par Psychofox (Mastodon) le 23 février 2026 à 21:47. Évalué à 3 (+0/-0).
        
        C'est justement ce que je fais remarquer ;-)
        
        Répondre
        
        [^] # Re: curl-impersonate ?
        
        Posté par Benjamin Henrion (site web personnel) le 26 février 2026 à 20:03. Évalué à 2 (+0/-0).
        
        Oui mais c'est pas la même quantité de code.
        
        Répondre
  - [^] # Re: curl-impersonate ?
    
    Posté par Gil Cot ✔ (site web personnel, Mastodon) le 21 février 2026 à 00:09. Évalué à 3 (+1/-0).
    
    Le web est foutu pour les vrais humains comme moi : je n’ai pas toujours la java qui scripte l’emmerdification :(
    
    “It is seldom that liberty of any kind is lost all at once.” ― David Hume
    
    Répondre
# Maintenant que c'est mon jour... 😈

Posté par volts (Mastodon) le 20 février 2026 à 18:58. Évalué à 5 (+4/-1). Dernière modification le 20 février 2026 à 19:02.

J'ai mon petit avis sur tes déconvenues avec tes scripts python, à force d'être une petite main derrière un certain effort de veille sur DLFP : ce n'est pas sur Anubis que tu dois taper pour soulager ta frustration, il est au fond qu'une innocente mesure de légitime défense contre une invasion barbare bien plus vaste.

Ce qu'il te faut, c'est idéalement massacrer toutes les écrevisses et autres crustacés de la bêtise artificialisées à coup de bombe thermonucléaire, jusqu'à que les bots meurent d'extinction et que la banqueroute de leurs créateurs s'ensuive.

Voilà, ça, c'est dit…

Cependant, je doute fort que la moule moyenne ait l'expertise et les moyens de se mettre à niveau d'un Herr Doktor Folamour en Do it yourself (quoique… chez les amerloques, c'est démontré que ce n'est pas si impossible que ça😇).

En s'inspirant d'une astuce d'un apiculteur qui a tenter de résoudre ses problèmes à sa façon (pour lui, c'était d'arrêter le décès inexpliqué en masse de ses abeilles),je peux te suggérer ceci : tu envoies un courrier papier (oui, tu as bien lu; c'est important pour la suite) à notre Grandissime et Intelligentissime Manu pour lui implorer de mener une Guerre Sainte au nom de la French Tech à coup de M51 contre les zombies philosophiques mangeuse de création humaine fraîche qui se terrent dans les couloirs à la lumière vacillante de certains centres de donnée. Pour faire bonne impression, tu n'oublieras d'inclure dans la lettre le cadavre du pauvre processus python qui a été abattu en plein vol par l'invocation algorithmique d'Anubis (mon apiculteur du marché, lui, a mis une ouvrière morte dans sa lettre).

Si tu as bien suivies mes instructions, tu auras une visite garantie du SAV de la République qui pourrait arranger une médiation auprès de La Présidence.

Euh… je te laisse, j'ai une personne en noir qui veut me parler à l'interphone 😨

Répondre
- [^] # Re: Maintenant que c'est mon jour... 😈
  
  Posté par Ysabeau 🧶 (courriel, site web personnel, Mastodon) le 20 février 2026 à 19:23. Évalué à 2 (+0/-1).
  
  Tu es sûr que ce ne sont pas de types en blanc avec une chemise bizarre avec de drôles de grandes manches ?
  
  Je n’ai aucun avis sur systemd
  
  Répondre
  - [^] # Re: Maintenant que c'est mon jour... 😈
    
    Posté par Gil Cot ✔ (site web personnel, Mastodon) le 21 février 2026 à 00:16. Évalué à 3 (+1/-0). Dernière modification le 21 février 2026 à 00:17.
    
    Non, non, ils sont en noir et diversifiés de peau mais pas de genre.
    
    Ils sont venus le ~~flashouiller~~ illuminer
    
    “It is seldom that liberty of any kind is lost all at once.” ― David Hume
    
    Répondre
    - [^] # Re: Maintenant que c'est mon jour... 😈
      
      Posté par Ysabeau 🧶 (courriel, site web personnel, Mastodon) le 21 février 2026 à 17:26. Évalué à 4 (+1/-0).
      
      Note qu'on n'a pas de nouvelles de lui depuis…
      
      Je n’ai aucun avis sur systemd
      
      Répondre

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.