Journal Démerdifier le web avec Unmerdify et Offpunk

Posté par ploum (site web personnel, Mastodon) le 01 décembre 2025 à 17:20. Licence CC By‑SA.

Étiquettes :

déc.

2025

Vous le savez certainement, beaucoup de choses autour de nous se merdifient :

https://ploum.net/2023-06-15-merdification.html

Et le Web ne fait pas exception. C’est même plutôt devenu la norme : chaque site web semble vouloir enfouir son contenu dans des centaines de liens, de kilooctets de javascript, de pubs, d’espionnage.

On peut évidemment se concentrer sur le "small web/smolnet" :
https://tcrouzet.com/2025/11/16/smolweb-smolnet/

Voire, pour les plus aventureux, sur le protocole Gemini:
https://ploum.net/gemini-le-protocole-du-slow-web/index.html

Mais c’est dommage de se passer de plein de contenus vraiment pertinents et pourtant enfouis dans leur merdier.

C’est ici qu’intervient l’utilitaire "unmerdify", créé par Vincent Jousse.
https://codeberg.org/vjousse/unmerdify/

Unmerdify se base sur une série de règles maintenues par la communauté et, au départ, créées pour instapaper. Chaque domaine possède des transformations XSLT pour extraire le contenu correct en supprimant la "merde", ou, pour le moins, ce qui n’est pas très utile/central.

https://github.com/fivefilters/ftr-site-config

Vous pouvez y contribuer, il n’y a pas encore de règles pour linuxfr par exemple.

Tout seul, unmerdify n’est pas très utile.

C’est pourquoi, en coopération avec Vincent, j’ai intégré Unmerdify dans Offpunk.

Offpunk est un navigateur en ligne de commande:
https://offpunk.net/

Pour se lancer avec offpunk, il suffit de l’installer, de lancer la commande "offpunk" puis "tutorial". (les retours et contributions sont bienvenues)

Jusqu’à présent, pour tenter d’extraire du contenu d’une page web, offpunk utilisait la librairie "readability". Readability utilise un algorithme statistique. Cela veut dire qu’il considère que, par défaut, le contenu intéressant d’un page est une fraction de la page. Et que s’il y a beaucoup de liens, ce sont sans doute des pubs.

Paradoxalement, un site bien fait avec le contenu au centre va donc être agressivment réduit par Readability. C’est le cas de mes billets de blog où, par exemple, des billets "en vrac" de Tristan Nitot sur le Standblog. De plus, readability n’est pas vraiment maintenu.

Le but est donc de remplacer Readability par Unmerdify dans Offpunk. La fonctionnalité est dans TRUNK depuis aujourd’hui.

https://lists.sr.ht/~lioploum/offpunk-devel/%3C176459371683.7.10565078656826518034.1039550217@ploum.eu%3E

Pour l’activer, il faut d’abord avoir une copie locale du ftr-site-config:

$ git clone https://github.com/fivefilters/ftr-site-config

puis le dire dans offpunk:

$ offpunk
ON> set ftr_site_config /path/to/my/ftr-site-config

Et voilà.

Pour ne pas avoir à retaper cette commande à chaque démarage, on peut bien entendu la mettre dans son offpunkrc

Cerise sur le gateau, il est également possible d’utiliser unmerdify tout seul en ligne de commande, tout comme les autres composants de Offpunk:
- netcache (un curl/wget qui garde les données en cache de manière permanente)
- ansicat (une commande cat qui fait un joli rendu dans le terminal des fichiers HTML/RSS/Atom/Gemtext/Gophermap et même les images)
- opnk (un "open" universel qui fait le rendu automatiquement ou trouve le meilleur logiciel pour afficher un contenu particulier)

Bref, si vous avez envie de tester offpunk/unmerdify, je suis preneur de vos feedbacks.

Et n’hésitez pas à poster sur la mailing-liste utilisateurs, que ce soit des questions, des retours ou des idées.

https://lists.sr.ht/~lioploum/offpunk-users

# Interface graphique

Posté par ploum (site web personnel, Mastodon) le 01 décembre 2025 à 17:22. Évalué à 10.

J’oubliais de préciser qu’il est tout à fait possible d’imaginer une interface graphique basée sur offpunk pour permettre aux gens n’aimant pas la ligne de commande de naviguer sur un web démerdifié. Une de mes étudiantes à réalisé un prototype.

Mes livres CC By-SA : https://ploum.net/livres.html
# Pour chaque site ?

Posté par Xanatos le 01 décembre 2025 à 17:43. Évalué à 5.

Hello,
Lu vite, si j’ai bien compris créer un fichier de config, site après site.
Au final on fait le boulot d'indexation des crawlers des moteurs de recherche d'antan.

Quitte à me faire taper dessus: combattre le mal par le mal ; des agents LLM qui iraient faire ce boulot à notre place (crawl liste> grep structure; echo fichier)

Cela dit j'aime bien l'idée de la couche d'abstraction sur le contenu pur, ça a peut être une dénomination ? Après tout des pâquerettes peuvent naître du fumier.
Mes 2 cents.
- [^] # Re: Pour chaque site ?
  
  Posté par ploum (site web personnel, Mastodon) le 01 décembre 2025 à 18:30. Évalué à 9.
  
  Oui, c’est pour chaque site. Mais s’il n’y a pas de règle, offpunk retombe par défaut sur Readability.
  
  Il y a déjà plus de 2000 sites sur ftr-site-config et c’est surtour pour les plus merdifiés que c’est intéressant.
  
  Mes livres CC By-SA : https://ploum.net/livres.html
# démerdifier linuxfr??

Posté par Maclag le 01 décembre 2025 à 19:24. Évalué à 10.

Vous pouvez y contribuer, il n’y a pas encore de règles pour linuxfr par exemple.

Il y a quoi à démerdifier sur linuxfr?
- [^] # Re: démerdifier linuxfr??
  
  Posté par steph1978 le 01 décembre 2025 à 20:03. Évalué à 4.
  
  Pour ma part, j'utilise ublock0 pour supprimer le "phare" et les avatars.
  - [^] # Re: démerdifier linuxfr??
    
    Posté par jeanas (site web personnel, Mastodon) le 01 décembre 2025 à 20:22. Évalué à 4.
    
    Qu'entends-tu par le "phare" ?
    - [^] # Re: démerdifier linuxfr??
      
      Posté par steph1978 le 01 décembre 2025 à 21:55. Évalué à 4.
      
      Le contenu qui reste en haut sur la page d'accueil. Pour moi, ça prend de la place et je l'ai la plupart du temps déjà lu. Je ne sais pas comment ça s'appelle mais dans la CSS, c'est "phare".
  - [^] # Re: démerdifier linuxfr??
    
    Posté par Psychofox (Mastodon) le 01 décembre 2025 à 22:44. Évalué à 6.
    
    Je ne sais pas ce que tu appelles le phare mais la dédactivation des avatars ça peut se faire dans les préférences de ton compte, tout comme le choix d'une autre css.
    - [^] # Re: démerdifier linuxfr??
      
      Posté par steph1978 le 01 décembre 2025 à 22:54. Évalué à 5.
      
      Exact mais je ne visite pas toujours en mode connecté. En particulier au boulot. Alors que j'ai toujours ublock 😉
- [^] # Re: démerdifier linuxfr??
  
  Posté par ploum (site web personnel, Mastodon) le 01 décembre 2025 à 22:42. Évalué à 3.
  
  Pas grand chose, c’est vrai, mais si tu navigues avec Offpunk tu veras qu’il y a plein de trucs "inutiles" : il y un total de 128 liens sur cette page en ce moment dont une bonne moitié sont des "options de navigation" qui rendent la lecture plus complexe que cela ne devrait être.
  
  Mes livres CC By-SA : https://ploum.net/livres.html
- [^] # Re: démerdifier linuxfr??
  
  Posté par devnewton 🍺 (site web personnel) le 09 décembre 2025 à 15:09. Évalué à 4.
  
  La non gestion des images ?
  
  L'absence de moteur de recherche ? (Peut être en repartant de mon derche ?).
  
  Ce post est offensant ? Prévenez moi sur https://linuxfr.org/board
  - [^] # Re: démerdifier linuxfr??
    
    Posté par Gil Cot ✔ (site web personnel, Mastodon) le 09 décembre 2025 à 21:04. Évalué à 3.
    
    bref, c’est déjà readabilited…
    
    “It is seldom that liberty of any kind is lost all at once.” ― David Hume
# XSLT, ça alors

Posté par Luc-Skywalker le 01 décembre 2025 à 23:05. Évalué à 7.

c'est dingue, ça marche encore

===>[]

"Si tous les cons volaient, il ferait nuit" F. Dard
- [^] # Re: XSLT, ça alors
  
  Posté par steph1978 le 02 décembre 2025 à 12:15. Évalué à 9. Dernière modification le 02 décembre 2025 à 12:19.
  
  HTML n'ayant pas fondamentalement changé ces dernières années, il y a peu de raison que XSLT ne fonctionne plus.
  
  Ce qui a probablement beaucoup changé, c'est que le DOM est produit par du JavaScript côté client.
  
  Mais si tu es dans un navigateur, il suffit d'attendre qu'il ait exécuté le JS pour travailler sur le DOM résultant.
  
  En fait, le gros intérêt d'utiliser XSLT dans le moteur, c'est de pouvoir utiliser des XPath dans les fichiers de configuration.
  - [^] # Re: XSLT, ça alors
    
    Posté par jeanas (site web personnel, Mastodon) le 02 décembre 2025 à 13:24. Évalué à 2.
    
    HTML n'ayant pas fondamentalement changé ces dernières années, il y a peu de raison que XSLT ne fonctionne plus.
    
    https://developer.chrome.com/docs/web-platform/deprecating-xslt
    - [^] # Re: XSLT, ça alors
      
      Posté par steph1978 le 02 décembre 2025 à 13:56. Évalué à 10.
      
      Ça, ça veut dire que le navigateur ne fera plus la transformation XSTL lui-même.
      Il y a eu un monde dans lequel un producteur de contenus envoyait son contenu sous format XML, peu importe lequel, et une feuille de style XSLT et le navigateur faisait la transformation - et le rendu si possible, c'est-à-dire si la transformation produisait du XHTML.
      
      Mais ça ne veut pas dire que XSLT est déprécié en tant que tel. Tu peux toujours le faire dans une extension pour transformer sur XHTML en un autre XHTML. C'est l'idée ici.
      - [^] # Re: XSLT, ça alors
        
        Posté par jeanas (site web personnel, Mastodon) le 02 décembre 2025 à 20:33. Évalué à 3.
        
        Ah pardon, j'avais mal compris.
# unmerdify vs mode lecture

Posté par anubis le 03 décembre 2025 à 09:12. Évalué à 3.

Quel est l'avantage de unmerdify par rapport au mode lecture de Firefox ?

aussi sur le salon xmpp:linuxfr@chat.jabberfr.org?join
- [^] # Re: unmerdify vs mode lecture
  
  Posté par ploum (site web personnel, Mastodon) le 03 décembre 2025 à 15:55. Évalué à 2.
  
  Le mode lecture de Firefox utilise probablement Readability (ou similaire). Voir le contenu du journal qui explique exactement ça.
  
  Mes livres CC By-SA : https://ploum.net/livres.html
  - [^] # Re: unmerdify vs mode lecture
    
    Posté par Gil Cot ✔ (site web personnel, Mastodon) le 03 décembre 2025 à 22:43. Évalué à 2.
    
    Il faudrait regarder (et décoder/comprendre) le code du navigateur pour savoir :)
    Mais de mon expérience, ça fait une analyse de DOM (après tout, c’est un butineur et il y a déjà tout le nécessaire pour cela) ; raison pour laquelle ça ne le propose pas pour tous les sites… (j’ai l’impression qu’il faut être HTML5 full compliant avec html>body>main/section/article/… …mais peut-être qu’effectivement ça bascule sur Readability pour pour du HTML plus crade ?) Ensuite, ça applique une feuille de style propre (et non celle de la page).
    
    “It is seldom that liberty of any kind is lost all at once.” ― David Hume
  - [^] # Re: unmerdify vs mode lecture
    
    Posté par Psychofox (Mastodon) le 03 décembre 2025 à 23:00. Évalué à 3.
    
    Par contre le contenu du journal annonce que Readability n'est plus maintenu ce qui n'est pas le cas:
    https://github.com/mozilla/readability/commits/main/
    - [^] # Re: unmerdify vs mode lecture
      
      Posté par ploum (site web personnel, Mastodon) le 04 décembre 2025 à 12:08. Évalué à 2. Dernière modification le 04 décembre 2025 à 12:08.
      
      ah, c’est peut‑être la librairie python que j’utilise qui n’est plus mis à jour alors.
      
      Mes livres CC By-SA : https://ploum.net/livres.html
  - [^] # Re: unmerdify vs mode lecture
    
    Posté par Tit le 04 décembre 2025 à 11:09. Évalué à 2.
    
    Comme par ailleurs tu dis :
    
    Paradoxalement, un site bien fait avec le contenu au centre va donc être agressivment réduit par Readability. C’est le cas de mes billets de blog
    
    le mode de lecture de firefox devrait mal fonctionner sur ton blog, or il me semble que ce n'est pas le cas (mais je regarde peut-être mal)
    - [^] # Re: unmerdify vs mode lecture
      
      Posté par ploum (site web personnel, Mastodon) le 04 décembre 2025 à 12:08. Évalué à 2.
      
      Je parle du readability que j’utilise (python), il y a plein de variations
      
      Mes livres CC By-SA : https://ploum.net/livres.html

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.