Journal scraplap, pour mouler offline

Posté par  . Licence CC By‑SA.
26
6
nov.
2018

Bonjour nal,

Je prends la plume pour présenter scraplap.

Cet outil n'avait pas de nom à sa création. Mais pour se présenter, un nom est bien utile.
J'ai donc "inventé" le terme LAP, pour link aggregation platform ; une plateforme qui agrège des liens vers du contenu sur un sujet plus ou moins large et qui permet bien souvent de les noter et les commenter. On peut penser à Reddit, à Lobsters, à Journal du hacker.
Scrap est quant à lui le diminutif de scrapy, la bibliothèque python que j'utilise pour faire le scraping.

Scraplap s'inscrit dans la mouvance weboob, qui consiste à permettre des usages web hors navigateur (gérer sa banque, faire des rencontres, etc.). Pour ma part je suis intéressé par l'usage contentoob : consulter du contenu produit pour le web hors du navigateur. Dans ce domaine, les formats rss/atom et epub sont très utiles pour proposer du contenu sans passer par le navigateur. Ils permettent de ne pas avoir à développer d'application cliente spécifique ; une tâche trop ardue à mon goût. Il y a de très bon lecteurs RSS, sur toutes les plateformes.

Une LAP comme Lobsters propose déjà un fil d'actualités en RSS. Cependant, ils ne s'autorisent pas à y inclure du contenu qui n'est pas produit par la plateforme. On y retrouve donc que les liens vers les articles, pas les articles eux-mêmes. Or c'est typiquement là que je souhaite du contentoob. Je ne souhaite pas sortir du lecteur de fils et devoir être en ligne pour lire l'article. Scraplap fait ce travail pour moi. Il parcourt le fil d'actualité de la LAP, va chercher les articles en ligne et les remets dans un nouveau flux.

fil d'actu

Pour que les articles soient lisibles dans le lecteur de fils d'actu, l'outil applique le même algorithme que le mode lecteur de Firefox, grâce à une implémentation python basée sur lxml. Ce mécanisme mériterai un article à part entière.

article

Scraplap a connu deux releases. La première, très intimiste, était stateless, elle lisait le fil source et produisait le fil résultat en même temps. Cela posait plein de problèmes qui sont expliqués dans ce document de design ; désolé, c'est en anglais. La release actuelle est statefull, elle récupère les nouveaux articles, les stocke en DB, puis construit le fil résultat.

Le code est disponible sur Framagit, l'instance gitlab de Framasoft. J'en ai profité pour mettre en place un don récurent car je veux soutenir leur initiative de dégafamisation. Les fils d’actu sont disponibles sur mon hosting, pour lobsters et pour journalduhacker.

Si ce type d'outils vous intéresse, vous pouvez alimenter la backlog, faire des PR, commenter.

  • # Chouette

    Posté par  . Évalué à 3.

    Salut,
    Ça fait des lustres que je pensais à coder ça mais que j'avais une grosse flemme de le faire. Donc un gros merci ! Je vais tester ça.

    • [^] # Re: Chouette

      Posté par  . Évalué à 2.

      Pareil, par contre je pensais pas que le faire à la volée poserait problème. Un cache en mémoire ne suffirait pas ?

      • [^] # Re: Chouette

        Posté par  . Évalué à 2.

        par contre je pensais pas que le faire à la volée poserait problème. Un cache en mémoire ne suffirait pas ?

        Moi aussi, au départ :)

        L'outil tourne en mode batch, dans un cron par exemple.
        Compte tenu de la fréquence d'apparition de nouveaux contenu, je le lance toutes les deux heures.
        Il n'a donc pas de cache mémoire possible entre deux exécutions.
        Entre deux exécutions, il n'y a bien souvent que deux ou trois nouveaux articles dans le flux d'origine qui en liste 25.
        Il y a deux actions couteuses pour chaque article : le télécharger et lui appliquer le readability.

        L'utilisation d'une BDD par rapport à un traitement a la volé a pour bénéfice:
        * exécution plus rapide (empiriquement 10x)
        * maintient de l'ordre des entrées dans le flux entre deux exécutions
        * possibilité de générer un flux d'une taille différente de celui d'origine (j'ai choisi 40 au lieu de 25)

  • # Lapin compris

    Posté par  . Évalué à 8.

    J'ai rien compris à ce journal ;-)

    En gros, ça sert à qui et pour faire quoi ?

    BeOS le faisait il y a 20 ans !

    • [^] # Re: Lapin compris

      Posté par  . Évalué à 5.

      Ça prend un flux rss qui ne fait que lister des liens et ça remplace les liens par le contenu.

      • [^] # Re: Lapin compris

        Posté par  . Évalué à 3.

        Les lecteurs de flux RSS ne font-ils pas déjà ce travail ? Avant j'utilisais Liferea qui récupérait le contenu de l'article… (en ce moment j'utilise les "marques-pages dynamiques" de firefox)

        • [^] # Re: Lapin compris

          Posté par  . Évalué à 5.

          Il ne le fera pas offline et ce n'est pas une fonctionnalité de tous les lecteurs rss.
          Dans le flux Atom, le lecteur affiche le contenu de la balise "content". Si ce contenu est un lien, il affiche un lien.
          D'autre part, tous les lecteurs n'appliquent pas l'algo de readability.

          • [^] # Re: Lapin compris

            Posté par  . Évalué à 1.

            Ok pour le contenu, mais :

            Il ne le fera pas offline

            Tu veux dire que les lecteurs de flux RSS ne gardent pas en mémoire les articles, mais les récupèrent du serveur à chaque lecture ?

            • [^] # Re: Lapin compris

              Posté par  . Évalué à 5.

              Tu veux dire que les lecteurs de flux RSS ne gardent pas en mémoire les articles, mais les récupèrent du serveur à chaque lecture ?

              Si le contenu d'une entrée dans un fil d'actu est un article, il fait partie du flux, il est donc conservé par le lecteur RSS.

              Mais ce qui était proposé plus haut est que, si le contenu est une URL alors l'application cliente va chercher l'article pointé. Ce n'est pas une fonction standard d'un lecteur RSS. Ce serait une fonction particulière dans une application particulière.

              C'est un particularisme que je ne souhaite pas pour ma part. Je veux un fil classique avec l'article dans le contenu et une application classique de lecture de fils d'actu comme il en existe partout.

              Si tu veux quelque chose de plus visuel, installe un lecteurs RSS, ajoute le fil lobsters et ajoute le fil créer par scraplap. Tu verra que le premier contient un lien et que si tu cliques, il charge le contenu dans un navigateur (intégré ou non). Le second contient l'article, que tu peux lire sans plus de manipulation et sans être en ligne.

        • [^] # Re: Lapin compris

          Posté par  (site web personnel) . Évalué à 3.

          (en ce moment j'utilise les "marques-pages dynamiques" de firefox)

          Profites-en bien, il me semble qu'ils vivent leurs dernières heures.

      • [^] # Re: Lapin compris

        Posté par  . Évalué à 3.

        Ah oui ! C'est bien ça quand on a des fils RSS tronqués :)

        BeOS le faisait il y a 20 ans !

  • # Justifier

    Posté par  (site web personnel) . Évalué à 6. Dernière modification le 06 novembre 2018 à 09:28.

    Je comprends pas pourquoi le texte justifié semble passé de mode. Le mode lecture de firefox ne justifie pas le texte, ce qui est mon plus gros reproche, et là sur ton screenshot c’est pareil.

    Difficile au vu du screenshot de savoir si ça vient de ton outil ou de ton lecteur de flux RSS par contre. (je connais pas les détails techniques de RSS je sais pas à quel point ça contient des infos de mise en page)

    Ça me parait particulièrement pertinent de justifier dans le cas d’un écran étroit de téléphone. Mais je suis peut-être le seul à préférer ça, je le vois très peu en pratique.
    Même mastodon dans ses colonnes minuscules aligne le texte à gauche :-(

    • [^] # Re: Justifier

      Posté par  (site web personnel, Mastodon) . Évalué à 5.

      Justifier sur un téléphone (ou plus généralement sur une colonne étroite) est une mauvaise pratique, sauf en cas de gestion propre des césures – ce que ne font pas les navigateurs. Parce que dans ce cas, certes c'est plus joli, mais bien moins lisible à cause des espaces entre mots qui peuvent devenir énormes.

      La connaissance libre : https://zestedesavoir.com

    • [^] # Re: Justifier

      Posté par  . Évalué à 3.

      Readability vire les CSS la plupart du temps.
      Je dirai donc que cela provient du lecteur.
      Mauvais logiciel, changer de logiciel :) C'est ce qui me plait avec RSS, il y en a des tonnes.
      J'en ai testé un autre. Mais sur mobile, compte tenu de la largeur de page, difficile de savoir si il justifie le texte ou pas.

    • [^] # Re: Justifier

      Posté par  . Évalué à 1.

      Je suis complètement d'accord ! J'en ai eu marre de lire des textes non-justifiés partout sur internet alors j'ai créé un petit style utilisateur ultra simple, mais rudement efficace :

      article p {
          text-align: justify;
      }
      

      Et voilà, tu colles ça dans Stylus dans Firefox, tu le configures par défaut pour tout Internet et voilà 😀

    • [^] # Re: Justifier

      Posté par  . Évalué à 4.

      Le texte justifié gène la compréhension lors de la lecture.

      cf https://en.wikipedia.org/wiki/Sentence_spacing_studies. Extrait :

      A widespread observation is that increased sentence spacing creates "rivers"[14] or "holes"[15] within text, making it visually unattractive, distracting, and difficult to locate the end of sentences.[16] Comprehensive works on typography describe the negative effect on readability caused by inconsistent spacing,[17] which is supported in a 1981 study which found that "comprehension was significantly less accurate with the river condition."[18] Another 1981 study on Cathode Ray Tube (CRT) displays concluded that "more densely packed text is read more efficiently … than is more loosely packed text."[19]

      • [^] # Re: Justifier

        Posté par  (site web personnel) . Évalué à 5.

        Ça ne concerne que le texte mal justifié (faisant varier la longueur des espaces), cet extrait ne parle pas du tout d’un texte bien justifié en utilisant la césure des mots.
        Le dernier point ("more densely packed text is read more efficiently … than is more loosely packed text.") me paraît même pouvoir être interprété en faveur de la justification.

        Ce qui ne rend pas ton message moins intéressant pour autant ;)

    • [^] # Re: Justifier

      Posté par  (site web personnel, Mastodon) . Évalué à 3.

      Il y a quelques mois je cherchais un thème tout fait pour un blog, et je n’en ai trouvé aucun avec les paragraphes justifiés. Avant de me décider à bidouiller un thème (je n’y connais quasiment rien) j’ai cherché s’il y avait une raison à cela, je suis tombé sur ça et ça m’a convaincu de ne pas justifier : https://designforhackers.com/blog/justify-text-html-css/

      Je me demande si les navigateurs ne pourraient pas s’inspirer de LaTeX pour le rendu des paragraphes justifiés. C’est un truc que LaTeX fait depuis toujours, donc il y a sûrement des algorithmes bien établis et testés.

    • [^] # Re: Justifier

      Posté par  . Évalué à 3. Dernière modification le 07 novembre 2018 à 09:53.

      Il y aurait de bonnes raisons de ne pas justifier, et si on justifie alors c'est avec des contraintes assez fortes (césures, largeur colonne, police etc.).
      un article qui en parle : https://www.fabricecourt.com/formation/doit-on-justifier-un-texte-sur-le-web/
      certains ont choisi de justifier et explique pourquoi et comment : http://typographisme.net/post/La-justification-sur-le-web-%3A-usages-et-pr%C3%A9cautions

  • # Contentoob ?

    Posté par  (site web personnel) . Évalué à 7.

    Si tu veux rester dans la mouvance Weboob, il faut te trouver un meilleur nom.

    Je te propose: Contenteub. En français, ça passe très bien. Pour l'anglais, j'ai pas d'idée mais avec des boob et du gros contenu, on doit bien pouvoir trouver un jeu de mot à la con !

    Allez, --> []

    • [^] # Re: Contentoob ?

      Posté par  (site web personnel, Mastodon) . Évalué à 7. Dernière modification le 06 novembre 2018 à 11:30.

      À propos de weboobs

      La connaissance libre : https://zestedesavoir.com

      • [^] # Re: Contentoob ?

        Posté par  . Évalué à -1.

        Après le code de conduite de sqlite à base de merci seigneur, encore une initiative moralisatrice dans le logiciel libre. Si la bien-pensence pouvait épargner le logiciel libre, cela me réjouirai.
        Je ne suis pas sûr que censurer un logiciel pour son nom un peu potache améliore la condition de la femme dans nos sociétés.
        Pour rappel à partir de cet après midi, en France, les femmes travaillent gratuitement et ce jusqu'à la fin de l'année (salaire comparer avec un homme ayant le même poste). Si on commençait par là avant de peaufiner les détails…

        • [^] # Re: Contentoob ?

          Posté par  . Évalué à 3.

          à partir de cet après midi, en France, les femmes travaillent gratuitement et ce jusqu'à la fin de l'année

          Des études indiquent que c'est vrai, d'autres indiquent que c'est l'inverse (à résultat égal les femmes sont en moyenne plus payées que les hommes au cours d'une vie).
          C'est un truc sans fin car il y a what-milliards de facteurs, d'exceptions, etc. Sans parler des études biaisées pour soutenir tel ou tel côté, comme si les genres étaient en lutte l'un contre l'autre.

          • [^] # Re: Contentoob ?

            Posté par  . Évalué à 2.

            "à résultat égal" on entend quoi par "résultat" ?

          • [^] # Re: Contentoob ?

            Posté par  . Évalué à 2.

            Des études indiquent que c'est vrai, d'autres indiquent que c'est l'inverse

            Selon ce paragraphe bien sourcé de wikipédia, en prenant bien en compte tout les facteurs, les femmes sont tout de mêmes perdantes…

            comme si les genres étaient en lutte l'un contre l'autre

            Tu n'as jamais entendu parlé de féminisme ? de domination patriarcale ? du slogan #metoo ?

            • [^] # Re: Contentoob ?

              Posté par  . Évalué à 4.

              Tu n'as jamais entendu parlé de féminisme ? de domination patriarcale ? du slogan #metoo ?

              2 % de la population ne représente pas la population. Et balancer des termes à la mode non plus.
              Il y a très (très) peu de gens qui luttent contre l'autre sexe.

              • [^] # Re: Contentoob ?

                Posté par  . Évalué à 1.

                Les agressions sexuelles envers les femmes, le harcèlement, les inégalités diverses, le machisme ordinaire et les violences symboliques - parfois intégrées dans la loi de certains pays - concernent beaucoup (beaucoup) de gens. Tous ces gens ne luttent pas forcément, tu as raisons, contre l'autre sexe - ce serait improductif d'ailleurs - mais essaye de conserver leur pouvoir ou d'échapper à la violence comme ils/elles le peuvent, plus ou moins consciemment.
                Ce n'est que ma lecture des choses.

            • [^] # Re: Contentoob ?

              Posté par  . Évalué à 1.

              Selon ce paragraphe bien sourcé de wikipédia, en prenant bien en compte tout les facteurs, les femmes sont tout de mêmes perdantes…

              La partie que tu cites est clair : il est écrit que le revenu des femmes est inférieur à celui des hommes, et qu'elles font des choix différents de ceux des hommes. Il n'est pas écrit qu'à résultat égal elles sont moins payées.

              Il y a d'autres trucs « bien sourcés » qui arrivent à toutes les conclusions possibles. Donc en gros on ne sait pas vu que c'est le foutoir (déjà que les choses pour lesquelles tout le monde est d'accord sont parfois fausses…).

              • [^] # Re: Contentoob ?

                Posté par  . Évalué à 2.

                Il n'est pas écrit qu'à résultat égal elles sont moins payées.

                Tu n'as pas lu jusqu'au bout :

                " Bien que les inégalités salariales sont en grande partie explicables par des différences de postes, d'expérience et de volume horaire, les femmes restent moins payées que les hommes après ajustement de ces variables. Les recherches menées aux États-Unis montrent qu'il reste un écart salarial de 7 % qui ne peut pas être causé par le nombre d'heures travaillées, le métier, le niveau d'étude ou le secteur d'emploi. Par exemple, en France selon l'observatoire de l'IESF, les femmes ingénieures sont en moyenne payées 2 000 € annuel de moins que leurs homologues masculins à la sortie de l'école en 2016 et l'écart s'agrandit au cours de la carrière et au Royaume-Uni, les femmes tradeurs bien qu'ayant le même salaire que les hommes, reçoivent deux fois moins de bonus que les hommes."

                • [^] # Re: Contentoob ?

                  Posté par  . Évalué à 2.

                  Tu n'as pas lu jusqu'au bout

                  Effectivement. L'article contient une partie qui dit ça, et une partie qui dit quasi l'inverse (la partie que je cite). Encore une fois on trouve tout et son contraire dans ce débat.
                  Tu peux citer autant de sources que tu veux, il y en a autant qui trouvent le résultat opposé tout aussi valide. C'est sans fin.

                  Pareil pour la dure réalité du terrain. Par exemple pourquoi les patrons n'embauchent pas uniquement des femmes ? Dans les métiers où on trouve facilement des femmes, bien entendu. Puisqu'elles sont moins payées toutes choses égales par ailleurs, c'est contre-productif d'embaucher des hommes.
                  À cette remarque il y a autant d'explications en faveur d'un bord que de l'autre.

            • [^] # Re: Contentoob ?

              Posté par  . Évalué à 2.

              Tu n'as jamais entendu parlé de féminisme ? de domination patriarcale ? du slogan #metoo ?

              Si, trop sans doute !
              Et toi, tu as déjà entendu parler de moutons de Panurge, d'esprit critique, de bulles de pensées ?
              https://www.lemonde.fr/pixels/article/2018/04/24/comment-les-reseaux-sociaux-accentuent-l-enfermement-dans-ses-idees_5289874_4408996.html

        • [^] # Re: Contentoob ?

          Posté par  . Évalué à 0.

          Mince, moi qui pensais que Linuxfr était un havre de paix à l'abri de la lobotomie de notre chère Marlène Schiappa, "Secrétaire d'État auprès du Premier ministre, chargée de l'Égalité entre les femmes et les hommes et de la Lutte contre les discriminations" et de ses copines.

          Un petit debunkage s'impose !
          https://xkcd.com/386/

          Déjà pour ce fameux écart, quelques petites sources qui me paraissent tout aussi sérieuses qu'un paragraphe noyé au sein d'un article de Wikipédia.

          Quand 25% se transorme en 3,5 % en belgique:
          https://www.cecheminotsbretagne.fr/upload/images/tinymce/FILECO/Inegalites_de_salaire_femme.homme._le_mystere_des_10_pour_100_AlterEcoPlus_8mars2016.pdf

          Que cet écart se réduit à 9 points à qualification/poste/temps égal:
          https://travail-emploi.gouv.fr/IMG/pdf/2012-016-2.pdf

          Que si l'on prend en compte la productivité l'écart n'est plus que de 2 à 3 %:
          http://www.crest.fr/ckfinder/userfiles/files/Pageperso/crepon/CreponDeniauPerezDuarte2002.pdf
          https://perso.uclouvain.be/vincent.vandenberghe/Papers/Gender_wage_discrimination_Labour.pdf

          Mais puisqu'on vous dit que tout ça est la faute de ces phallocrates de patrons.
          Qu'en est-il des professions libérales (mince alors, le lien original a disparu, si j'étais complotiste, je dirais que ce n'est pas un hasard. Heureusement que le net a de la mémoire):
          https://web.archive.org/web/*/http://www.insee.fr/fr/ffc/docs_ffc/ip951.pdf
          Mais, mais, … sans ce vilain boss l'écart est … écrasant. C'est sans doute ce client qui est miso (dont une bonne proportion de femmes conditionnées), à moins … que la productivité de ces dames dans le libéral soit en chute.

          Bizarrement les féministes ne se battent pas pour l'égalité d'accès sur des métiers pénibles et physique, parfois plus rémunérateurs (plateformes pétrolières, cadres BTP, …) ou pour la précarité des métiers en disgrâce (éboueurs, artisans du bâtiments, …).
          Bizarrement, les femmes font en moyenne moins d'heure sup que les hommes, aucun élément ne nous est fourni pour savoir si le temps partiel est vraiment subi ou un choix de vie. (On vous voit venir avec le fait de s'occuper des gamins)

          Ah oui, c'est vrai! La voilà La Raison: Le fameux Patriarcat, cette oppression "systémique" qui justifie que les femmes bénéficient de la discrimination positive dans les STEM (sur notation, quotas à l'embauche) et partout dans la société. Tout ça car elles se dévaloriseraient, seraient victimes de micro-agressions, biais implicites et autres éléments irréfutables fournis par les "sciences" sociales (trustées par la gente féminine, cette fois)

          Allez sourions un peu:
          Un petit article du point pour la mise au … point:
          https://www.lepoint.fr/debats/pourquoi-les-femmes-boudent-les-mathematiques-07-10-2018-2260994_2.php

          Et si les sciences dites "sociales" n'en étaient pas, des sciences et s'avéraient n'être que des instruments de propagande de l'anti-sexisme primaire (celui qui nie que les différences sociétales pourraient trouver leur origine dans la Nature et non dans la culture… patriarcale qu'il faut absolument réduire)

          http://www.lefigaro.fr/vox/societe/2017/10/06/31003-20171006ARTFIG00235-gerald-bronner-les-sociologues-doivent-etre-des-scientifiques-pas-des-militants.php?redirect_premium

          Pas convaincu hein ? Trop à droite pour le féminisme souvent de gauche !

          Alors accrochez car cette fois on va rire.
          Figurez-vous qu'un petit groupe d'étudiants américains s'est livré à du testing auprès de ces entités référentes en sociologies … où l'on "s'autorise à penser dans les milieux autorisés" comme dirait notre regretté Enfoiré.

          Je vous le livre en prime:
          https://quillette.com/2018/10/01/the-grievance-studies-scandal-five-academics-respond/
          Si vous avez la flemme de lire , regardez juste la vidéo, c'est assez édifiant
          https://quillette.com/2018/10/01/the-grievance-studies-scandal-five-academics-respond/

          Bref, pour éduquer les petits mâles blancs oppresseurs en puissance dès le plus jeune âge, ces "organismes" plébiscitent des bonnes pratiques directement pompées d'un ouvrage de référence… Mein Kampf
          Au fait, ce sont ces mêmes jeunes garçons que notre chère ministre de l'égalité voudrait encore plus châtier dans les cours de récré en jouant au foot. Inégalité criante face aux jeunes demoiselles qui n'occupent pas tant d'espace. Alors que l'échec scolaire des jeunes garçons en primaire n'est pas une inégalité indiscutable celle-là (elle n'entend donc pas la traiter). Je vous laisse le soin de chercher si la raison en est le QI moins élevé des hommes, le quasi monopole d'enseignantes encartées bobo-feministes ou d'autres raisons plus subtiles.

          A ce stade, vous pouvez encore douter. Tant d'étude contradictoires, qui croire ?
          Pourtant s'il est un laboratoire de l'égalité homme/femme dans le monde c'est bien la Norvège.
          Voici d'ailleurs un petit témoignage d'une expat qui atteste du niveau d'égalité y compris en terme de salaire et d'opportunité d'emploi:
          https://www.femmexpat.com/destination/europe/norvege/norvege-egalite-des-sexes-et-relations-hommes-femmes/

          Mais voilà, paradoxalement, ces dames sont toujours sous-représentées dans les fameuses STEM alors qu'elle ont le "libre" choix. Micro- agressions et biais implicites ? C'est ce que pensent les sociologues norvégiens en tout cas. Pour leur justification, je vous laisse découvrir ce reportage qui vaut vraiment le détour. S'il y a un lien à ouvrir le voici:
          https://www.youtube.com/watch?v=cVaTc15plVs&feature=youtu.be&list=PLaJtMuDnR5KLwrt4z1O8tKmHWmUm3nObV

          Allez je termine par un petit message subliminal:
          https://translate.google.fr/?um=1&ie=UTF-8&hl=fr&client=tw-ob#auto/fr/schiappa

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.