• # moui

    Posté par  . Évalué à -4 (+2/-7).

    j'ai trouvé cela super intéressant , enfin un truc français utile !

    petit resumé :

    Par respect du droit de la propriété intellectuelle, les collections ne sont pas accessibles en ligne. \o/

    et comment y accéder alors :

    Les archives du web sont consultables :


    Dans les salles Recherche des différents sites de la BnF, par les personnes titulaires d’un pass recherche. Les archives de l’internet y sont consultables soit sur les postes informatiques en accès libre et sans réservation, à partir du portail documentaire, soit par le biais de votre ordinateur personnel en téléchargeant l’application AVEC. (NB : mais sur place uniquement :p )
    c'est même pire que les IA ! une fois chez eux a part prendre un train pour aller consulter il n'y a que peux d'espoir d'avoir une possibilité de consulter ce qu'ils ont volé sur le web.

    j'aurais trouvé vraiment étrange que cela soit facilement consultable

    • [^] # Re: moui

      Posté par  (site web personnel) . Évalué à 6 (+5/-1).

      Copier n'est pas voler
      Voler un truc, c'est l'retirer
      Le copier c'est l'ajouter
      Ça sert à ça copier

      Copier n'est pas voler
      Si je copie le tiens, tu n'le perds pas
      Un pour moi et un pour toi
      Copier ça sert à ça

      Si je vole ton vélo, tu dois prendre le bus
      Si je ne fais que le copier, y'a un cycliste en plus !

      source

      • [^] # Re: moui

        Posté par  (courriel, site web personnel, Mastodon) . Évalué à 4 (+1/-0).

        Et en même temps toutes les plateformes qui proposent du texte en accès ouvert, comme Gallica BnF subissent en même temps du spam très agressif.

        Ce qui fait qu'elles subissent des problèmes des deux côtés de leurs mission et sont empêchées de la mener à bien pour ça.

        Je n’ai aucun avis sur systemd

      • [^] # Re: moui

        Posté par  . Évalué à 3 (+1/-0).

        Si je copie le tiens, tu n'le perds pas
        Un pour moi et un pour toi

        Ouais, enfin là c'est "un pour toi si tu te déplaces physiquement jusqu'à chez moi et que tu ne repars pas avec"… Pas vraiment le même esprit que la Wayback Machine.

        • [^] # Re: moui

          Posté par  (site web personnel) . Évalué à 3 (+2/-1).

          j'venais juste pour dire que la contrefaçon n'est pas du vol.

          • [^] # Re: moui

            Posté par  . Évalué à 0 (+1/-2).

            marrant que vous me sautez tous dessus sur ce point que j'aurais du mettre en (humour) mais que le déplacement physique pour regarder une page internet ne vous choque pas plus que cela surtout avec la raison invoqué.

            ¯_(ツ)_/¯

            heureusement qu'internet archive ne fais pas cela, je vous rappel que gallica estampille tous les document scannée avec leur jolie copyright dans leur cgu et interdit la réutilisation copie etc … , je ne vais pas pleurer sur leur sort pour ma part.

    • [^] # Re: moui

      Posté par  (courriel, site web personnel, Mastodon) . Évalué à 9 (+7/-1).

      Cela s'inscrit dans le cadre de leur mission, comme le dépôt légal et, comme cela a été dit, ce n'est pas du vol.

      Je n’ai aucun avis sur systemd

    • [^] # Re: moui

      Posté par  (Mastodon) . Évalué à 8 (+7/-0).

      La notion de vol n'est pas la bonne, pour un truc public.

      Là, la bonne analogie, ce serait plutôt la horde de gens qui viennent à 500 à ta journée portes ouvertes, avec de la m*** plein les bottes, qui ouvrent tous les robinets de la maison et s'essuient dans tes rideaux, avant de repartir sans t'avoir dit bonjour.

    • [^] # Re: moui

      Posté par  (site web personnel, Mastodon) . Évalué à 10 (+8/-0).

      La BNF collecte toutes sortes de choses, on en avait entendu parler par exemple lors de la fermeture des Skyblogs. Ils ont été archivés mais contiennent beaucoup de données personnelles (photos, etc). Il faut donc trouver l'équilibre entre la préservation de ces pages, et la protection de la vie privée des personnes concernées, le droit à l'oubli, etc.

      La solution est de préserver les pages mais de ne pas les rendre accessibles à tout le monde sur internet.

      Cette approche est complémentaire de celle d'autres projets comme archive.org, qui eux font le choix de tout exposer publiquement, et s'exposent à des demandes de suppression de données et à diverses attaques en justice pour cette raison. C'est très pratique d'avoir archive.org, et le mode de fonctionnement de la BNF est un peu "vieille école", certes. Mais finalement, les deux se complètent assez bien. Le jour où internet n'existera plus, si la BNF a bien fait son travail, les pages archivées seront toujours consultables. Tout comme l'INA préserve ce qui a été diffusé à la radio et à la télévision, mais ne met pas tout en consultation gratuite, par exemple.

  • # Je confirme

    Posté par  . Évalué à 4 (+3/-0).

    Actuellement je travaille pour le réseau ISSN (qui travaille avec la BnF) et on vient de sortir notre nouveau portail (portal.issn.org), on s'est mangé un traffic totalement hallucinant provenant de bot IA pas très gentils et utilisant des IP domestiques par dizaines de milliers.

    Résultat, notre infra est très vite tombée et on galère a mettre des protections efficaces… On a du genre 500000 r/heure sur un site qui fait des recherches elasticsearch assez lourdes, c'est beaucoup trop pour notre "petite" infra.

    • [^] # Re: Je confirme

      Posté par  . Évalué à 4 (+1/-0).

      les trucs style Anubis ne fonctionnent pas ?

      Sinon si tu arrives à les détecter, un sink infini de génération de texte aléatoire pour les empoisonner. (faut bien penser à configurer les robot.txt pour éviter d'empoisonner ceux qui sont bien configuré)

      Une autre solution pour les envoyer dans le sink sans identification c'est un lien non visible par les humains, arrivant très tôt dans la page, voir sur une page de garde.

      Il ne faut pas décorner les boeufs avant d'avoir semé le vent

      • [^] # Re: Je confirme

        Posté par  (site web personnel, Mastodon) . Évalué à 4 (+1/-0).

        Une autre solution pour les envoyer dans le sink sans identification c'est un lien non visible par les humains, arrivant très tôt dans la page, voir sur une page de garde.

        Moi j'ai mis un lien visible dont le texte est à peu près "ne cliquez pas ici, ceci est une protection contre les robots, vous allez vous faire bannir du serveur".

        Mais les requêtes proviennent d'un tellement grand nombre d'IPs que le bannissement (par cette méthode et d'autres) reste peu efficace. Chaque IP fait moins de requêtes qu'un visiteur normal du site chargeant la page d'accueil et les quelques ressources (images, css, …) qui y sont liées.

      • [^] # Re: Je confirme

        Posté par  . Évalué à 3 (+2/-0).

        On a pas encore testé d'installer Anubis, mais ça va peut-être une solution, bien que je n'apprécie pas bien ce genre de mécanismes qui empêche justement d'autres bots tout à fait légitimes…

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.