Journal Projet PornFind sur Savannah.

Posté par (page perso) .
Tags : aucun
0
25
juil.
2003
J'ai développé pour mon travail (admin réseau dans un rectorat) un programme perméttant de parser des fichiers de log du Proxy squid et de trouver là dedans tout ce qui peut s'apparenter à un site porno. L'idée est ensuite de nourrir des blacks listes de sites interdits quotidiennement par analyse des sites de la veilles.
J'ai déposé mon projet en GPL sur savannah: http://savannah.nongnu.org/projects/pornfind/.(...)

Ça fonctionne avec un filtre bayesian (bogofilter) qui estime à partir du contenu d'un fichier HTML s'il s'agit ou non d'une page appartenant à un site porno.
Cf http://www.nongnu.org/pornfind/(...) pour plus d'infos.

Je cherche des beta-testeurs (voir s'il y a des bugs ou des sites mals classés).
Je cherche aussi éventuellement des programmeurs Ruby pour m'aider dans le dvl.
Enfin je cherche des personnes ayant de bonnes connaissances sur la classification de texte avec des réseaux de neuronnes. J'ai dvl un prog mais je n'ai qu'un taux de classement correct d'environs 70%.
  • # Re: Projet PornIndexer sur Savannah.

    Posté par (page perso) . Évalué à  10 .

    Super... mais au lieu de l'utiliser à ça... publie la liste sur une page... ça fera une super page de lien porno updater tous les jours :-)
  • # Re: Projet PornFind sur Savannah.

    Posté par . Évalué à  3 .

    C'est mal la censure!
    Pour empêcher trois clampins d'aller mater les fesses d'ovidie, tu développe un outil qui permettra demain à un admin du rectorat de bloquer, au pif, les sites qui parlent de linux, d'altermondialisation, qui disent du mal de l'église de scientologie...
    En plus tu risque de bloquer dans tes filtres tout un tas de sites sur l'éducation sexuelle, le genre de truc à mon avis indispensable à des collégiens et lycéens vu l'indigence de l'éducation nationale dans ce domaine (attention, je ne critique pas les profs qui font souvent de l'information là-dessus dans leurs cours, je parle du manque flagrant de moyens d'aborder le sujet dans des programmes nationaux)

    Je te conseille l'excellent site de Seth Finkelstein sur les programmes de filtrage de site: http://www.sethf.com/anticensorware/(...)
    De quoi faire réfléchir et applaudir à deux mains la décision de la bibliothécaire en chef de Los Angeles de refuser d'installer des programmes de filtrage sur les ordis des bibliothèques municipales de la ville (voir la dépêche sur transfert.net dont j'ai perdu l'URL)

    Dernier point, ça ne me semble pas favoriser le développement de l'esprit critique que de dire "non, tu n'as pas le droit de regarder ça, ce n'est pas bon pour toi."
    • [^] # Re: Projet PornFind sur Savannah.

      Posté par (page perso) . Évalué à  4 .

      Les filtres c'est moi qui les paramêtre.
      Pourquoi je virerai des sites sur linux ou l'anti mondialisation ???

      Je cherche simplement à éviter que des mineur se prennent des popup de sites pornos quand ils vont sur le web.

      Enfin quand on est en 6ième et que l'on a 11 ans (voir école primaire) on a pas forcément l'espris critique quand on tombe sur des sites pornos. Je rappèle que l'accès à la pornographie est interdite aux mineurs en France et que les personnent qui les encadrent sont passibles de poursuites si ils accèdes à du contenue pronographique.
      • [^] # Re: Projet PornFind sur Savannah.

        Posté par . Évalué à  3 .

        il vulais dire tu développes un outil susceptible de faire du mal si employé par des personnes mal intentionnées
        • [^] # Re: Projet PornFind sur Savannah.

          Posté par Anonyme . Évalué à  3 .

          Inutile de faire les vierges effarouchées !

          Les programmes de filtrage web existent depuis longtemps (SquidGuard pour squid) et effectivement il existe des cas dans lesquels ils sont utiles (écoles). Par contre c'est évident que les dérapages sont toujours possibles quand à leur utilisation... :/

          Mais est-ce une raison pour ne pas les faire ?
          Un OS exécute des programmes qui entre autres permettent de pirater des machines sur internet (ou des imprimantes chez IBM, mais je m'égare). Faut-il arréter de développer des OS ?
          • [^] # Re: Projet PornFind sur Savannah.

            Posté par (page perso) . Évalué à  3 .

            En effet.

            Rien n'est bon ou mauvais en soi, c'est la personne qui les utilise qui détermine si c'est bien ou mal.

            Malheureusement, les gens sont ce qu'ils sont, et quand on apprend qu'on a arrêté des pédophiles utilisant le résau Internet, mes voisins, très peu au courant de la technologie réagissent en disant : "Oh la! la! Qu'est-ce que c'est mauvais internet ! quelle horreur! Vous vous rendez compte?" Ce à quoi je réponds : "Et alors? Ce n'est qu'un mode de communication. Il y a aussi des malfaiteurs qui utilisent le téléphone, le minitel... les lettres! Est-ce qu'on va interdire ça? Non!"... Malgré cela, ça continue toujours les remarques stupides...

            Chaque chose est bonne est mauvaise à la fois, et ce depuis la nuit des temps : les hommes des cavernes ont inventé des objets tranchants pour découper la viande, ils s'en servaient aussi pour se battre entre eux...

            Ca ne finira jamais !

            L'invention de l'automobile est géniale ! On peut aller où on veut, quand on veut... On peut se tuer ou/et tuer les autres, s'en servir de voiture bélier, ou piégée...

            Ca continue...

            On découvre la radioactivité : on s'en sert dans le domaine médical, on fait des bombes H et A avec !

            De mieux en mieux...

            Je trouve que Cédric Foll a raison de faire ça pour son travail : les sites porno ne sont vraiment pas indiqués pour un rectorat... C'est un juste équilibre.

            Ce qui me fais peur, c'est la mentalité humaine qui a un degré élevé en perversion, cruauté et tous ce que vous voulez mettre d'autre de mauvais...
            Et contre ça, il n'y a aucune protection optimales, mais seulement des petites armures, alors, bon courage Cédric Foll pour le développement de ton filtre !
            • [^] # Re: Projet PornFind sur Savannah.

              Posté par (page perso) . Évalué à  2 .

              J'adère largement à ton analyse ; Le coupable est l'individu qui fait le mal et non la technique.
              Ce que je voulais ajouter - dans cette meme veine de réflexion - c'est que plus nous avançons, plus notre technologie et nos connaissances nous donnent une puissance d'impact énorme. Et si nous ne sommes pas assez murs pour gérer cette puissance, nous risquons à assez cours terme une catastrophe.
              Pour reprendre une métaphore d'Atteli (si je me souviens bien) : bientot chacun aura dans sa chambre un bouton avec écrit dessus "détruire le monde"... Mieux vaut qu'à ce moment là nous ayons atteind une certaine sagesse.
            • [^] # Re: Projet PornFind sur Savannah.

              Posté par (page perso) . Évalué à  1 .

              Je plussoie violemment et je vous invite à cette lecture affolante

              vive l'union européenne qui va nous protéger de nous même :)


              http://net-fr.org/cafaitpeur.doc(...)

              Désolé pour le .doc, c'est le format d'origine, on a juste changé le nom un peu alambiqué ...
      • [^] # pas si simple !

        Posté par . Évalué à  5 .

        En tant qu'enseignant, en collège, je suis plutôt contre l'usage de ces filtres, notamment à l'échelle du Rectorat.
        D'abord parce que, je crois que le rôle du professeur, ou de la personne qui encadre les élèves, est justement de veiller à ce que les élèves ne se retrouvent pas face à des images pornographiques. La personne qui encadre, doit préparer ces séances de visites sur internet et doit déjà savoir sur quels sites vont tomber les élèves. Notamment en collège. Ensuite, si on ne peut garantir l'apparition de ces popups et que l'on souhaite s'en prémunir, il existe des aspirateurs de sites qui permettent de faire surfer les enfants offline et ainsi d'avoir un contrôle éditorial complet.
        Pour résumer l'élève doit être encadré, de près.
        Ensuite, parce que ce type de filtrage pose outre les problèmes déontologiques (exposés ici, dans les commentaires), il pose de sérieux problèmes techniques. Un tel filtrage a été mis en oeuvre dans le 77 (Seine et Marne), et pénalise fortement les professeurs de Sciences de la Vie et de la Terre, comme moi. Notamment à cause d'une concordance importante entre ce qui est filtré et ce que nous recherchons quand il s'agit de reproduction. Tu admets toi-même que ton filtre n'est pas d'une totale efficacité, et je doute qu'il soit possible de le rendre parfait. Ces filtres, dans le 77, bloquent même d'autres types de sites: liés au jeux par ex. Ainsi il n'est pas possible de trouver des jeux pédagogiques !
        Or, au niveau rectoral, nous ne pouvons ni influer ni déroger sur le filtre.
        Voilà pourquoi je suis plutôt contre ce type de filtrage.
        • [^] # Re: pas si simple !

          Posté par (page perso) . Évalué à  1 .

          C'est un point de vu intéressant.

          En ce qui concerne la pertinence du filtrage,
          -Nous validons chaque jours les nouveaux sites avant de les blacklister.
          -Un simple coup de tel ou mail permet de supprimer un site de la blackliste en cas d'erreur. Ça prend 30 seconde, c'est l'avantage par rapport à un système proprio dans lequel on ne peut pas ajouter/supprimer des sites.

          Enfin le filtrage de l'accès au web est un service que nous proposons au niveau rectorat (et somme obligés de proposer). C'est ensuite à chaque chef d'établissement de décider s'il le veut ou pas (on met l'ip de l'addresse sortante de l'étab dans le groupe filtré ou non, ça prend 30 secondes à le changer de groupe s'il en fait la demande).

          Le coup des aspirateurs fonctionne bien quand on fait du offline mais comment faire un court sur les moteurs de recherche par exemple ? Ou encore laisser des ordi en libre accès dans des CDI ?
          • [^] # Re: pas si simple !

            Posté par (page perso) . Évalué à  2 .

            Cet outil peut aussi être exploiter dans le cadre des bornes internet.
          • [^] # Re: pas si simple !

            Posté par . Évalué à  2 .

            Les conditions que tu exposes ici semblent acceptables. Il n'empêche que personnellement je préfère opter pour le non-filtrage.

            Le coup des aspirateurs fonctionne bien quand on fait du offline mais comment faire un court sur les moteurs de recherche par exemple ? Ou encore laisser des ordi en libre accès dans des CDI ?

            En lycée, ou ultérieurement, le problème se pose peut-être réellement (l'autonomie des élèves est suffisante pour que ce genre de soucis émerge).
            Mais dans les collèges, cela ne devrait pas être un problème. Car le vrai libre service n'existe pas, même dans un CDI où les élèves sont systématiquement encadrés par les documentalistes à moins de consulter un CD-Rom ou un site connu et reconnu (ou aspiré). Idem pour l'apprentissage de Google, j'en parle avec tranquillité, dans la mesure où dans le cadre des itinéraires de découverte j'ai été amené à faire faire des recherches à mes élèves (de 5èmes) sur la contraception, la drogue, etc... sur Google. Il faut être avec les élèves, devant l'écran pour chaque recherche et les guider. Ou limiter la recherche à un site choisi («site:http://sciencesnat.org(...)» par exemple, choisi au hasard :o)).

            Mais je comprends aussi que les raisons qui poussent les rectorats à protéger les établissements. Proposer le choix, est l'idéal.
            Étant attaché au libre, je suis aussi convaincu que si internet colporte des horreurs (j'ai même vu des copies de Windows, c'est dire !), mais je préfère qu'il n'y ait pas de censure. C'est aux adultes d'encadrer les enfants, là comme partout ailleurs dans la vie, pas à un programme.
    • [^] # Re: Projet PornFind sur Savannah.

      Posté par . Évalué à  4 .

      Cher monsieur caffeine, je suis ok avec tes dires dans le fond, mais le probleme du filtrage pour les établissement scolaire n'est pas laissé au bon vouloir de l'admin, mais est soumis a certaines regles liés a l'etablissement scolaire.

      Et ce parceque, le responsable est le chef d'établissement, si un gosse de 10 ans vient raconté a ces parents qu'il a vu des trucs ignobles sur son pc dans son colleges, les parents peuvent porter plainte (ils ont la loi francaise de leurs coté)

      De plus un enfant peut tomber par hasard sur un site porno en popup et la c'est encore pire.

      A titre d'anecdote, lors du racordement d'un etablissement sur un reseau métropolitain, le principal et les profs ne voulait rien filtrer (mp3,video,porno etc ..) .
      En l'espace d'une semaine, les DD des machines etaient remplis, il nous a vite contacter pour mettre en place un filtrage.

      Dans les colleges, ce sont encore des mineurs qui doivent etre soumis a certaines regles pour le bien de tous le monde et le respect de la loi . Il en va, evidement, différement pour les universités ou toutes les autres infrastructures oû des personnes adultes utilisent internet.
    • [^] # Re: Projet PornFind sur Savannah.

      Posté par . Évalué à  2 .

      un truc qui fait peur, et sur lequel n'importe qui pourrait tomber ( et c'est incroyable que ca marche toujours, ca fait au moins plusieurs années)

      http://www.france3.com(...) (!! c'est du cul, oui)

      On peut faire quoi contre ça ?

      Personnellement, j'étais tombé dessus "seul" ie personne m'avait dit " eh, france 3 s"est fait voler un nom de domaine" et je n'avais pas fait de recherche avec des mots spéciaux sur google...
      • [^] # Re: Projet PornFind sur Savannah.

        Posté par (page perso) . Évalué à  4 .

        Faut en parler au gouvernement américain :
        http://www.whitehouse.com/(...) ;)

        L'association LinuxFr ne saurait être tenue responsable des propos légalement repréhensibles ou faisant allusion à l'évêque de Rome, au chef de l'Église catholique romaine ou au chef temporel de l'État du Vatican et se trouvant dans ce commentaire

  • # Re: Projet PornFind sur Savannah.

    Posté par . Évalué à  2 .

    je te soutiens a 100 pour cent. je pourrais beta tester en septembre

    par contre je ne comprend pas ce point :

    - il analyse les log squid et il regarde la page html qui est en rapport avec le log?

    par exemple il tombe sur www sex com dans le log, et hop il vas sur la page www sex com pour verifier que c est bien un site porno. et hop il le mets dans une liste

    c est cela?

    tu en as parler a http://www.squidguard.org/(...)

    et tu peux poster un exemple de fichier de log de squid stp pour voir si c est un peut compatible avec
    http://muffin.doit.org/(...)

    voila voila
    • [^] # Re: Projet PornFind sur Savannah.

      Posté par (page perso) . Évalué à  1 .

      par exemple il tombe sur www sex com dans le log, et hop il va sur la page www sex com pour verifier que c est bien un site porno. et hop il le mets dans une liste

      c est cela?

      Oui exactement. Il télécharge la page d'accueil de chaque site trouvé dans le log plus une page visitée (autre que la page d'accueil). Ensuite sors la liste des sites à blacklister.

      D'ailleur les scripts fournissent un résultat qui est compatible avec le format de blacklist de squidguard. Il suffit de faire un copier/coller du résultat voir un «>>» sur le fichier de blacklist (après une toute petite modif du fichier class.rb, en gros virer les puts du début pour ne garder que le dernier).

      Exemple de fichier access.log de proxy: http://stargate.ac-nancy-metz.fr/linux/cache/configuration/exemple-(...)
      • [^] # Re: Projet PornFind sur Savannah.

        Posté par (page perso) . Évalué à  4 .

        Non seulement tu empêches de visiter les sites de boules en les blacklistant mais en plus je cite "en gros virer les putes du début pour ne garder que ..." :-D
      • [^] # Re: Projet PornFind sur Savannah.

        Posté par Anonyme . Évalué à  2 .

        > Il suffit de faire un copier/coller du résultat voir un «>>» sur le fichier

        Le >> est d'autant plus pertinent qu'il me semble que les dernières versions de squidguard rechargent tous seuls les fichiers lorsqu'ils ont été modifiés depuis la dernière lecture, du coup plus à se faire chi*r à relancer un service... :)
  • # Ah quel nom

    Posté par (page perso) . Évalué à  10 .

    PornFind. Je suis encore mort de rire à l'idée de tous les gusses qui vont t'écrire en se plaignant de la quasi publicité mensongère qu'est le nom de ce logiciel !
    • [^] # Re: Ah quel nom

      Posté par . Évalué à  2 .

      En lisant le titre j'avais compris que c'était un outil permettant d'updater automatiquement (avec des robots) une BDD de sites pr0n, un peu comme un Google du sexe :)
  • # Re: Projet PornFind sur Savannah.

    Posté par . Évalué à  2 .

    Ce genre de programme peut être bien sauf si il comporte des faux positifs, car il s'agit dans ce cas de censures parfaitement idiotes.

    Si tu fonctionnes par url vérifié ensuite, n'est-il pas possible de faire un serveur ldap que des programmes pourrait utiliser par la suite ?

    (des parents cherchent ce genre de chose mais souvent c'est sous windows... et on va pas leur dire d'installer une passerelle unix pour...)

    "La liberté de tout dire n'a d'ennemis que ceux qui veulent se réserver le droit de tout faire". "La question n'est pas de savoir si vous avez quelque chose à cacher. La question est de savoir si c'est nous qui contrôlons le gouvernement ou l'inverse

  • # Re: Projet PornFind sur Savannah.

    Posté par (page perso) . Évalué à  2 .

    Il y a une tonne de papiers sur le détection de porno dans http://citeseer.nec.jp(...) il y en a même plusieurs dans les papiers les plus vus.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.