Le Projet "libre" Artica depasse les 20 millions de sites Internet catégorisés.

Posté par  (site web personnel) . Édité par Benoît Sibaud, baud123 et claudex. Modéré par patrick_g. Licence CC By‑SA.
13
24
mai
2012
Internet

Artica est un projet « libre » permettant d'installer et de configurer facilement des services d'infrastructures comme un serveur de messagerie, serveur de fichiers ou mandataire/proxy Internet.

Dans le monde du filtrage Web, la catégorisation des sites internet est importante car elle permet d'assurer une cohérence avec les règles de filtrage crée par l'administrateur et la navigation des utilisateurs.
À ce jour le projet Artica est le seul projet « libre » à proposer autant de sites Internet catégorisés.

Le taux de catégorisation croît de jour en jour du fait que la catégorisation s'effectue de façon automatique, grâce à la communauté des utilisateurs d'Artica.

Plus Artica est téléchargé et utilisé, et plus le taux de catégorisation s'accélère. En effet, lorsque le proxy détecte un site Internet qui n'est pas catégorisé, il le place dans une section particulière. L'administrateur en charge de maintenir la solution de filtrage est alors en mesure de visualiser les sites « non-catégorisés » et de le placer lui-même dans plus de 150 catégories disponibles. (la suite en seconde partie)

NdM : Le code est sous licence BSD. Nous n'avons pas trouvé les conditions d'utilisation de la base de données du classement, nous savons donc pas si son utilisation est libre.

Journal Projet PornFind sur Savannah.

Posté par  .
0
25
juil.
2003
J'ai développé pour mon travail (admin réseau dans un rectorat) un programme perméttant de parser des fichiers de log du Proxy squid et de trouver là dedans tout ce qui peut s'apparenter à un site porno. L'idée est ensuite de nourrir des blacks listes de sites interdits quotidiennement par analyse des sites de la veilles.
J'ai déposé mon projet en GPL sur savannah: http://savannah.nongnu.org/projects/pornfind/.(...)

Ça fonctionne avec un filtre bayesian (bogofilter) qui estime à partir du contenu d'un fichier HTML (…)