Journal Société de recherche de contenu protégé sur internet

Posté par .
Tags : aucun
0
31
mar.
2008
Je lisais le monde, et je suis tombé la dessus:
http://www.lemonde.fr/web/imprimer_element/0,40-0,50-1028807(...)

Et un entrefilet attire mon attention:
Ce "Big Brother" au service de la loi est un logiciel nommé Advestisearch, l'un des produits phares développés par la société francilienne Advestigo, "spécialiste de la protection des actifs numériques". Advestisearch est un moteur de recherches susceptible de reconnaître tout élément numérique multimédia.

je me renseigne sur la société, et les informations récoltées sont maigres. Ils utilisent un mécanisme de reconnaissance automatique de vidéo, malgré des modifications, recadrages, ou recompression (??!!). La technologie s'appelle ThéraographieTM, un résultat google sur ce mot-clé montre ... 5 résultats (!!)

Est-ce quelqu'un a une bribe d'information technique la dessus? Je m'interroge vraiment sur la manière dont ça fonctionne.

En farfouillant un peu le web, je tombe sur leur techno inconnue. Ca leur permet donc de filtrer les entrées des sites proposant de "l'user generated content".
En gros, leur société propose une machine qui se place en frontal de youtube (ou équivalent), et qui scanne toutes les vidéos proposées car il est capable de les reconnaitre. D'ou interdiction des vidéos protégées par les droits d'auteur, contrafacteur en prison, etc.. Ok.
Ca fait bien évidemment frémir d'aise les patrons des majors, mais ça n'est pas le propos.

Mais ils se vantent de pouvoir scanner également les réseaux P2P. Et là, de nouveau une question, comment font ils? Ils téléchargent la moitié d'emule et regardent si les vidéos correspondent? Ils fonctionnent comment, encore une fois? En tapant au hasard?

Je vous rappelle que les lois actuelles sont dans l'optique de la répression, et que ce genre d'initiative va pouvoir mener à une condamnation. Aujourd'hui, les milices privées ont le pouvoir de se substituer à la justice, et ça, c'est grave.

PS: n'allez pas voir le site web, il n'y a aucune information, si ce n'est du pipomarketing et le fait que internet c'est rempli de vilains contrefacteurs au droit d'auteur, ce qui fait perdre tout pleins de sous aux majors, pauvres, pauvres majors.

PS2: c'est bien une volonté technique de connaissance qui m'anime et non une quelconque flamewar de plus concernant le téléchargement sur internet.
  • # Finalement...

    Posté par (page perso) . Évalué à 4.

    Y a bien que dans le domaine de la vidéo où l'offre en œuvres sous licence libre (ou domaine public) me semble vraiment trop pauvre. Au niveau texte, la question se pause pas, j'aurais pas assez d'une vie pour lire wikipedia et autres projet Gutenberg. Niveau musique, on est encore loin des catalogues propriétaires, mais pour l'instant j'ai pas encore fais le tour de tout ce que j'ai pu trouver en licence art libre.

    Bon, je suppose que pour que les vidéos finiront par y passer aussi.

    Au fond il ne tiens qu'à chacun de marginaliser les œuvres non-libre.
    • [^] # Re: Finalement...

      Posté par (page perso) . Évalué à 5.

      Sans une modification régulière des lois, toutes les vidéos de plus de 50 ans seraient dans le domaine public. Par exemple tous les films de Charlie Chaplin, beaucoup de Tex Avery, etc. C'est d'ailleurs le cas au Canada il me semble.

      ⚓ À g'Auch TOUTE! http://afdgauch.online.fr

      • [^] # Re: Finalement...

        Posté par (page perso) . Évalué à 2.

        Certes, tu proposes une action pour réduire la durée du monopole que concède le droit d'auteur? Ça me conviens, je suis prêt à te soutenir si tel est le cas.
      • [^] # Re: Finalement...

        Posté par . Évalué à 2.

        50 ans après la mort de leur auteur ...
        • [^] # Re: Finalement...

          Posté par (page perso) . Évalué à 10.

          Non, vous mélangez tout!

          Le droit d'auteur sur une œuvre expire 70 ans après la mort du dernier auteur, et les droits voisins sur l'interprétation d'une œuvre expirent 50 ans après publication.
  • # Dingue...

    Posté par (page perso) . Évalué à 7.

    Ils auraient mis en place un genre de md5sum qui permet de reconnaître tous les fichiers, quel que soit leur type (texte, vidéo, audio) et malgré la modification ? Ça va loin quand même. Ils disent que ça marche aussi même en cas de reformulation (ça veut dire que si tu reformules ton texte, il voit quand même que c'est le même). J'ai franchement eu envie de crier au fake parce que c'est du niveau du saint graal d'avoir un truc pareil qui n'ait aucun désavantage... S'il est aussi souple, il devrait y avoir un nombre énorme de faux positifs...

    Le truc c'est que dans les résultats renvoyés par google, tu as quand même une page de telecom.gouv.fr, donc asez crédible.
    http://www.telecom.gouv.fr/rubriques-menu/soutien-financemen(...)

    On y lit ceci:
    Advestigo a reçu le grand prix IST 2006. L’EISTP (European Information Society Technologies Prize) est la plus haute récompense parrainée par la Commission Européenne pour les produits d’avant-garde représentant le meilleur de l’innovation européenne.

    Ce que l'on voit effectivement sur le site officiel:
    http://www.ict-prize.org/winners/detail.html?id=349_374&(...)

    Autre article sur le sujet:
    http://www.01net.com/article/311937.html
    • [^] # Re: Dingue...

      Posté par . Évalué à 7.

      J'ai lu un papier sur une technique de "hash" graphique. En gros, il garde 20 valeurs basses fréquences d'une transforme ondelette d'une image. Ce genre d'information est peu touche par la compression sinon l'image ne ressemble plus a rien.

      J'ai vu passe récemment un projet libre qui proposait l'implémentation de la méthode, mais j'ai le flemme de le retrouver :)

      Le papier proposait aussi une méthode innovante de transformation de l'image qui avait la superbe propriété d'être inchangé par translation et zoom. J'avais essaye de comprendre pour faire de la reconnaissance d'image pour de la robortique, mais le niveau de math était trop haut.

      "La première sécurité est la liberté"

      • [^] # Re: Dingue...

        Posté par . Évalué à 3.

        Tu parles de ça ?
        http://users.ece.utexas.edu/~bevans/projects/hashing/index.h(...)

        Parce que si tu as effectivement trouvé un projet libre qui implemente ça, ça m'intéresse fortement. J'avais cherché un bon moment sans succès.
      • [^] # Re: Dingue...

        Posté par . Évalué à 3.

        Sauf que va trouver les ressources pour analyser le x264 en streaming alors qu'il est découpé dans des fichiers .rar (et ca c'est le cas simple, ils pourraient être reencodés comme sur usenet, avec encore un découpage et du yyencode).
        Deja que mon ordi galère pour lire le 720p...
        Maintenant les gens qui piratent vont telecharger que de la HD parce que ca va demander trop de puissance pour faire du décodage systématique.

        En pratique peut etre qu'ils font le hash sur un fichier obtenu après le telechargement, puis ils blacklistent la ressource en fait (en essayant de detecter les gens qui la telecharge). Mais bon avec le nombre de release par jour, j'ai du mal a voir comment c'est techniquement possible de decoder toutes ces videos.
    • [^] # Re: Dingue...

      Posté par . Évalué à 4.

      Ils utilisent un mécanisme de reconnaissance automatique de vidéo, malgré des modifications, recadrages, ou recompression (??!!).

      Peut-être qu'ils entretiennent une armé de singes qui font tout le boulot pour eux :)

      Ils auraient mis en place un genre de md5sum qui permet de reconnaître tous les fichiers, quel que soit leur type (texte, vidéo, audio) et malgré la modification ?

      en fait il doivent plutôt utilisé un algorithme de [[reconnaissance de formes]] (un peut comme pour un OCR mais au lieu de chercher des lettres dans les images fournit il doit chercher des images du film protégé ).
      mais a mon avis ça doit être cher par ce que vu le nombre de données à traiter ça doit bouffer pas mal de temps de calcul .
      • [^] # Re: Dingue...

        Posté par (page perso) . Évalué à 10.

        Et voila comment on pourrie la planète. En plus je suis sûr qu'ils ont un cluster sous gentoo.

        -->[]
    • [^] # Re: Dingue...

      Posté par (page perso) . Évalué à 2.

      En même temps il y avait eu une sombre histoire de brevet logiciel sur une de leur création et une bataille avec un concurrent qui les avais mis hors jeux plusieurs année.

      Enfin en france on est champion pour soutenir les canards boiteux (BULL, France Télécom, Exalead, Avions renifleurs, etc)

      Enfin vous savez quoi, tout ces flops commerciaux qu'on a payé avec l'argent du contribuable sans aucun résultat...
  • # Des infos du coté de leurs brevets ...

    Posté par . Évalué à 8.

    Bon, ça sent le gros pipo marketing, et eux en plus ils ont une technique basée sur "la détection d'au moins un facteur de similarité et non sur la constitution d'une hypothétique "distance de similarité" entre documents." (cf http://www.advestigo.com/advestigo_technologie.php?men=1&(...) )
    Donc en gros leur techno permet de tomber sûr à 100% sur un document copié ? Soit ils sont méga-balèze, soit leur solution ne détecte quasiment rien .... (remarque, il n'y a écrit nulle-part qu'ils garantissent le résultat, donc ils pourraient très bien sortir une solution qui match au hasard, je suis sûr que vu le pourcentage de P2P sur le net, il y aurait moyen d'avoir un taux de détection pas trop mauvais .... tiens, je sens que je vais monter une start-up, au prix où ils vendent leur serveurs : 12000€ ...)

    Sinon, allez voir du coté de leurs brevets :
    http://www.wipo.int/pctdb/en/wo.jsp?WO=2005/064885
    Avec le schéma d'un automate digne d'un mixer Seb. Lisez le début des "claims", on dirait une description du conntracking sous Linux ... Vive le prior art.
    Et puis :
    http://www.wipo.int/pctdb/en/wo.jsp?WO=2005/055086
    Ha ouai, vous n'utilisez pas de distance de similarité ? C'est écrit noir sur blanc dans le brevet : "calcul de la matrice T de distances entre les termes ti de la base de termes".
    Et en plus, ça ressemble complètement au genre de calculs qu'on fait des qu'on étudie un peu l'IA (j'en ai fait à la fac).

    Bref, des bons gignols qui ont réussi grâce à un bon marketing et un peu de lobbying auprès de notre gouvernement, sûrement.
    Le carnet d'adresse, c'est ça l'arme ultime pour mon projet de domination du monde ...

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.