Journal Google : "je prends ton boulot, je travaille dessus mais tu n'as pas droit à mon boulot" ou un monde de partage

Posté par rangzen (site web personnel) le 09 novembre 2004 à 10:36.

Étiquettes : aucune

nov.

2004

Oui, je sais "un monde de partage", on vire l'argent et on mange de l'herbe ... Bon, le message à caractère informatif porte sur google et les droits.

Je cherche à créer un lexique français avec fréquences d'utilisation libre, j'ai donc préparé un frequencethon :)
J'ai rassemblé deux listes libres (120 000 mots avec fréquences et 330 000 mots sans fréquences) pour la soumettre petit à petit à google et récupérer le nombre de page comme fréquence.

Avantage : beaucoup de donnée, google passe sur les forums donc forme de langage 'parlé' (le but de cette liste est l'aide à l'écriture pour handicapés : http://savannah.nongnu.org/projects/pylisiere/(...) )
Inconvénients : pas de différence entre dede et dédé mais c'est pas trop grave

Problème : la liste ne serait plus libre.

Les morceaux interessants de http://www.google.fr/intl/fr/terms.html(...)
- Vous ne devez en aucun cas réutiliser les résultats des recherches Google par reformatage et affichage
- Les requêtes automatisées sont interdites

Ah non, la liste va pas être non libre, en fait, j'ai même pas le droit de la faire.
J'ai essayé de contacter google mais aucun des mails ne réponds (2 semaines déja) et au téléphone du bureau français, il n'y a que des commerciaux.

C'est vraiment illégal ? Je n'utilise que le nombre de pages que google connait dans son lexique, j'ai pas l'intention de créer un supra moteur ou une startup de référencement ... Quelques centaines de milliers de requêtes étalées sur plusieurs semaines/mois ...
Est ce une close abusive/floue ? Est ce que je peux faire cette liste depuis les iles Tuvalu ? Est ce que google qui utilise des outils libres (linux, python, etc.) pourrait faire une exception ? Est ce que Samantha pardonnera à John sa liaison avec Loreena ?

Je tiens à ce que la liste résultante soit libre. Comment faire ?
Contacter des moteurs libre ? J'ai contacté labanquise mais les sites indexés sont ciblés libre français.
Utiliser les librairies libres ? Les textes ont au minimum 50 ans ...
Compter tous les mots que j'utilise tous les jours ? Ca va être chiant ...

Tout est en place (ftp et frequencethon.py) pour faire un truc utile et tout risque de foirer pour un problème de droit :(

# API Web

Posté par Pascal Terjan (site web personnel) le 09 novembre 2004 à 10:57. Évalué à 3.

Regarde plutot du coté de http://www.google.com/apis/(...) et http://www.google.com/apis/api_terms.html(...)
Ca te donne droit à 1000 requêtes par jour, par contre limité à une utilisation non commercialle. Je ne sais donc pas si tu peux mettre une interprétation de ces résultats sous forme libre qui permettrait une utilisation commerciale des résultats...
- [^] # Re: API Web
  
  Posté par rangzen (site web personnel) le 09 novembre 2004 à 11:00. Évalué à 1.
  
  J'ai déja regardé ... c'est soit identique, soit encore plus restrictif ...
  
  "The Google Rights include rights to the following: (1) the APIs developed and provided by Google, (2) all software associated with the Google Web APIs server, and (3) the search results and spell checking you obtain when you use Google Web APIs."
  
  Tu chosis même pas ta license, le logiciel est à google ...
  
  Un des avantages de mon appli est que tu lances et t'oublies.
  Là, il faut que chacun crée un compte chez google, modifie le script, etc.
  - [^] # Re: API Web [correction]
    
    Posté par rangzen (site web personnel) le 09 novembre 2004 à 11:02. Évalué à 3.
    
    Oups, j'avais pas compris le lien avec la fin. Ca me semblait gros ...
    
    "The Google Rights do not include the following: (1) third-party components used as part of Google Web APIs; or (2) software developed by you in conjunction with using Google Web APIs."
# Usenet FR ?

Posté par Benjamin (site web personnel) le 09 novembre 2004 à 11:46. Évalué à 3.

Salut,

Pourquoi ne pas utiliser plutôt une base de texte libres comme source, plutôt que de se bases sur l'hypothétique contenu indexé par Google, dont la langue elle même n'est pas garantie ?

Je pense par exemple à l'archive de Usenet en Français ? (fr.*)
- [^] # Re: Usenet FR ?
  
  Posté par rangzen (site web personnel) le 09 novembre 2004 à 12:03. Évalué à 2.
  
  Comme indiquée dans le post, les bases de textes libres sont pas trés récentes ...
  
  Pour google, la requête est formée pour rester sur les pages françaises avec une recherche dans le corps. C'est sùr que c'est assez hypothétique mais les premiers tests sont intérressant.
  
  Pas contre les news, c'est peut être pas mal même si la partie technophile doit être plus grande que sur le web.
  
  Il existe une archive de fr.* ? Sur combien de temps ? Sur combien de giga ?
# wikipedia ?

Posté par Laurent Godard le 09 novembre 2004 à 13:12. Évalué à 2.

Je ne sais pas si ca risquerait pas de trop charger mais une analyse de wikipedia est elle envisageable ?
Plus de 60000 articles en langue française peuvent etre une source d'information interressante ?

http://fr.wikipedia.org(...)
(tout le monde connait mais bon, un ch'ti lien c'est toujours bon ...)

Peut etre egalement s'orienter vers la version off-line si ca risque de trop charger le serveur ?
http://download.wikipedia.org(...)
- [^] # Re: wikipedia ?
  
  Posté par rangzen (site web personnel) le 09 novembre 2004 à 13:19. Évalué à 2.
  
  J'avais pensé à wikipédia mais c'était plus facile de passer par google :)
  
  Je tiens vraiment à ce que ce lexique soit libre donc il va peut être falloir me rabattre vers wikipédia ou les news ...
  
  Les 2 problèmes que je vois :
  - le tri à faire pour extraire les codes html/wiki -> texte "simple"
  - très universitaire dans la forme d'écriture mais c'est vraiment mieux que rien
  - [^] # Re: wikipedia ?
    
    Posté par tuxyl le 09 novembre 2004 à 14:56. Évalué à 1.
    
    - le tri à faire pour extraire les codes html/wiki -> texte "simple"
    w3c -dump ne convient pas?
    - [^] # Re: wikipedia ?
      
      Posté par tuxyl le 09 novembre 2004 à 14:58. Évalué à 0.
      
      s/w3c/w3m/
      
      Lapsus révélateur d'une obscession...
    - [^] # Re: wikipedia ?
      
      Posté par rangzen (site web personnel) le 09 novembre 2004 à 15:10. Évalué à 3.
      
      Nan, c'est bon, j'ai récupéré l'archive (220 Mo de SQL ...), un < et un "select cur_text from cur" plus tard, j'ai un beau fichier UTF-8 avec du code wiki mais pas de HTML.
      "yapluka" faire les regexp->" " pour les règles wiki, les autres langues, toute la grammaire wiki et le comptage, etc., Bref, un nouveau prog ...
      
      Ca me gave de tout refaire alors que la soluce google rentrait en test public :(
      
      Je vais quand même essayer de faire un truc réutilisable pour la communauté.
      - [^] # Re: wikipedia ?
        
        Posté par Ramso le 09 novembre 2004 à 16:03. Évalué à 4.
        
        > Ca me gave de tout refaire alors que la soluce google rentrait en
        > test public :(
        
        Ça t'apprendra à pas faire d'étude de faisabilité !
- [^] # Re: wikipedia ?
  
  Posté par chl (site web personnel) le 09 novembre 2004 à 13:20. Évalué à 1.
  
  Je ne sais pas si ca risquerait pas de trop charger
  
  Pas besoin de recuperer wikipedia par le web, a une epoque ils proposaient de telecharger la base de tous les articles.
- [^] # Re: wikipedia ?
  
  Posté par Julien Duponchelle (site web personnel) le 09 novembre 2004 à 21:22. Évalué à 3.
  
  L'avantage c'est que l'orthographe est généralment controlé ce qui est une bonne base de travail.
# et ?

Posté par Éric (site web personnel) le 09 novembre 2004 à 19:37. Évalué à 6.

ça serait mieux si c'était différent, certes, mais je ne vois même pas ce qu'il y a de choquant.

Ils font un travail d'indexation ils se réservent un droit d'auteur classique sur ce travail. Dans un autre ordre il y a aussi en France le droit des bases de données qui peut t'interdire (sans leur accord) d'exploiter de manière automatisée leurs données.

Tu parles de partage mais tu ne leur a rien donné, ils ne te doivent rien. Ce n'est pas parce que tu veux faire quelque chose de public que d'un coup ça veut dire que tout le monde doit t'ouvrir toutes les données.
Ici ils ne se réservent rien. Si tu veux faire les mêmes traitements qu'eux et monter ton indexation tu peux le faire. Ils offrent un service, tu ne rentres pas dans le cadre de ce qu'ils offrent comme service, ça s'arrête là.
Là tu es en gros en train de te plaindre qu'ils ne t'offrent pas tout gratuitement pour tes beaux yeux. Ce que tu veux faire a beau être non commercial ou "bien", ça ne change rien. Cherches un moteur de recherche qui n'a pas ces restrictions, ou alors fais toi même une indexation (les statistiques seront moins bonnes mais faire un moteur qui suit les liens de manière infinie et fait des stats sur le nombre de mots, ça ne doit pas être trop compliqué)

Quand à l'exclusion je serai toi j'oublierai, j'ai cru comprendre que Google a toujours refusé, même pour des projets universitaires de grosses universités. alors le projet d'un informaticien seul ....
- [^] # Re: et ?
  
  Posté par rangzen (site web personnel) le 10 novembre 2004 à 00:12. Évalué à 2.
  
  Je suis tout à fait d'accord avec toi.
  
  C'était une réaction de dépis sur les restrictions imposés. Je serais très content si il y avait une exception pour mon projet mais je sais bien que ce serait le début du "pourquoi pas moi ?".
  
  J'aimerai bien savoir si les navigateurs comme firefox ou konqueror qui automatise l'accés à google sont interdits par http://www.google.fr/intl/fr/terms.html(...)
  
  J'espere juste moins de restrictions pour les projets d'interet commun et qui ne sont pas trop consomateurs. Mais avec une définition aussi vague ...
# Sur les forums..

Posté par Twidi (site web personnel) le 09 novembre 2004 à 20:06. Évalué à 3.

Salut

Je suis l'administrateur d'un service de forums et a des fins statistiques on devrait pouvoir trouver le moyen de voir la fréquence d'utilisation des mots dans quelques millions de messages qui habitent sur le serveur...

contacte moi si ça te dit (twidi **chez** twidi **point** com)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.