Sortie de Teardrop 0.9 : méta-moteur de recherche

Posté par . Modéré par j.
Tags :
0
2
oct.
2006
Internet
Teardrop vous permet d'interroger simultanément plusieurs moteurs de recherche et d'en extraire autant de résultats que souhaité, sous forme de liste (interface graphique), de page HTML, ou directement sur la ligne de commande.

C'est un logiciel libre (GPL) destiné à faciliter les recherches spécifiques pour lesquels on souhaite obtenir un maximum de ressources. En effet, certaines recherches demandent parfois de consulter plusieurs moteurs différents, par exemple lorsque les informations recherchées sont très précises, ou encore lorsque les bases consultées sont peu complètes.
Il offre également la possibilité d'ajouter de nouveaux moteurs de recherches, ceci grâce à son format libre et ouvert.

Teardrop est développé avec wxWidgets pour GNU/Linux, Windows, et prochainement pour Mac OS X. D'autres logiciels ayant ce type de fonctionnalité existent sous Windows, tels que le célèbre Copernic Agent, ou encore FireStop WebSearch. Ces logiciels ont des formats propriétaires qui empêchent les utilisateurs d'ajouter leurs propres moteurs.

Teardrop est un projet personnel en réponse à ce problème. Il n'incorpore pour l'instant qu'une quinzaine de moteurs de recherches, mais il est possible d'en ajouter d'autres sans trop de difficultés.
  • # D'un autre coté ...

    Posté par . Évalué à 1.

    Quand je vois la cohérence des réponses que renvoient la plupart des moteurs de recherches par rapport à google, je suis pas sur que ça serve à grand chose à part avoir des résultats moins précis... ^^
    • [^] # Re: D'un autre coté ...

      Posté par . Évalué à 1.

      s/cohérence/pertinence/
    • [^] # Re: D'un autre coté ...

      Posté par . Évalué à 6.

      A éviter la censure que peut imposer Google, comme en Belgique et en Chine ?
      • [^] # Re: D'un autre coté ...

        Posté par (page perso) . Évalué à 3.

        En belgique aussi ?
      • [^] # Re: D'un autre coté ...

        Posté par . Évalué à 4.

        T'es sûr que ça marcherait comme technique ?

        J'ai des doutes, genre google en Chine, c'est soit ils censurent, soit ils sont pas accessibles (dans mes souvenirs en tout cas). J'imagine que le gouvernement Chinois doit imposer le même genre de conditions aux autres moteurs -> Ton méta moteur, il ne pourra interroger de Chine que des moteurs censurés.

        Sauf si je me trompes ou que d'autres moteurs moins connus ont moins de contraintes. Pour la Belgique, j'en sais trop rien, pas au courant.
        • [^] # Re: D'un autre coté ...

          Posté par . Évalué à 4.

          Pour la Belgique, j'en sais trop rien, pas au courant.


          Il fait allusion au l'affaire Google-presse belge.

          Verdict : retrait du service Google News tout article provenant de la presse belge.

          http://www.zdnet.fr/actualites/internet/0,39020774,39363538,(...)

          Réponse de Google : retrait de toute référence de Google.be (= "censure" évoquée plus haut dans le fil) vers les journaux rattachés au groupe Copiepresse.

          http://www.infos-du-net.com/actualite/8046-google-belgique-p(...)
        • [^] # Re: D'un autre coté ...

          Posté par . Évalué à 3.

          Effectivement, Teardrop utilisé en chine sera censuré. Il recolte les mêmes résultats que ceux qu'on peut obtenir en intérrogeant directement Google par exemple.

          Quand je vois la cohérence des réponses que renvoient la plupart des moteurs de recherches par rapport à google, je suis pas sur que ça serve à grand chose à part avoir des résultats moins précis... ^^


          On est d'accord, Teardrop ne sers pas à remplacer directement Google.
          Teardrop est plutôt utile (à mes yeux) pour des recherches plus délicates, type je cherche un fichier, disons un iso mandrake, mais de la version 7.2. Je finirais bien par le trouver avec Google, mais j'irais plus vite avec des moteurs spécialisé, surtout si j'en interroge plusieurs d'un coup.
      • [^] # Re: D'un autre coté ...

        Posté par . Évalué à 1.

        Vu que les autres moteurs de recherche seront de toute façon aussi censurés ...
  • # Moteurs de recherche pour développeurs

    Posté par . Évalué à 1.

    Il existe des moteurs du genre http://www.koders.com/ pour trouver du code source, mais quelqu'un connait il un moteur de recherche qui prennent en compte les caractères utilisés dans les langages de programmation? (les caractères ascii de 33 à 63).
  • # De la capillotractotomie illustrée

    Posté par . Évalué à 1.

    Teardrop est développé avec wxWidgets pour GNU/Linux, Windows, et prochainement pour Mac OS X.

    Sans vouloir paraître pédant outre mesure, et de toute façon je le paraîtrais quand même alors tant pis et jetons-nous a l'eau :

    Ne dit-on pas qu'un logiciel a été devellopé en GTK, en Qt, mais avec une librairie quelconque ? Doit-on en déduire que GTK, Qt et d'autre très grosses bibliothéques lorgnent du coté du langage de programmation (on dit "je code en C", par exemple), et que Wxwidget se rapproche beaucoup plus d'une librairie quelconque que de ces deux ténors ?

    D'accord, je m'en vais en trotinant...
    • [^] # Re: De la capillotractotomie illustrée

      Posté par . Évalué à 2.

      Pour avoir travaillé avec GTK et wxWidgets, je dirais que ces deux librairies en sont car elles ne modifient pas vraiment le langage. Juste quelques macro et hop !
      Pour Qt je peux pas dire, je connais pas.
      Ceci étant, j'imagine qu'on pourrais dire : une interface graphique en Qt et un logiciel développé avec Qt.

      Je te suis, ça fais mal la capillotractotomie...
  • # Conditions d'utilisation des moteurs

    Posté par (page perso) . Évalué à 1.

    Les moteurs de recherche les plus courants autorisent-ils l'accès à leur services par des bots? Y a-t-il des conditions d'utilisation?
    • [^] # Re: Conditions d'utilisation des moteurs

      Posté par . Évalué à 1.

      Je m'était posé la question, et sans avoir trop fouillé, je ne pense pas que ce soit 100% légal, car on pourrait détourné l'utilisation de ce genre de logiciels afin de "voler" leurs bases de données.
      Cela dit, pour des moteurs types Google, cela parait impossible et inutile. Un autre problème préjudiciable est l'absence de publicité.

      Cela dit, Teardrop n'est pas destiné à remplacer les recherches de base. Il est plutôt utile pour les recherches avancées pouvant nécessiter plusieurs moteurs. Tant qu'on l'utilise d'une façon "normale", je pense que ce genre de logiciel peut-être toléré, au même titre que Copernic Agent.

      Mais google est-il réellement propriétaire de sa base de données de site web (le contenu pas le contenant), sachant qu'il n'a demandé à personne l'authorisation de la constituer ? Personnellement je n'ai jamais accepté d'apparaître dans leur base.

      Si quelqu'un a des précisions juridiques à ce sujet, je suis également preneur !
      • [^] # Re: Conditions d'utilisation des moteurs

        Posté par . Évalué à 2.

        j'avais un peu réfléchi à un bot wikipedia pour rechercher automatiquement des copivio (genre prendre des bout d'articles au hasard, et les rechercher dans google.) Du coup j'avais fouillé les conditions d'utilisation : il me semble que les requêtes de meta-moteurs sont explicitement interdites ( sauf autorisation peut être), ainsi que les requêtes de robots. Sauf à utiliser une API google spécialisée, avoir ouvert un compte spécial chez google, et avoir un nombre de requêtes limitées par jour.

        J'ai pas gardé de lien, et je fais ça d'après mes souvenirs, à vérifier donc, la flemme de le refaire (mais c'est pas très très dûr à retrouver )
        • [^] # Re: Conditions d'utilisation des moteurs

          Posté par . Évalué à 1.

          Effectivement, pour google on peut lire :

          Les requêtes automatisées sont interdites

          Vous ne devez pas transmettre de requêtes automatisées d'aucune sorte aux systèmes de Google sans autorisation explicite et préalable de Google. Par « requêtes automatisées », nous entendons également l'utilisation de tout logiciel qui transmet des requêtes à Google pour déterminer le « rang » obtenu par un site Web dans les index Google en fonction de différents termes de recherche.


          sur http://www.google.fr/accounts/TOS. Par contre chez Yahoo http://fr.docs.yahoo.com/info/utos.html je n'ai rien trouvé. Je pense qu'il l'accepte même, car en programmant Teardrop, j'ai remarqué que le code source est extremement allégé et beaucoup plus simple à interpreter quand le User-Agent n'est pas connu de Yahoo! (ici curl) .

          Après, on ne peut même pas discuter avec Google, car sur la page Américaine, ils stipulent :
          Please do not write to Google to request permission to "meta-search" Google for a research project, as such requests will not be granted.

          Ce qui pourrait être traduit par : "Merci de ne pas écrire à Google afin de demander la permission d'effectuer des méta-recherches pour un projet de recherche, car une telle permission ne sera pas accordée".

          Mais quand même, est-ce bien légal comme clause (en France ) ?
          • [^] # Re: Conditions d'utilisation des moteurs

            Posté par . Évalué à 1.

            Tous les moteurs de recherche que je connais interdisent les requêtes automatisées, car il s'agit d'un abus de leur infrastructure sans gain aucun pour eux.

            Pour ce qui est du "on ne peut meme pas discuter", je crois que tu as traduit trop littéralement la clause du TOS. La référence a de la recherche implique pour moi qu'ils entendent meta-search au sens "je pourrais pas juste avoir accès a vos index bruts et fouiller dedans?"

            Quoi qu'il en soit, dans l'état ce logiciel est bien en violation des Terms of Service au moins de Google (et je doute que Yahoo et MSN autorisent les recherches automatisées). Mais vu que ton logiciel a priori n'a pas comme but d'effectuer des meta-searches a leur sens, tu peux toujours faire la demande d'une autorisation.

            L'autre solution, dans le cas de Google, est de modifier ton logiciel pour passer par l'API SOAP (documentée sur le site qui rassemble les efforts open source de Google: http://code.google.com/apis/soapsearch/ ). Cette API est la façon officielle de faire des requêtes aupres de Google depuis des logiciels tierce partie (donc tu n'enfreins pas les TOS en l'utilisant). De plus, l'API te renverra les résultats en tant qu'objets SOAP, que tu pourras analyser beaucoup plus facilement à l'aide de bibliothèques spécialisées.

            Ensuite, les utilisateurs qui voudront utiliser Google dans ton logiciel devront faire la demande d'une "API key", une clé qui leur permet de faire des recherches. Ce système d'API key est là pour éviter l'abus de l'API de recherche (genre pas plus de 1000 requetes par jour avec une clé, ce qu'un particulier utilisant ton logiciel ne dépassera jamais), mais à part ca elles sont données à qui en fait la demande.

            Oui, c'est plus compliqué, oui c'est plus chiant, mais perso je trouve que rester dans la légalité et respecter les termes d'utilisation des services qu'on utilise dans nos logiciels libres, c'est essentiel, non seulement pour éviter les emmerdes, mais surtout pour entretenir le karma bénéfique du logiciel libre en général.
            • [^] # Re: Conditions d'utilisation des moteurs

              Posté par . Évalué à 1.

              Tous les moteurs de recherche ne l'interdisent pas. Cela dis, j'essai de rentrer en contact avec les moteurs pour voir leurs réactions.

              Pour le moment, j'en convient, mon logiciel entre en conflit avec certains moteurs, j'ai donc mis à jours les fichiers dispos sur mon site pour rétablir la situation.

              La solution de passer par l'API google ne me convient pas, car elle va à l'encontre de mon logiciel, permettre de créer facilement des interface pour tout type de moteurs.

              Je suis allé faire un tour du côté de Copernic, et eux précisent ceci :

              DANS LES LIMITES PRÉVUES PAR TOUTE LOI APPLICABLE, CTI OU SES CONCÉDANTS, LE CAS ÉCHÉANT, NE SONT, EN AUCUN CAS, RESPONSABLES DE L'ACCÈS AUX MOTEURS DE RECHERCHE OU AUX DOMAINES DE RECHERCHE INCLUS DANS LE LOGICIEL OU UTILISÉS PAR CELUI-CI. CTI OU SES CONCÉDANTS N'OFFRENT AUCUNE GARANTIE QUANT À LA PRÉCISION, À L'À-PROPOS, À LA MISE À JOUR OU AU CARACTÈRE APPROPRIÉ DU CONTENU DE TOUT SERVICE OU TOUTE INFORMATION PROVENANT DE L'UN OU L'AUTRE DES MOTEURS DE RECHERCHE, ET, EN CONSÉQUENCE, ILS N'ASSUMENT AUCUNE RESPONSABILITÉ À CES ÉGARDS.


              Je me demande si ça les protège réellement...
              • [^] # Re: Conditions d'utilisation des moteurs

                Posté par . Évalué à 1.

                L'API SOAP de Google peut quand même être une solution acceptable dans ton cas, avec une légère extension de ton schéma XML de définition de moteurs de recherche.

                SOAP est un protocole de RPC qui utilise XML et HTTP comme transport, donc faire une requête à l'API google revient à envoyer une requête POST à une certaine URL. En réponse, tu recevras un bloc de XML, que ton parseur actuel (regex) peut décortiquer à priori.

                Je vois que ton format supporte déjà le fait de dire si l'url doit etre accédée par GET ou POST. Si ce n'est déjà fait, il faudrait donc simplement intégrer un bloc de CDATA, contenant le XML a envoyer comme corps de requête POST (avec la possibilité d'y insérer un %q, comme c'est présentement possible avec les éléments GET).

                Avec cette modification, il serait possible d'avoir un moteur Teardrop utilisant l'API SOAP de Google pour faire des recherches. Le seul problème restant est qu'il faut que chaque utilisateur obtienne une API key, et qu'il puisse la renseigner relativement facilement dans Teardrop (ou au pire, il édite le XML et colle son API key au bon endroit).

                En ce qui concerne le disclaimer, il peut te protéger toi, l'auteur du logiciel. Mais les utilisateurs qui utilisent ton logiciel seront en violation des TOS dès qu'ils feront une recherche. Et quand google (ou un autre) décidera de les bloquer pour violation de TOS, c'est toi qu'ils viendront engueuler :-)

                Voila. Sinon, sympa ton logiciel, je l'avais pas dit. J'aime bien le format de moteur extensible. Maintenant, s'il était un tout petit peu plus complet, il serait possible d'utiliser les API officielles de certains moteurs, plutot que d'émuler a la sauvage un navigateur. Au final, ca devrait t'arranger aussi, puisque parser un XML qui contient uniquement tes données, c'est carrément moins compliqué que parser un HTML coincoin qui doit convenir a des yeux humains.
                • [^] # Re: Conditions d'utilisation des moteurs

                  Posté par . Évalué à 1.

                  Effectivement, j'aime bien l'idée d'utiliser l'API SOAP de Google. Je ne sais pas encore si c'est possible avec la version actuelle de Teardrop, mais ce que tu m'en dis me parait sympathique !

                  Merci beaucoup !
      • [^] # Re: Conditions d'utilisation des moteurs

        Posté par . Évalué à 2.

        Techniquement, tu peux refuser d'apparaître dans les moteurs de recherche grâce au fichier robots.txt placé astucieusement à la racine de ton site, tu peux aussi filtrer selon le robot qui passe ou selon les répertoires que tu veux voir indexer ou pas.

        http://www.robotstxt.org/
        • [^] # Re: Conditions d'utilisation des moteurs

          Posté par . Évalué à 1.

          Oui, mais ce n'est pas parce que je ne refuse pas d'apparaître dans leur moteurs que Google est propriétaire des données de mon site.

          J'imagine qu'ils sont propriétaire de l'infrastructure, mais pas forcément des données, et encore ça doit changer d'un pays à l'autre...

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.