Journal Extraction de données du web - introduction à Scrapy (journal bookmark)

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
18
30
jan.
2015

Bonjour,

Ceci est un journal bookmark.

Scrapy est un framework python qui permet d'extraire des données structurées trouvées dans des sites web. Du crawling avec traitement de données.

Comme dit sur le site de présentation : "An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way."

J'ai fait une présentation du framework hier au python user group de Grenoble (pyuggre comme on dit) ; si ça vous intéresse, la présentation (…)

Journal Calendrier de l'avent : vite des ebooks (techniques) gratuits !

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
26
17
déc.
2014

Un journal quasi-bookmark. j'ai découvert que Packt Publishing propose un calendrier de l'avent à sa manière : un ebook gratuit par jour, disponible en téléchargement au format epub, mobi et pdf. Il suffit de créer un compte pour y accéder.

Le livre du jour, c'est Python 3 Web Development - Beginner's Guide

Note : le sujet est traité en s'appuyant sur CherryPy, SQLite, jQuery et jQueryUI. Je l'ai téléchargé, parcouru, mais pas encore lu, je n'ai donc d'avis ni sur (…)

Vivre du logiciel libre - entrepriseAnonymisée trois ans plus tard

38
15
déc.
2014
Commercial

NdM: noms de la personne interviewée et de l'entreprise anonymisée en juin 2024 à la demande la personne

Voici le troisième volet de la série 2014 sur la création d'entreprise dans le logiciel libre. Après l'entretien avec Ludovic Dubost au sujet de sa société XWiki, je vous propose de redécouvrir le parcours de personneAnonymisée qui nous avait déjà parlé de son auto-entreprise entrepriseAnonymisée il y a environ 3 ans.

Après être passé d'auto-entreprise à SARL, entrepriseAnonymisée a cessé son activité en décembre 2013. Cette évolution est à l'opposé de ce que nous a présenté Jérôme Martinez entre décembre 2011 et septembre 2014 ; c'est aussi ce qui fait l'intérêt de ce retour d'expérience.

Tracim - entre forum, wiki et gestion de fichiers

20
15
nov.
2014
Bureautique

Tracim est un outil collaboratif à la croisée des chemins entre forum, wiki, gestion électronique de documents voire réseau social d'entreprise. Tracim est la refonte et la rationalisation du projet Pod que je vous avais présenté en juin 2014. Tracim est disponible sous licence AGPL.

Journal Rapport Lemoine : 180 propositions pour "numériser" notre économie

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes : aucune
13
11
nov.
2014

Journal bookmark pour vous parler du rapport Lemoine, qui fait 180 propositions pour numériser l'économie. Voir un rapide aperçu sur 01.net.

On peut télécharger le rapport en PDF. Bien.
On peut commenter le rapport en ligne. Bien.

Malheureusement via un service anglophone commercialisé par une société française qui ne respecte pas la législation française. Pas bien.

Vivre du logiciel libre - Ludovic Dubost nous parle de sa société : XWiki SAS

24
29
sept.
2014
Commercial

Le deuxième volet de la série sur l'économie du libre continue. Après l'entretien avec Jérôme Martinez début septembre, je vous propose de découvrir la société XWiki SAS, éditeur de logiciels libres créée il y a maintenant 10 ans par Ludovic Dubost.

XWiki SAS prouve si cela était nécessaire que l'édition de logiciels vraiment libres (sous licence LGPL) est une activité économique viable.

Vivre du logiciel libre - MediaArea.net trois ans plus tard

44
2
sept.
2014
Commercial

En décembre 2011, j'avais publié une série d'interviews de créateurs d'entreprise dans le domaine du logiciel libre. Près de trois ans plus tard, je relance une série qui apportera un regard neuf sur le sujet de la création d'entreprise et du logiciel libre. Ce sera - je l'espère, l'occasion de découvrir de nouveaux entrepreneurs ; ce sera également l'occasion de voir comment ont pu évoluer certaines entreprises.

À l'époque, la première interview de la série était une interview de Jérôme Martinez, créateur du logiciel MediaInfo et fondateur de la société à responsabilité limitée MediaArea.net SARL.

Note pour ceux qui ne connaissent pas Jérôme Martinez : vous le connaissez sans le savoir. Cherchez mieux ;)

Nous commencerons la série 2014 avec la même personne et une société résolument tournée vers l'international, société qui semble plutôt bien tourner.

pod : un outil de travail collaboratif pour suivre et gérer tâches, documents et autres

Posté par  (site web personnel, Mastodon) . Édité par claudex, Benoît Sibaud, palm123 et Nÿco. Modéré par Nils Ratusznik. Licence CC By‑SA.
49
18
juin
2014
Bureautique

POD est un outil de travail collaboratif conçu pour partager documents, tâches et données variés. Il est totalement versionné et propose une granularité fine de gestion des droits. Il est distribué sous licence AGPL.

Exemple de todo-list

L'intérêt de POD est d'augmenter la productivité du travail collaboratif :

  • en centralisant l'information (tâches, documents, commentaires, pièces jointes)
  • en implémentant la traçabilité sur vos données : tout est versionné, on ne travaille donc plus seulement avec des données « en l'état » mais également des données « qui ont vécu ».
  • en proposant un outil qui vous permet de gérer au même endroit vos bases de connaissances, vos listes de tâches, vos contacts

Journal pod : un outil pour suivre et gérer des tâches et documents

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
21
21
nov.
2013

Introduction

pod est un logiciel à cheval entre un wiki manipulant des données semi-structurées et un outil de suivi de tâches (genre bug-tracker mais plutôt orienté "généraliste" et non "développement logiciel"). Je l'utilise à titre personnel pour faire de la prospection professionnelle, c'est à dire suivre mes candidatures et les données associées (cf. ce journal où j'avais mis un lien vers un questionnaire en ligne.)

Pensé à l'origine pour faire de la prospection professionnelle, en l'utilisant je me suis rendu (…)

Journal Les JT c'était déjà pas glorieux, mais là on atteint des sommets...

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
1
4
nov.
2013

Je regarde rarement le JT parce que j'ai jamais trouvé que c'était vraiment du journalisme. Bon. Mais ça m'arrive quand même de le mater. Comme hier soir, dimanche 3 novembre 2013, à 20h sur France 2, par exemple.

Et là, j'ai halluciné.

Après les séquences émotion façon "madame Michu fait des sculptures en paille" du JT de 13h, durant l'été, pour occuper les âmes en perdition, là on a droit à l'actualité vue par les jeunes du Red Star FC (…)

Journal Mon premier journal bookmark... mais que fait la police ?

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
35
4
oct.
2013

Je n'ai pas vu l'information relayée sur LinuxFR alors je me dis que si la gendarmerie utilise (GNU/?)Linux sur 37000 de ses ordinateurs, c'est quand même suffisamment important pour qu'on en parle.

Et comme c'est toujours bien d'avoir l'information en direct, on peut jeter un coup d'oeil au rapport du Major Stéphane Dumond humblement intitulé Linux on desktop: a success story.

On peut tout de même relever que :
- La gendarmerie a décidé d'utiliser une distribution Ubuntu (…)

Journal L'index du moteur de recherche de LinuxFR est obsolète ?

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes : aucune
8
26
août
2013

Contexte : je cherchais la dernière dépêche parlant de Weboob car je me souvenais d'une discussion et de liens vers des outils / scripts pour récupérer des offres d'emploi.

Le moteur de recherche de LinuxFR ne retourne pas cette fameuse dépêche intitulée Weboob atteint le .g ; google si.

Pourquoi ?

Journal What do you Qwant to search ?

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
19
8
juil.
2013

Après un lancement en béta en février 2013, le moteur de recherche français Qwant a été lancé officiellement le 4 juillet, surfant probablement (volontairement ?) sur la vague PRISM, Snowden et vie privée.

Après quelques essais rapides afin de le tester, j'ai un avis mitigé, c'est à dire que je vais probablement l'utiliser pour certaines recherches, mais pas pour d'autres.

Par exemple pour une recherche plutôt technique sur les framework javascript MVC disponibles, les résultats fournis par Google me plaisent (…)

Journal Etre technique ou ne pas être (que) technique

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
Étiquettes :
18
12
juin
2013

Sommaire

Zim, le wiki de bureau est sorti en version 0.55

Posté par  (site web personnel, Mastodon) . Édité par baud123, Nÿco, Xavier Teyssier, tuiu pol et Lucas Bonnet. Modéré par baud123. Licence CC By‑SA.
44
1
mar.
2012
Bureautique

Zim est un wiki de bureau et se présente lui-même comme tel : Zim - A Desktop Wiki. Il s'agit d'un wiki personnel, développé en Python et GTK par Jaap Karssenberg. Il tourne sur les plateformes Windows, BSD, GNU/Linux et visiblement également sur Mac OS X (à vérifier pour les versions plus récentes).

Note : l'utilisation du terme « wiki » n'est pas exacte mais elle reste la plus parlante quand on prend en considération les fonctionnalités proposées par Zim.

Fonctionnalités

Organisé en bloc-notes, Zim propose les fonctionnalités de base d'un outil de prise de notes avec comme particularités :

  • de proposer une structuration arborescente de l'information ;
  • de permettre d'inclure des copies d'écran directement ;
  • d'inclure des liens vers des fichiers locaux ;
  • de gérer des listes de tâches à partir de mot-clés paramétrables. Par exemple, on pourra définir que l'apparition du terme TODO dans le texte correspond à une tâche à réaliser ;
  • d'insérer des équations (basé sur LaTeX), des graphes GNU R, des diagrammes GraphViz ;
  • de conserver l'historique en activant l'extension de gestion de version basée sur Bazaar ;
  • d'exporter les données (bloc-note complet ou page unique) au format HTML ou Latex en se basant sur des modèles personnalisables ;
  • d'exécuter un serveur web pour voir à quoi ressemblera l'export au format HTML.