Dans cette nouvelle excursion dans le temps et dans l’espace du Transimpressux, nous allons rendre une rapide visite à Théotiste Lefevbvre (1798 - 1887) prote d’imprimerie et à quelques-uns de ses confrères ainsi que dans les magasins de quelques bibliothèques. Nous passerons aussi, un grand moment du côté de la Silicon Valley et de Redmond dans l’État de Washington, bien obligé puisqu’on parlera beaucoup de formats numériques, sans oublier d’aller dire bonjour à Donald Knuth, Tim Berners-Lee et John Gruber. On terminera notre exploration quelque part dans les archives numériques de la Bibliothèque nationale de France (BnF).
La climatisation du Transimpressux a été entièrement révisée et le bar rechargé en boissons fraîches et glaces en tous genres. On vous souhaite un bon voyage.
Sommaire
- Préambule
- Les formats matériels, entre coût et rangement
- Les formats de texte
- Des langages de balisages
- L’archivage et la conservation des textes
- Kurinto une histoire de chasses
- Les textes et documents qui ont servi à alimenter cette dépêche
- Postambule
Préambule
Cette dépêche ne se veut pas exhaustive sur les formats en tous genres ni très technique sur les formats informatiques. Pour les formats d’image, qui ne sont pas traités ici, je vous renvoie à l’excellente dépêche de Tanguy Ortolo qui a fait le tour de la question et au journal de Glandos sur l’intégration du JPEG XL dans les navigateurs.
Les formats matériels, entre coût et rangement
Encore aujourd’hui, le format matériel d’un document, spécialement, s’il s’agit d’un livre, est important pas uniquement pour des questions de coût. Mais aussi à cause d’eux. C’est parce que le papier coûtait cher qu’Alde Manuce a créé l’italique au début du 16e siècle. L’italique prenant moins de place que les autres styles de caractères, il devenait possible d’imprimer des livres en petit format qui pouvaient ainsi être achetés par une clientèle impécunieuse.
Des différences de taille et de tailles. Image retravaillée avec le filtre « Pencil Portrait » de Q’mic-Qt (et un peu Inkscape).
Les rouleaux, volumen ou rotulus
La taille de ces rouleaux varie beaucoup. Ils peuvent atteindre plusieurs mètres de long (ou de large, selon le sens de lecture). Témoin cette remarque d’Auguste Molinier, chartiste et bibliothécaire, en 1892 :
On a étudié récemment la longueur des volumina antiques. En Égypte, elle paraît avoir été illimitée ; un rouleau trouvé à Thèbes a 43 m. 50, ce qui est excessif ; il est vrai que le moyen âge a eu des rouleaux de parchemin, plus solides, mais encore plus lourds et infiniment plus longs. Pour les œuvres littéraires grecques et latines, un érudit moderne, M. Birt, a évalué à 12 mètres la longueur extrême des volumina.1
Ces longueurs démesurées ne sont pas propres aux Égyptiens. Les Archives nationales de Paris possèdent un parchemin d’une longueur d’une vingtaine de mètres. Daté de 1307, ce rouleau consigne les aveux, obtenus sous la torture, de cent-trente-huit Templiers. Il va sans dire que leur longueur et leur ancienneté rend les rouleaux très difficiles à manipuler, une difficulté que la numérisation élimine.
Des formats des livres
Les noms des formats des livres en imprimerie traditionnelle sont liés au nombre de pages que l’on imprimait sur une feuille. Le mot « format » lui-même pourrait venir des châssis, ou « formes » dans lesquels on plaçait les pages à imprimer. Ce procédé s’appelait l’imposition.
Les formats les plus usuels, du plus grand au plus petit :
- in-folio : soit quatre pages par feuille, la taille la plus grande de livre,
- in-quarto, huit pages,
- in-octavo, seize pages,
- in-douze, vingt-quatre pages,
- in-dix-huit, trente-six pages.
La répartition des pages sur la feuille était à la fois importante et délicate puisqu’une fois imprimée, la feuille était pliée. Il fallait donc veiller non seulement à la bonne répartition des pages sur la feuille, mais aussi à leur sens. Dans son Guide pratique du compositeur d’imprimerie, Théotiste Lefebvre consacre plus d’un quart de son livre (119 pages sur 440) à cette délicate question. Dans son petit guide sur la Typographie, Charles-Félicien Huart y consacre aussi plusieurs pages.
Un exemple de répartition des pages2 pour un volume in-douze, « côté de première » indique le recto, « côté de seconde », le verso. La feuille est pliée en trois dans le sens de la hauteur et deux dans la largeur.
Recto : deux séries de pages tête en bas, pages 12, 13, 16 et 9 (1re série) et 8, 17, 20 et 5 (2e série) et, en dessous pages 1, 24, 21 et 4. Verso : deux séries de pages tête en bas, pages 10, 15, 14 et 11 (1re série) et 6, 19,18 et 7 (2e série) et 3, 22, 23 et 2 en dessous.
Cette différence de tailles peut amener les bibliothèques dont le fond n’est pas directement accessible au public à opter pour un classement matériel des livres basés sur le format. On aura ainsi des cotes du genre « in12-numéro d’inventaire ». C’est un système très efficace et qui évite d’avoir un petit livre (littéralement) perdu au milieu de livres nettement plus grands.
Les formats actuels, livre et papier
L’indication de format à partir du nombre de pages imprimées sur une feuille ne donne pas d’information précise sur la taille effective des livres. Il faut signaler que les dimensions changent en fonction de celles de la feuille d’origine. Les appellations actuelles, côté édition, du style Livre de poche (environ 10,5 cm x 17,5 cm), livre broché ou encore grand format, utilisées en lieu et place d’in-folio, in-octavo, etc. réservés plutôt au livre ancien ne sont pas plus précises.
En, revanche, la taille des feuilles de papier les plus utilisées a fait l’objet d’une norme, la norme ISO 216. Elle concerne les formats A, dont le fameux A4 qui est celui des feuilles standard des imprimantes de bureau et le format B. Le principe : plus le numéro est élevé, plus la feuille est petite. La numérotation commence à 0 qui fait un mètre carré (84,1 cm x 118,9 cm) pour le format A. La taille de la feuille du numéro supérieur devant être égale à la moitié de celle du numéro inférieur qui la précède. En d’autres termes : le format A3 égal deux fois le format A4 qui, lui-même, est deux fois plus grand que le format A5. Il en va de même avec le format B. Cela explique au passage pourquoi le format A4 mesure 21 x 29,7 cm et pas 21 x 30 cm.
Les formats de texte
Jusque dans les années 1990, il y avait un nombre très important d’outils et de formats de textes. Writer de LibreOffice, d’après mes comptes, peut ouvrir jusqu’à quarante-quatre formats de fichier différents, hors modèles et hors web, mais n’enregistre que dans des formats qui sont ceux encore utilisés à l’heure actuelle. Ce qui réduit la liste à treize formats incluant les modèles et l’HTML.
Sur cette frise chronologique, on a, en haut, des formats de texte avec leur date de naissance plus ou moins approximative et, en dessous, des langages de balisage avec leur date de naissance également.
Les formats de texte : 1977 Texte brut, 1987-2007 RTF, 1990-2007 DOC, 2005 ODT, 2007 DOCX. Ils ont été choisis parce qu’ils sont les plus connus, voire, les plus utilisés. Dans cette liste deux formats ne sont plus maintenus, les formats RTF et DOC. Mais il existe encore des amas de fichiers dans ces deux formats.
Le texte brut, .txt
Le texte brut, nait à une date imprécise. Probablement vers la fin des années 1950 ou au début des années 1960. Le premier RFC3 qui définit un standard de protocole pour des messages en texte brut (Standard for the Format of Arpa Network Text Messages) date de 1977, il porte le numéro 733 et a été rédigé par l’agence américaine pour les projets de recherche avancée de défense (DARPA pour Defense Advanced Research Projects Agency).
Au début, le format n’acceptait que l’Ascii, à savoir les vingt-six lettres de l’alphabet, les chiffres, les ponctuations de base et les caractères de commande Ascii. Ce qui en fait un format simple, mais très pauvre. L’Ascii est codé sur 7 bits, ce qui ne permet d’avoir que cent-vingt-huit caractères, en fait quatre-vingt-dix imprimables et trente-huit pour les codes de commande4. Il accepte, depuis, l’Unicode. Depuis quand ? Difficile à préciser, mais la première mention d’Unicode qui figure sur le site rfc-editor remonte à juillet 1994 (en), RFC 1641, à titre expérimental. On peut supposer, en tout cas, que le consortium Unicode qui réunit la fine fleur de l’informatique a dû très tôt faire en sorte que son standard puisse être accepté dans le format texte brut.
Ce format se révèle assez vite insuffisant de part sa simplicité même, confinant à la pauvreté : pas d’enrichissement typographique, pas de notion de style ni de hiérarchie des paragraphes, pas de possibilité d’avoir des images. Il est, de fait, plutôt inférieur à ce que l’on peut avoir sur du papier. Il reste néanmoins très utilisé et par toutes les applications qui traitent du texte : éditeurs de texte, bureautique, etc. Il a pour lui l’avantage d’être simple, léger et interopérable. C’est le format, par exemple, avec lequel la BnF Gallica délivre les documents « bruts de numérisation » (il faut copier-coller le texte ailleurs pour le garder et le retravailler), et c’est, bien évidemment, celui des RFC.
Il y a des personnes qui recommandent de conserver le texte en texte brut, compte tenu des limitations du format, ce n’est pas franchement conseillé pour des documents un peu complexes étant donné qu’il y aura énormément de pertes d’information.
Le RTF
En 1987, Microsoft lance le Rich Text Format (RTF) qui permettait d’avoir du texte « enrichi » avec des attributs : gras, italique, souligné et de dépasser le cadre du texte brut. C’est un format qui a été pendant un certain temps, un standard d’échange de fait pour ce type de fichiers. Il était au moins lu par beaucoup de logiciels sur nombre de systèmes d’exploitation. C’était un format pratique d’échange, notamment avant l’arrivée du PDF et ensuite quand le PDF n’était pas encore un format ouvert et ne pouvait être généré que via le (cher) logiciel d’Adobe. Et aussi parce que c’était l’époque de la « grande démocratisation » de l’informatique, et, qu’à vrai dire, les utilisateurices finaux ne savaient pas trop comment, surtout sous quelle forme et ce qui se passait quand on échangeait des fichiers.
Aussi pratique que soit le format RTF, outre son absence de légèreté, il était néanmoins très limité : pas de texte structuré autrement que sur un plan purement visuel, par exemple. Microsoft arrêtera de le maintenir en 2008 (il aura tenu vingt ans tout de même !). C’est donc un format mort.
Il existe cependant une variante du RTF toujours maintenue : le .rtfd
utilisé par Apple pour TextEdit. Cette variante a été modifiée pour inclure des éléments multimédias.
Le .doc, un format propriétaire incontournable
Quand Microsoft lance sa suite bureautique dans les années 1990 (la date sur la chronologie n’est pas tout à fait exacte), il adopte pour le traitement de texte, Word, l’extension .doc qui avait été aussi celle de WordPerfect. Word avait pour lui de montrer le rendu du texte immédiatement : le fameux WYSIWYG pour « What you see is what you get » (ce que vous voyez est ce que vous obtenez).
La suite finit par devenir quasiment incontournable et le format DOC de Word devenir un « standard de fait ». Microsoft abandonnera le DOC en 2007 pour le DOCX basé sur l’Office Open XML. On produira encore longtemps après des fichiers en .doc en vertu du « tout le monde n’a pas la version de MsOffice 2007 ». On trouve encore sur internet des modèles de fichiers à ce format à télécharger.
Il était reproché au format son poids, lourd, des problèmes de confidentialité (on pouvait, par exemple, retrouver du texte effacé avant l’enregistrement ou le modèle de l’imprimante5) et sa faiblesse devant les virus. Et, bien entendu, c’était un format propriétaire et pas interopérable. Un autre défaut majeur du format était qu’il était modifié à chaque nouvelle version de Word ce qui impliquait de devoir acheter la nouvelle version du logiciel pour pouvoir travailler sur les nouveaux fichiers en .doc.
Microsoft délivrera les sources du format en 2006, mais les spécifications semblent ne plus figurer sur le site de la firme. Le code source de la version d’origine de Word, quant à lui, a été rendu public et versé au musée américain de l’histoire de l’ordinateur (en).
Le .doc peut encore être ouvert et travaillé d’un grand nombre de logiciels. Abiword par exemple ouvre les .doc mais pas les .docx. En revanche, il est de moins en moins possible de générer des fichiers à ce format, et c’est une bonne chose. On ne saurait que trop vous suggérer de transformer tous les fichiers en .doc qui traîneraient encore dans vos ordinateurs en ODT (ou de faire le ménage). Il en va de même pour le format de modèle .dot.
L’ODT : un format ouvert
En 2005 apparaît un format bien intéressant : le format ODT, qui est une des composantes du plus général OpenDocument Format (ODF) avec le O d’Open, le D de Document et le T de Texte, l’extension OTT étant pour les modèles avec le premier T pour Template (modèle en anglais). L’ODF est géré par le consortium OASIS, pour Organization for the Advancement of Structured Information Standards (Organisation pour l’avancement des normes d’informations structurées).
OASIS est une structure à but non-lucratif autorisée par l’ISO (International Standard Organization, l’organisation dont l’objectif social est l’élaboration et la publication de normes mondiales de produits et services), à publier des standards dont les spécifications sont publiquement disponibles sans passer par les fourches caudines de l’ISO. Le consortium a été créé en 1993, il s’appelait à l’époque SGML Open. Il était constitué de fournisseurs et d’utilisateurs d’outils informatique, son but était le développement de lignes directrices pour l’interopérabilité de logiciels utilisant le langage de balisage SGML. Il change de nom en 1998 pour devenir OASIS qui reflète mieux les travaux du consortium. Parmi les cent-seize membres (l’adhésion est payante) : à peu près toutes les grandes entreprises de l’informatique américaine et quelques chinoises ou japonaises (Alibaba, Hitachi, Huawei, Fujitsu…) mais aussi des organismes tels que le Parlement européen, l’Office des publications européennes, le Ministère français de l’Intérieur, le FBI, des universités (Brno, Milan, Luxembourg, Oslo, Westminster, MIT, etc.), la Biblioteca del Congreso Nacional du Chili, TheDocumentFoundation, etc. Il existe en outre une fondation européenne à but non lucratif OASIS Open Europe (en) affiliée au consortium et dont l’objectif est de soutenir le rôle de l’Europe dans le développement de l’open source et des normes ouvertes.
La version 1.0 du format OpenDocument (ODF) pour les applications bureautiques a été approuvée le 1er mai 2005 à l’unanimité des soixante-dix-huit membres ayant voté. La version 1.0 des directives pour l’accessibilité du format ODF, quant à elle a été approuvée à l’unanimité des onze membres ayant voté le 1ᵉʳ mai 2008. La dernière version du format ODF est la 1.3 (en), approuvée le 27 avril 2021. LibreOffice l’a intégré à partir des versions 7, pratiquement à la sortie de la norme, c’est le format d’enregistrement par défaut. La norme ODF 1.3 a mis notamment l’accent sur la signature et le chiffrage des documents.
Le format ODF est basé sur le XML. C’est un fichier « compressé » qui en contient plusieurs6 :
- le fichier
meta.xml
contient des informations au sujet du document (l’auteur, la date de la dernière sauvegarde), - le fichier
styles.xml
contient les styles utilisés dans le document, - le fichier
content.xml
contient le contenu principal du document (texte, tableaux, éléments graphiques…), - le fichier
settings.xml
, en général spécifique à une application, contient certains paramètres tels que l’imprimante sélectionnée…, - les fichiers
META-INF/manifest.xml
contiennent des informations supplémentaires sur les autres fichiers (comme le type MIME ou le chiffrement).
Plus des dossiers : Pictures
, Thumbnails
, etc.
Ce format est le format natif notamment de LibreOffice, OpenOffice7, Calligra, Collabora Online, GoogleDocs, Zoho, il est aussi ouvert, travaillé et enregistré par des logiciels tels que MsOffice depuis 2007 (2016 pour la version pour MacOS), Office365, OnlyOffice ou AbiWord (listes non limitatives).
L’une de ses très grandes forces est, qu’à l’instar du format HTML, toute la mise en forme repose sur des styles. Ce qui rend très évolutifs et adaptables les documents au format ODT (pour peu qu’ils le soient avec un logiciel qui le gère bien).
En France, le format ODF est le seul format bureautique recommandé par le référentiel général d’interopérabilité. Le format ODT étant mentionné comme format à privilégier par nombre d’administrations de par le monde.
Le format DOCX et son OOXML
L’année 2007 est celle qui « révolutionne » la suite bureautique de Microsoft. En effet, la firme abandonne les vieux formats pour en adopter des nouveaux basés sur le XML d’où le X de l’extension. Mais pas n’importe quel XML, le XML maison appelé Office Open XML (OOXML pour faire court). Il est fort probable que, ce faisant, l’idée était de court-circuiter le standard ODF. Microsoft a d’ailleurs livré une guerre féroce pour que son OOXML soit accepté par l’ISO en s’y reprenant à deux fois. La norme, adoptée le 17 aout 2008, porte le numéro ISO/IEC DIS 29500. Il est possible (probable ?) également que, Word étant ce qu’il est, se baser sur le XML de l’ODT aurait vraisemblablement nécessité un grand travail de refonte du logiciel. Il existe deux « variantes » de DOCX, le premier, celui de la version 2007 et celui de 2010. En effet, la norme ISO/IEC DIS 29500 n’est pas compatible avec Office 2007.
Sur le plan technique, il est reproché à l’OOXML sa complexité qui en rend difficile la mise en œuvre. À tel point qu’il se dit que Microsoft lui-même ne l’implémente pas correctement. La dernière version d’OOXML est actuellement la référence ISO/IEC 29500-1:2016 (en) de novembre 2016 (elle fait 5024 pages).
Sur le plan juridique, le caractère libre de la norme est flou, il en ressort une certaine instabilité sur ce plan. Avec les spécifications, Microsoft a distribué :
un document promettant de ne pas poursuivre les auteurs de l’utilisation d’Office Open XML dans un autre logiciel que ceux de Microsoft. Cette promesse de non-poursuite elle-même laisse certains flous, notamment :
• s’appliquant à la norme ECMA en l’état, s’applique-t-elle à une éventuelle version finale de l’ISO ?
• s’applique-t-elle à tous les brevets logiciels nécessaires à la mise en œuvre de la norme ?
• s’applique-t-elle également aux extensions du format OOXML ?
La licence d’utilisation de OpenXML est incompatible avec les programmes sous la licence GPL.8
À l’instar des fichiers ODF, le DOCX est un fichier compressé qui en contient plusieurs. On en trouvera l’anatomie (en) par exemple sur le site Office Open XML (en).9
Il est actuellement ouvert, voire travaillé et enregistré, de la plupart des suites bureautiques.
Des langages de balisages
Parler des formats de texte sans évoquer les langages de balisage serait assez inepte puisque les formats modernes sont basés dessus. Pour rappel, un langage de balisage est un langage servant à définir et à structurer les informations dans un document.
Il en existe de nombreux, mais on n’évoquera que ceux qui semblent les plus connus ou les plus utilisés.
TeX le grand ancien
TeX fait figure de grand ancien, puisque la première version du langage de balisage date de 1978. Cela dit, on devrait peut-être plutôt parler « d’écosystème » car c’est à la fois un format, le langage de balisage utilisé par LaTeX et un logiciel libre de composition. TeX a été créé par Donald E. Knuth, professeur émérite à l’Université de Stanford et considéré comme l’un des pionniers de l’algorithmique. L’objectif de Donald E. Knuth en créant TeX était d’avoir des documents scientifiques et techniques de bonne qualité typographique, ce qu’il n’était pas possible d’obtenir avec les logiciels d’édition de l’époque. Le principe du langage TeX est la séparation du contenu de et la forme, ce qui était innovant.
TeX est complété par LaTeX qui est « un ensemble de macros permettant de faire beaucoup de choses »10, et, bien sûr, par le langage de composition de polices vectorielles Metafont. LaTeX a été développé par Leslie Lamport. La première version est sortie en 1983.
Ce n’est pas un traitement de texte, l’idée étant que l’auteur ou l’autrice :
puisse mettre son énergie à rédiger le contenu sans être distrait par l’apparence de son document. En écrivant en langage LaTeX, l’utilisateur doit donc définir sémantiquement le contenu de son document plutôt que visuellement. DMS, Université de Montréal.
On peut générer des fichiers TeX soit directement avec un éditeur de texte, soit avec des logiciels comme Lyx ou encore Overleaf qui est un éditeur LaTeX en ligne et collaboratif. Mais, pour en voir le rendu, il faudra soit faire un PDF, si on utilise un éditeur de texte, soit passer par le visualiseur, quand il existe, dans un logiciel tel que Lyx.
À ma connaissance la plupart des suites bureautiques ne l’acceptent pas, pas plus que Calibre d’ailleurs.
La dernière version de TeX, 3,143.141592653 date de janvier 2021. Le format est géré par le groupe des utilisateurs de TeX ou TUG (en). LaTeX quant à lui est géré par le projet LaTeX (en). La dernière version date de juin 2024.
Le SGML et ses petits
Le SGML, S pour Standard, G pour Generalized, M pour Markup et L pour Langage (langage de balisage généralisé normalisé) possède le numéro de norme ISO 8879:1986. 1986 étant l’année d’obtention du numéro ISO, la première version du SGML étant sortie en 1978. Produit de l’industrie de l’édition, il a adopté, comme TeX, le principe de la séparation complète du fond et de la forme. C’est, en fait, une norme permettant de définir des langages de balisage génériques pour des documents. SGML sera, dès 1984, le format standard des publications officielles des Communautés européennes.
Ce qui caractérise un document SGML : il doit posséder une « définition du type de document » (DTD ou doctype en anglais). Cette DTD sert à indiquer la structure du document. Et, évidemment le système de balises que l’on va retrouver chez les membres de la famille.
HTML, sans lequel, possiblement, LinuxFr.org ne serait pas
Le langage HTML, pour HyperText Markup Language, est un langage de balisage pour l’hypertexte, cette fonctionnalité qui permet de naviguer sur internet. Il a été créé, ou plutôt lancé au début des années 1990 par Tim Berners-Lee qui en a profité pour concevoir au passage la forme des adresses Web que nous connaissons (les URL) et le protocole de communication HTTP.
Le format HTML est géré par le World Wide Web Consortium (W3C) fondé en 1994 par Tim Berners-Lee. L’objectif du W3C : émettre des normes et des recommandations pour le web.
La première version de HTML était très limitée : cela n’allait pas plus loin que la structure du texte avec les balises de titres et de listes, et les liens hypertextes.
En 1999, sort la version 4 (en) qui deviendra une norme ISO en 2000. La norme HTML 4 supporte pleinement le langage de mise en forme CSS (Cascading Style Sheet ou feuilles de style en cascade). Le HTML 4 existe en trois variantes, si on peut dire :
- le HTML strict qui exclut les éléments de « présentation » puisque qu’il revient au CSS de faire le travail de mise en forme,
- le HTML transitionnel accepte quelques balises de présentation obsolètes héritées du HTML 3,
- frameset qui normalise les jeux de cadre, les «frames ».
La dernière version de HTML est le HTML 5 publié en 2012. Il ne remplace pas le HTML 4.1 : les deux standards coexistent. HTML 5 apporte en plus des fonctionnalités d’animations complexes, multimédia avec de l’audio et de la vidéo, etc. jusque-là assurées notamment par le logiciel privateur Flash. HTML 5 s’est aussi éloigné du SGML.
XML le futur du HTML
C’est, en tout cas, ainsi que s’intitulait en 1998 un article (en) de Todd Freter (en) directeur de programme chez Sun Microsystem. Défini comme un sous-ensemble de SGML, « le XML a été conçu pour être facile à mettre en œuvre et interopérable avec SGML et HTML »11. De fait les syntaxes HTML et XML sont les mêmes. L’une des différences fondamentales entre les deux était, au départ, qu’il était possible de définir ses propres balises avec XML, mais pas avec HTML. Un comportement qui a été modifié en 2014 pour HTML avec les Web Components (en).
XML (eXtensible Markup Language) a été développé par un groupe de travail piloté par le W3C à partir de 1996, avec, comme président, Jon Bosak (en) de Sun Microsystems. Les objectifs, à sa sortie en 1998, étaient les suivants selon la Recommandation du W3C du 10 février 1998 :
- XML devrait pouvoir être utilisé sans difficulté sur Internet ;
- XML devrait soutenir une grande variété d’applications ;
- XML devra être compatible avec SGML ;
- Il devrait être facile d’écrire des programmes traitant les documents XML ;
- Le nombre d’options dans XML doit être réduit au minimum, idéalement à aucune ;
- Les documents XML devraient être lisibles par l’homme et raisonnablement clairs ;
- La conception de XML devrait être préparée rapidement ;
- La conception de XML sera formelle et concise ;
- Il devrait être facile de créer des documents XML ;
- La concision dans le balisage de XML est de peu d’importance.
Qu’en est-il aujourd’hui de ces principes ?
En fonction de la syntaxe XML du document, s’il est transmis avec le type MIME text/html, il est vu par les navigateurs comme un fichier HTML. En revanche, s’il est transmis avec un type XML MIME, il sera traité comme un document XML. Dans le deuxième cas de figure, des erreurs de syntaxe même mineures empêcheront un document étiqueté XML d’être correctement restitué alors qu’elles seraient ignorées dans la syntaxe HTML. L’objectif 1, n’est donc pas atteint et XML ne remplace définitivement pas HTML. En revanche, XML est effectivement très utilisé : outre les formats ODF et OOXML, c’est le langage sur lequel est basé le format SVG (Scalable Vector Graphics, ou, en français graphique vectoriel adaptable) et c’est le format de référence pour l’échange de données. Mais, pour ce qui est de la lisibilité du format par des yeux humains, elle n’est pas toujours au rendez-vous.
XML est maintenu par le W3C. La dernière version (en) porte le numéro 1.1, elle est sortie le 29 septembre 2006.
Langages de balisage léger
Les langages de balisage léger sont conçus pour être facile à utiliser avec un éditeur de texte. La syntaxe en est simple.
Le MarkDown, peut-être le plus connu d’entre eux, a été créé en 2004 par le programmeur américain John Gruber; aidé d’Aaron Swartz. Il n’a pas subi d’évolution importante depuis. En revanche, il en existe des variantes. John Gruber le définit comme :
un outil de conversion de texte en HTML destiné à la rédaction Web. Markdown vous permet d’écrire en utilisant un format de texte brut facile à lire et à écrire, puis de le convertir en XHTML (ou HTML) structurellement valide. Daring Fireball (en).
Pour en savoir plus sur la syntaxe MarkDown, on peut, très profitablement, se référer au wiki de LinuxFr.org.
Il en existe d’autres comme txt2tags créé en 2001 ou encore AsciiDoc (en) dont la première version date de 2002. Txt2tags (en) est un logiciel générateur de documents écrit en Python et qui utilise un langage de balisage léger comme source. Quant à AsciiDoc, il se veut un langage particulièrement adapté à la rédaction de documentations techniques. Il existe aussi le langage de balisage du CMS (gestion de contenu web) SPIP, né en 2001.
L’archivage et la conservation des textes
Il est ici, évidemment question des formats d’archivage des textes, avec ou sans images, tableaux, formules de mathématiques, etc. Avant d’aborder cette question : une définition s’impose. Il ne s’agit pas des formats dits d’archives de type .zip, .rar, .tar etc. Archiver les textes c’est, dans ce contexte, pouvoir les conserver et y accéder sans avoir besoin de l’application qui a servi à les générer. Et ce soit en conservant la mise en page d’origine, comme pour le PDF, soit en laissant à l’outil de lecture la main pour la mise en page. Chaque format a ses spécificités. Mais de toute façon :
un bon format de préservation, c’est un bon format tout court. Outils open source nombreux, métadonnées internes bien foutues, démarche collective de normalisation… Bertrand Caron, archiviste numérique à la BnF, janvier 2024.
EPUB
L’EPUB, pour Electronic PUBlication, est un format de document numérique qui n’est pas destiné à l’impression. L’une de ses spécificités est, notamment, de laisser à l’utilisatrice ou l’utilisateur le choix du rendu du fichier. Il existe, toutefois, un mode « fixed-layout » qui fige la mise en forme de l’EPUB. Ce mode a été conçu pour les publications qui nécessitent que la mise en page soit respectée, comme certaines publications scolaires. Mais cela réclame une mise en page adaptée aux tailles des écrans des appareils de lecture.
EPUB a succédé au format OeB (Open eBook). Au départ, géré par l’International Digital Publishing Forum (IDPF) qui sera intégré au W3C en 2017. La première version sort en 2007, suivie, en 2010 par l’EPUB2 et, en 2011, par l’EPUB3. Il a été très vite adopté. Aujourd’hui les deux versions coexistent, l’EPUB2 prédominant encore sur l’EPUB3. Le format est basé sur XML et sur HTML. Un fichier EPUB est un fichier zip qui contient plusieurs fichiers et répertoires dont un dossier META-INF
qui contient un fichier container.xml
, ce dossier n’apparait pas quand on génère un fichier à partir de Sigil d’ailleurs. Les fichiers de texte sont au format XHTML.
Qu’apporte l’EPUB3 par rapport à l’EPUB2 ? Les évolutions concernent principalement l’accessibilité et l’intégration de contenus audio ou vidéo. Ainsi les formules de mathématiques qui, en EPUB2 sont converties en images, donc illisibles sans yeux, sont gardées en tant que telles avec EPUB3. Les liseuses ne supportent pas forcément toutes les fonctions, notamment multimédias.
Il est possible d’y ajouter différents types de marquage ou de verrous : les DRM Adobe, chères et complexes, les DRM LCP, très pratiques pour le prêt des livres en bibliothèque ou encore des filigranes qui n’imposent aucune limitation aux EPUB. L’apposition d’une DRM a un EPUB est, en principe, une décision éditoriale. Il semble néanmoins que certaines librairies éprouvent le besoin d’en rajouter. Il convient donc d’être vigilant quand on achète un EPUB si on veut éviter d’avoir un livre avec une DRM. Le livre numérique représente 10,1 % du chiffre d’affaires de l’édition française en 2023, ce qui inclut les EPUB et les PDF.
La version la plus récente du format EPUB et l’EPUB3.3 sortie en mai 2023. Elle est devenue une Recommandation W3C (en).
L’objectif du format PDF a contrario de celui de l’EPUB est le respect de la mise en page du fichier qui a servi à le générer. De ce fait, il n’est pas très lisible sur une liseuse ou sur un téléphone.
La naissance du PDF remonte à 1991 et elle est due à John Warnock cofondateur d’Adobe. La première version de ce format est sortie en 1992. À l’époque c’était assez fou de pouvoir accéder à un fichier avec sa mise en page d’origine sans qu’il soit nécessaire d’avoir l’application qui avait servi à le générer. Il deviendra un standard ouvert géré par l’ISO en 2008, numéro ISO 32000.
En fait il n’existe pas un, mais plusieurs formats PDF dont :
- PDF/A pour l’archivage,
- PDF/E pour les documents techniques,
- PDF/X pour l’impression,
- PDF/UA pour l’accessibilité universelle,
- ou encore des formulaires FDF.
La version PDF/A-3 permet d’incorporer le fichier d’origine au PDF : dans l’export PDF de LibreOffice, cela s’appelle un PDF hybride. Cela donne un fichier qui pèse deux fois plus lourd, grosso modo, minus le poids des polices embarquées, que le PDF « simple ». Et, si on ouvre le PDF à partir de l’application qui a servi à le créer, ou si on clique sur « Cliquer pour les afficher » (ou équivalent) dans un lecteur de PDF qui le permet, ici Okular, on ouvre le fichier d’origine. Mais, évidemment, quand on le modifie ça ne modifie pas le PDF. Il faut soit générer un nouveau PDF soit l’écraser.
À savoir, il n’y a que quatorze polices standard PDF, en fait seulement cinq fontes différentes avec leurs variantes, gras, italiques : Courrier, Helvetica, Times Roman, Symbol et Zapf Dingbats. Il est donc très important, quand on génère un PDF d’incorporer les polices au fichier à condition que cela soit permis par la licence des polices. Pour ne pas alourdir le fichier, il est suggéré de n’incorporer que les polices utilisées dans le document. Avec LibreOffice, vous pouvez configurer cela soit en générant le PDF, soit, de préférence, la première fois que vous enregistrez le fichier, c’est dans l’onglet « Police » des propriétés dudit fichier. Si vous utilisez un modèle, la case peut avoir été cochée dans le modèle et il ne sera pas nécessaire de le faire.
Kurinto une histoire de chasses
La chasse, en typographie, est l’encombrement d’un caractère : largeur plus approche (espace autour). Pour un même corps de caractère (sa hauteur), elle peut varier selon les polices, ce qui, évidemment, peut changer, voire, chambouler, complètement un document créé avec une police et pour lequel on a changé la typographie. La collection de polices Kurinto (en) a été dessinée à la fois pour couvrir un large éventail de langues et de systèmes d’écriture et dans l’optique de pouvoir remplapcer les polices Microsoft avec des glyphes qui ont la même chasse.
Si vous cherchez des polices au dessin élégant pour remplacer des fontes comme le couple Arial/Times New Roman, avoir aussi des typographies à chasse fixe ou légèrement fantaisie, l’ensemble de polices Kurinto est un bon choix qui offre en prime une bonne cohérence entre les diverses polices. Elles sont sous licence SIL.
Les textes et documents qui ont servi à alimenter cette dépêche
Les références sont données à peu près dans leur ordre d’apparition dans le texte. Ils sont tous accessibles en ligne et, de préférence, en français. Volontairement, il y a un minimum de références à Wikipédia. Ce n’est pas tout à fait exhaustif, mais ça vous fera déjà pas mal de lecture. Par exemple, je n’ai pas cité le blog de Stéphane Bortzmeyer qui m’a bien servi à défricher le terrain.
Les formats matériels
- Sur les rouleaux notamment leur rangement. Le site Rotulus est consacré aux rouleaux médiévaux.
- Guide pratique du compositeur d’imprimerie, Théotiste Lefèvre, un guide considéré longtemps comme une, si pas LA, référence en matière de typographie et d’imprimerie. Paru en 1855, il fera l’objet de multiples éditions, les dernières en 2000. Aujourd’hui encore, ses pages sur la typographie peuvent servir de références. Théotiste Lefèvre était le fils d’un apprenti compositeur. Il commencera comme ouvrier en imprimerie pour devenir une figure clé du secteur. Sa fille deviendra correctrice. La version du guide donnée en téléchargement sur le site archive.org est d’assez mauvaise qualité. De toute façon, avec le texte brut ou la piètre qualité de la reconnaissance des caractères on perd absolument tout ce qui fait l’intérêt du livre qui donne beaucoup d’exemples.
- Sur les formats A. Le site donne les dimensions des feuilles de papier en centimètres et en pixels.
Les formats numériques (texte et archivage)
- Alignement, direction, sens du texte et Writer, avril 2024, pour retrouver la chronologie qui sert d’illustration et d’ossature à cette partie. Elle sert de base à un tutoriel qui vous permettra d’en refaire d’autres couplé à celui-ci.
- About US (en) et Membres d’OASIS (en), OASIS Open.
- Le standard ODF 1.3, OASIS, avril 2021. Il est également possible d’acheter la version 1.2 au prix de 215 CHF sur le site de l’ISO.
- OASIS Open Europe Foundation (en).
- Le langage SGML : vue d’ensemble et derniers progrès, George Charlebois, Flash Réseau, numéro 3, décembre 1994.
- Court historique du HTML, mars 2014.
- Spécifications HTML (en), WHATWG, juillet 2024.
- Fiches format BnF, des fiches qui sont vraiment bien faites et elles donnent une indication des volumes des formats dans les collections de la BnF.
- Document de politique de conversation BnF (pdf).
- Histoire de l’ebook #9 - L’EPUB devient le format standard, Marie Lebert, 23 juin 2021.
- PDF. Trois lettres qui continuent de changer le monde, Adobe.
- PDF hybride : LibreOffice, OpenOffice et PDF, JR Boulay, juin 2024.
La police
- Règles et usages de typographie française (pdf), Gérald Purnelle, Université de Liège, mai 2024.
Postambule
La prochaine dépêche de la série devrait être moins longue (pas difficile) et portera sur le code avant Unicode. Elle parlera donc aussi de football. Comme toujours, vos suggestions sont appréciées.
-
MOLINIER A. « Les manuscrits et les miniatures », BnF Gallica: Librairie Hachette, 1892. Disponible sur : BnF Gallica en PDF ou en texte brut. ↩
-
L’exemple est reproduit à partir du petit guide de Charles-Lucien Huard La Typographie. ↩
-
Pour rappel, un RFC (Request For Comments) est un document qui définit les normes techniques sur les lesquelles s’appuient le réseau Internet. ↩
-
ANDRÉ Jacques, « Caractères, codage et normalization. De Chappe à Unicode », Document numérique, 2002/3-4 (Vol. 6), p. 13-49. DOI : 10.3166/dn.6.3-4.13-49.. ↩
-
Les formats de texte, archives. ↩
-
À noter qu’OpenOffice, compte tenu de son absence d’évolution ne supporte pas la norme ODF 1.3. ↩
-
Pour tout dire, mon gestionnaire d’archives Engrampa est incapable d’ouvrir un fichier .docx et l’explication du site, qui n’est pas un site officiel, me semble très touffue. ↩
-
Littéralement : « set of macros to let you do many things ».What is the difference between TeX and LaTeX? (en). ↩
-
Langage de balisage extensible (XML) 1.0, Recommandation du W3C, 10 février 1998. ↩
Aller plus loin
- L’écriture et l’image, des âges farouches au texte électronique (19 clics)
- Comment écrit-on les systèmes d’écriture aujourd’hui ? (23 clics)
- Où il est question de conservation (14 clics)
- Des histoires de caractères (19 clics)
- Ysabeau, un chouette caractère (36 clics)
# Ami Pro
Posté par vmagnin (site web personnel) . Évalué à 4. Dernière modification le 15 juillet 2024 à 14:58.
Beau travail !
L'archivage des textes, c'est important. Qui se souvient d'Ami Pro ? Je m'en servais au début des années 90. Les logiciels actuels ne lisent plus ce format. Il faudrait que je vois si on peut réussir à faire fonctionner une version téléchargeable depuis le lien cité plus haut en l'installant dans WineHQ…
[^] # Re: Ami Pro
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 8.
Ah ! L'informatique actuelle repose sur un vaste cimetière de logiciels et des formats morts, oubliés ou abandonnés.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Ami Pro
Posté par ǝpɐןƃu∀ nǝıɥʇʇɐW-ǝɹɹǝıԀ (site web personnel) . Évalué à 5.
Il me semble que ce soit un point critique un peu éludé, ou pas vraiment dans l'axe de la dépêche, en tout cas qui mérite d'être souligné : autour des années 90 les formats privateurs faisaient florès, chaque grand groupe informatique comptant sur l'incurie des décideurs et l'ignorance des utilisateurs proposait son ou ses formats qu'il faut bien qualifier de privateurs, proposant occasionnellement des fonctionnalités innovantes, mais surtout capturant les données des utilisateurs.
Une guéguerre qui semble actuellement mise en sourdine, mais qui me semble persister à l'état larvaire. Il me semble par exemple me souvenir qu'en 2008 lors de la standardisation d'OOXML, d'aucuns s'étaient insurgés de voir le standard préciser que MS se réservait le droit exclusif d'insérer n'importe quel blob non documenté dans ce format prétendument ouvert… Les hostilités pourraient donc parfaitement reprendre si l'effort de standardisation autour d'ODF venait à faiblir.
« IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace
[^] # Re: Ami Pro
Posté par vmagnin (site web personnel) . Évalué à 6.
L'ouverture des formats bureautiques a été une grande bataille dans les années 2000, et l'Europe a joué un rôle important :
https://fr.wikipedia.org/wiki/OpenDocument#Union_europ%C3%A9enne
Les États et administrations doivent souvent conserver des documents à l'échelle d'une vie humaine (acte de naissance par exemple) ou à l'échelle des siècles. Donc un format propriétaire d'une entreprise à la durée de vie inconnue n'est pas acceptable.
# Une dépêche de quallité
Posté par Sébastien Rohaut . Évalué à 5. Dernière modification le 15 juillet 2024 à 15:44.
Merci Ysabeau pour cette superbe dépêche.
A la vue de la complexité des formats récents, ce sera pourtant probablement le seul "format" qui restera lisible à n'importe quelle époque.
[^] # Re: Une dépêche de quallité
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Oui mais tu perds la structure et les images notamment, et même probablement les formules de math (là je m'avance peut-être). Et je ne parle même pas de la mise en forme. Cela dit, avec des formats réellement ouverts, plus des protocoles d'archivage et des gestion des documents (faudra que j'en parle, mais c'est un domaine que je ne connais pas vraiment) ouverts eux aussi, les spécifications seront là pour que les fichiers soient lisibles.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Une dépêche de quallité
Posté par vmagnin (site web personnel) . Évalué à 4. Dernière modification le 15 juillet 2024 à 18:51.
Oui, et on peut utiliser plusieurs formats pour être sûr : par exemple, conserver un fichier texte + un fichier PDF/A.
Mes fichiers txt sur des disquettes des années 80 sont encore lisibles. Après il y a le formatage des disquettes. Pas de problème avec les disquettes PC. Pour les autres, par exemple Atari ST, on peut utiliser une carte Greaseweazle :
https://github.com/keirf/greaseweazle
L'informatique à l'échelle d'une vie humaine, c'est redoutable… Dans la passion du moment, on a vraiment du mal à imaginer les décennies à venir, que ce soit au niveau matériel ou logiciel…
# ooxml...
Posté par BAud (site web personnel) . Évalué à 3.
c'est Office Open XML pour OOXML à ne pas confondre avec OpenOffice.org XML qui a permis d'aboutir à OpenDocument
[^] # Re: ooxml...
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Oui c'est écrit :
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: ooxml...
Posté par BAud (site web personnel) . Évalué à 4.
je faisais allusion à la petite coquille
ce qui ne remet pas en cause la qualité de la dépêche ;-)
[^] # Re: ooxml...
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 4.
Ah merci, fait être précis dans ce cas là. Corrigé.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: ooxml...
Posté par BAud (site web personnel) . Évalué à 4.
oh bah, c'est pas comme si Microsoft avait tenté d'entretenir la confusion…
ah bah si /o\ que ce soit le fast-track avec la complicité de l'ECMA pour en faire un format ISO, qu'ils ne savent que peu respecter dans leurs produits, compliquant l'interopérabilité soi-disant affichée :/
# Poids de Kurinto
Posté par alberic89 🐧 . Évalué à 3.
Kurinto a l'air vraiment chouette.
Mais son poids !!! 3,1 Giga octets !!!
Je comprends mieux l'utilité de la version lite.
L'informatique n'est pas une science exacte, on n'est jamais à l'abri d'un succès
[^] # Re: Poids de Kurinto
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 5. Dernière modification le 15 juillet 2024 à 18:15.
Parce que la collection est très complète en termes de variantes de polices et en termes de systèmes d'écriture. Donc forcément ça a un prix, enfin un poids :-)
L'illustration verticale à droite de la page d'accueil du site de Kurinto est le mot Kurinto écrit dans tous les systèmes d'écritures dans lesquels elle existe. Pour illustrer la dépêche, je n'ai repris que les variantes alphabet latin. Le manuel de Kurinto vaut la peine d'être lu, même s'il est "orienté Word".
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
# Halta à la désinformation !
Posté par Tonton Th (Mastodon) . Évalué à 7.
Ce n'est pas le grand ancien du tout, bien avant lui il y a un langage de balisage qui est toujours d'actualité, puisqu'il sert à écrire les pages de man.
je cite wikipédia : « L'ancêtre de la série des roff est le programme
runoff
qui fut conçu en 1961 », et l'article en anglais sur troff peut vous en apprendre un peu plus sur le sujet.[^] # Re: Halta à la désinformation !
Posté par barmic 🦦 . Évalué à 5.
Le tag en question pourra aussi en dire troff
Notamment redécouverte : roff et utroff : la renaissance de troff
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Halta à la désinformation !
Posté par ǝpɐןƃu∀ nǝıɥʇʇɐW-ǝɹɹǝıԀ (site web personnel) . Évalué à 4.
Pareillement, au rang des petites omissions on pourra mentionner le postscript, en tant que précurseur relativement bien standardisé de PDF.
Malgré le caractère soigné de cette dépêche, il semble peut réaliste d'espérer l’exhaustivité sur le sujet. On a les grandes lignes ; et les commentaires pour discuter de ce qui vient entre elles.
« IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace
[^] # Re: Halta à la désinformation !
Posté par barmic 🦦 . Évalué à 2.
Tout à fait il n'y a pas le DjVu par exemple pour apporter ma pierre à l'édifice des non nommés.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Halta à la désinformation !
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Le préambule me semblait pourtant bien clair !
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Halta à la désinformation !
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Grand ancien ça veut pas dire le plus vieux !
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Halta à la désinformation !
Posté par barmic 🦦 . Évalué à 1.
La phrase laisse penser que c'est simplement lié à son age.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Halta à la désinformation !
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 4.
Oui mais ça ne veut pas forcément dire que c'est le plus vieux. En outre, j'ai bien précisé qu'il s'agit des plus connus ou des plus utilisés.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Halta à la désinformation !
Posté par Benoît Sibaud (site web personnel) . Évalué à 4.
Par contre ça fait peur les Grands Anciens.
[^] # Re: Halta à la désinformation !
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Ouais, c'était la référence :-)
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Halta à la désinformation !
Posté par Pol' uX (site web personnel) . Évalué à 0.
surtout s'ils se regroupent dans un Grand Old Party.
Adhérer à l'April, ça vous tente ?
[^] # Re: Halta à la désinformation !
Posté par Christophe Discours (site web personnel) . Évalué à 3.
Excellent article d'Ysabeau (même si le titre "Une histoire de formats : il n’y a pas que la taille qui compte" me laissait craindre le pire…).
Mais néanmoins il y a une impasse sur certains formats qui ont été dominants à une certaine époque : TeX et LaTex, mais aussi roff et ses rejetons troff et nroff qui restent utilisés pour le formatage des man Unix, mais surtout Postscript qui est l’ancêtre de PDF et qui était utilisé en natif par certaines imprimantes laser. Le Postscript est un langage développé par Adobe qui est en fait un langage de programmation qui comme son nom l'indique est postfixé, c'est à dire qu'une opération est constituée de opérande1 opérande2 opération, ce qui est inspiré du langage Forth.
Même si le langage est très orienté sur la production d'un document imprimé (et sa fameuse commande "showpage") ça reste un réel langage de programmation et je me rappelle d'un code que j'avais récupéré et qui dessinait des fractales avec la profondeur qu'on voulait avec un paramêtre et que j'avais envoyé à l’imprimante. Au bout d'un certain temps il y a un collègue qui est venu me dire : "mais en fait ton impression elle est bloqué, il faut la supprimmer…". Au bout de longue minutes mon impression est sortie (en fait c'est l'imprimante qui a fait tout le calcul).
[^] # Re: Halta à la désinformation !
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 4.
J'ignorais complètement l'existence de roff et autres. Ça c'est la premier point, et compte tenu de l'angle de la dépêche (grand public plutôt), je ne suis pas convaincue que la nécessité d'en parler. En outre si on commence comme ça, il y aura des remarques "ah mais oui mais il n'y a pas tel langage pour LaTeX". Il faudrait sans doute faire un truc spécifique pour LaTeX, mais bon.
Concernant le Postscript, j'ai complètement shunté. Et, effectivement c'est peut-être dommage (bien que le format ne soit plus guère utilisé).
Pour le titre, tu t'attendais à quoi à part le pire ?
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Halta à la désinformation !
Posté par Christophe Discours (site web personnel) . Évalué à 1.
Pour le titre c'est la partie "il n'y a pas que la taille qui compte" mais bon tu es excusée /o/
Pour le roff/troff/nroff je rappelle que c'est le standard pour les man Unix, donc Linux (il me semble que ce site est basé sur ce système…). Dernièrement j'ai du débugguer du code ADA sur un PC avec un OS Oracle (un Red Hat en fait…) avec interdiction d'avoir accès à Internet (défense nationale, etc.) donc j'étais bien content d'avoir accès aux man…
Pour le Postscript il a effectivement été éclipsé par le PDF (mais j'ai toujours 2 bouquins sur le Postscript dans ma bibliothèque…). Il est néanmoins toujours supporté dans les drivers Linux des différentes imprimantes du marché, ce qui me permet de balancer des vieux codes Postscript de plus de 30 ans dans mon imprimante multifonction HP…
# XML et XHTML
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 3.
Il me semble qu'il y a un peu de confusion entre XML et XHTML. Le XHTML reprend les balises et le fonctionnement général de HTML, mais est implémenté en XML, avec une syntaxe plus stricte (mais plus facile à traiter pour les ordinateurs). Le format XML est beaucoup plus générique, et utilisé pour beaucoup d'autres choses (pas nécessairement du texte) avec des balises différentes. On peut citer par exemple Docbook, un format basé sur XML mais qui ne ressemble pas du tout à du HTML, et conçu pour écrire des livres (avec des notions oe chapitres, sections, paragraphes, …).
[^] # Re: XML et XHTML
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Je ne vois pas où est la confusion.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: XML et XHTML
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 3.
Surtout ici je crois (mais ça m'a mis en tête une confusion entre les deux et peut-être que j'ai sur-interprété pour la suite du paragraphe):
Les balises en commun sont dans XHTML. Dans XML, il n'y a que la syntaxe qui est en commun (les <> et </>), mais pas les balises elle-mêmes (h1, strong, p, img, …).
Ça laisse penser que le fonctionnement est identique dans les 2 cas, ce qui est vrai seulement si le document en question est du XHTML.
Dans le cas contraire, le navigateur web ne saura pas quoi en faire, sauf si le document contient une feuille de style XSLT contenant des instructions pour le convertir en XHTML.
Rien d'incorrect au final dans ce paragraphe là-dessus, mais avec la phrase précédente, j'ai eu l'impression que ça parlait plus de XHTML que de XML.
Et j'ai aussi un autre problème avec ce paragraphe (mais c'est un point technique pas forcément intéressant). La différence entre HTML et XML n'est pas vraiment que HTML ignore des erreurs, mais plutôt que le format HTML est conçu pour qu'il n'y ait pas d'erreurs. Même si on écrit "n'importe quoi", le comportement du navigateur est précisément spécifié et la page pourra s'afficher en entier, et de façon prédictible. Ce ne sont donc pas vraiment des erreurs de syntaxe, mais une syntaxe plus tolérante qui accepte toutes les possibilités, là ou en XML, certaines choses sont interdites et débouchent sur une erreur et un arrêt du traitement.
[^] # Re: XML et XHTML
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
J'ai corrigé sur l'aspect tronc commun. Mais pour le reste, si c'est techniquement correct, et je n'ai pas inventé, je ne vois pas de nécessité à modifier. Et ça ne parlait pas de XHTML.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: XML et XHTML
Posté par barmic 🦦 . Évalué à 2.
C'est probablement pas si simple parce qu'IE est passé par là mais dans la logique :
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: XML et XHTML
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 2. Dernière modification le 18 juillet 2024 à 09:38.
Et là (dans la dépêche) ça explique que si XML se déguise en HTML (en gros), ça passe, sinon non.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: XML et XHTML
Posté par barmic 🦦 . Évalué à 2.
Tiens au passage en relisant
Depuis que les Web Components ont était introduit en 2014, il est tout à fait possible d'avoir des balises personnalisées en HTML.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: XML et XHTML
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3. Dernière modification le 18 juillet 2024 à 15:20.
Merci, j'ai modifié en ce sens. Et en fait, je ne crois pas avoir vu ça quelque part. Comme quoi les habitudes ont la vie dure.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
# Contribution sur les formats xml
Posté par Tb_ . Évalué à 2.
Pour apporter également un petit caillou et enrichir l'article sur les divers format xml utilisé dans le domaine à la publication.
Dita dédié à la publication documentaire
MathML dédié aux représentations scientifiques
[^] # Re: Contribution sur les formats xml
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
J'avais pensé à parler de Dita mais j'ai oublié et je crois bien qu'il s'inscrit plutôt dans le type de langage ou de spécification de gestion et de restitution de documents. Pour MathML je n'y ai pas pensé en effet. Il serait peut-être utile de consacrer tout un chapitre au traitement des maths justement.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Contribution sur les formats xml
Posté par Tb_ . Évalué à 1.
Selon moi, sur la forme Dita est un cousin de Docbook.
Parcontre, il s’emploie idéalement dans un CMS (Content Management System) dans le quel un document est une composition de paragraphe que l'on vient sélectionner et agencer selon une configuration qui dépend du type de document que l'on veut faire : résumé, notice, notice détaillé etc …
# Format Typst
Posté par Sytoka Modon (site web personnel) . Évalué à 4.
Typst est un nouveau format / formateur de texte dans la logique de TeX. Il a pour objectif d'être complet et plus simple que le couple TeX/LaTeX.
https://github.com/typst/typst
# Petites précisions sur les formats de pages A*
Posté par Joël Thieffry (site web personnel) . Évalué à 4.
La définition de A0 est un rectangle de 1m², mais il en existe une (quasi-)infinité ! Il faut compléter avec : le rapport entre la longueur et la largeur vaut la racine carré de 2.
Autre chose, quand on descend dans les tailles (A0 → A1 → A2), on s'aperçoit que l'on commence à perdre des millimètres lors de la pliure en deux : c'est pour prendre en compte l'épaisseur de la pliure du papier.
Encore merci pour cette dépêche rafraîchissante !
[^] # Re: Petites précisions sur les formats de pages A*
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 5.
Merci.
Oui j'ai vu que la formule était (nettement) plus compliquée que ça :-) mais que l'explication "simple" tient la route sans être fausse.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
# Balises, macros et traitement de texte
Posté par HubTou (site web personnel) . Évalué à 7.
Merci Ysabeau pour ce billet.
Quelques commentaires de vieux schnock :
TeX, LaTeX et leurs prédécesseurs Roff, Nroff et Troff, auraient mérité une catégorie distincte de celle des langages de balisage : les langages de macros.
La différence entre les deux, c'est qu'il ne s'agit justement pas toujours de "définir et structurer les informations dans un document", bien souvent encadrées dans les dialectes de Markup Languages par une balise d'ouverture et de fermeture, mais de mêler le contenu du document avec des macros appelant des commandes plus ou moins complexes (parfois des programmes à part entière).
On avait donc un mélange du contenu et de programmes (macros), mais effectivement l'idée de LaTeX était de ne pas se préoccuper du rendu et de laisser faire le système pour obtenir un résultat professionnel et homogène.
On a eu la même transition de la présentation à la sémantique pour les langages de formattage de pages de manuel Unix de mandoc à mdoc.
On est en tout cas encore loin d'une séparation complète du contenu et de la forme !
Alors tout au contraire, c'était LE traitement de texte au sens étymologique du terme ("word processor" en VO), puisque le contenu mêlé de macros devait être interprété ou compilé pour produire un résultat adapté au support de sortie et plus riche en possibilités que le terminal texte de départ.
Comme souvent, cette expression a ensuite été complètement dévoyée pour désigner des logiciels où le seul processeur de traitement était l'utilisateur lui-même, qui devait faire tout le boulot de mise en page !!!
On a vu cela en de multiples occasions :
Ca n'a rien d'officiel, mais j'aimais bien l'acronyme un temps proposé pour traduire WYSIWYG en bon français : PETALE (Présenté à l'Ecran Tel qu'A L'Ecrit) :-)
Voilà.
Si quelqu'un veut des compléments d'information sur l'histoire des utilitaires de préparation documentaire sous Unix et ce que l'on appelle en France la "documentation automatique", j'ai pas mal abordé ces sujets dans un article sur Les dictionnaires sous Unix.
[^] # Re: Balises, macros et traitement de texte
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Je me suis posée la question d'un autre côté, il n'était pas dans mon intention de m'étaler sur LaTeX. D'où aussi a formule "d'écosystème" qui permet de ne pas réduire TeX et avatars à un seul langage de balisage.
Alors que c'est complètement le cas du format ODF puisque la mise en en forme repose sur les styles (faut juste les utiliser ce qui est très simple).
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Balises, macros et traitement de texte
Posté par Pol' uX (site web personnel) . Évalué à 2.
Personnellement j'ai du mal à qualifier LaTeX (et a fortiori encore moins TeX) de format, ce qui justifie pleinement qu'il ne soit pas développé dans cette dépêche (bien que mentionné car relativement incontournable dans certaines communautés).
Adhérer à l'April, ça vous tente ?
# et roff boudiou ?
Posté par Ben (site web personnel) . Évalué à 1.
Il y a un temps, on écrivait les pages de manuel avec roff. on pouvait avoir avec ça une jolie sortie Postscript aussi, notamment pour les symboles mathématiques. C'était avant TeX et ça marchait déjà pas mal du tout pour les manuels de math, démonstrations etc…
Aussi, petit commentaire à part: à propos de RTF, de mémoire, PDF n'existait pas à l'époque de la création de RTF. Postscript était à son âge d'or.
Tout homme qui dirige, qui fait quelque chose, a contre lui ceux qui voudraient faire la même chose, ceux qui font précisément le contraire, et surtout la grande armée des gens d'autant plus sévères qu'ils ne font rien du tout. -- Jules Claretie
[^] # Re: et roff boudiou ?
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
J'ai effectivement corrigé la rédaction sur cette histoire de PDF et de RTF.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
# RTF est vivant!
Posté par Pascal Greliche (site web personnel) . Évalué à 1.
Il n'y a pas que Microsoft dans l'histoire de RTF. Apple par exemple l'utilise depuis un bon moment et l'utilise toujours. Ils ont même créé (NextStep) le rtfd pour pouvoir inclure des images et autres éléments multi-média. C'est le format par défaut de TextEdit, y compris dans les dernières versions de MacOS aujourd'hui en 2024.
Non RTF n'est pas mort!
[^] # Re: RTF est vivant!
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
La variante RTF de Microsoft est un format mort, et c'est vraiment important :-). Mais j'ai corrigé la dépêche pour ajouter cette remarque.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
# Et EBCDIC ?
Posté par PhRæD . Évalué à 1. Dernière modification le 12 août 2024 à 17:40.
Dommage de ne pas avoir cité le vénérable EBCDIC, format dans lequel est stocké l’immense majorité du code et des données hébergées sous z/OS, ce qui représente vraisemblablement des tas de péta-octets (voire même peut-être bien plus) de données.
[edit] Bon en fait, ça n’est pas un format…
« Y a même des gens qui ont l’air vivant, mais ils sont morts depuis longtemps ! »
[^] # Re: Et EBCDIC ?
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Voilà, ce n'est pas un format. Et un grand merci pour le commentaire parce que je crois bien que je vais ajouter ça à la prochaine dépêche du Transimpressux qui va porter sur le code (donc le code des lettres).
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Et EBCDIC ?
Posté par PhRæD . Évalué à 1. Dernière modification le 13 août 2024 à 20:37.
En y réfléchissant, à ma connaissance, z/OS ne propose aucun « format ». Je ne l’avais jamais réalisé jusqu’à présent.
« Y a même des gens qui ont l’air vivant, mais ils sont morts depuis longtemps ! »
[^] # Re: Et EBCDIC ?
Posté par PhRæD . Évalué à 1. Dernière modification le 13 août 2024 à 20:40.
Je pense qu’il sera intéressant d’évoquer le code page, qui représente les « saveurs » d’un encodage.
« Y a même des gens qui ont l’air vivant, mais ils sont morts depuis longtemps ! »
[^] # Re: Et EBCDIC ?
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Faut juste que je sache où trouver de l'info dessus.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Et EBCDIC ?
Posté par PhRæD . Évalué à 1.
Il y a déjà pas mal de chose dans Wikipédia.
« Y a même des gens qui ont l’air vivant, mais ils sont morts depuis longtemps ! »
[^] # Re: Et EBCDIC ?
Posté par Pol' uX (site web personnel) . Évalué à 2.
Si tu veux de l'exotisme, il y a aussi le Cork. :)
Adhérer à l'April, ça vous tente ?
[^] # Re: Et EBCDIC ?
Posté par Ysabeau 🧶 (site web personnel, Mastodon) . Évalué à 3.
Merci. Je crains que la dépêche sur l'encodage des caractères avant Unicode ne soit, finalement, aussi longue que celle-ci.
« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
[^] # Re: Et EBCDIC ?
Posté par Pol' uX (site web personnel) . Évalué à 4.
Le charset ma tué.
Adhérer à l'April, ça vous tente ?
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.