LinuxFr.org : les contenus étiquetés avec « ocaml »

Why I love OCaml

2025-11-16T18:12:28+01:00

https://mccd.space/posts/ocaml-the-worlds-best/

Commentaires : voir le flux Atom ouvrir dans le navigateur

Elpe, un compromis entre NixOS et Ubuntu

2025-06-10T11:49:04+02:00

Je travaille depuis quelque temps sur Elpe, un projet qui vise à obtenir les bonnes propriétés de Nix/NixOS (les mises à jour atomiques, la reproductibilité), mais avec des paquets Ubuntu.

Le code : https://nest.pijul.com/pmeunier/elpe

L'idée est de définir des recettes de compilation en OCaml et de les envoyer à un backend Rust, qui se charge de les exécuter dans un conteneur sans réseau, en exposant uniquement le contexte nécessaire à la bonne exécution de la compilation. Les produits du build sont indexés par le contenu de la recette du build, et indexés une deuxième fois par le résultat : c'est ce deuxième hash qui est utilisé dans les dépendants du paquet, ce qui permet de construire un arbre de Merkle du système complet (et non seulement de ses sources), qui rend toute modification ultérieure facilement détectable.

De plus, le système de base provient des dépôts de paquet Debian ou Ubuntu. Cependant, tous les chemins sont hard-codés (comme dans Nix), ce qui permet de garantir la reproductibilité, au détriment toutefois du coût de mise à jour en termes d'espace et opérations disque.

lien nᵒ 1 : Le code
lien nᵒ 2 : L'annonce

Si le choix de Rust devient relativement consensuel par les temps qui courent, OCaml est plus surprenant. Après divers essais avec plusieurs langages, je l'ai choisi parce que c'est le seul langage avec à la fois :

Une bonne approximation du système de types dont j'avais besoin: typage nominal et aussi structurel, entre autres.
Un système de types relativement simple (pas de typeclasses ni de monades comme en Haskell, de borrow checkers comme en Rust ni de types dépendants comme en TypeScript).
Du late binding, nécessaire pour exprimer des "overrides" et des "hooks", courants quand on veut compiler des choses (autoconf et make ont plein d'options de ce type, par exemple).
Un compilateur ultra-rapide.
Un bytecode, pour (dans le futur) contrôler aussi l'isolation du code de build de façon très légère.

La simplicité et l'expressivité d'OCaml sont bien adaptés à ce projet: les fonctions simples à concevoir y sont relativement claires à énoncer.

Pourquoi pas NixOS, me direz-vous ? En tant qu'utilisateur et contributeur depuis environ 10 ans, un certain nombre de problèmes plus ou moins récents m'ont motivé à explorer une alternative:

En termes de gouvernance, la communauté a traversé dans la dernière année plusieurs crises de différentes tailles (Anduril, Devenv…). On pourrait y voir un signe de maturation ou au moins de croissance du projet, mais plusieurs éléments me permettent d'en douter, dont les réactions répétées de la fondation Nix, qui semble avoir beaucoup de mal à comprendre les messages pourtant clairs des contributeurs.
Je vois aussi les choix de design imposés par les fondateurs du projet depuis quelques années comme un bien mauvais signe: les flakes (en 2020) étaient une première incarnation de cette tendance, et plus récemment la "distribution propriétaire" de Nix est clairement une mauvaise idée, alors que la qualité de code de Nix n'est pas au niveau où on l'attendrait et que le gros du projet repose depuis plusieurs années sur le travail pharaonique des contributeurs de Nixpkgs.
On pourrait parler longtemps de la sécurité de Nix, qui me fait de plus en plus peur y compris pour mon usage personnel. Les process de gestion des rapports ne me conviennent pas, de même que l'opacité de certains choix techniques (les flags de compilation désactivés sur certaines plateformes, entre autres), souvent bien cachés dans les entrailles de Nixpkgs.
Enfin, le langage trop complexe à utiliser (principalement par manque de typage statique et de messages d'erreurs pertinents) rend Nix difficile à utiliser au sein d'une organisation d'une taille importante, et encourage les comportements peu inclusifs (éviter d'écrire de la doc, inventer des casse-têtes pour faire des choses simples…). Je suis bien sûr conscient que des entreprises (comme Anduril) et des ONGs (comme Médecins Sans Frontières) l'utilisent, mais je ne pense pas que ce soit généralisable aux situations où j'aimerais voir ce genre de projet utilisé.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Annonce de Godotcaml pour Godot 4.2

2024-07-16T20:23:27+02:00

https://fizzixnerd.com/blog/2024-06-24-announcing-godotcaml/

Commentaires : voir le flux Atom ouvrir dans le navigateur

autocsv2sql : un utilitaire pour convertir ses CSV sans se poser de question, "écris" en OCaml

2024-03-13T22:51:17+01:00

Cher Journal,

J'ai probablement mal cherché dans les tréfonds de l'internet, mais je rêvais depuis longtemps d'un bête utilitaire en CLI pour me convertir un CSV en SQL sans me poser de question, ie. je lui donne le fichier et il se débrouille avec les types de données, l'ordre de création de table.

C'est maintenant chose faite avec autocsv2sql, un utilitaire que j'ai "écris" en OCaml, et qui fait globalement bien le taf pour la 20aine de CSV que j'ai testé.

Alors quand je dis "écris", vous aurez compris qu'un LLM m'a beaucoup aidé à l'écrire, eh oui, je suis maintenant trop une fainéasse pour me lancer là dedans sans, et j'avoue que c'est le meilleur outil anti-procrastination que je connaisse.

Alors pour l'anecdote, il n'a évidemment pas été fichu d'écrire du code qui fonctionne, j'ai du lui décrire intégralement la fonction analyze_data_lines - et encore, j'ai du passer derrière - pour avoir une définition correcte. Deux tiers du temps a été consacré à corriger des bugs, bidouiller pour solutionner des problèmes comme le nombre de ligne et surtout gérer le ; à la place du , à la fin d'une clause INSERT.
Les Inserts sont générés par blocs de 1000 lignes pour éviter des temps de chargement interminables

Les vrais camélistes seront sans doute horrifiés devant la qualité du code : il est très impératif. En utilisant la librairie batteries, on pourrait sans doute écrire tout cela de façon bien plus élégante. Le LLM a tendance a peu utiliser les pattern match.

Vous me direz sans doute que cela existe en Python ou autre langage non compilé, mais l'intérêt avec OCaml, c'est qu'on compile, et ça ne se met pas à tomber en panne 6 mois plus tard parce que la lib pymachin est passée de la 3.1.6 à la 3.1.7

Voilà, en espérant que ça aide.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

ACM Programming Languages Software Award goes to OCaml researchers

2023-06-21T15:22:03+02:00

https://www.cst.cam.ac.uk/news/acm-programming-languages-software-award-goes-ocaml-researchers

Commentaires : voir le flux Atom ouvrir dans le navigateur

[podcast] For those who just don’t Git it (interview with Pierre-Étienne Meunier)

2023-06-05T05:52:52+02:00

https://stackoverflow.blog/2023/05/23/for-those-who-just-dont-git-it-ep-573/

Commentaires : voir le flux Atom ouvrir dans le navigateur

De OCaml à ReScript : création d'un nouveau langage ?

2022-02-01T19:40:19+01:00

Depuis toujours, le compilateur propose deux manières pour générer un programme exécutable à partir d’un code source OCaml : produire un programme binaire (dépendant de l’architecture donc) ou un byte code qui peut être réutilisé sur n’importe quelle plateforme.

Il y a dix ans, le projet js_of_ocaml apparaissait, permettant de transformer ce bytecode (que pratiquement personne n’utilise) en code JavaScript. Ce projet a ouvert une porte dans l’univers web, puisqu’il permet d’utiliser la force du langage OCaml (typage, réutilisation des bibliothèques existantes) directement dans le navigateur. Il devient possible de contrôler un formulaire saisi par l’utilisateur dans le navigateur, ou sur le serveur avec le même code : il suffit d’inclure la même bibliothèque dans la chaîne de compilation JavaScript et dans la chaîne de compilation du serveur.

lien nᵒ 1 : Js_of_ocaml , manuel
lien nᵒ 2 : Test en ligne
lien nᵒ 3 : Annonce de la naissance de Bucklescript
lien nᵒ 4 : Rescript

Le problème du projet js_of_ocaml vient du fait qu’il se nourrit du bytecode généré par ocaml : le code JavaScript qu’il produit est un code binaire qui n’est pas destiné à être lu ou modifié. Il faut faire confiance à la chaîne de compilation qui garantit que le code qui s’exécute est bien celui correspondant au code source. De plus, étant donné que l’on passe par du bytecode, le code suit la représentation mémoire utilisée par OCaml. Une liste chaînée par exemple, est représentée en JavaScript avec la même structure qu’elle le serait en C, alors que des types natifs JavaScript auraient pu être utilisés.

Bucklescript

C’est dans ce contexte qu’apparaît en 2016 Bucklescript (EN). Ce projet, propose d’utiliser le compilateur OCaml pour générer du code JavaScript natif. Il ne s’agit plus cette fois de transformer du bytecode en code JavaScript, mais de prendre le code source, pour l’adapter directement, avec toutes les optimisations possibles.

Le code suivant (exemple tiré depuis l'outil de test en ligne (EN) :

let rec hanoi n a b c =
  if n > 0
  then
    (hanoi (n - 1) a c b;
     Js.log {j|Move disk from pole $a to pole $b|j};
     hanoi (n - 1) c b a)
let _ = hanoi 4 1 2 3

est dès lors transformé en ce code JavaScript :

// Generated by BUCKLESCRIPT, PLEASE EDIT WITH CARE
'use strict';


function hanoi(_n, _a, b, _c) {
  while(true) {
    var c = _c;
    var a = _a;
    var n = _n;
    if (n <= 0) {
      return ;
    }
    hanoi(n - 1 | 0, a, c, b);
    console.log("Move disk from pole " + a + " to pole " + b);
    _c = a;
    _a = c;
    _n = n - 1 | 0;
    continue ;
  };
}

hanoi(4, 1, 2, 3);

exports.hanoi = hanoi;
/*  Not a pure module */

Le projet, soutenu par Facebook, s’accompagne également d’une nouvelle syntaxe, Reason (EN), qui a pour but de faciliter l’accès au langage et d’éviter la difficulté d’accès liée à OCaml. Ce langage/projet prend pied dans le monde JavaScript, est compatible avec npm pour gérer les paquets, et grâce à la force du langage OCaml, permet d’unifier deux univers différents. On assiste à des projets tels que revery (EN), qui permet d’écrire des applications lourdes (avec SDL) ou web à partir d’un code unique, et comme le langage n’est qu’une couche syntaxique au langage OCaml, apporte également de la visibilité au langage.

Sauf que cette compilation au plus près des sources a un prix : celle de hacker le compilateur OCaml, et d’être dépendant d’une version donnée. Les versions d’OCaml évoluent, mais le code de bucklescript reste figé sur une version datant de 2017 (4.06), sans bénéficier des dernières avancées. De plus, la syntaxe Reason est mise en avant, OCaml étant présenté comme syntaxe alternative. Au final, il y a assez peu de porosité entre ces deux univers : le gestionnaire de paquet opam reste le gestionnaire officiel pour OCaml, esy (EN) et npm sont utilisables avec Reason, et bien que quelques passerelles existent, les deux univers coexistent l’un à côté de l’autre sans réellement fusionner.

ReScript

En 2020, Bucklescript et Reason deviennent ReScript. Derrière ce changement de nom se cache également un changement de direction : OCaml n’est plus présenté comme syntaxe alternative — même s’il est toujours utilisé dans la chaîne de compilation, le monde JavaScript seul est pleinement assumé. On peut supposer que nous sommes en train d’assister à la naissance d’un nouveau langage qui prend son envol à partir d’OCaml (comme F# l’a fait également en son temps, passant d’un simple backend .NET pour OCaml à un langage indépendant et intéressant). Même si l’on peut regretter une dispersion dans les ressources, souhaitons bonne chance à ReScript !

N. D. M. : le compilateur est sous LGPLv3 avec exception pour les liens et la documentation du langage sous MIT.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Multicore OCaml: December 2021 and the Big PR

2022-01-12T10:28:46+01:00

https://alan.petitepomme.net/cwn/2022.01.11.html#4

Commentaires : voir le flux Atom ouvrir dans le navigateur

🏆 Meilleures contributions LinuxFr.org : les primées de décembre 2021

2022-01-10T06:59:12+01:00

Nous continuons sur notre lancée de récompenser celles et ceux qui chaque mois contribuent au site LinuxFr.org (dépêches, commentaires, logo, journaux, correctifs, etc.). Vous n’êtes pas sans risquer de gagner un livre des éditions Eyrolles ou ENI. Voici les gagnants du mois de décembre 2021 :

Papey, pour sa dépêche « L'ONG Noyb porte plainte pour corruption contre la CNIL irlandaise » ;
magsoft, pour sa dépêche « Compter automatiquement les mots prononcés sur les chaînes d'information continue » ;
Dinosaure, pour sa dépêche « MirageOS - un micro OS (unikernel) en OCaml » ;
xcomcmdr, pour sa dépêche « .NET 6 est sorti - La version la plus rapide à ce jour » ;
GnouCat, pour sa dépêche « Greycess Knight RPG : sortie de la première version ! » ;
Johnny_Jazeix, pour sa dépêche « GCompris sort en version 2.0 pour les fêtes de fin d'année » ;

Les livres gagnés sont détaillés en seconde partie de la dépêche. N’oubliez pas de contribuer, LinuxFr.org vit pour vous et par vous !

lien nᵒ 1 : Contribuez
lien nᵒ 2 : Tous les moyens (ou presque) de participer
lien nᵒ 3 : Récompenses précédentes (novembre 2021)

Les livres 📚 sélectionnés

Certaines personnes n’ont pas pu être jointes ou n’ont pas répondu. Les lots ont été réattribués automatiquement. N’oubliez pas de mettre une adresse de courriel valable dans votre compte ou lors de la proposition d’une dépêche. En effet, c’est notre seul moyen de vous contacter, que ce soit pour les lots ou des questions sur votre dépêche lors de sa modération. Tous nos remerciements aux contributeurs du site ainsi qu’aux éditions Eyrolles et ENI.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

OCaml en 2021

2021-09-25T12:07:02+02:00

La version 4.13.0 du langage OCaml est sortie le 24 septembre 2021, sept mois après OCaml 4.12.0 sortie le 24 février 2021.

OCaml est un langage fonctionnel de la famille des langages ML (dont font partie SML et F#). Il s’agit d’un langage fonctionnel multi‐paradigme fortement typé qui permet de mélanger librement les trois paradigmes : fonctionnel, impératif et objet. La plus grande spécificité d’OCaml dans le paysage des langages fonctionnels (Haskell, Rust, F#…) est probablement son système de module : les modules d’OCaml font partie intégrante du langage, et il est par exemple possible de décrire des modules paramétrés par d’autres modules (à travers des foncteurs).

La grande nouveauté de cette année 2021 est la convergence de l’environnement d’exécution entre la version standard d’OCaml et le prototype d’OCaml multi-cœur. Cette convergence amorce une nouvelle étape dans la transition vers OCaml multi-cœur. Au-delà des progrès vers OCaml multi-cœur, cette année 2021 a vu une de nombreuses avancées pour le langage OCaml et son compilateur que ce soit en termes d’architectures supportées, de messages d’erreurs, de fonctionnalités du système de types, mais aussi des améliorations de confort pour les programmeurs que ce soit au niveau des outils de profilage, de la gestion des avertissements ou de la bibliothèque standard.

lien nᵒ 1 : Site officiel
lien nᵒ 2 : Manuel de référence d'OCaml
lien nᵒ 3 : ocamlverse
lien nᵒ 4 : Forum officiel
lien nᵒ 5 : Changelog

Sommaire

La route vers le multi-cœur et OCaml 5.0
Une prise en charge étendue de RISC-V à macOS/ARM64
De meilleurs messages d’erreurs
Améliorations de l’expérience utilisateur
Plus de types pour les utilisateurs experts
- Des noms pour les types existentiels
- De l’injectivité pour vos types
Au-delà d’OCaml multi-cœur

La route vers le multi-cœur et OCaml 5.0

Une des limites de l’implémentation actuelle de l’environnement d’exécution d’OCaml est son utilisation d’un verrou global. Ce verrou empêche les applications multithreads de bénéficier du parallélisme des fils d’exécution (threads). Au cours du temps, il y a eu plusieurs tentatives d’enlever ce verrou. La dernière initiative a germé chez OCaml Labs vers 2014-2015. Pour éviter les échecs précédents, cette initiative a décidé de se concentrer sur deux points : une compatibilité descendante presque parfaite avec la version monocœur d’OCaml, et une intégration incrémentale dans la branche principale d’OCaml. Ce travail de fond a commencé à être visible dans OCaml 4.10.0. Mais il s’est notablement accéléré dans OCaml 4.12.0. Une grande partie du travail dans OCaml 4.12 et 4.13 a été consacrée à diminuer les divergences entre l’environnement d’OCaml multi-cœur et la version principale d’OCaml.

Par exemple, un des changements majeurs prévus pour OCaml multi-cœur est la gestion des pointeurs pointant en dehors de la mémoire gérée par OCaml, sans être gardés par des métadonnées (parce que, par exemple, ils ont été alloués par une bibliothèque C externe). Dans la version monocœur d’OCaml, ces pointeurs étaient gérés en gardant une trace des zones mémoires allouées par OCaml. En passant à un environnement d’exécution multi-cœur, cette stratégie devient prohibitive en coût de synchronisation. Ces pointeurs nus ne seront donc pas autorisés dans OCaml multi-cœur. Pour assurer une évolution en douceur, OCaml 4.12.0 a ajouté deux options de configuration : une option pour désactiver la gestion des pointeurs nus directement pour les audacieux ; et une version plus prudente qui rajoute un test dynamique de la présence de ces pointeurs nus. Cette dernière option est notamment utilisée pour tester toutes les bibliothèques et programmes disponibles sur Opam (le dépôt de paquets d’OCaml).

Un autre point important est la gestion de l’ordonnancement entre l’utilisateur et l’environnement d’exécution (runtime). Dans la version monocœur d’OCaml, l’environnement d’exécution reprend la main à chaque allocation. Cela lui donne l’occasion de vérifier si le Glaneur de Cellules (GC) à du travail à faire, ou s’il faut s’occuper de signaux en attente. Une conséquence est qu’il est possible d’écrire du code numérique qui n’alloue jamais et ne rend jamais la main à l’environnement d’exécution. En absence de parallélisme, ce comportement est plus une curiosité qu’autre chose. Mais pour multi-cœur OCaml, ce comportement égoïste n’est plus de mise. Dans sa conception actuelle, OCaml multi-cœur a une phase de GC en parallèle, pendant laquelle tous les fils d’exécution exécutent une passe de GC de manière synchrone. Il n’est donc pas question qu’un fil d’exécution bloque le GC de tous les autres fils. Le compilateur natif a donc été modifié dans OCaml 4.13.0 pour s’assurer qu’un fil d’exécution passe toujours la main à l’environnement d’exécution dans un temps borné.

Un élément qui commence à apparaître dans les discussions sur OCaml multi-cœur est que l’on se rapproche d’un point où il ne reste plus qu’à faire le grand saut et intégrer le runtime multi-cœur, et absorber les petites pertes de performances inévitables pour le code séquentiel.

La première version d’OCaml qui intégrera la prise en charge du multi-cœur sera OCaml 5.0. Cette nouvelle majeure commencera avec une période de transition durant laquelle la branche 4 sera maintenue activement.

Cette première version d’OCaml multi-cœur n’intègrera pas la partie la plus innovante de la proposition initiale, le système d’effet, et se contentera d’exposer une bibliothèque de domaines et quelques API de plus haut niveau, bâtis au-dessus de cette bibliothèque de domaine.

Le but est de découpler la partie runtime du développement d’OCaml multi-cœur du travail de conception sur le système d’effet qui requiert encore des efforts de conception.

Une prise en charge étendue de RISC-V à macOS/ARM64

Le compilateur OCaml gère deux modes de compilation : un mode bytecode qui fonctionne sur toute architecture où un compilateur C est disponible ; et un mode natif qui émet directement des binaires natifs. Ce mode natif est d’ailleurs le seul utilisateur du système objet d’OCaml au sein du compilateur lui-même.

Cette gestion native requiert de s’adapter aux nouvelles familles de processeurs et aux variations d’ABI suivant les systèmes d’exploitation. OCaml 4.11.0 a ainsi vu apparaître la prise en charge du RISC-V sous Linux. De manière similaire, la prise en charge pré-existante pour ARM64 a été étendue pour couvrir les conventions d’appels de macOS dans OCaml 4.12.0 .

De meilleurs messages d’erreurs

Écrire des messages d’erreurs utiles est une tâche plus difficile qu’il n’y paraît. Il peut être tentant de communiquer une erreur interne sur l’implémentation ou d’évoquer une théorie avec laquelle l’utilisateur n’est pas familier. Un autre problème assez fréquent pour les erreurs de types dans OCaml est que le vérificateur de type est optimisé pour vérifier rapidement que le code est bien typé. Avec ce mode de fonctionnement, on ne découvre parfois une erreur uniquement après qu’une série de petites erreurs nous ait mené à une situation impossible.

En bref, il reste pas mal de travail à faire pour améliorer les messages d’erreurs d’OCaml. Mais cette année 2021 a vu quelques progrès intéressants, et d’autres sont déjà intégrés ou en cours d’intégration dans la version de développement d’OCaml.

Des messages d’erreurs plus détaillés pour les foncteurs

Les foncteurs sont des fonctionnalités uniques d’OCaml. Ils permettent de décrire des modules qui dépendent d’autres modules. Par exemple, la définition d’un module Graphe peut prendre comme argument un module Sommet et un module Arete :

module Graphe(Sommet:SOMMET)(Arete:ARETE) = struct ... end

Je peux ensuite instancier ce foncteur avec diverses implémentations de ARETE et SOMMET.

Par exemple :

module Graphe_basique = Graphe(Sommet_basique)(Arete_basique)
module Graphe_colore = Graphe(Sommet_colore)(Arete_basique)

Cette formulation en termes de foncteur permet de décrire des algorithmes de graphes indépendamment de l’implémentation des arêtes ou sommets (sont-ils nommés ? colorés ?).

Avant OCaml 4.13, les erreurs liées à ces foncteurs pouvaient être très verbeuses. Par exemple, si j’applique le foncteur Graphe avec un argument en trop :

module G = Graphe(Etiquette)(Sommet)(Arete)

Le vérificateur de type d’OCaml se plaignait que le module Etiquette n’est pas un SOMMET, ce qui donne un message d’erreur qui ressemble à cela :

       Modules do not match:
         sig type t = string end
       is not included in
         SOMMET
       The value `label' is required but not provided
       The value `create' is required but not provided
       The type `label' is required but not provided
       The value `equal' is required but not provided
       The value `hash' is required but not provided
       The value `compare' is required but not provided

Avec OCaml 4.13.0, le vérificateur de type prend de la hauteur et essaye d’identifier des erreurs de haut niveau dans les erreurs liées aux foncteurs : est-ce que l’utilisateur n’aurait pas oublié un argument ? Ajouté un argument ? Modifié quelques arguments ?

       Error: The functor application is ill-typed.
       These arguments:
         Etiquette Sommet Arete
       do not match these parameters:
         functor (Sommet : SOMMET)(Arete : ARETE)} -> 
      1. The following extra argument is provided
        Etiquette : sig type t = string end
      2. Module Sommet matches the expected module type SOMMET
      3. Module Arete matches the expected module type ARETE

De plus en utilisant des méthodes de diffing (comparaison, généralement utilisées dans les correcteurs orthographiques ou du fuzzy searching/recherche floue), le vérificateur de type est capable de trouver une erreur la plus probable même dans des cas complexes.

Confusion entre module et module types

Un des détails surprenants d’OCaml est que beaucoup d’objets ont leur espace de noms séparé, ce qui mène parfois à des erreurs entêtantes. Par exemple :

module type M = sig type t end
type u = M.t

Error: Unbound module M

ce message en OCaml 4.10.0 semble s’obstiner à ne pas reconnaître l’existence de M.

Le véritable problème est que M n’est pas un module, et donc ne définit pas de types. Depuis la version 4.12.0, le message d’erreur reconnaît qu’il s’agit d’une confusion naturelle :

Error: Unbound module M
Hint: There is a module type named M, but module types are not modules

Une explication des problèmes de régularité

Parfois, les messages d’erreurs sont évidents pour leurs auteurs, et totalement obscurs sans le bon contexte.

C’était notamment le cas d’un des messages d’erreurs concernant les types récursifs non-réguliers. Si l’enchaînement des mots précédents ne vous parle pas, il y avait de grandes chances que ce message d’erreur vous laisse pantois :

   type ('a,'b) x = [ `X of ('b,'a) y ]
   and ('a,'b) y = [ `Y of ('a,'b) x ]

Error: In the definition of y, type ('b, 'a) x should be ('a, 'b) x

Il commet en effet trois péchés cardinaux pour un message d’erreur : il propose un correctif faux, il ne parle pas du code visible par l’utilisateur mais du résultat d’un calcul invisible du compilateur, et il ne pointe pas vers la source de l’erreur.

Ce souci est corrigé, et OCaml 4.12.0 prend désormais le temps d’expliquer le problème :

Error: This recursive type is not regular.
The type constructor x is defined as
type ('a, 'b) x
but it is used as
('b, 'a) x
after the following expansion(s):
('b, 'a) y = [ `Y of ('b, 'a) x ]
All uses need to match the definition for the recursive type to be regular.

Le message d’erreur est long. Cependant il explique non seulement la nature du problème (un type paramétré est utilisé de façon différente au sein d’un même groupe de définition récursif) mais aussi comment le vérificateur de type a découvert l’erreur.

Améliorations de l’expérience utilisateur

Il y a aussi beaucoup d’améliorations de taille plus modeste qui sont plus difficiles à catégoriser.
Parmi celles qui ont retenu mon attention sur ces deux dernières versions, je peux citer :

Statmemprof : profiler la mémoire sur des programmes en production.

Pour des langages à glaneur de cellules (GC) comme OCaml, l’allocation et la désallocation de mémoire est un axe à la fois important et assez invisible de la performance des programmes. Il peut donc être important de surveiller le travail du GC dans un programme pour évaluer des problèmes de performances, ou s’assurer qu’il n’y ait pas de fuite de mémoire dans un serveur tournant durant des années.

Dans les versions d’OCaml antérieures à 4.12, la bibliothèque Spacetime fournissait de tels outils de surveillance en continu de la mémoire.

Cependant analyser le travail du GC peut-être extrêmement coûteux aussi bien en termes de temps que d’espace. Et il était pratiquement impossible d’utiliser Spacetime dans un environnement de production à cause de ces coûts.

Statmemprof est une réponse à ces problématiques : il s’agit d’un outil de profilage statistique de l’allocation et de la désallocation de la mémoire. En s’autorisant à n’analyser qu’une partie des allocations et des désallocations, il devient possible de contrôler le coût de cette analyse de la mémoire et de la rendre négligeable. Intégrer cette analyse dans du code en production devient alors possible. On peut même s’autoriser à ajuster le comportement du programme en fonction de sa consommation mémoire actuelle.

Des noms pour les warnings

Après 25 ans d’existence, OCaml a accumulé plusieurs dizaines d’avertissements (70 dans la version 4.13.0). Fort heureusement, la configuration de ces avertissements est souvent laissée soit au compilateur soit au système d’assemblage. Notamment, dune, le système d’assemblage de prédilection de la plupart des paquets opam, a un choix d’avertissements assez strict par défaut.

Il reste néanmoins pratique de pouvoir modifier cette configuration pour un fichier ou une fonction spécifique. Par exemple, on peut activer le warning 27 pour juste la fonction f avec :

let f x = () [@@warning "+27"]

Cependant, à la lecture, il n’est pas exactement évident de se rappeler l’objet de cet avertissement 27. Cela d’autant plus lorsque l’avertissement est utilisé ponctuellement. La nouvelle mouture d’OCaml permet enfin de nommer ces avertissements :

let f x = () [@@warning "+unused-var-strict"]

Et la Stdlib s’agrandit

La bibliothèque standard voit arriver deux nouveaux modules liés aux threads :

Atomic : ce module est là pour préparer en douceur la compatibilité avec le runtime multi-cœur.
- Thread.Semaphore : ce module offre une contrepartie au Mutex qui n’a pas besoin d’être verrouillé et déverrouillé dans le même fil d’exécution.

et un nouveau module de structure de données :

Either : il s’agit d’un module d’alternative générique (on a soit un Left a soit un Right b) qui est utile lorsque nommer explicitement les deux alternatives serait pénible.

Fut un temps, la bibliothèque standard d’OCaml avait pour objectif de rester assez minimaliste. Ce choix a engendré la création d’au moins quatre bibliothèques étendant la bibliothèque standard (extlib, batteries, base, containers). Cependant depuis, OCaml 4.07 la bibliothèque standard s’est ouverte à plus d’améliorations. Néanmoins, l’évolution de la bibliothèque standard reste basée sur un principe de quasi-unanimité, son rythme d’évolution reste donc très mesuré.

Des piles d’appels plus expressives

Lorsque qu’une fonction lève une exception qui n’est pas attrapée, la pile d’appel (backtrace) contient désormais des informations sur les noms des fonctions qui se sont retrouvées sur la pile d’appel. Par exemple exécuter :

   let () =
     let f () =
       let g () = raise Exit in
       fun () -> g ()
      in
      f () ()

nous informe que

Raised at Backtrace_example.f.g in file "backtrace_example.ml" (inlined), line 3, characters 16-26

plutôt que le laconique

Raised at file "backtrace_example.ml" (inlined), line 3, characters 16-26

Plus de types pour les utilisateurs experts

Le système s’est aussi enrichi de fonctionnalités plus orientées vers les auteurs de bibliothèques, et les utilisateurs experts.

Des noms pour les types existentiels

Les types existentiels sont une des fonctionnalités nouvelles apportées par les Types de Données Algébriques Généralisés (GADTs). Pour faire simple, il s’agit de types qui n’existent qu’à l’intérieur d’un constructeur.

Par exemple, je peux décrire une pipeline de transformation de 'a vers b en plusieurs étapes :

type ('entree,'sortie) pipeline =
  | Vide: ('entree,'entree) pipeline
  | Etape: ('entree,'intermediaire) pipeline * ('intermediaire -> 'sortie) 
             -> ('entree,'sortie) pipeline

Ici le constructeur Etape prend comme argument un pipeline de entree vers un type intermediaire, et une fonction de ce type intermediaire vers le type sortie et me donne en retour un pipeline de l’entrée vers la sortie.

Le point intéressant avec définition est que ce type intermédiaire n’est pas un type concret connu. Il s’agit d’un type inconnu dont je sais seulement qu’il est partagé par ma pipeline interne, et ma fonction de transformation.

Une bonne façon de voir comment ce type se comporte est d’implémenter une fonction envoyer qui applique toutes les étapes de la pipeline à une entrée et obtient une sortie.

 let rec envoyer: type entree sortie. (entree,sortie) pipeline -> entree -> sortie =
  fun pipeline entree ->
  match pipeline with
  | Vide -> entree
  | Etape(pipeline_interne, transformation_finale) ->
    entree |> envoyer pipeline_interne |> transformation_finale
    (* [x |> f] signifie [f x] *)

Ici, tout ce passe bien. Mais que se passe-t-il si j’essaye d’appliquer la transformation finale avant le reste de la pipeline ?

let rec envoyer_erronee: type entree sortie. (entree,sortie) pipeline -> entree -> sortie =
  fun pipeline entree ->
  match pipeline with
  | Vide -> entree
  | Etape(pipeline_interne, transformation_finale) ->
    entree |> transformation_finale |> envoyer pipeline_interne

J’obtiens une erreur de compilation qui se plaint que le type de entree n’est pas le bon :

Error: This expression has type entree but an expression was expected of type
$Etape_'intermediaire

Et en effet, le code est faux parce que le type entree ne correspond pas au type attendu par la transformation finale. Le nom du type attendu $Etape_'intermediaire est cependant assez complexe.

Il s’agit d’un nom automatiquement généré pour un type existentiel à partir de la définition de type et du constructeur qui l’a introduit. Ici le nom est assez clair, mais dans des cas complexes ces noms générés automatiquement peuvent être difficiles à déchiffrer. Une des nouveautés dans 4.13.0 est qu’il est désormais possible de nommer soi-même les types existentiels introduits dans le filtrage de motif:

let rec envoyer_erronee: type entree sortie. (entree,sortie) pipeline -> entree -> sortie =
  fun pipeline entree ->
  match pipeline with
  | Vide -> entree
  | Etape (type intermediaire)
      (pipeline_interne, transformation_finale:
        (entree, intermediaire) pipeline * (intermediaire -> sortie)
      ) ->
    entree |> transformation_finale |> envoyer pipeline_interne

Cette fois-ci, le message d’erreur utilise notre nom de type :

Error: This expression has type entree but an expression was expected of type
intermediaire

Ce qui devrait réduire légèrement le temps passé à faire compiler du code utilisant fortement les GADT. Cette notation permet aussi d’obtenir facilement le type abstrait correspondant au type existentiel pour lequel il y a des applications plus élaborées.

De l’injectivité pour vos types

Les bibliothèques vont pouvoir ajouter des points d’exclamation à leurs types

type !'a vec

pour indiquer que le paramètre 'a est vraiment utilisé dans le type et n’est pas un type fantôme.
Cela permet de débloquer certains usages avancés des GADT où il est vital de savoir si int vec et forcément différent de float vec.

Par exemple, avec cette annotation, le vérificateur de type sait qu’avec la définition suivante :

type _ int_or_float_vec =
| Int_vec : int vec -> int vec int_or_float_vec
| Float_vec: float vec -> float vec int_or_float_vec

lorsqu’on a une valeur de type 'a int_or_float_vec, la variable 'a est forcément soit int vec soit float vec. En d’autres mots, on ne peut jamais se procurer une valeur de type char int_or_float_vec :

let impossible: char int_or_float_vec -> _ = function _ -> .

Sans cette annotation, le vérificateur de type ne peut éliminer la possibilité que le type 'a vec ait été défini en tant que synonyme de char:

type 'a vec = char

Comme pour les annotations de variances, l’injectivité est automatiquement inférée pour les types non-abstraits. Ces annotations sont donc essentiellement là pour les auteurs de bibliothèque.

Au-delà d’OCaml multi-cœur

Si l’implémentation d’OCaml multi-cœur se rapproche lentement mais inexorablement, les plans pour le futur d’OCaml ne s’arrêtent pas là.

En particulier, la gestion de la concurrence et du parallélisme sera à terme basée sur un système d’effets. La prochaine étape de ce côté sera de concevoir et déployer un système d’effets typés facile à utiliser en pratique.

Mais le développement d’OCaml 5 ne se concentrera pas uniquement sur l’aspect multi-cœur. Une des forces d’OCaml est son système de modules à la fois expressif et adapté à la compilation séparée. Cependant, cette puissance a un prix, et les usages avancés du système de modules peuvent être particulièrement lourds syntaxiquement. Un des projets en cours pour OCaml 5 est d’introduire des méthodes plus légères pour décrire des fonctions paramétrées par des modules, à travers un système de foncteurs légers et implicites.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Xavier Leroy : les 25 ans de Ocaml

2021-08-30T17:39:11+02:00

https://watch.ocaml.org/videos/watch/e1ee0fc0-50ef-4a1c-894a-17df181424cb

Commentaires : voir le flux Atom ouvrir dans le navigateur

Alors comme ça, Bloomberg, vous utilisez du OCaml en prod pour des trucs sérieux ?

2021-08-23T20:03:49+02:00

https://twitter.com/adolfont/status/1429759258942377999

Commentaires : voir le flux Atom ouvrir dans le navigateur

25 years of OCaml

2021-05-09T18:47:31+02:00

https://discuss.ocaml.org/t/25-years-of-ocaml/7813

Commentaires : voir le flux Atom ouvrir dans le navigateur

Retour d'expérience sur les langages de programmation

2020-11-13T15:51:50+01:00

Sommaire

Petit tour d'expérience sur des langages
- OCaml
- Haskell
- Tcl, Perl, Python, Raku
- Common Lisp, Racket
- J
- Coq
- Go
- Rust
Ce qu'il m'est resté de tout ça
Langages que j'aimerais creuser un peu un jour

Ces derniers temps, j'apprends moins de langages nouveaux qu'il y a quelques années. Du coup, je me suis dit que c'était une occasion de faire le tour sur l'essentiel des langages que j'ai testés.

Dans ce journal, je fais un peu dans le classique du ceci ou cela m'a plu dans tel langage, telle autre chose ne m'a pas plu. Le tout est très subjectif, biaisé et reflète fortement les trucs que j'ai voulu faire avec ces langages. Mais bon, j'ai lu beaucoup d'articles de blog dans ce genre (enfin, en général sur un seul langage, ou L1 vs L2) et, même si ça n'aide pas souvent à découvrir le langage de nos rêves, ni à changer d'opinion ou à apprendre grand-chose sur un langage qu'on connait déjà, j'ai trouvé quand même ça souvent sympa à lire vite fait, même (voire surtout) quand mon ressenti est différent.

Petit tour d'expérience sur des langages

OCaml

OCaml est le premier langage que j'ai appris ! (enfin, son prédécesseur Camllight initialement, le langage qui était utilisé qu'en prépas en France)

Les trucs que j'ai aimés :

Compile vers du code natif assez efficace.
Typage expressif (types algébriques), mais pratique (inférence de types) et pas trop compliqué : langage abordable.
Mélange de code fonctionnel et impératif possible et plutôt facile.
Sympa pour manipuler des structures de données arborescentes. En particulier pour écrire des analyses ou transformations d'AST.
Documentation accessible en ligne de commande.

Les trucs qui me laissent dubitatif :

Des messages d'erreur qui se sont améliorés mais, le typage riche et l'inférence n'aidant pas, les erreurs ont toujours du mal à parler la langue des mortels.
Une syntaxe et un système de types pas trop compliqués, mais qui se compliquent ces dernières années : introduction des GADT (une sorte de types dépendants — en gros, des monstres surpuissants invoqués par des super héros) et les extensions de syntaxe ppx qui peuvent casser à chaque changement de version, entres autres; ça a du bon quand même.
La syntaxe : l'extension Reason fait plus de modifications que strictement nécessaire, mais marquer clairement la fin des pattern matching et autres structures de contrôle (comme en Rust), ce serait déjà bien (après, des accolades ou un end comme en Coq ou Ruby, c'est du détail).
Pas besoin de préciser les bibliothèques utilisées en préambule de fichier.
Un nombre ok de bibliothèques tierces.

Les trucs que j'ai moins aimés :

Bibliothèque standard limitée, beaucoup de variantes de fonctions de base, mais peu au-delà (pas de compression, encodage, unicode, http). Au moins deux bibliothèques alternatives existent, mais elles résolvent surtout des soucis différents.
Exceptions, en particulier leur sur-utilisation dans la bibliothèque standard qui a conduit à l'introduction de variantes en *_opt renvoyant plutôt un type option, du genre None ou Some x, plutôt que Not_found (mais pas pour toutes les fonctions encore).
Manque de structures de contrôle impératives : pas de break, continue, return ; ça peut vite devenir gênant si on manipule beaucoup les tableaux (tableaux qui d'ailleurs gagneraient en ergonomie à être dynamiques).
Des fonctions non récursives terminales (donc risque de débordement de pile) dans la bibliothèque standard qui ont conduit à plus de duplication avec l'introduction de fonctions récursives terminales équivalentes.
Les bibliothèques, à moins d'être très populaires, risquent d'être mal documentées : les types des fonctions, si on a de la chance une courte description pour chacune, parfois un exemple dans le README.
Certaines bibliothèques connues font dans l'ingénierie lourde (comme le framework ocsigen), pas toujours évident de trouver des alternatives plus simples et bien documentées.

Haskell

Haskell a des propriétés similaires à OCaml, à ceci près qu'il accueille avec joie la complexité. Plus amusant, mais plus frustrant aussi.

Les trucs que j'ai aimés :

Compile vers du code natif assez efficace.
Typage expressif, inférence de type.
Comme OCaml, pratique pour la manipulation d'AST.
La bibliothèque [parsec](https://en.wikipedia.org/wiki/Parsec_(parser) qui permet de parser en combinant des parseurs. Des alternatives dans d'autres langages ont vu le jour, mais parsec reste plus naturel (mais pas le plus performant par contre).

Les trucs qui me laissent dubitatif :

Les monades, des abstractions qui permettent de structurer les programmes de façon générique. C'est utilisé dans parsec pour combiner naturellement des parseurs, par exemple. Les monades IO et ST permettent de faire de l'impératif de façon compliquée aussi. C'est aussi utilisé pour rendre certains tutoriels très abstraits.
Un système de types plus complexe que celui d'OCaml et qui rencontre plus tôt les limites de l'inférence. Et une pléthore d'extensions de langage optionnelles.
Des messages d'erreur pour initiés à cause du typage expressif et de l'inférence de types.
Une communauté intéressée par des concepts comme les monades, les flèches, les catégories, etc. Ça se reflète dans de nombreux tutoriels et échanges, tout comme dans les bibliothèques tierces. C'est plus dur de trouver des contenus qui font dans le pragmatique. Ce point devient positif si on est passionné par les concepts mentionnés, ou source de frustration autrement :-)
Je n'aime pas trop certains éléments de syntaxe : l'indentation significative, l'abondance d'opérateurs avec priorités et associativité variables.
Des préambules de fichier avec souvent une suite interminable d'imports de bibliothèques et un mélange d'imports avec noms qualifiés et non qualifiés.

Les trucs que j'ai moins aimés :

Compilation lente.
Possible mais difficile de faire de l'impératif : manipuler des tableaux est tout sauf agréable (par exemple pour représenter la carte dans un jeu, faire de la recherche de chemins, etc.).
Il faut utiliser une bibliothèque externe pour avoir des chaînes de caractères implémentées raisonnablement.
Beaucoup de bibliothèques, mais c'est pas facile de s'y retrouver.
Beaucoup de bibliothèques font dans l'ingénierie lourde.
Beaucoup de bibliothèques ont un arbre conséquent de dépendances.
Beaucoup de bibliothèques sont mal documentées.

Exemple personnel : recherche d'une bibliothèque pour gérer le xml. Première tentative, hxt : pas moyen de trouver un indice dans la doc sur comment commencer (le théoricien remarquera que ça s'inspire de la théorie des flèches, mais ça l'aidera pas forcément tant que ça non plus). Deuxième tentative, HaXml : un peu moins abstrait peut-être, mais bon courage quand même. Troisième tentative, Text-XML-Light, le nom semble prometteur : pas d'exemples, mais ça semble en effet plus simple. Si l'on n'a pas encore capitulé, c'est le moment de chercher s'il n'y a pas un tutoriel à peu près à jour quelque part dans le wiki du langage pour une de ces bibliothèques.

Ceci dit, Haskell, c'est vraiment l'occasion de découvrir des concepts théoriques en faisant des trucs concrets, du genre découvrir à l'aide d'un framework web (appelé snap si ma mémoire est bonne) que les lentilles c'est pas seulement un truc qui se mange.

Tcl, Perl, Python, Raku

Tous ces langages se ressemblent un peu : typage dynamique, bases faciles à apprendre, plus ou moins d'OO, communauté pragmatique avec des écosystèmes de packages très variés, langages pas super performants mais suffisamment dans beaucoup de cas. Du coup, je vais parler uniquement des choses marquantes qui m'ont semblé uniques à chacun.

Pour Perl :

Intégration des expressions régulières dans le langage, inspirée de Sed : erreurs dans la regexp à la compilation, plein de fonctionnalités sur l'Unicode.
Mode de traitement de texte inspiré de Awk et adapté aux traitements rapides en ligne de commande.
Une documentation commode en ligne de commande et qui permet de démarrer vite, avec beaucoup d'exemples dans un style un peu « recettes » en synopsis.
Quelques incantations répétitives à écrire en début de chaque fichier.
Un peu plus fonctionnel (fonctions anonymes, portée lexicale des variables).
Mini typage statique partiel (scalaires vs tableaux vs tables de hachage, typos dans les noms de variables attrapées lors de la compilation).

Pour Python :

Beaucoup de bibliothèques dans le domaine du calcul scientifique (numpy, etc.).
Documentation plus OO que celle de Perl, plus orientée web que ligne de commande.
Listes en compréhension (perso, j'aime pas trop, ça se démarque un peu du reste du langage).

Pour Tcl :

Syntaxe où « tout est chaîne de caractères et commandes », mais fait proprement et sans pièges, contrairement au shell. Ça permet de faire des DSLs très naturels.
Par exemple, l'intégration très sympa avec SQLite : on peut écrire db eval {SELECT uid FROM table WHERE n <= $max AND time < $epoch} en mettant directement les variables $max et $epoch dans la requête sans risquer d'injections SQL (c'est pas de l'interpolation en fait). Ça évite la typique redondance où il faut passer les arguments à la requête après, souvent avec le même nom.
Plus fragile aux typos que Perl ou Python.
Intégration très naturelle avec Tk : mon langage préféré pour les petits GUI couplé à SQLite.
Documentation sous forme de pages de manuel proches de celles des outils en ligne de commande : plus formelle que la documentation Perl.
Wiki communautaire plein d'exemples, mais un peu chaotique.
Écosystème plus petit que les autres : pas idéal pour faire du calcul scientifique, par exemple, et moins de choix en général (par exemple pour faire du web).
Malgré son caractère de langage généraliste et bibliothèque standard assez vaste, Tcl peut être aussi facilement utilisé comme langage d'extension d'un programme en C (à la Lua).

Pour Raku (anciennement Perl 6) :

Langage généraliste à tout faire très (trop ?) ambitieux et pas effrayé par la complexité.
Langage plutôt cohérent et orthogonal, inspiré de Perl (mais aussi Ruby et d'autres), mais plus OO dans l'esprit.
Les messages d'erreur sont plutôt sympas.
Les expressions régulières sont intégrées dans un concept plus vaste de grammaires, très pratique pour écrire des parseurs.
La VM se lance un peu lentement et les modules compilent pas vite non plus.
Les expressions régulières, qui sont quand même fondamentales dans ce langage, étaient encore très mal optimisées il y a un ou deux ans, la dernière fois que j'ai testé.
L'écosystème est assez jeune encore.

Common Lisp, Racket

Common Lisp et Racket sont des langages fonctionnels, par défaut au typage dynamique, ils se prêtent très bien à la manipulation de structures arborescentes et sont très prisés pour leur extensibilité à l'aide de systèmes de macros évolués. Les deux ont pas mal de bibliothèques tierces et compilent vers du code assez efficace (normalement moins que OCaml ou Haskell, mais nettement plus que Python ou Perl).

Pour Racket :

Une documentation plus propre, surtout pour les bibliothèques tierces. Pour tout dire, lorsque j'ai testé, j'étais émerveillé par scribble, leur langage de documentation, qui est un dialecte de racket lui-même et permet de faire plein de validations sur la doc, dont le fait que les exemples compilent et renvoient le bon truc.
Plus orienté fonctionnel, mais aussi plus académique : une partie de l'objectif du langage est d'illustrer les recherches en théorie des langages extensibles.
Démarrage plus lent de la VM.

Pour Common Lisp :

Macros plus simples, mais non hygiéniques (ce qui est pas cool par les temps qui courent).
Un peu plus fonctionnel, en particulier la construction extrêmement flexible loop, ou peut-être encore mieux, la bibliothèque iterate : une macro d'itération très extensible !
Un peu le bazar pour ce qui est des bibliothèques tierces : le gestionnaire de paquets lui-même, bien que fonctionnel, est considéré bêta depuis très très longtemps.

Si l'on veut juste apprendre afin de découvrir les macros pour faire des DSLs, c'est bien plus simple de faire ça avec Tcl.

J

J est un langage fonctionnel de manipulation vectorisée de tableaux multi-dimensionnels avec une syntaxe compacte faisant usage de primitives de haut niveau. C'est une variante moderne d'APL avec une syntaxe ASCII et plus de fonctionnalités.

Les trucs que j'ai aimés :

La notation compacte est sympa pour expérimenter dans l'invite de commande.
Les primitives du langage sont très génériques et flexibles.
C'est amusant et ça fait réfléchir différemment à certains problèmes : je me suis amusé par exemple avec les problèmes du project euler, la génération de cartes et algos de dijkstra, ou l'écriture d'un automate pour parser des poèmes.

Les trucs que j'ai moins aimés :

Lorsqu'un algorithme ne se prête pas bien à une vectorisation, ça devient un casse-tête infernal.
J'ai beaucoup de mal à lire le code écrit par les autres.
De manière générale, j'ai l'impression que ce langage a tendance à facilement faire saturer ma mémoire cognitive de travail : un langage idéal pour quand j'ai besoin de me sentir idiot, ça marche à chaque fois.
Pour tout le code non algorithmique d'un projet, c'est aussi verbeux que n'importe quel langage et on ressent l'absence de structs/maps.

Le langage est surtout utilisé en statistiques et calcul scientifique, mais je dois dire que si j'avais un besoin dans ce domaine, je chercherais plutôt du côté de Python, R ou Julia. J'utilise J parfois comme calculatrice. En pratique je me contente souvent de la calculatrice dc du standard POSIX :-)

Coq

Coq est un assistant de preuve et un langage purement fonctionnel que j'ai pas mal utilisé pendant la thèse dans le domaine de la compilation. Je suis resté simple utilisateur, assez ignorant des théories derrière et des techniques avancées d'automatisation de preuve. Il y a eu une dépêche ici il y a quelques années par des gens qui connaissent bien mieux le truc (perso, j'avais juste contribué avec un exemple).

Les trucs que j'ai aimés :

C'est rigolo. Sérieusement, écrire des preuves de programme, c'est un peu comme un jeu, avec des moments de victoires épiques et de défaites accablantes.
C'est un langage avec un système de types extrêmement expressif : imaginez par exemple pouvoir écrire à l'aide du système de types qu'une passe d'optimisation d'un compilateur ne change pas la sémantique d'un programme et n'introduit donc pas de bugs inattendus !
Comme OCaml ou Haskell, le langage se prête bien à la manipulation d'AST et donc à l'écriture de compilateurs (avec des difficultés additionnelles ceci dit, comme le fait que les entiers sont représentés par un type algébrique et que Coq offre uniquement des structures de données purement fonctionnelles).

Les trucs qui me laissent dubitatif :

Écrire du code propre est relativement facile, mais des preuves propres, c'est une autre histoire : il y a l'approche où on essaie d'automatiser un maximum, ce qui demande de connaître très bien le langage de tactiques (donc preuve compréhensible par moins de monde), d'avoir une machine puissante (automatisation signifie plus de travail pour Coq) et compromettre la maintenabilité (du genre preuve qui passe plus avec la version suivante de Coq); il y a l'approche où on automatise pas trop et écrit beaucoup de lemmes intermédiaires et des preuves parfois répétitives, on insiste jusqu'à ce que ça passe à force de sentiments forts : je faisais partie des utilisateurs chevronnés de cette technique de jeu.

Les trucs que j'ai moins aimés :

Ça prend beaucoup de temps. Difficile de trouver des applications qui justifient cela, et ce même dans les domaines qui se prêtent assez bien à la preuve de programme (comme la compilation).
Il faut utiliser un autre langage, généralement OCaml, pour les parties non purement fonctionnelles du programme qui font de l'I/O.
C'est un langage complexe avec des messages d'erreur qui demandent une bonne expérience pour être appréhendés.
Faut pas s'attendre à trouver des contributeurs dans la nature : les programmeurs Coq se trouvent tous ou presque dans le domaine de la recherche.
Comme tout jeu, on finit par se lasser un peu à un moment et un jeu long dont on se lasse est un jeu qu'on ne finit pas (à moins d'être payé pour).
Les ressources disponibles dans la nature pour apprendre sont limitées, souvent écrites pour des gens qui font une thèse et sont intéressés par la théorie. La pratique et les astuces de preuve, faut les apprendre soi-même ou lors d'échanges avec les collègues si on a la chance d'être dans un environnement Coq. Bref, c'est peu accessible.

Go

Go est un langage que j'utilise beaucoup ces derniers temps (frundis, jeux, des petits scripts), je suis plutôt satisfait.

Les trucs que j'ai aimés :

Compile vers du code natif efficace. Compilation rapide, statique par défaut.
Langage : structures de contrôle impératives flexibles (for, switch, break, continue, labels de boucle), les essentiels du fonctionnel (fonctions de première classe et clôtures lexicales), l'essentiel de l'OO (structs, méthodes et interfaces, pas de classes), l'essentiel du typage statique (typage moyennement expressif, mais flexible au besoin et sans conversions implicites ni inférences trop génériques qui compliquent les messages d'erreur), l'essentiel des structures de données (maps et tableaux dynamiques, comme avec Perl, Python ou Ruby).
Une bibliothèque standard fournie, mais abordable et bien documentée.
Beaucoup de bibliothèques tierces bien documentées, souvent avec peu ou pas de dépendances.
Crosscompilation facile pour les programmes en pur Go (avec export en WebAssembly facile).
Programmation concurrente facile avec les channels et goroutines.
Un package, c'est tous les fichiers d'un dossier: pas besoin de faire un package différent pour éviter d'avoir trop de trucs dans un même fichier.
Documentation accessible en ligne de commande et, en général, langage pratique à utiliser dans un terminal avec plein d'outils (renommages, analyses statiques, bonne intégration vim/emacs, etc.).

Les trucs qui me laissent dubitatif :

URLs pour les noms d'import de package : ça conduit à devoir modifier le code si on change l'hébergement du projet. Ceci dit, le packaging n'a pas de solution magique non plus : j'ai beau ne pas vraiment aimer cette idée, c'est souvent pratique et pas clairement pire que les alternatives sur tous les points.
Absence de types génériques (en cours d'être résolue, peut-être pour dans un an ou deux) : ça serait bien dans certains cas (bibliothèques génériques pour structures de données complexes ou opérations génériques sur des channels), mais ça me manque assez rarement tout compte fait (je ne ressens pas le besoin de remplacer les boucles for par des fonctions génériques, par exemple).
Plus verbeux qu'un langage dynamique, essentiellement du fait des signatures de fonctions (en pratique rentable dans un projet qui va au-delà du script, je trouve).

Les trucs que j'ai moins aimés :

Difficile parfois de faire du pur Go (GUI, SQLite, etc.) : l'avantage de la crosscompilation facile disparaît dans ce cas. C'est pas vraiment un point négatif, mais une annulation courante de point positif.

Rust

Rust est un langage qui a pas mal de popularité en ce moment, pas mal de trucs sont passés sur linuxfr. J'ai lu un tutoriel, testé des exemples et lu de la doc, mais je n'ai jamais vraiment programmé avec, donc voici plutôt un retour d'apprentissage et d'utilisation :

Des programmes très performants, dont le génial ripgrep qui remplace avantageusement grep.
Des programmes avec beaucoup de dépendances et qui mettent beaucoup de temps à compiler.
Langage d'inspirations multiples avec typage assez expressif (types somme et filtrage par motif similaires à OCaml), des traits (mais sans classes, un peu comme en Go).
Langage qui facilite l'impératif et le fonctionnel, même si l'absence de GC rend certaines pratiques de programmation fonctionnelle (comme une fonction qui renvoie une fonction) un peu alambiquées à écrire.
Un peu complexe à apprendre du fait de quelques notions assez subtiles (ownership, borrowing) qui facilitent l'écriture de programmes concurrents memory safe, et du fait de l'ampleur du langage (macros, etc.).
Une documentation orientée web (même s'il me semble que j'avais trouvé un outil non officiel en ligne de commande).

J'aimerais m'y mettre un jour, mais j'ai pas d'idée de projet personnel qui profite de l'absence de GC : un peu comme pour le C et le C++, avec la différence qu'avec ceux-ci je me suis déjà retrouvé à devoir lire voire modifier du code dans les programmes que j'utilise, et ça ne m'est pas encore arrivé avec du Rust.

Ce qu'il m'est resté de tout ça

Au final, aujourd'hui, les seuls langages que j'utilise vraiment encore sont Go (pour un peu tout), Tcl (pour les GUIs et SQLite) et Perl (pour les petits scripts et CPAN). C'est sans compter des petits bouts de Javascript (dont j'ai pas parlé, car j'ai juste écrit des petits trucs en vanilla avec la doc de mozilla, sans aller chercher quoi que ce soit dans l'écosystème), ou les modifs de code C/C++ pour compiler sous OpenBSD, et mes tentatives le plus souvent couronnées d'échec pour compiler puis lancer du Java (dernière défaite cuisante en date : le jeu Mindustry qui est passé en dépêche il y a peu).

Ceci dit, même si au final on peut se dire à quoi bon avoir exploré autant de langages, j'ai bon souvenir de tout ça et ça influe probablement sur ma façon de programmer, j'espère qu'en bien :-)

Langages que j'aimerais creuser un peu un jour

Un langage relativement nouveau qui m'a l'air intéressant est txr : c'est en fait la combinaison de deux langages, un langage qui permet de capturer des motifs et parser facilement des documents, inspiré d'Awk, et un langage au style Lisp, mais différent. C'est pas un petit langage !

Dans le domaine des langages logiques, je trouve curieux Mercury, qui est un langage inspiré de Prolog pour la partie logique, et Haskell pour la partie typage.

Pour ce qui est des langages concaténatifs, inspirés de Forth, Factor semble être une approche moderne intéressante. Ceci dit, mes quelques lectures de tutos me donnent l'impression que mon cerveau ne gère pas bien l'approche concaténative de pile dès que ça devient un peu complexe (un peu la même sensation qu'avec J, mais pas aussi marquée).

J'ai vu passer assez souvent des articles sur le langage assez jeune mais plutôt actif Zig. Je me demande comment il se ressent en pratique par rapport au C voire au Rust ou C++.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

OCaml 4.06 et 4.07

2018-10-02T18:20:37+02:00

La version 4.07.0 du langage OCaml a été publiée le 10 juillet 2018 soit quelques mois après la sortie de la version 4.06.0, annoncée le 3 novembre 2017. OCaml est un langage fonctionnel de la famille des langages ML (dont font partie SML et F#). Il s’agit d’un langage fonctionnel multi‐paradigme fortement typé qui permet de mélanger librement les trois paradigmes : fonctionnel, impératif et objet.

OCaml arrive en version 4.07 avec un tout nouvel espace de noms, Stdlib, pour sa bibliothèque standard. Ce nouvel espace de noms présage l’intégration progressive de nouveaux modules dans la bibliothèque standard.

Un autre changement majeur, OCaml 4.06 marque la fin de la transition vers des chaînes de caractères immuables, changement amorcé dès OCaml 4.02 .

À côté de ces changements majeurs, on retrouve de nombreuses améliorations de qualité de vie : de nouveaux opérateurs d’indexation et des champs hérités pour les types objets. Mais aussi pas mal de travail de fond pour préparer l’intégration de la branche multicore, améliorer les passes d’optimisations Flambda, ou faire évoluer le système de types en fixant des irrégularités.

lien nᵒ 1 : OCaml 4.07.0
lien nᵒ 2 : OCaml 4.06.0
lien nᵒ 3 : Manuel de référence
lien nᵒ 4 : Site officiel
lien nᵒ 5 : Forum officiel
lien nᵒ 6 : Dépêche sur 4.04 et 4.05

Bibliothèque standard

Une des nouveautés majeures d’OCaml 4.07 est la migration de la bibliothèque standard vers un espace de noms propre Stdlib. Cette migration a pour principal objectif de pouvoir ajouter de nouveaux modules à la bibliothèque standard sans casser les programmes tiers.

Désormais, les modules de la bibliothèque standard sont définis au sein du module Stdlib, module qui est ouvert par défaut par le compilateur. Ainsi, le module List est, par défaut, un raccourci pour Stdlib.List. Néanmoins, il est désormais possible de créer un module List sans craindre d’écraser le module Stdlib.List en aval :

let trois = List.length [1;2;3]
(* est désormais un raccourci pour *)
let trois = Stdlib.List.length [1;2;3]
(* ce qui est permet aussi d'écrire *)
module List = struct ... end
let trois = Stdlib.List.length [1;2;3]

Cette solution a d’ores et déjà permis d’ajouter deux nouveaux modules à la bibliothèque standard Seq et Float. Le nouveau module Seq définit un nouveau type de donnée pour des itérateurs externes, tandis que Float regroupe les constantes réelles et les fonctions opérant sur les Float. De manière similaire, la bibliothèque Bigarray fait désormais partie de la bibliothèque standard.

Le dernier changement majeur est le basculement vers des chaînes de caractères immuables (immutable) par défaut dans OCaml 4.06. Ce changement avait été amorcé dans OCaml 4.02, avec une dépréciation des fonctions manipulant le type string de manière mutable et une option de configuration renforçant le caractère immuable. Cette dernière option est désormais activée par défaut.

Nouveautés dans le langage

Opérateurs d’indexation

Après une période d’incubation, il est désormais possible de définir ses propres opérateurs d’indexation en dehors des types array, string et bigarray. C’est particulièrement utile pour manipuler des dictionnaires :

module Dict = struct
  include Map.Make(String) (* importation d'un module `Map`classique *)
  let (.?()) dict clef = find_opt clef dict
end
open Dict

let dict = Dict.of_seq (List.to_seq ["one", 1; "dos", 2; "drei", 3])
let trois = dict.?("drei")
(* ou *)
let trois = dict.Dict.?("drei")

Ou pour définir des formes de tableaux spécialisés sans perdre la syntaxe pratique des tableaux généralistes.

Pour bien marquer la différence entre ces nouveaux opérateurs d’indexation et les opérateurs d’indexation de base, leur nom doit comporter au moins un symbole supplémentaire entre le point . et la parenthèse ouvrante (.

Cependant, la syntaxe a encore besoin d’un peu de rodage pour être vraiment utilisable pour les tableaux multidimensionels des librairies de calcul numérique comme owl.

Au monde des objets

Le système objet d’OCaml a un champ d’application moins vaste que dans les langages orientés objet comme C++ ou Java. En partie parce que le système de modules répond à un grand nombre des questions de modularité et d’encapsulations qui sont le domaine des objets dans un langage purement objet.
Les objets n’en demeurent pas moins utiles, et OCaml 4.06 apporte une nouvelle option pour composer plus facilement des types objets : les champs hérités.
Par exemple, on peut partir d’un type animal :

type animal = < respire: unit >

Ce qui définit le type d’un objet doté d’une méthode respire sans argument. On peut ensuite définir un type mobile :

type mobile = < avance: int >

Puis combiner les deux :

type animal_mobile = < animal; mobile >

Il était déjà possible d’arriver à ce résultat en jonglant avec les types de classes, mais cette nouvelle méthode est bien plus intuitive.

Ce genre de code met en exergue une des particularités du système objet d’OCaml, qui est structurel : un objet n’est défini que par les méthodes qu’on peut lui envoyer et non par sa classe, ce qui donne au final un système qui s’apparente à une version statique du duck‐typing à la Python.

Meilleure intégration des types algébriques généralisés

Un des travaux de fond dans OCaml 4.07 a été l’amélioration du traitement des types algébriques généralisés (ou GADT) au sein du vérificateur de types.

Lors de l’introduction des GADT dans OCaml 4.00, ceux‐ci se sont souvent vus octroyés des chemins d’exécution particuliers pour séparer cette nouvelle extension du cœur mieux testé du langage. Après sept versions, les codes côté GADT et côté classique ont été unifiés. D’un point de vue utilisateur, cela signifie surtout qu’il n’est plus nécessaire de qualifier les GADT lorsque l’on filtre un schéma avec match :

module M = struct
  type en_attente =
    | Fini : en_attente
    | En_cours : 'a * ('a -> en_attente) -> en_attente
end
let execute (x : M.en_attente) = match x with
  | Fini -> M.Fini
  | En_cours (x,f) -> f x

Alors qu’il fallait précédemment qualifier les branches du match :

let execute (x : M.en_attente) = match x with
  | M.Fini -> M.Fini
  | M.En_cours (x,f) -> f x

Une des nouveautés, qui concerne plus les usages avancés, est l’apparition de variants vides, c’est‐à‐dire de types de variants sans aucune valeur associée :

type unique = |

Ce type étrange est principalement utile pour créer de manière explicite un nouveau type unique, qui ne sera utilisé que dans le système de type ou dans la génération de code.

Du côté des modules

Pour les utilisateurs avancés, il est désormais plus facile de préserver les alias de modules, que ce soit avec module type of ou des contraintes with modules.
Par exemple, avec :

module A = struct type t end
module B = struct module Alias = A end

module type S = module type of B

S est désormais équivalent à :

module type S' = sig module Alias = A end

plutôt que :

module type S_sans_alias = sig
  module Alias: sig type t end
end

L’ancien comportement peut être rétabli en ajoutant un attribut [@remove_aliases] :

module type S_sans_alias = module type of S [@remove_aliases]

Un autre changement est qu’il est désormais possible d’utiliser des substitutions destructives à l’intérieur de sous‐modules :

module type S = sig
  module Inner: sig
    type t
    val x: t
  end
end
module type S' = S with type Inner.t := int

Messages d’erreur

Les messages d’erreur émis par OCaml ne sont pas toujours très clairs. Des efforts sont en cours pour corriger ce point. Par exemple, OCaml 4.07 essaie d’expliquer plus en détails certaines erreurs courantes chez les débutants, par exemple en cas d’oubli d’un argument () :

let un () = 1 
let test = (0 = un);;

Error: This expression has type unit -> int
but an expression was expected of type int
Hint: Did you forget to provide `()' as argument?

Le contexte de certaines erreurs est désormais mieux détaillé :

let () = if () then ()

Error: This variant expression is expected to have type bool
because it is in the condition of an if-statement

plutôt que juste :

Error: This variant expression is expected to have type bool

Les types faiblement polymorphiques, qui auparavant étaient marqués par juste un tiret _, ont maintenant des noms plus explicites :

let none = ref None

none: '_weak1 option ref

Cela dans l’espoir de les rendre plus apparents et facilement cherchables, notamment dans le manuel.

Enfin, pour les utilisateurs plus avancés, les messages d’erreurs concernant les foncteurs et modules sont passés de :

module F() = struct end 
let x = F.x

Error: The module F is a functor, not a structure

à une version qui explique pourquoi l’extrait de code plus haut est invalide :

Error: The module F is a functor, it cannot have any components

Documentation

Le manuel de référence a fait peau neuve pour la version 4.07. L’apparence graphique du manuel commençait à faire un peu daté, et un rafraîchissement de façade était de rigueur.

Sur le fond, le manuel s’est enrichi d’un nouveau chapitre sur les troubles liés au polymorphisme, que ce soit les types faiblement polymorphiques :

let nouvel_identite () = fun x -> x
let id = nouvel_identite ()
let erreur = id id

Le polymorphisme d’ordre supérieur :

let f identite = identite 1, identite 2.

ou les fonctions polymorphiquement récursives :

let rec etrange l = match l with 
| [] -> 0
| [ _ ] -> 1
| a :: q ->  etrange [q];;

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

LinuxFr.org : les contenus étiquetés avec « ocaml »

Why I love OCaml

Elpe, un compromis entre NixOS et Ubuntu

Annonce de Godotcaml pour Godot 4.2

autocsv2sql : un utilitaire pour convertir ses CSV sans se poser de question, "écris" en OCaml

ACM Programming Languages Software Award goes to OCaml researchers

[podcast] For those who just don’t Git it (interview with Pierre-Étienne Meunier)

De OCaml à ReScript : création d'un nouveau langage ?

Bucklescript

ReScript

Multicore OCaml: December 2021 and the Big PR

🏆 Meilleures contributions LinuxFr.org : les primées de décembre 2021

Les livres 📚 sélectionnés

OCaml en 2021

Sommaire

La route vers le multi-cœur et OCaml 5.0

Une prise en charge étendue de RISC-V à macOS/ARM64

De meilleurs messages d’erreurs

Des messages d’erreurs plus détaillés pour les foncteurs

Confusion entre module et module types

Une explication des problèmes de régularité

Améliorations de l’expérience utilisateur

Statmemprof : profiler la mémoire sur des programmes en production.

Des noms pour les warnings

Et la Stdlib s’agrandit

Des piles d’appels plus expressives

Plus de types pour les utilisateurs experts

Des noms pour les types existentiels

De l’injectivité pour vos types

Au-delà d’OCaml multi-cœur

Xavier Leroy : les 25 ans de Ocaml

Alors comme ça, Bloomberg, vous utilisez du OCaml en prod pour des trucs sérieux ?

25 years of OCaml

Retour d'expérience sur les langages de programmation

Sommaire

Petit tour d'expérience sur des langages

OCaml

Haskell

Tcl, Perl, Python, Raku

Common Lisp, Racket

J

Coq

Go

Rust

Ce qu'il m'est resté de tout ça

Langages que j'aimerais creuser un peu un jour

OCaml 4.06 et 4.07

Sommaire

Bibliothèque standard

Nouveautés dans le langage

Opérateurs d’indexation

Au monde des objets

Meilleure intégration des types algébriques généralisés

Du côté des modules

Messages d’erreur

Documentation

Statmemprof : profiler la mémoire sur des programmes en production.