Aujourd'hui ça compte pas vraiment, mais par définition ils ne comptent pas les utilisations de l'IA en local.
Depuis quelques jours je joue avec Ollama et des modèles de l'ordre de 20Gb (certes il faut une grosse carte graphique, mais c'est pas non plus un data center quoi), ça marche très bien pour certaines tâches (journal à suivre).
Nul doute qu'à moyen terme ce sera réellement utilisable au quotidien.
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
Je pensais que ollama c'était une interface web et une API web au dessus de quelque chose comme llama-cpp et donc que les perfs bruttes étaient les mêmes. Je me trompe alors ?
Posté par octane .
Évalué à 3 (+1/-0).
Dernière modification le 10 février 2026 à 09:54.
ollama, je croyais que c'était juste un wrapper (?)
Sinon, je chercherai des docs accessibles sur les manières de plug différentes IA entre elles avec du RAG. Typiquement, j'ai reçu un rapport de pentest d'une de mes applis, et le pentester a pas filé des masses de détails sur ses découvertes. Ce dont je rêve là, c'est d'un système avec plein de petits LLM qui bossent en parallèle:
vas-y, lis le rapport et découpe le en plein de petites vulns
toi, tu prends un MCP d'une kali et tu me crées des pocs pour les vulns
toi, tu prends les poc et tu les tests, et tu reboucles si le poc passe pas
une fois que le poc est passé, tu me proposes une vraie correction
et au final tu me refais un rapport avec des vrais poc.
Autant jouer avec ollama c'est rigolo mais ça va pas très loin une fois que tu lui a demandé de réécrire tes messages de commits comme un dramaturge grec (ou comme Mario), autant l'orchestration de plein de petits llm c'est plus compliqué.
Ou alors je vibe-code un orchestrateur. mmmmh. ou alors je demande à chatgpt de me faire le bon prompt pour demander à mon ollama local de vibecoder un orchestrateur. C'est bien l'IA c'est infini. /s
Sinon, je chercherai des docs accessibles sur les manières de plug différentes IA entre elles avec du RAG
Il y a eu une très bonne initiation au RAG dans les deux derniers numéros de Sysops magazine. Ça va pas répondre à ta question, mais c'est à base de script Python custom en gros. Il prend le RGP, le découpe en articles bien propres (JSON), le file à bouffer à son LLM local, et ensuite il a son chatbot spécialisé RGPD.
Un bon début je pense.
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
le côté RAG, ça va, j'ai joué avec et c'est rigolo :) ma question était plus sur la manière de plugger tout ça ensemble. Genre je lui file le rapport et un premier agent va analyser le contenua via le RAG et vérifier si les POCs sont présents ou non, s'ils sont compréhensibles, etc etc..
# Limitation
Posté par gUI (Mastodon) . Évalué à 7 (+4/-0).
Aujourd'hui ça compte pas vraiment, mais par définition ils ne comptent pas les utilisations de l'IA en local.
Depuis quelques jours je joue avec Ollama et des modèles de l'ordre de 20Gb (certes il faut une grosse carte graphique, mais c'est pas non plus un data center quoi), ça marche très bien pour certaines tâches (journal à suivre).
Nul doute qu'à moyen terme ce sera réellement utilisable au quotidien.
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
[^] # Re: Limitation
Posté par lejocelyn (site web personnel) . Évalué à 4 (+2/-0).
Franchement, je te conseille d'essayer llama-cpp (https://llama-cpp.com/), vllm (https://docs.vllm.ai/en/latest/), ou encore… j'allais dire Ramalama (https://ramalama.ai/).
Ollama, c'est sympa et accessible, mais en fait, niveau performance et bidouillage, ce n'est vraiment pas terrible.
[^] # Re: Limitation
Posté par steph1978 . Évalué à 5 (+3/-0).
Je pensais que ollama c'était une interface web et une API web au dessus de quelque chose comme llama-cpp et donc que les perfs bruttes étaient les mêmes. Je me trompe alors ?
[^] # Re: Limitation
Posté par octane . Évalué à 3 (+1/-0). Dernière modification le 10 février 2026 à 09:54.
ollama, je croyais que c'était juste un wrapper (?)
Sinon, je chercherai des docs accessibles sur les manières de plug différentes IA entre elles avec du RAG. Typiquement, j'ai reçu un rapport de pentest d'une de mes applis, et le pentester a pas filé des masses de détails sur ses découvertes. Ce dont je rêve là, c'est d'un système avec plein de petits LLM qui bossent en parallèle:
et au final tu me refais un rapport avec des vrais poc.
Autant jouer avec ollama c'est rigolo mais ça va pas très loin une fois que tu lui a demandé de réécrire tes messages de commits comme un dramaturge grec (ou comme Mario), autant l'orchestration de plein de petits llm c'est plus compliqué.
Ou alors je vibe-code un orchestrateur. mmmmh. ou alors je demande à chatgpt de me faire le bon prompt pour demander à mon ollama local de vibecoder un orchestrateur. C'est bien l'IA c'est infini. /s
[^] # Re: Limitation
Posté par gUI (Mastodon) . Évalué à 4 (+1/-0).
Il y a eu une très bonne initiation au RAG dans les deux derniers numéros de Sysops magazine. Ça va pas répondre à ta question, mais c'est à base de script Python custom en gros. Il prend le RGP, le découpe en articles bien propres (JSON), le file à bouffer à son LLM local, et ensuite il a son chatbot spécialisé RGPD.
Un bon début je pense.
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
[^] # Re: Limitation
Posté par octane . Évalué à 3 (+1/-0).
le côté RAG, ça va, j'ai joué avec et c'est rigolo :) ma question était plus sur la manière de plugger tout ça ensemble. Genre je lui file le rapport et un premier agent va analyser le contenua via le RAG et vérifier si les POCs sont présents ou non, s'ils sont compréhensibles, etc etc..
[^] # Re: Limitation
Posté par ff9097 . Évalué à 3 (+2/-1).
A priori le data center ne sert pas que pour toi
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.