Aller au contenu
Thomas Gibertie
Automatisation data

Quand le manuel ne tient plus l'échelle.

Le data engineering est ma première colonne vertébrale. Je code l'automatisation qui supprime la saisie, fiabilise les chiffres, intègre les modèles Anthropic dans les systèmes existants, et donne aux dirigeants une vue unifiée sur leur entreprise.

Approche

Trois principes avant de coder quoi que ce soit.

01

Mesurer avant d'automatiser.

Avant la première ligne de code, on chronomètre le manuel. Si le coût annuel du manuel est inférieur à 3× le coût d'automatisation, on n'automatise pas. Aucune dette technique gratuite.

02

Souveraineté technique.

Pas de SaaS magique en milieu de chaîne. Vos données circulent entre vos systèmes, par vos API, sur vos serveurs. Le code livré vous appartient, les agents Claude tournent chez vous, pas chez un intermédiaire.

03

Documentation transmissible.

Tout est versionné, tout est documenté pour qu'un développeur tiers puisse reprendre. Pas de dépendance personnelle, pas de boîte noire dans laquelle vous ne voyez rien.

Domaines

Six terrains d'intervention.

Domaine 01 · Travail direct Anthropic

Mise en place de Claude en entreprise

Adoption raisonnée des modèles Anthropic dans le SI existant : architecture de prompt, prompt caching, tool use, agents, MCP servers, garde-fous. Je travaille en direct sur la plateforme Anthropic (pas via un revendeur).

Exemples concrets
  • Audit d'usage des LLM dans une organisation (qui utilise quoi, à quel coût, avec quels risques)
  • Conception et déploiement d'agents Claude sur cas métier précis (rapprochement bancaire, qualification de leads, synthèse documentaire)
  • Mise en place de MCP servers internes pour exposer les données métier aux agents en sécurité
  • Optimisation du coût d'inférence via prompt caching et choix de modèle (Haiku / Sonnet / Opus selon la tâche)
  • Formation des équipes : prompt engineering opérationnel, sécurité des prompts, détection des hallucinations
Domaine 02 · Cas e-commerce

Pilotage data e-commerce

Centralisation des données critiques d'un e-commerce pour donner aux dirigeants une vue unifiée sur la performance : canaux d'acquisition, catalogue, commandes, logistique, comptabilité. Un seul entrepôt, une seule grille de lecture, des arbitrages mieux informés.

Exemples concrets
  • Centralisation des performances canaux d'acquisition (Meta Ads, Google Ads, TikTok, SEO organique, affiliation, e-mailing) dans un entrepôt unique avec attribution multi-touch lisible
  • Connecteurs API internes vers PrestaShop et Shopify : catalogue, commandes, clients, stock en quasi temps réel
  • Intégration ERP + WMS (stocks, achats, livraisons) pour rapprocher données commerciales et logistiques
  • Pipelines comptables pour la direction financière : rapprochement bancaire, COGS produit, marge nette par canal, tension trésorerie hebdomadaire
  • Optimisation des flux : automatisation des commandes fournisseurs, alertes de rupture, détection des anomalies sur les coûts d'expédition
  • Tableaux de bord unifiés Looker Studio / Metabase / dashboards custom selon préférence de l'organisation
Domaine 03

Pipelines analytics

GA4, Search Console, Looker Studio. J'attaque l'API directement plutôt que les interfaces : les exports sont plus fins, plus stables, plus reproductibles. Helpers CLI maison, monitoring de fraîcheur, alertes sur dérive.

Exemples concrets
  • Audit tunnel d'achat GA4 sur 90 jours avec segmentation device, source, catégorie produit
  • Croisement GSC × GA4 pour identifier les pages à fort impression / faible CTR avec ROI travaillé
  • Détection automatique d'événements de conversion cassés (cas sessionConversionRate à 96 % en 2026)
  • Path exploration vs funnel exploration pour cartographier les vrais parcours observés
  • API GA4 Data via Service Account, scopes minimaux, refresh tokens OAuth en cache
Domaine 04

Comptabilité & facturation

Pipelines Dolibarr v22 sur-mesure : ingestion bancaire CSV, matching fournisseurs avec normalisation et Levenshtein, archivage Drive structuré, mail forwarding pour OCR de factures. Quand la saisie manuelle coûte plus cher que le développement, on bascule.

Exemples concrets
  • Ingestion automatique des relevés BNP + Société Générale mensuels en CSV natifs
  • OCR factures par mail forward, extraction structurée Anthropic vision, brouillon SI auto-créé dans Dolibarr
  • Matching fournisseur avec normalisation suffixes (SAS/SARL/Inc), garde-fou anti-doublon Levenshtein ≤ 2
  • Génération automatique du FEC annuel et de la liasse fiscale (formulaires 2033/2065)
  • Rituel mensuel de revue conjointe avec cross-check CSV bancaires vs bank lines Dolibarr
Domaine 05

SEO data tooling

Kairos Platform — mon produit interne — et des scripts ad-hoc pour chaque mission. Monitoring de positions, audits techniques scriptés, scoring GEO automatique, suivi de migration. Pas d'investissement client dans des SaaS marketing intermédiaires.

Exemples concrets
  • Monitoring quotidien de plusieurs milliers de positions sur Google + 4 LLM
  • Crawl différentiel pré/post-déploiement avec alerte sur régression
  • Scoring D1-D12 automatique sur l'ensemble du site, page par page
  • Détection de cannibalisations sémantiques sur corpus large
  • Pipelines GitLab CI quotidiens, dashboards Looker Studio + alertes
Domaine 06

Scraping et ingestion

Scraping légal pour collecte de données métier : grilles tarifaires concurrents, catalogues produits publics, données réglementaires. Toujours dans le respect du robots.txt, de la JS-rendered policy, et des CGU. Cloudflare Browser Rendering quand c'est lourd.

Exemples concrets
  • Suivi quotidien des tarifs publics d'un panel concurrent (sortie CSV consolidée)
  • Ingestion d'un catalogue produit pour analyse sémantique et détection des gaps
  • Veille réglementaire automatisée sur sources officielles (JO, Légifrance, sites ministériels)
  • Extraction structurée par IA (Anthropic vision) sur PDF non standardisés
  • Cloudflare Browser Rendering pour pages JS-rendered à fort volume
Claude en entreprise

Comment je travaille avec les modèles Anthropic.

Les modèles Anthropic (Claude Opus, Sonnet, Haiku) sont aujourd'hui les plus solides pour les usages métier exigeants : qualité de raisonnement, gestion du long contexte (1 M tokens sur Opus 4.x), garanties de sûreté supérieures à la moyenne du marché, tarification lisible.

Je travaille en direct sur la plateforme Anthropic, sans intermédiaire. Les patterns que j'applique en production : prompt caching agressif pour réduire les coûts, choix de modèle par tâche (Haiku quand c'est suffisant, Opus quand le raisonnement compte), tool use parallèle pour les workflows métier, et MCP servers internes pour exposer les données de l'organisation aux agents sans tout réécrire.

Certifications Anthropic vérifiables
  • Claude with the Anthropic API
    Délivré par Anthropic · Skilljar
  • Model Context Protocol : Advanced Topics
    Délivré par Anthropic · Skilljar
  • Claude Code in Action
    Délivré par Anthropic · Skilljar

Ce qui distingue une intégration Claude réussie d'une intégration ratée : la qualité du contexte fourni au modèle (architecture de prompt, sources internes structurées), l'observabilité de l'agent, et la sécurité des sorties — pas le choix du modèle.

Pilotage e-commerce

Une seule grille de lecture sur toute la chaîne.

Le problème récurrent d'un e-commerce qui grandit : la donnée est partout, sous différents formats, sans rapprochement consolidé. Meta Ads d'un côté, Google Ads de l'autre, Shopify ou PrestaShop pour les ventes, un ERP pour les stocks, une compta dans son coin. La direction arbitre à l'aveugle ou en collant des chiffres approximatifs.

Ce que je construis : un entrepôt unique qui ingère les API natives de chaque canal, les rapproche par clé métier (commande, client, SKU), et expose une grille de lecture unifiée. La direction voit la marge nette par canal d'acquisition, la rotation de stock par fournisseur, la tension de trésorerie hebdomadaire — sur les mêmes chiffres que la compta annuelle.

Sur la couche DAF : rapprochement bancaire automatisé, COGS au produit, détection des anomalies (coûts d'expédition, écarts marge théorique vs réelle), pilotage des paiements fournisseurs en fonction de la trésorerie disponible.

Stack

Outils et choix techniques.

Langage principal
TypeScript / Node 22, PHP 8 (legacy Dolibarr), Python pour la data sciencework
Bases
PostgreSQL, MariaDB, SQLite selon le cas. DuckDB pour analytics ad-hoc
Orchestration
GitLab CI, cron Linux, jobs systemd. Pas de Kubernetes, pas de Docker — choix assumé
API IA
Anthropic (Claude Haiku, Sonnet, Opus), Anthropic Files API, prompt caching, MCP servers
API tierces
Google (GA4 Data, GSC, Sheets, Drive, Slides), Stripe, PrestaShop, Shopify, Babbar, Haloscan, DataForSEO
Hébergement
Serveurs dédiés OVH / ISPConfig, pas de cloud opaque
Sécurité
Coffre de credentials chiffré, rotation systématique, pas de secrets en git, jamais de root sur les serveurs clients
Lien avec le GEO

Pourquoi l'automatisation est centrale dans une stratégie GEO.

Le GEO impose un volume de mesure et de production que le manuel ne tient pas. Suivre 60 prompts × 4 LLM × 4 runs par mois représente près de 1 000 interrogations à orchestrer, parser, scorer. Sans automatisation, vous mesurez tous les six mois — donc trop tard.

Côté production, la grille KAIROS D1-D12 demande de baliser des centaines de pages avec un schema.org étendu cohérent. Le faire à la main est intenable au-delà de 50 pages. Le faire avec un pipeline qui lit votre CMS et génère le balisage, c'est une journée d'intégration, et plus jamais de dérive.

Pages liées

L'automatisation n'a de sens qu'attachée à un objet métier.

Quelques cas anonymisés — tunnel GA4, ingestion bancaire, monitoring GEO, déploiement Claude sur cas métier — sont décrits sur la page Travaux.