Le Cerveau Réglementaire — Architecture Technique

Page 1

Le Moteur de Connaissance

4 millions de fragments juridiques, indexés, structurés et prêts à l'interrogation — issus exclusivement de sources officielles.

Fragments indexés

696K

Décisions de justice

Codes juridiques

<2s

Temps de réponse

⚖️

Code Général des Impôts

CGI + Annexes 2, 3, 4 — Tous les articles en vigueur

7 152 chunks

👷

Code du Travail

31 454 articles actifs — droit social complet

34 956 chunks

🏥

Code de la Sécurité Sociale

28 690 articles — cotisations, prestations, URSSAF

38 625 chunks

📜

Code Civil

5 768 articles — contrats, responsabilité, biens

5 915 chunks

🏢

Code de Commerce

2 681 articles — sociétés, faillites, RCS

2 805 chunks

📖

BOFiP (Doctrine Fiscale)

5 677 articles DGFiP — la doctrine officielle intégrale

43 398 chunks

Pipeline de données

De la donnée brute à l'index interrogeable

Chaque source officielle passe par un pipeline de nettoyage, découpage et indexation.

Ingestion

📦 LEGI Open Data (DILA)

→

🔄 Extraction XML

→

✂️ Chunking (2000 car.)

Indexation

🏷️ Classification par code

→

📊 SQLite FTS5 Index

→

✅ Prêt à interroger

Sources officielles

📄 BOFiP (DGFiP)

🏛️ Jurisprudence (CASS / CE)

📖 LEGI (6 codes)

Page 2

Le Pipeline d'Intelligence

Ce qui se passe entre votre question et la réponse — en 4 étapes, en moins de 2 secondes.

🔍

1. Expansion de la requête

L'utilisateur pose une question en langage naturel. L'IA la transforme en termes juridiques précis pour élargir la recherche.

Entrée : "Comment déduire les frais de repas ?"
Expansion IA :
→ frais réels repas déduction IR
→ indemnité forfaitaire nourriture salarié
→ BOFiP frais professionnels repas barème

📚

2. Recherche hybride (FTS5 + BM25)

Les requêtes élargies sont lancées simultanément sur l'index SQLite FTS5. Les résultats sont fusionnés et dédupliqués.

Stratégie : AND d'abord (précision), puis OR en fallback (rappel)
Volume : ~30 candidats extraits de 4M fragments en <50ms
Filtrage : Par code (CGI, CSS, C. Travail...) ou par type (loi, doctrine, jurisprudence)

🧠

3. Reranking sémantique (OpenAI)

Les 30 candidats sont soumis au moteur IA, qui les reclasse par pertinence réelle par rapport à l'intention de l'utilisateur.

Pourquoi ? BM25 trouve les mots — l'IA comprend le sens.
Résultat : Les 8 sources les plus pertinentes, triées par intelligence artificielle.
Gain : Élimine les faux positifs (articles obsolètes, hors-sujet, doublons).

💬

4. Synthèse et réponse citée

L'IA génère une réponse structurée en citant chaque affirmation avec [Source N]. Aucune hallucination possible — chaque phrase est traçable.

Format : Réponse professionnelle structurée avec titres et puces
Citations : Chaque affirmation renvoie à un article de loi précis
Ton : Expert mais accessible — adapté aux experts-comptables
Garde-fou : Si les sources sont insuffisantes, l'IA le dit explicitement.

Le flux complet — de la question à la réponse

❓ Question utilisateur

→

🔍 Expansion IA

→

📚 FTS5 Recall (30 résultats)

📚 FTS5 Recall

→

🧠 Reranking IA (→ Top 8)

→

💬 Réponse citée

Positionnement

Pourquoi pas simplement ChatGPT ?

La différence entre un outil qui "devine" et un outil qui "sait".

Critère	ChatGPT / Claude	Bases payantes (Dalloz, LexisNexis)	Klareo Brain 🧠
Sources vérifiables	✗ Aucune citation	✓ Propriétaires	✓ Sources officielles
Risque d'hallucination	✗ Élevé	✓ Faible	✓ Nul (RAG sourcé)
Coût	✓ ~20€/mois	✗ 300-2000€/mois	✓ Gratuit
Mise à jour	✗ Données gelées	✓ Continue	✓ Open Data DILA
Couverture juridique	✗ Partielle / aléatoire	✓ Complète + commentée	✓ 6 codes + BOFiP + jurisprudence
Réponse structurée	✓ Oui mais non sourcée	✗ Recherche manuelle	✓ IA + citations [Source N]
Hébergement	✗ US / OpenAI	✓ FR / EU	✓ FR (Hetzner EU)