§ 03 / 04 — ASSISTANT DOCUMENTAIRE RAG

Un assistant qui connaît vos documents mieux que vous.

Recherche sémantique dans votre base de contrats, rapports, documentation : extraction de clauses, résumé, questions-réponses avec citations. Pinecone ou Weaviate pour la vectorisation, Claude ou GPT-5 pour la synthèse. Données en UE.

§ 01 — Le problème

Votre savoir est enseveli sous 10 000 PDF.

Sans expert
  • Des milliers de contrats, rapports, docs — recherche texte plein inefficace.
  • Vos experts passent des heures à relire des documents pour retrouver une clause.
  • Onboarding junior = 6 mois de lecture avant d'être autonome.
  • Chaque question « déjà posée il y a 2 ans » redemandée sans que personne ne trouve la réponse.
  • ChatGPT « avec vos fichiers » → hallucinations et citations fausses.
Avec Vulcain
  • Recherche sémantique : « clauses de résiliation pénalisantes » trouve les bonnes sans matcher mot à mot.
  • Résumé automatique d'un document de 100 pages en 20 lignes factuelles.
  • Questions-réponses avec citations : chaque réponse pointe vers le passage exact.
  • Extraction de clauses types (confidentialité, propriété intellectuelle, résiliation).
  • Permissions par document : l'assistant ne montre que ce que l'utilisateur a le droit de voir.
§ 02 — Ce qui est livré

Ce qui est livré.

§ 01

Ingestion multi-format

PDF (texte + scan OCR), Word, Excel, PowerPoint, HTML, emails. Crawl auto d'un SharePoint, Google Drive, Dropbox.

  • PDF + OCR
  • Office
  • Crawl SharePoint
  • Google Drive
§ 02

Chunking sémantique

Découpage intelligent qui respecte les sections, paragraphes, tableaux. Overlap configurable, métadonnées préservées.

  • Respect structure
  • Overlap
  • Métadonnées
  • Tableaux
§ 03

Vector store

Pinecone (managed) ou Weaviate / pgvector (self-hosted UE). Index hybride : vector + keyword (BM25).

  • Pinecone
  • Weaviate / pgvector
  • Hybrid search
  • Reranking
§ 04

Questions-réponses avec citations

Chaque réponse cite les passages sources avec lien cliquable vers le document. Refus si peu de contexte pertinent.

  • Citations obligatoires
  • Liens cliquables
  • Confidence score
  • Refus si doute
§ 05

Extraction structurée

Templates pour extraire automatiquement : parties, dates, montants, clauses type. Export JSON / Excel.

  • Templates
  • Dates / montants
  • Clauses type
  • Export Excel
§ 06

Permissions & audit

RBAC par document / dossier, historique complet des requêtes, export pour audit conformité.

  • RBAC fin
  • Audit log
  • Export conformité
  • RGPD compliant
§ 04 — Tarifs & délais
§ 01

Assistant équipe

5 à 8 semaines

1–10 000 documents, 1 source (SharePoint ou Drive), UI web, 5–30 utilisateurs, permissions basiques.

  • 10k docs max
  • 1 source
  • UI web
  • 30 users
  • RBAC basique
§ 02

Assistant entreprise

8 à 14 semaines

100 k+ documents, multi-sources, extraction de clauses, permissions fines, intégration SSO, audit.

  • 100 k+ docs
  • Multi-sources
  • Extraction clauses
  • SSO
  • Audit
§ 03

Plateforme dédiée

14 à 30 semaines

Millions de documents, multi-tenants, API publique, SDK clients, SLA 99.9 %, déploiement dédié UE.

  • Millions docs
  • Multi-tenants
  • API + SDK
  • SLA 99.9 %
  • Déploiement dédié

Tarifs sur devis après cadrage · forfait ou régie selon le format

§ 04 — Questions fréquentes

Questions assistant.

§ 01 Comment l'assistant accède-t-il à mes documents ?

L'assistant est connecté à vos sources : Google Drive, SharePoint, OneDrive, Notion, Confluence, dossiers partagés, ou tout système disposant d'une API. Les documents sont indexés et mis à jour automatiquement. L'assistant respecte les droits d'accès existants : un collaborateur ne peut obtenir que les informations auxquelles il est légitimement autorisé à accéder.

§ 02 Quels formats de documents sont pris en charge ?

Tous les formats courants : PDF, Word, Excel, PowerPoint, pages Notion et Confluence, emails archivés, pages web internes, manuels techniques, contrats, procédures qualité. Y compris les PDF scannés et les documents anciens — grâce aux capacités de lecture visuelle des modèles IA récents.

§ 03 L'assistant peut-il citer ses sources ?

Oui, chaque réponse est accompagnée de la source exacte : nom du document, page ou section, lien direct. Cela garantit la traçabilité et permet à l'utilisateur de vérifier l'information en un clic. C'est un principe de conception fondamental : l'assistant n'invente pas, il s'appuie sur votre contenu réel.

§ 04 Est-ce que mes données confidentielles sont en sécurité ?

Oui. Nous utilisons les offres professionnelles d'OpenAI et Anthropic qui garantissent contractuellement que vos données ne sont pas utilisées pour entraîner leurs modèles. Pour les cas les plus sensibles, il est possible d'héberger tout le système en Europe, voire sur votre propre infrastructure, avec une base documentaire privée qui ne sort jamais de votre réseau.

§ 05 Comment l'assistant se maintient-il à jour ?

Automatiquement. Quand un document est ajouté, modifié ou supprimé dans vos outils (Drive, Notion, SharePoint…), l'assistant s'actualise en conséquence, sans intervention manuelle. Vous gardez votre gestion documentaire existante, l'assistant suit. Aucun double travail.

§ 06 — Voir aussi
§ 07 — Parlons assistant documentaire

Combien de PDF votre équipe
cherche chaque semaine ?

Audit rapide pour estimer le volume documentaire, la stack adaptée (Pinecone / Weaviate / pgvector), le périmètre de permissions et le palier pertinent. Sans engagement, 15 minutes.

  • 01
    Compte-rendu écrit et estimation envoyés sous 24 h.
  • 02
    Aucun engagement. Aucune relance commerciale.
  • 03
    Si ce n'est pas pour moi, je vous oriente vers un confrère.