Modulo 11 · AI

OCR documentale — Intelligent Document Processing

Estrazione strutturata da polizze, quietanze, allegati e contratti con human-in-the-loop e confidence scoring.

Cos'è il modulo OCR documentale (IDP)?

L'OCR documentale è il modulo di Intelligent Document Processing (IDP) verticale insurance che classifica e estrae automaticamente campi strutturati da polizze, quietanze, contratti, allegati di sinistro e documenti KYC. Va oltre l'OCR tradizionale: comprende la struttura del documento, riconosce entità tipiche del dominio assicurativo (premio, contraente, beneficiario, decorrenza, massimale, CIG, P.IVA, codice fiscale), valida la coerenza interna (es. premio + tasse = totale), genera output strutturato JSON pronto per alimentare il back-office polizze, il modulo claims o il KYC. Confidence scoring per riga + workflow human-in-the-loop garantiscono > 97% di accuratezza post-revisione sui campi strutturati.

Per chi

Chi gestisce volumi documentali alti

Back-office polizzeCaricamento massivo polizze da Excel/PDF di compagnie partner
Claims handlerIngestione automatica allegati FNOL (perizie, fatture, foto)
AML / KYC officerOCR documenti identità + match facciale
Operations centraleSmistamento email/PEC con classificazione e instradamento
Funzionalità chiave

Cosa fa il modulo OCR

Classificazione & estrazione
  • Classificazione automatica tipo documento (polizza, quietanza, sinistro, KYC)
  • Estrazione campi strutturati (NER specializzata assicurazione)
  • Riconoscimento entità: contraente, beneficiario, CIG, P.IVA, importi
  • Validazione coerenza interna (sum check, format check)
  • Bounding box per ogni campo estratto (link al documento originale)
  • Preservazione layout per ri-emissione / traduzione
Quality & HITL
  • Confidence scoring per riga (0-100%)
  • Soglia HITL configurabile (default 90%)
  • Workflow di revisione umana con UI annotata
  • Apprendimento incrementale: le correzioni migliorano il modello
  • Audit trail completo: input, output, correzioni, motivazioni
  • Output strutturato JSON per integrazione downstream
Workflow tipico

Dal documento in ingresso al dato strutturato

01

Ingestione

Documento arriva via PEC, email, upload portale, app mobile. Allegati estratti, decifrati (se cifrati), pre-processati (raddrizzamento, denoising).

02

Classificazione

Modello di classificazione identifica il tipo: polizza, quietanza, perizia, KYC. Probabilità su ogni classe. Documenti ambigui marcati per revisione.

03

Estrazione campi

Modello NER specializzato estrae i campi tipici del tipo documento. Per ogni campo: valore + confidence score + bounding box.

04

Validazione & routing

Check di coerenza (sum, format). Se tutto confidence ≥ soglia: passa direttamente al back-office. Se qualche campo è sotto soglia: routing a HITL.

05

Revisione umana (HITL)

Operatore vede il documento + estrazione + alternative proposte. Conferma o corregge in pochi click. Le correzioni alimentano il fine-tuning del modello.

06

Output & archiviazione

JSON strutturato passa al modulo destinazione (back-office, claims, KYC). Documento originale archiviato con link al record. Audit trail completo.

Tecnologie

Stack tecnico

AI / ML
OCR engine multi-lingua NER specializzata insurance IT Document classifier
Pipeline & storage
Pipeline modulare on-tenant Document store cifrato HITL annotation UI
Risultati misurabili

Impatto sui processi documentali

> 97%Accuratezza post-HITLSu campi strutturati di polizze italiane
−80%Tempo data entryInserimento automatico vs digitazione manuale
≤ 10%Documenti in HITLTipico per cliente in produzione stabilizzato
0Dati a provider esterniPipeline on-tenant, nessun training su LLM pubblici
FAQ

Domande frequenti sull'OCR documentale

Qual è la differenza tra OCR e IDP?

OCR (Optical Character Recognition) trasforma immagine in testo grezzo. IDP (Intelligent Document Processing) va oltre: comprende la struttura del documento, estrae campi specifici (es. "premio lordo: 1.250 €"), valida la coerenza tra campi correlati, classifica il tipo di documento. NewPicass 14.Net implementa IDP per documenti assicurativi: classifica + estrae + valida in un solo passaggio.

Che precisione raggiungete sulle polizze italiane?

Su documentazione strutturata (polizze emesse da compagnie italiane note) raggiungiamo accuratezza > 97% sui campi strutturati post human-in-the-loop. Su documenti destrutturati (lettere, allegati liberi) la precisione varia 88-95%. Il sistema usa confidence scoring per riga: se sotto soglia (configurabile, default 90%) il campo è instradato automaticamente alla revisione umana.

Cosa significa human-in-the-loop?

Il modello AI non si limita a un'estrazione "prendere o lasciare". Quando la confidence su un campo è bassa, il sistema instrada il documento a un operatore che vede l'immagine, il testo estratto e le proposte alternative, e conferma o corregge in pochi click. Le correzioni alimentano il fine-tuning del modello: l'accuratezza migliora nel tempo specificamente sui documenti del cliente.

Si preserva il layout originale del documento?

Sì. L'estrazione mantiene la mappatura riga-per-riga: ogni campo estratto ha bounding box sull'immagine originale e può essere richiamato come prova/giustificativo. Per documenti che vanno riemessi in altre lingue (vedi modulo Traduzione AI) la preservazione layout include tabelle, intestazioni, piè di pagina, formattazione font.

Il modello è addestrato sui dati dei clienti?

Solo se richiesto e con clausole contrattuali specifiche. Il modello base è addestrato su corpus pubblici di documenti assicurativi italiani. Il fine-tuning su dati cliente è opzionale, eseguito on-tenant (i dati non escono dal perimetro cliente), e governato da un addendum DPA che esclude qualunque uso secondario.

Quali tipi di documento gestisce il modulo?

Polizze (italiane e Lloyd's slip), quietanze di pagamento, perizie, contratti di binding authority, contratti di mandato, documenti d'identità (per KYC), allegati di sinistro (fatture, fatti, ricostruzioni). Per nuovi tipi non previsti: fine-tuning su 50-200 esempi cliente è sufficiente per raggiungere precisione produzione.

Moduli correlati
Parliamone · 45 minuti

Vuoi vedere OCR documentale — Intelligent Document Processing in azione sui tuoi flussi?

45 minuti con un nostro tecnico, senza script commerciali. Ci mostri il vostro processo attuale e vi mostriamo concretamente come questo modulo risolverebbe i punti critici.