OCR documentale — Intelligent Document Processing
Estrazione strutturata da polizze, quietanze, allegati e contratti con human-in-the-loop e confidence scoring.
Cos'è il modulo OCR documentale (IDP)?
L'OCR documentale è il modulo di Intelligent Document Processing (IDP) verticale insurance che classifica e estrae automaticamente campi strutturati da polizze, quietanze, contratti, allegati di sinistro e documenti KYC. Va oltre l'OCR tradizionale: comprende la struttura del documento, riconosce entità tipiche del dominio assicurativo (premio, contraente, beneficiario, decorrenza, massimale, CIG, P.IVA, codice fiscale), valida la coerenza interna (es. premio + tasse = totale), genera output strutturato JSON pronto per alimentare il back-office polizze, il modulo claims o il KYC. Confidence scoring per riga + workflow human-in-the-loop garantiscono > 97% di accuratezza post-revisione sui campi strutturati.
Chi gestisce volumi documentali alti
Cosa fa il modulo OCR
- Classificazione automatica tipo documento (polizza, quietanza, sinistro, KYC)
- Estrazione campi strutturati (NER specializzata assicurazione)
- Riconoscimento entità: contraente, beneficiario, CIG, P.IVA, importi
- Validazione coerenza interna (sum check, format check)
- Bounding box per ogni campo estratto (link al documento originale)
- Preservazione layout per ri-emissione / traduzione
- Confidence scoring per riga (0-100%)
- Soglia HITL configurabile (default 90%)
- Workflow di revisione umana con UI annotata
- Apprendimento incrementale: le correzioni migliorano il modello
- Audit trail completo: input, output, correzioni, motivazioni
- Output strutturato JSON per integrazione downstream
Dal documento in ingresso al dato strutturato
Ingestione
Documento arriva via PEC, email, upload portale, app mobile. Allegati estratti, decifrati (se cifrati), pre-processati (raddrizzamento, denoising).
Classificazione
Modello di classificazione identifica il tipo: polizza, quietanza, perizia, KYC. Probabilità su ogni classe. Documenti ambigui marcati per revisione.
Estrazione campi
Modello NER specializzato estrae i campi tipici del tipo documento. Per ogni campo: valore + confidence score + bounding box.
Validazione & routing
Check di coerenza (sum, format). Se tutto confidence ≥ soglia: passa direttamente al back-office. Se qualche campo è sotto soglia: routing a HITL.
Revisione umana (HITL)
Operatore vede il documento + estrazione + alternative proposte. Conferma o corregge in pochi click. Le correzioni alimentano il fine-tuning del modello.
Output & archiviazione
JSON strutturato passa al modulo destinazione (back-office, claims, KYC). Documento originale archiviato con link al record. Audit trail completo.
Stack tecnico
Impatto sui processi documentali
Domande frequenti sull'OCR documentale
Qual è la differenza tra OCR e IDP?
OCR (Optical Character Recognition) trasforma immagine in testo grezzo. IDP (Intelligent Document Processing) va oltre: comprende la struttura del documento, estrae campi specifici (es. "premio lordo: 1.250 €"), valida la coerenza tra campi correlati, classifica il tipo di documento. NewPicass 14.Net implementa IDP per documenti assicurativi: classifica + estrae + valida in un solo passaggio.
Che precisione raggiungete sulle polizze italiane?
Su documentazione strutturata (polizze emesse da compagnie italiane note) raggiungiamo accuratezza > 97% sui campi strutturati post human-in-the-loop. Su documenti destrutturati (lettere, allegati liberi) la precisione varia 88-95%. Il sistema usa confidence scoring per riga: se sotto soglia (configurabile, default 90%) il campo è instradato automaticamente alla revisione umana.
Cosa significa human-in-the-loop?
Il modello AI non si limita a un'estrazione "prendere o lasciare". Quando la confidence su un campo è bassa, il sistema instrada il documento a un operatore che vede l'immagine, il testo estratto e le proposte alternative, e conferma o corregge in pochi click. Le correzioni alimentano il fine-tuning del modello: l'accuratezza migliora nel tempo specificamente sui documenti del cliente.
Si preserva il layout originale del documento?
Sì. L'estrazione mantiene la mappatura riga-per-riga: ogni campo estratto ha bounding box sull'immagine originale e può essere richiamato come prova/giustificativo. Per documenti che vanno riemessi in altre lingue (vedi modulo Traduzione AI) la preservazione layout include tabelle, intestazioni, piè di pagina, formattazione font.
Il modello è addestrato sui dati dei clienti?
Solo se richiesto e con clausole contrattuali specifiche. Il modello base è addestrato su corpus pubblici di documenti assicurativi italiani. Il fine-tuning su dati cliente è opzionale, eseguito on-tenant (i dati non escono dal perimetro cliente), e governato da un addendum DPA che esclude qualunque uso secondario.
Quali tipi di documento gestisce il modulo?
Polizze (italiane e Lloyd's slip), quietanze di pagamento, perizie, contratti di binding authority, contratti di mandato, documenti d'identità (per KYC), allegati di sinistro (fatture, fatti, ricostruzioni). Per nuovi tipi non previsti: fine-tuning su 50-200 esempi cliente è sufficiente per raggiungere precisione produzione.
Continua ad esplorare la piattaforma
Vuoi vedere OCR documentale — Intelligent Document Processing in azione sui tuoi flussi?
45 minuti con un nostro tecnico, senza script commerciali. Ci mostri il vostro processo attuale e vi mostriamo concretamente come questo modulo risolverebbe i punti critici.