domenica 17 ottobre 2010

Troppa grazia...

Abbiamo appena ottenuto un altro bel successo: l'accettazione del lavoro "A Probabilistic Approach for Printed Document Understanding" (Eric, Giorgio ed io) per la rivista International Journal of Document Analysis and Recognition, una rivista prestigiosa e "di riferimento" per il settore specifico.

Si tratta di un successo importante per vari motivi:
  • relativo ad un settore in cui la nostra esperienza tecnica e scientifica era prossima a zero;
  • un lavoro complicato da tutti i punti di vista: teorico (formalizzazione matematica), pratico (sviluppo del prototipo), sperimentale (valutazione delle prestazioni su documenti reali);
  • su di un argomento in cui molta gente sta lavorando da molti anni e, quindi, essere competitivi a livello internazionale è molto difficile.
Dobbiamo fare pubblicamente un applauso ad Eric, che è stato l'anima di questo lavoro.


Abstract:
We propose an approach for information extraction for multi-page printed document understanding. The approach is designed for scenarios in which the set of possible document classes, i.e., documents sharing similar content and layout, is large and may evolve over time.
Describing a new class is a very simple task: the operator merely provides a few samples and then, by means of a a GUI, clicks on the OCR-generated blocks of a document containing the information to be extracted.  Our approach is based on probability: we derived a general form for the probability that a sequence of blocks contains the searched information. We estimate the parameters for a new class by applying the maximum likelihood method to the samples of the class. All these parameters depend only on block properties that can be extracted automatically from the operator actions on the GUI. Processing a document of a given class consists in finding the sequence of blocks which maximizes the corresponding probability for that class
We evaluated experimentally our proposal using 807 multi-page printed documents of different domains (invoices, patents, data-sheets), obtaining very good results---e.g., a success rate often greater than 90% even for classes with just two samples.

In pratica: se desidero estrarre data, importo e destinatario di una fattura Fastweb, basta avere qualche fattura di esempio ed indicare al sistema dove si trovano le informazioni desiderate semplicemente localizzandole con il mouse. Se desidero farlo per una fattura di un meccanico, idem. Se desidero estrarre argomento, data, proprietario di un brevetto, idem. Operazioni che chiunque può effettuare, anche senza avere competenze informatiche specifiche.

Questo aspetto è la parte centrale di un "grosso" sistema per l'elaborazione automatica di documenti cartacei che stiamo sviluppando da tempo. A monte del componente-Eric c'è un componente che decide, dato un documento, se si tratta di una fattura Fastweb, un brevetto, una fattura Renault, o un documento mai visto prima---aspetto particolarmente complicato. Enrico Sorio, dottorando del primo anno, sta lavorando su questo componente ed abbiamo già una pubblicazione significativa. A valle c'è invece un componente che tenta di rilevare e correggere gli errori dell'OCR in base a proprietà strutturali del contenuto atteso (ad esempio, se un campo deve contenere un codice fiscale allora deve consistere di un numero di caratteri noto, i primi 6 caratteri non possono essere numeri etc.). La tesi magistrale che sta svolgendo Matteo Gazzin tratta dello sviluppo e realizzazione di questo componente.

0 commenti: