News - 05 luglio 2026, 15:01

Il tempo nel diritto è una questione di AI: Aruba e Politecnico di Torino sfidano i modelli linguistici sull'ordine degli eventi

Uno studio presentato alla conferenza EDBT/ICDT di Tampere rivela i limiti e i progressi dei Large Language Models nella ricostruzione delle sequenze temporali. L'accuratezza supera l'85%, ma per la affidabilità legale la strada è ancora lunga

Il tempo nel diritto è una questione di AI: Aruba e Politecnico di Torino sfidano i modelli linguistici sull'ordine degli eventi

FIRENZE – Nel diritto, il tempo non è solo una variabile: è spesso il perno attorno a cui ruota l'intera vicenda giudiziaria. Stabilire se un difetto di prodotto sia stato segnalato prima o dopo l'incidente, determinare la sequenza delle firme in un contratto, ricostruire la catena di eventi in un caso di responsabilità civile: in tutti questi scenari, un errore nell'ordine cronologico può sovvertire il senso stesso della giustizia. E se a dover ricostruire quella sequenza fosse un'intelligenza artificiale? È questa la domanda al centro della ricerca firmata Aruba in collaborazione con il Politecnico di Torino, i cui risultati sono stati presentati a Tampere, in Finlandia, nell'ambito di DARLI-AP 2026, workshop collaterale della conferenza internazionale EDBT/ICDT.

L'indagine, condotta dall'Artificial Intelligence Manager di Aruba Francesco Tarasconi, parte da una constatazione che sfida l'immaginario comune. Per un giurista esperto, leggere un testo legale e collocare correttamente gli eventi sulla linea del tempo può apparire quasi un riflesso condizionato. Per i Large Language Models (LLM) generalisti, invece, ricostruire quelle stesse relazioni temporali all'interno di documenti complessi e spesso ambigui resta un'operazione tutt'altro che scontata. È qui che si inserisce il concetto di "temporal reasoning" – il ragionamento temporale – applicato all'interpretazione dei testi giuridici.

Per mettere alla prova i modelli, i ricercatori hanno progettato e formalizzato due compiti specifici. Il primo, denominato LETOV (Legal Temporal Order Verification), consiste nel verificare se una relazione temporale dichiarata tra due eventi – ad esempio "l'evento A precede l'evento B" – sia effettivamente corretta. Il secondo, LETOC (Legal Temporal Order Classification), richiede invece al modello di identificare autonomamente la relazione che lega due eventi, scegliendo tra le opzioni "precede", "segue" o "simultaneo". Due esercizi che, per quanto possano sembrare astratti, simulano le operazioni mentali che ogni avvocato o giudice compie quotidianamente davanti a un fascicolo.

L'architettura dello studio è stata costruita ampliando e raffinando un dataset pubblico di riferimento, per creare un ambiente di test capace di riprodurre scenari giuridici realistici e progressivamente più complessi. I risultati, però, hanno riservato alcune sorprese. La più significativa riguarda il cosiddetto "deep reasoning", ovvero la capacità dei modelli di attivare processi di ragionamento articolato su più passaggi. Contrariamente a quanto ci si potrebbe aspettare, le evoluzioni più recenti in questa direzione non hanno prodotto automaticamente miglioramenti sostanziali nelle performance. Al contrario, è emerso che l'utilizzo di esempi nel prompt – la tecnica nota come few-shot learning – si è rivelato il fattore più determinante per migliorare l'accuratezza. Anche l'aumento dello "sforzo di ragionamento" richiesto ai modelli porta benefici, ma di entità limitata. Quanto alle differenze tra modelli "chat" e modelli "instruction-based", queste sono risultate marginali, con un lieve vantaggio per i secondi.

In termini quantitativi, lo studio ha evidenziato che alcuni modelli generalisti di ultima generazione sono oggi in grado di raggiungere livelli di accuratezza superiori all'85% nei task di verifica, superando lo stato dell'arte precedente. Un dato che testimonia il rapido progresso del settore, ma che deve essere letto con cautela. Come sottolineato dai ricercatori, queste performance non sono ancora sufficienti per un utilizzo completamente affidabile in ambiti ad alta criticità come quello legale, dove il margine di errore deve tendere a zero. A ciò si aggiungono trade-off importanti tra accuratezza, costi computazionali e tempi di risposta, che rendono necessaria una valutazione attenta in prospettiva industriale.

Ma quali sono le implicazioni concrete di questa ricerca? La capacità di ordinare eventi nel tempo ha ricadute che vanno ben oltre il laboratorio. Nel legal tech, può migliorare l'interpretazione automatica di contratti e contenziosi. In ambito compliance e auditing, permette di ricostruire sequenze di eventi per verificare il rispetto delle normative. Nel risk management, aiuta ad analizzare le responsabilità in caso di incidenti o inadempienze. E nell'automazione dei processi decisionali, la dimensione temporale è spesso l'elemento discriminante. In tutti questi casi, un errore nella comprensione del tempo non è un semplice limite tecnico, ma un rischio concreto per chi quei sistemi li utilizza.

La collaborazione tra Aruba e il Politecnico di Torino si inserisce in un percorso di ricerca industriale-accademica più ampio e continuativo, finalizzato a rendere l'intelligenza artificiale più solida, verificabile e adatta a scenari reali. Aruba, player di primo piano nel settore cloud, data center e servizi digitali con una infrastruttura che conta 7 data center, oltre 2,7 milioni di domini registrati e 9,8 milioni di caselle email, ha scelto di investire in questa direzione consapevole che il futuro dei servizi digitali passa anche dalla capacità di affrontare le sfide più complesse dell'AI. La presentazione dello studio a Tampere, in un contesto scientifico internazionale di prestigio, conferma il valore di un approccio che unisce competenza tecnica, rigore metodologico e attenzione alle applicazioni concrete. Perché, come ricorda la ricerca, il tempo nel diritto rimane una dimensione critica: da un lato come elemento probatorio, legato alla certezza di quando un documento o un evento digitale vengono prodotti; dall'altro come elemento interpretativo, cioè la capacità di ricostruire relazioni complesse all'interno dei testi. È su questo secondo fronte che l'AI deve ancora dimostrare di poter essere non solo potente, ma anche affidabile.

Redazione

SU