Il rapporto tra l’interprete e l’intelligenza artificiale

Interprete e intelligenza artificiale

Le innovazioni tecnologiche nel settore della lingua scritta sono antecedenti rispetto a quelle della lingua orale e ne costituiscono la base.

Esiste una differenza tra machine translation (MT – traduzione automatica) e computer-aided/-assisted translation (CAT – traduzione assistita): la prima consiste nell’impiego di un sistema informatico per tradurre un testo scritto da una lingua all’altra senza l’intervento del traduttore; la seconda è la traduzione effettuata con l’ausilio di programmi informatici o software al fine di ridurre il carico lavorativo del traduttore umano e migliorare lo stile e la terminologia del testo.

Così come nel settore della traduzione, anche in quello dell’interpretazione esiste una distinzione tra machine interpretation (MI – interpretazione automatica) e computer-aided/computer-assisted interpretation (CAI – interpretazione assistita): mentre la prima non richiede l’intervento dell’interprete, la seconda utilizza un software per facilitare alcuni aspetti del processo di traduzione orale, al fine di rendere il servizio dell’interprete umano migliore e più efficiente.

Quali sono stati nel corso del tempo gli sviluppi dell’intelligenza artificiale (I.A.) e della linguistica computazionale nel settore dell’elaborazione del linguaggio naturale e in seguito in quello dell’interpretazione automatica e assistita?

L’intelligenza artificiale

Secondo il professor Bruce G. Buchanan dell’Università di Pittsburgh, la storia antica dell’I.A. parte dalla mitologia greca e concerne la creazione di artefatti “intelligenti” costruiti con strumenti meccanici reali o fraudolenti, mentre la storia moderna dell’I.A. inizia a partire dalla seconda guerra mondiale e riguarda la creazione dei primi elaboratori elettronici moderni e di programmi che svolgono complessi compiti intellettuali.

L’intelligenza artificiale nel ventunesimo secolo è lo studio dei meccanismi alla base della conoscenza umana, dal ragionamento logico-matematico alla comprensione del linguaggio naturale, al fine di riprodurli tramite elaboratori elettronici che possano compiere azioni “intelligenti”. Oggi il principale motivo di scontro tra gli esperti del settore è riducibile alla suddivisione dell’I.A. in due branche: l’I.A. forte (un computer può avere un’intelligenza pari a quella umana) e l’I.A. debole (un computer non sarà mai equivalente alla mente umana, dal momento che quest’ultima è dotata anche di creatività, socialità ed emozioni). Se si considera la programmazione classica basata su linguaggi simbolici e lineari, domina l’I.A. debole. Se invece si considera la diffusione di reti neurali, di algoritmi generici e di sistemi di calcolo parallelo, l’ago della bilancia si sposta a favore dei sostenitori dell’I.A. forte. In ogni caso la chiave dell’intelligenza artificiale è sempre l’imitazione dell’intelligenza naturale basata sul processo di apprendimento delle macchine.

La linguistica computazionale

Spesso la linguistica computazionale è considerata un sotto-campo dell’I.A., anche se la sua nascita come settore di studi è precedente. La linguistica computazionale nacque infatti negli anni Cinquanta negli Stati Uniti per opera di linguisti computazionali che si servivano del computer per tradurre gli articoli delle riviste scientifiche dal russo all’inglese. Notando che le traduzioni automatiche non erano accurate, proposero la linguistica computazionale come nuovo campo per sviluppare algoritmi e programmi per elaborare dati linguistici. In altre parole, la disciplina divenne un sotto-settore dell’I.A. nel momento in cui ci si rese conto che per tradurre automaticamente era necessario capire il funzionamento della comprensione e della produzione umana del linguaggio naturale, elaborandolo tramite un computer.

Tra gli anni Sessanta e gli anni Settanta, la sinergia tra le teorie formali del linguaggio e il calcolo simbolico ha portato alla realizzazione di programmi informatici che rappresentano modelli linguistici. Poiché per riprodurre i processi linguistici non era più sufficiente l’informatica, si iniziò a diffondere l’idea di utilizzare la linguistica computazionale per tradurre da una lingua all’altra. L’idea era già nata nel 1949, quando Warren Weaver, uno dei padri della Teoria della Comunicazione, propose di affiancare alle tecniche statistiche conoscenze di linguistica formale per l’attività di “transduzione” da un codice all’altro, svolta dai servizi segreti nell’operazione di code cracking (code breaking).

La Association for Computational Linguistics definisce la linguistica computazionale come lo studio scientifico della lingua da una prospettiva computazionale; secondo Giacomo Ferrari essa affonda le sue radici nelle discipline formali tradizionali, ovvero:
– la linguistica: la genealogia delle lingue di August Schleicher, influenzato dalle teorie evoluzioniste del naturalista inglese Charles Darwin, e la linguistica di Ferdinand De Saussure, influenzato a sua volta dal sociologo Émile Durchheim;
– la matematica: lo studio dei meccanismi formali della comunicazione;
– l’informatica, della quale la linguistica computazionale è soltanto una scienza parallela e non una sua applicazione;
– è alla base dell’ingegneria linguistica, la quale consiste nella progettazione linguistica con il fine di costruire sistemi di elaborazione del linguaggio naturale.

Alla luce di tale definizione la linguistica computazionale è un campo interdisciplinare che studia i formalismi descrittivi del funzionamento del linguaggio naturale (una qualsiasi lingua non inventata formatasi gradualmente nel corso del tempo che si distingue dai linguaggi dei computer) con lo scopo di riprodurlo in programmi supportati da elaboratori elettronici. Così come nell’intelligenza artificiale, anche nella linguistica computazionale si deve dare al computer la possibilità di apprendere, ovvero creare sistemi di apprendimento automatico che producano programmi in grado di acquisire ed elaborare campioni, estraendone le conoscenze linguistiche.

L’elaborazione del linguaggio naturale

Le tecnologie di interpretazione automatica sono il risultato degli studi condotti in un campo denominato Natural Language Processing (NLP), ovvero “elaborazione del linguaggio naturale”, “tecnologia del linguaggio” o “tecnologia del linguaggio naturale”; il termine viene utilizzato a partire dagli anni Ottanta per definire un insieme di software che elaborano in modo intelligente testi scritti in linguaggio naturale, tra i quali word processors, dizionari, correttori di grammatica e spelling e programmi di traduzione automatica. Attualmente, dal punto di vista teorico, l’NLP si definisce come un campo dell’informatica sovrapposto alla linguistica computazionale che studia le interazioni tra il computer e il linguaggio umano naturale, sia scritto che orale. In questo articolo ci occuperemo soltanto della lingua orale.

Il processo più complesso di NLP è la comprensione del linguaggio naturale, che richiede da parte del computer una vasta conoscenza del mondo e la capacità di manipolarlo. Il processo di comprensione della lingua orale si articola a sua volta in riconoscimento automatico della voce (voice recognition, ovvero il riconoscimento della voce ma non l’analisi del contenuto dell’espressione vocale) o del parlato (speech recognition, ovvero il riconoscimento della voce con lo scopo di capire il contenuto di ciò che il parlante dice) e analisi del testo orale. I passi successivi sono la traduzione automatica (machine translation) e la produzione della lingua orale (speech synthesis o sintesi vocale).

L’interpretazione automatica (machine interpreting)

A partire dal 1992 l’SRI International ha realizzato un’architettura modulare di traduzione della voce unilaterale per un numero ristretto di ambiti (viaggi in aereo) e di lingue (inglese, svedese, francese e in seguito spagnolo) con un vocabolario di 1.500 parole. Il software si chiamava Spoken Language Translator e la sua architettura di sistema costituisce tuttora la base delle tecnologie di interpretazione automatica. Nel 1995 è stata introdotta la nuova versione del sistema con traduzione bilaterale e negli anni successivi, fino alla metà del 1999, sono state introdotte nuove lingue e nuovi ambiti di applicazione.

Gli attuali dispositivi di traduzione mobile sono stati sviluppati a partire dai sistemi di traduzione unilaterale di frasi dall’inglese, che sono stati poi estesi a sistemi bilaterali e infine a quelli più attuali di interpretazione automatica del parlato spontaneo. La maggior parte dei dispositivi in commercio destinati ad ambiti specifici si basa su sistemi di traduzione di frasi di lunghezza limitata, detti SPTS (Spoken Phrase Translation Systems). Questi sistemi sono ispirati ai manuali di conversazione, nei quali per ogni ambito è indicata una lista di frasi con la rispettiva forma fonetica, e necessitano di un input vocale che consenta loro di selezionare la frase voluta e di ripeterla nella lingua di arrivo riproducendo la traduzione preregistrata. L’ampliamento degli SPTS ha portato alla creazione dei sistemi di dialogo tra l’uomo e la tecnologia, detti SLS (Spoken Language Systems), i quali rispondono alle domande o agli ordini dell’utente o seguono le sue istruzioni.

Idealmente, un interprete automatico dovrebbe contenere tutti i sistemi suddetti e disporre di un vocabolario e di una comprensione del mondo e delle lingue tali da poter gestire una comunicazione e tradurre la lingua parlata a un livello pari o addirittura superiore a quello di un interprete umano, pertanto la strada verso la creazione di un interprete automatico a tutti gli effetti è ancora lunga. Il primo sistema vero e proprio di traduzione mobile è stato costruito soltanto nel 1999 in Giappone dall’Advanced Telecommunications Research Institute International ed era un dispositivo mobile destinato a chi viaggia che conteneva una voce che traduceva le parole pronunciate dall’utente (giapponese) nella lingua di arrivo (coreano) nel telefono cellulare di un altro utente, servendosi di traduzioni preregistrate. Nel 2005 un’altra società giapponese, la NEC Corporation, ha annunciato lo sviluppo di un sistema di traduzione che poteva essere caricato nei telefoni cellulari e che poteva riconoscere 50.000 parole giapponesi e 30.000 parole inglesi ed era specializzato per le informazioni turistiche, ma il progetto è stato presentato soltanto nel 2009. A questi strumenti sono seguiti i cellulari per l’apprendimento delle lingue, nei quali voci di dizionario, frasi, quiz e traduzioni erano inviati via sms. Inoltre nel 2007 la società bulgara Interlecta ha lanciato uno strumento di traduzione mobile con la possibilità di inviare traduzioni scritte via sms o e-mail, integrato con un modulo di sintesi vocale e di traduzione di immagini. Per funzionare, gli strumenti di traduzione mobile devono poter comunicare con server esterni che ricevono il testo scritto o orale di input, lo traducono e lo rimandano all’utente; per questo necessitano della connessione a Internet. Pertanto, i dizionari parlanti e i manuali di conversazione destinati a molti strumenti portatili non rientrano fra le tecnologie di traduzione mobile in quanto non richiedono Internet.

Dal 2002 DARPA finanzia il progetto dell’SRI International che mira allo sviluppo di tecnologie di interpretazione automatica di tre tipi, le quali si distinguono in base al genere di servizio fornito: la traduzione della voce unilaterale (dall’inglese a più lingue di arrivo), bilaterale (dall’inglese a altre lingue e viceversa) e del parlato spontaneo (interpretazione anche bilaterale di frasi spontanee non memorizzate in precedenza nel sistema).

L’interpretazione assistita (computer-aided interpretation)

Le tecnologie di interpretazione assistita sono soprattutto frutto delle ricerche degli ultimi vent’anni.

Claudio Fantinuoli distingue due grandi gruppi di tecnologie CAI: quelle process-oriented supportano e accompagnano l’interprete durante le fasi del servizio o del processo di traduzione orale (sistemi di gestione terminologica, estrazione di dati, memorizzazione terminologica, analisi dei corpora ecc.); quelle setting-oriented circondano il processo di interpretazione (console per cabine, piattaforme e dispositivi di interpretariato da remoto o telefonico ecc.). In questo articolo illustreremo alcuni esempi di tecnologie CAI process-oriented.

Nel 1999 un interprete funzionario dell’Unione europea ha proposto di utilizzare un registratore vocale digitale per registrare il discorso originale, che viene poi ripetuto alle orecchie dell’interprete, il quale lo rende in modalità simultanea: il sistema è chiamato Consec-Simul, in quanto combina le modalità di interpretazione consecutiva e simultanea.

Nel 2014 è stato introdotto il sistema Consecutive Pen, che fa uso di una penna digitale per prendere appunti su carta speciale integrando un microfono incorporato, una cassa acustica e una telecamera a infrarossi. Un programma sincronizza gli appunti con l’audio registrato nello stesso momento e l’utente può toccare una parola per ascoltare la parte dell’audio corrispondente.

Secondo Fantinuoli, a seconda dell’architettura e dello spettro di funzionalità, gli strumenti CAI si dividono in strumenti di prima generazione e di seconda generazione. I primi sono stati introdotti 15 anni fa e progettati per supportare gli interpreti nella gestione terminologica. Interplex, Terminus, Interpreters’ Help, LookUp e DolTerm sono tutte interfacce grafiche per memorizzare e recuperare dati terminologici multilingue da una banca dati. Si distinguono dai sistemi di gestione terminologica dei traduttori in quanto sono in grado di memorizzare informazioni aggiuntive ai termini in settori specifici e consentono di categorizzare i termini ricercati. I secondi sono più recenti e rispondono alla necessità di rispondere in maniera più completa alle esigenze degli interpreti durante il processo di lavoro, aggiungendo ad esempio funzionalità di organizzazione del materiale testuale, recupero delle informazioni dai corpora o da altre risorse ecc. Intragloss e InterpretBank sono gli strumenti CAI di seconda generazione attualmente diffusi. Intragloss assiste l’interprete nella fase preparatoria di un incarico e presenta un approccio nuovo alla creazione dei glossari, in quanto si basa sull’interazione tra i testi preparatori e la banca dati terminologica. Inoltre consente da un lato di preparare un glossario evidenziando un termine e cercandone la traduzione nelle risorse online come i glossari, le banche dati, i dizionari ecc., dall’altro di estrarre automaticamente tutti i termini del glossario di settore che appare nel documento, collegando direttamente i testi con la banca dati terminologica disponibile. Invece InterpretBank dispone di funzionalità specifiche che tengono conto dei limiti di tempo e delle peculiarità dell’interpretazione simultanea ed è attualmente l’unico strumento CAI che facilita il processo di ricerca terminologica in cabina.

Inoltre le tecnologie di interpretazione sono utilizzate anche nella didattica e per soddisfare le necessità comunicative dei sordi in tempo reale. In quest’ultimo caso, i servizi CAI utilizzano tecnologie di trascrizione, resocontazione e sottotitolazione per trasformare il testo orale in testo scritto, servendosi di trascrittori, resocontisti o sottotitolatori che digitano l’input vocale su laptop con tecniche di scrittura veloce, con macchine stenografiche o con il riconoscimento del parlato (respeaking) in modalità intralinguistica (da una lingua alla stessa lingua) o interlinguistica (da una lingua a un’altra). Il respeaking (per maggiori informazioni si veda l’articolo di questo blog “”Transpretation”: il futuro dell’interpretazione simultanea è scritto?”) è una tecnica di produzione di sottotitoli in tempo reale nella quale il respeaker ascolta alle cuffie la voce dell’oratore e simultaneamente sintetizza/ripete il discorso a un software di riconoscimento del parlato utilizzando un microfono standard oppure insonorizzato (stenomask). Mentre il software trascrive il testo dettato al computer, il respeaker corregge il testo trascritto e lo trasforma in sottotitoli mediante appositi software. A seconda del tipo di utenza e delle finalità del servizio, il pubblico che legge il testo può essere composto di utenti sordi oppure stranieri. In quest’ultimo caso, è possibile abbinare il servizio di interpretazione simultanea al servizio di respeaking, oppure servirsi di professionisti interpreti-respeaker che svolgano contemporaneamente entrambi i servizi.

Verso il futuro

Oggi il mondo delle tecnologie destinate agli interpreti di conferenza è ancora un labirinto in continua evoluzione. I sostenitori dell’I.A. forte che non conoscono le peculiarità del lavoro degli interpreti intendono costruire interpreti automatici senza tenere conto dei molteplici compiti che svolge un interprete, che oltre a lavorare sulla lingua e sulla cultura, vive l’ambiente che lo circonda. L’interprete ascolta l’oratore osservando i segnali non verbali e le reazioni del pubblico, analizza e vive completamente il messaggio effimero, lo “interpreta” tenendo conto della cultura di partenza e di quella di arrivo e stabilisce con le persone un contatto visivo, al fine di assicurarsi che il messaggio sia stato ricevuto e compreso. Finora nessuna macchina è riuscita a fare tutto questo e gli interpreti automatici si sono ridotti a meri strumenti portatili in grado di risolvere i problemi comunicativi solo nelle situazioni di emergenza.
Chissà se l’incubo del mostro tecnologico tanto temuto dagli interpreti un giorno si realizzerà oppure svanirà completamente? Una delle citazioni più famose del grande evento di Ginevra dello scorso ottobre “100 years of Conference Interpreting” è questa:

Gli interpreti non saranno sostituiti dalla tecnologia, ma saranno sostituiti dagli interpreti che utilizzano la tecnologia.

Dunque gli interpreti di oggi saranno disposti a seguire il progresso tecnologico per trovare nell’I.A. un’utile alleata?

 

Fonti principali:
Interpretazione automatica o assistita? Il rapporto tra l’interprete e l’intelligenza artificiale di A. Checcarelli, 2009, tesi di laurea specialistica non pubblicata
Computer-assisted interpretation: challenges and future perspectives di C. Fantinuoli, 2018, pubblicazione

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...