Intelligenza artificiale e linguaggio umano

Traduzione dall’inglese dell’articolo “Language AI is really heating up” di Pieter Buteneers apparso su VentureBeat: https://venturebeat.com/2021/01/17/language-ai-is-really-heating-up/.

Nel giro di pochi anni soltanto, gli algoritmi di deep learning si sono evoluti riuscendo a battere i campioni del mondo di giochi di società e a riconoscere i volti con la stessa precisione degli esseri umani (o forse anche meglio). Ma dominare le complessità uniche e ampie del linguaggio umano si è rivelata una delle sfide più ardue dell’intelligenza artificiale.

Tutto questo potrebbe cambiare?

La capacità dei computer di comprendere efficacemente tutto il linguaggio umano trasformerebbe completamente il nostro modo di interagire con i marchi, le aziende, e le organizzazioni di tutto il mondo. Oggi gran parte delle aziende non ha tempo di rispondere a ogni domanda dei clienti. Ma pensiamo se un’azienda fosse davvero in grado ascoltare, comprendere e rispondere a qualsiasi domanda, in qualsiasi momento e su qualsiasi canale. La mia equipe sta già lavorando con alcune delle organizzazioni più innovative al mondo e con il loro ecosistema di piattaforme tecnologiche per cogliere l’enorme opportunità che abbiamo di stabilire conversazioni individuali con i clienti su larga scala. Ma c’è molto da fare.

C’è voluto fino al 2015 per costruire un algoritmo che fosse in grado di riconoscere i volti con una precisione paragonabile a quella degli esseri umani. Il DeepFace di Facebook ha un’accuratezza pari al 97,4%, poco minore della capacità umana del 97,5%. Come riferimento, l’algoritmo di riconoscimento facciale dell’FBI raggiunge soltanto un’accuratezza dell’85%, il che vuol dire che commette errori in più di un caso su sette.

L’algoritmo dell’FBI è stato creato da un team di ingegneri. Ogni caratteristica, come la dimensione di un naso e la relativa posizione degli occhi, è stata programmata manualmente. L’algoritmo di Facebook funziona invece con l’apprendimento delle caratteristiche. Facebook utilizzava una particolare architettura di deep learning chiamata Reti Neurali Convoluzionali che imita il processo di elaborazione delle immagini da parte dei diversi strati della nostra corteccia visiva. Poiché non conosciamo con esattezza i nostri processi visivi, l’algoritmo è in grado di apprendere le connessioni tra questi strati.

Facebook è riuscito a realizzare tutto questo perché ha pensato a come ottenere due componenti essenziali dell’intelligenza artificiale paragonabile a quella umana: un’architettura che potesse apprendere le caratteristiche, e dati di alta qualità classificati da milioni di utenti che taggavano i loro amici nelle foto che condividevano.

Il linguaggio è all’orizzonte

La vista è un problema che l’evoluzione ha risolto in milioni di specie diverse, ma il linguaggio sembra essere molto più complesso. Per quanto ne sappiamo, siamo attualmente l’unica specie che comunica con un linguaggio complesso.

Meno di 10 anni fa, per capire di cosa trattasse un testo, gli algoritmi di intelligenza artificiale si limitavano a calcolare l’occorrenza di certe parole. Ma questo approccio chiaramente ignora il fatto che le parole abbiano dei sinonimi e assumano significato soltanto all’interno di un determinato contesto.

Nel 2013, Tomas Mikolov con la sua equipe di Google ha scoperto il modo di creare un’architettura capace di apprendere il significato delle parole. Questo algoritmo word2vec forniva una mappatura dei sinonimi ed era in grado di modellare il significato delle parole che descrivevano la dimensione, il genere, la velocità, e di imparare anche i rapporti funzionali come quelli tra i paesi e le rispettive capitali.

L’anello mancante, tuttavia, era il contesto. La vera svolta in questo settore è avvenuta nel 2018, quando Google ha introdotto il modello BERT. Jacob Devlin e la sua equipe hanno riciclato un’architettura che veniva solitamente impiegata per la traduzione automatica e le hanno fatto apprendere il significato di una parola in relazione al suo contesto all’interno di una frase.

Insegnando al modello a inserire le parole mancanti negli articoli di Wikipedia, l’equipe è riuscita a incorporare la struttura del linguaggio nel modello BERT. Soltanto con una quota limitata di dati classificati di alta qualità, l’equipe è stata capace di perfezionare BERT affinché svolgesse una moltitudine di compiti, dal trovare la risposta giusta a una domanda fino a comprendere il vero significato di una frase. Sono stati i primi a cogliere i due aspetti essenziali della comprensione del linguaggio: la giusta architettura e ampie quantità di dati di alta qualità dai quali apprendere le informazioni.

Nel 2019 i ricercatori di Facebook sono riusciti ad andare anche oltre. Hanno allenato un modello simile a BERT su più di 100 lingue simultaneamente. Il modello era in grado di apprendere compiti in una lingua, ad esempio l’inglese, e di utilizzarla per lo stesso compito in una qualsiasi altra lingua, come l’arabo, il cinese, e l’hindi. Questo modello linguaggio-indipendente ottiene gli stessi risultati di BERT sulla lingua nella quale viene allenato, con un margine di errore irrilevante nel passaggio da una lingua all’altra.

Tutte queste tecniche sono davvero straordinarie di per sé, ma nei primi mesi del 2020 i ricercatori di Google sono finalmente riusciti a battere le abilità umane su un’ampia gamma di compiti che richiedevano la comprensione del linguaggio. Google ha spinto l’architettura BERT oltre i suoi limiti, allenando una rete molto più ampia su un numero di dati anche maggiore. Questo cosiddetto modello T5 ora ottiene risultati migliori degli esseri umani nella classificazione delle frasi e nell’individuazione delle giuste risposte a una domanda. Il modello mT5 linguaggio-indipendente lanciato ad ottobre ottiene risultati quasi paragonabili agli esseri umani bilingue nel passaggio da una lingua all’altra, ma riesce a farlo con più di 100 lingue contemporaneamente. E il modello con più di un milione di parametri annunciato da Google questa settimana rende lo stesso ancora più ampio e potente.

Le possibilità

Immaginiamo che i bot delle chat riescano a comprendere quello che scriviamo in ogni lingua immaginabile. Saranno capaci di capire il contesto e di ricordare le nostre conversazioni passate. Tutto questo fornendoci risposte non più generiche, ma proprio precise.

I motori di ricerca saranno in grado di capire qualsiasi domanda. Produrranno delle vere risposte e non sarà nemmeno necessario usare le giuste parole chiave. Avremo un collega di intelligenza artificiale che saprà tutto quello che c’è da sapere sulle nostre procedure aziendali. Niente più domande dai clienti, ai quali basta fare una ricerca su Google conoscendo il gergo giusto. E i colleghi che si chiedono perché nessuno abbia letto tutti i documenti aziendali saranno solo un vago ricordo.

Sorgerà una nuova era di banche dati. Diciamo addio al noioso lavoro di strutturazione dei dati. Qualsiasi promemoria, e-mail, relazione, ecc., verrà automaticamente interpretato, memorizzato, e indicizzato. Non sarà più necessario che il nostro ufficio informatico esegua delle query per poter creare una relazione. Basterà dire alla banca dati quello che vorremo sapere.

E questa è solo la punta dell’iceberg. Qualsiasi procedura che attualmente richiede ancora la comprensione umana del linguaggio ora sta per essere rivoluzionata o automatizzata.

Parlare non costa poco

Qui sorge un problema. Perché non vediamo questi algoritmi ovunque? Allenare l’algoritmo T5 costa circa 1,3 milioni di dollari in termini di calcolo cloud. Per fortuna i ricercatori di Google sono stati così gentili da condividere questi modelli. Ma non è possibile utilizzare questi modelli per qualcosa di specifico senza perfezionarli in maniera tale da permettere loro di svolgere un determinato compito. Quindi anche questo è costoso. E una volta che abbiamo ottimizzato questi modelli per il nostro problema specifico, essi richiedono comunque una grande potenza di calcolo e molto tempo di esecuzione.

Nel corso degli anni, a mano a mano che le aziende investiranno nel perfezionamento di questi modelli, vedremo emergere delle applicazioni limitate. E se ci affidiamo alla legge di Moore, potremo vedere applicazioni più complesse fra circa cinque anni. Ma nasceranno anche nuovi modelli che saranno migliori dell’algoritmo T5.

All’inizio del 2021 stiamo quasi toccando con mano i progressi più significativi dell’intelligenza artificiale nonché le sue infinite possibilità.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...