L’intelligenza artificiale di Google legge il labiale meglio degli esseri umani

il sistema, dopo aver "visto" migliaia di ore di TV, è in grado di annotare vocaboli con una precisione del 46,8%.

0
75

I ricercatori della divisione Deep Mind di Google in collaborazione con l’Università di Oxford hanno usato l’intelligenza artificiale pre creare “il software per la lettura del labiale più accurato di sempre“.
Usando migliaia di ore di TV trasmesse dalla BBC, gli scienziati hanno allenato una rete neurale ad annotare i vocaboli usati nei video con una percentuale di accuratezza del 46,8 per cento. Questro potrebbe non sembrare abbastanza sconvolgente (sopratutto confrontati con i risultati delle AI che trascrivono partendo da file audio), ma basti pensare che un lettore di labiale professionista è in grado di ottenere un risultato di accuratezza del 12,4%.

Lintelligenza artificiale di Google legge il labiale meglio degli esseri umani Screen Shot 2016 11 24 at 9.15.41 AM.0 TechNinja

La ricerca segue un lavoro simile pubblicato da un altro team dell’Università di Oxford, all’inizio di questo mese. Utilizzando tecniche correlate, i ricercatori sono stati in grado di creare un programma di lettura labiale chiamato LipNet che ha raggiunto il 93,4% nei test, rispetto al 52,3 per cento dell’accuratezza umana.
C’è da dire che LipNet è stato testato sulo su filmati appositamente creati con protagonisti volontari che pronunciavano frasi stereotipate. In confronto, il software di DeepMind (conosciuto come “Guarda, ascolta, aspetta e parla”) è stato provato con filmati molto più impegnativi come le conversazioni senza copione degli spettacoli politici trasmessi dalla BBC.

I ricercatori suggeriscono vari utilizzi per questo tipo di software, il primo di tutti è quello di aiutare le persone con problemi di udito a capire le conversazioni.
Ulteriori applicazioni possono essere l’annotazione dei film per i muti, permettere di controllare gli assistenti digitali (come Siri o Cortana) od addirittura i sottototitoli nei programmi in diretta.