L’utilizzo di voci sintetizzate con l’AI è diventato sempre più comune negli ultimi tempi, sia in ambito commerciale che culturale. Di fatto le voci artificiali sono già utilizzate in tantissime applicazioni che già usiamo ogni giorno: assistenti vocali, audiolibri, videogiochi, e molto altro.
Tuttavia, l’impiego di queste voci ha sollevato molte questioni sul loro impatto sull’industria creativa e sulla società in generale.
Ne parliamo oggi. Lo spunto è nato dall’ottimo lavoro di un professionista voiceover con cui ho avuto il piacere di collaborare per un progetto creativo.
Come nascono le voci sintetizzate
I dati utilizzati per l’addestramento delle voci sintetizzate provengono principalmente da registrazioni audio di voci umane. In generale, più dati vengono utilizzati per l’addestramento, maggiore è la precisione e la naturalezza della voce sintetizzata.
Le voci possono naturalmente provenire da dataset autorizzati, voci “donate”, o diritti concessi.
Aumenta però sempre di più la preoccupazione dell’industria creativa e di tutti quei professionisti che lavorano con la propria voce.
I vantaggi economici delle voci sintetizzate
Uno dei vantaggi economici dell’utilizzo di voci sintetizzate rispetto a quelle umane è la riduzione dei costi di produzione.
Utilizzando l’AI per creare voci sintetizzate, le aziende possono evitare di dover pagare per i servizi di doppiaggio o di recitazione, risparmiando notevoli somme di denaro.
Inoltre, le voci sintetizzate possono essere prodotte rapidamente e senza limitazioni di disponibilità dei doppiatori o degli attori, permettendo una maggiore efficienza nella produzione di contenuti.
L’industria creativa sarà travolta dalle voci sintetizzate dall’AI?
L’impiego di voci sintetizzate ha implicazioni significative per l’industria creativa, in particolare per i doppiatori e gli attori professionisti.
L’uso di voci sintetizzate potrebbe minacciare i posti di lavoro dei doppiatori e degli attori professionisti. In effetti, alcuni contratti di lavoro per doppiatori e attori richiedono l’assegnazione dei diritti sulle loro voci, lasciando i doppiatori e gli attori senza un compenso adeguato.
Ciò può rappresentare una minaccia per la stabilità economica di queste professioni e per la loro capacità di guadagnarsi da vivere.
Narratori e voiceover sono preoccupati e stanno iniziando a preoccuparsi e a protestare contro giganti come Spotify e Apple dopo che lo scorso mese Apple ha rilasciato il suo catalogo di audiobook interamente letti da una AI. Il timore? Che le loro voci siano state usate per l’addestramento di sistemi di Intelligenza Artificiale a loro insaputa.
(Ancora) problemi di bias
Quello dei bias è un problema che continua a riproporsi. Inevitabile quando ci si avvicina a osservare un po’ meglio la selezione dei dati di addestramento e, in questo caso, alla possibile mancanza di diversità nella selezione delle voci utilizzate.
Ad esempio, se i dati di addestramento sono limitati a un sottoinsieme di voci di una particolare regione geografica o di una particolare etnia, le voci sintetizzate potrebbero essere inclini a discriminare o a malinterpretare le voci di altre regioni o etnie.
Ancora peggio, potrebbero essere programmate per soddisfare determinati stereotipi di genere, etnia o accento, e quindi consolidare disuguaglianze e pregiudizi esistenti nella società.
Non dimentichiamo le questioni di privacy e sicurezza dei dati utilizzati per l’addestramento. Se i dati utilizzati contengono informazioni personali o riservate, potrebbero esserci rischi per la privacy e la sicurezza dei dati.
La mia esperienza con un voiceover
Per un progetto di lavoro ho collaborato con un voiceover professionista. Posso dire che tranquillamente che non c’è paragone.
Chiaramente tutto dipende come sempre da quello che si vuole ottenere. Se state cercando di realizzare un commercial emozionale per la vostra azienda, di far leggere un testo per un podcast che faccia davvero scorrere i brividi sottopelle, l’AI non può, ancora, darvi questo.
Un professionista sa cosa sta leggendo e interpreta un ruolo, legge lo script con un intento. La macchina non ha intenti, segue istruzioni, non può mettere una competenza che non ha.
Se al professionista spiegate (anche male) cosa volevate comunicare con quella frase, saprà capirvi e mettere le giuste pause, il giusto tono e velocità.
La macchina può essere parametrata, gli puoi dire che velocità, pitch e ritmo tenere, ma non sapendo cosa vuol dire quello che sta trasformando da testo a parlato (un mero processo di trasformazione, non una interpretazione) non potrà darvi nessun valore aggiunto.
Conclusioni
Come abbiamo visto un dibattito pubblico sulle implicazioni dell’utilizzo di voci sintetizzate è fondamentale.
Non possiamo ignorare la necessità di garantire equità e inclusione nella selezione dei dati di addestramento utilizzati per creare queste voci. Ci vuole una maggiore consapevolezza, così come agli altri usi che queste tecnologie stanno creando.
Dobbiamo preservare e promuovere un utilizzo etico e sostenibile di questa tecnologia.
Inoltre, anche il rischio di perdere le competenze offerte dai professionisti della voce dovrebbe farci paura. Come mai potremmo emozionarci davvero nel breve spazio di 30-60″ dedicati alla presentazione di un film, un libro o un gioco?