Il nuovo Gemini per Android potrebbe presto leggere file audio MP3 e altri formati per analizzarli e rispondere in chat.
Verso un Gemini capace di ascoltare i tuoi file audio
Nella versione beta più recente dell’app Gemini per Android, sono emersi i primi segnali di una funzione che consentirà di allegare file audio alle conversazioni. Il teardown dell’APK mostra infatti la possibilità di caricare MP3 (e probabilmente WAV e FLAC) direttamente nella chat. Dopo il caricamento, appare il nuovo comando “Talk live about this” (“Parla dal vivo di questo”), che in teoria dovrebbe permettere di discutere il contenuto audio con l’IA in tempo reale.
Windows 10: Nvidia estende il supporto driver GeForce
Funzione ancora in fase sperimentale per Gemini
Nonostante la novità sia già visibile, la funzione al momento non elabora correttamente i file audio. In alcuni casi Gemini li ignora, in altri fornisce risposte inventate, sintomo di una funzionalità ancora in lavorazione. Tuttavia, la tecnologia necessaria è già disponibile via API: Gemini può riconoscere e trascrivere audio, riassumerlo, descriverlo e perfino estrarre segmenti specifici in base a un intervallo temporale.
Dopo aver introdotto il supporto alle immagini, è logico che Google punti ora a integrare anche i contenuti audio nel flusso di lavoro di Gemini. Sebbene non sia chiaro quando la funzione sarà rilasciata pubblicamente, l’obiettivo sembra quello di trasformare l’app in un assistente multimediale completo, capace di comprendere testo, immagini e suoni per fornire risposte sempre più pertinenti.
iPhone USA: assemblati in India ma dipendenti dalla Cina
Integrazione con altri servizi Google
Se questa funzione verrà completata, Gemini potrebbe integrarsi perfettamente con Google Recorder, permettendo di caricare registrazioni vocali e ricevere trascrizioni e riassunti immediati. Allo stesso modo, potrebbe analizzare brani da YouTube Music o podcast salvati in locale, aiutando l’utente a identificare informazioni chiave, testi o concetti senza dover ascoltare l’intero contenuto. Questa sinergia aprirebbe la strada a un utilizzo professionale e creativo dell’IA, rendendo Gemini un punto di riferimento per chi lavora con audio e contenuti multimediali.
[fonte]