Fraunhofer IIS (sì quello dell'MP3) guida ancora lo sviluppo delle tecnologie audio, attuali e future

Per chi non lo ricordasse, l'MP3 è stato sviluppato da un team di ricercatori del Fraunhofer Institute in Germania negli anni '80. Da allora il lavoro dei ricercatori non si è mai fermato, portando a codec come AAC. Al CES abbiamo visto qual è il futuro dell'audio secondo Fraunhofer IIS
di Roberto Colombo pubblicata il 18 Gennaio 2025, alle 09:06 nel canale Audio VideoFraunhofer
Il CES di Las Vegas è sempre l'occasione per andare a cercare qualche chicca tecnologia e spesso le si trova non nei padiglioni della fiera, ma spulciando tra i nomi dei partecipanti e prenotando un appuntamento in qualche suite di uno dei numerosi alberghi della città.
Quest'anno ho visto diverse cose interessanti dietro le quinte, alcune delle quali ancora coperte da segreto, essendo solo allo stato prototipale, ma una delle più interessanti tra quelle di cui si può parlare è stata la demo organizzata dal Fraunhofer Institute for Integrated Circuits (Fraunhofer IIS). Anzi 'le' demo, visto che le tecnologie in mostra sono state diverse.
Fraunhofer Institute for Integrated Circuits (Fraunhofer IIS) è un nome che a molti suonerà conosciuto, anche se magari in qualche lontano ricordo. Per sbloccarvelo basta una parola: MP3.
Per chi non lo ricordasse, l'MP3 è stato sviluppato da un team di ricercatori del Fraunhofer Institute in Germania, guidato dal professor Karlheinz Brandenburg, considerato uno dei "padri" del formato.
Il progetto è nato negli anni '80 come parte di uno studio più ampio sul compressione audio all'interno del gruppo MPEG (Moving Picture Experts Group). Brandenburg e il suo team lavorarono per migliorare un algoritmo basato sulla psicoacustica, cioè lo studio di come l'orecchio umano percepisce i suoni, eliminando le parti "inutili" per comprimere l'audio.
L'MP3 è stato rilasciato ufficialmente nel 1993 ed è diventato rapidamente il formato standard per la musica digitale negli anni '90 e 2000, soprattutto con l'avvento dei lettori MP3 e del file sharing su Internet.
Negli anni il lavoro dell'istituto di ricerca tedesco è andato avanti e abbracciato molti filoni, ma quello delle tecnologie di compressione audio ha continuato a essere uno dei più importanti. Dobbiamo ai ricercatori tedeschi anche un altro formato che oggi è fondamentale per l'ascolto musicale (e in generale la trasmissione di flussi sonori) l'AAC (Advanced Audio Coding), nato proprio dalla ricerca di un successore dell'MP3.
XHE-AAC
A parità di bitrate, l'AAC offre una qualità audio superiore rispetto all'MP3 e supporta frequenze di campionamento più ampie (da 8 kHz a 96 kHz) e un numero maggiore di canali audio. Visto il successo del formato (che ad esempio viene utilizzato in molti casi nell'ascolto tramite cuffie Bluetooth), il Fraunhofer Institute continua la sua ricerca e una delle dimostrazioni che ho visto (e sentito) è stata quella relativa alla più recente implementazione del codec, denominata XHE-AAC (Extended High-Efficiency Advanced Audio Coding). Supportato nativamente da Android, Fire OS, iOS e Windows è ormai parte integrante di codec come MPEG-D DRC – Loudness and Dynamic Range Control – e Digital Radio Mondiale (DRM).
Una delle sue caratteristiche, come reso evidente dal nome, è l'elevata efficienza, che permette di trasportare un flusso audio stereo a partire da 12 kbps di banda. Già utilizzato dalle piattaforme di streaming, fa parte di quelle tecnologie adattive in grado di regolare la qualità complessiva del flusso audio/video in base alla banda disponibile. Nella demo ho potuto assistere proprio alla robustezza del formato in diverse condizioni di banda. In una clip presa da un film, anche in condizioni di degrado della rete, era possibile ottenere un dialogo perfettamente intellegibile, privo di distorsioni o artefatti, anche scendendo a un flusso audio di soli 16 kbps.
Si tratta di un formato che silentemente, senza che nessuno lo sappia, raggiunge già oggi più di tre miliardi di utenti al mese, con miliardi di ore di streaming all'attivo.
Per fare altri esempi, c'è lo zampino del Fraunhofer Institute anche dietro le quinte del codec LC3plus, a bassa latenza ed elevata qualità, che fa parte dei formati che danno accesso all'ascolto Hi-Res Audio Wireless.
MPEG-H Audio
Il codec MPEG-H ha molte applicazioni, alcune delle quali lato broadcast, ma è anche quello su cui si basa il formato audio immersivo Sony 360 Reality Audio.
Anche in questo caso l'efficienza è uno dei punti cardine del codec, che permette, ad esempio il trasporto facilitato di più lingue nello stesso flusso audio/video broadcast, ma anche delle versioni 'enhanced', mettendo a disposizione dei telespettatori una grande flessibilità di scelta. Utilizzato dalla televisione brasiliana permette di selezionare, ad esempio nel caso di una partita, il suono normale che bilancia suoni ripresi sul campo e telecronaca, ma anche di scegliere solo uno dei due, eliminando la telecronaca se non la si vuole ascoltare. Inoltre è possibile anche scegliere livelli intermedi di bilanciamento tra i due flussi audio e, ancora, avere a disposizione anche un parlato reso ancora più intellegibile, per chi ha problemi di udito.
Il formato supporta configurazioni multicanale come 5.1 e 7.1, ma anche layout 3D per flussi audio immersivi.
Il primo Paese ad adottare il codec MPEG-H Audio per le trasmissioni televisive è stata la Corea del Sud, ma oggi fa parte anche degli standard ATSC 3.0 negli USA e DVB in Europa.
Fraunhofer upHear
La demo che più mi ha impressionato è stata quella relativa alla tecnologia upHear Flexible Rendering, che fa parte della famiglia di soluzioni Fraunhofer upHear, pensate per migliorare la qualità e la flessibilità dell'audio immersivo.
È una tecnologia sviluppata dal Fraunhofer Institute per ottimizzare la riproduzione audio in sistemi multicanale, come configurazioni di altoparlanti surround, soundbar o cuffie.
La sua caratteristica principale è quella di mantenere l'effetto spaziale 3D originale dei contenuti audio a prescindere dalla configurazione di ascolto, offrendo una qualità immersiva anche su dispositivi che non dispongono di configurazioni complesse di altoparlanti. La tecnologia vuole portare un suono immersivo e di qualità anche nelle attuali configurazioni casalinghe, che magari si basano su alcuni smart speaker sparsi qui e là per la stanza.
In particolare si tratta di una tecnologia in grado di adattare dinamicamente l'upmix adattandolo alla configurazione. Nel caso specifico della dimostrazione anche lo spostamento di alcuni altoparlanti durante la riproduzione di una clip audio non portava a sbilanciamenti o a perdita dell'effetto tridimensionale del suono. Anche aggiungere o togliere altoparlanti non ha provocato nessun effetto negativo percepibile.
In questo caso il Fraunhofer Institute sviluppa la tecnologia e poi la concede in licenza (anche white label) ai costruttori. Un esempio è la soundbar Sennheiser AMBEO, in grado di generare un upmix immersivo 5.1+4 senza l'utilizzo di satelliti o altoparlanti esterni, sfruttando la tecnologia per una calibrazione della stanza.
11 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info...avete copiato/tradotto male...non si capisce.
XHE-AAC e altri sono pensati per ottenere una certa "gradevolezza" d'ascolto a bassi/bassissimi bitrate, non per ottenere la trasparenza/fedeltà con l'audio originale di partenza dove tale necessità è invece soddisfatta (partendo dai 128kbps in su) da codec come Opus e AAC-LC (di questo ce ne sono varie implementazioni, ma la migliore è quella di Apple, seguita da quella di Fraunhofer).
Man mano che si scende col bitrate, Opus inizia a perdere (diciamo dagli 80kbps in giù
Man mano che si scende col bitrate, Opus inizia a perdere (diciamo dagli 80kbps in giù
Devo dire che Opus lo sento praticamente "trasparente" già a 96 kbps (stereo)...
No vabbè, neanche Cetto Laqualunque inventa avverbi così
Man mano che si scende col bitrate, Opus inizia a perdere (diciamo dagli 80kbps in giù
A me risulta che per la maggior parte dei bitrate opus sia "imbattibile".
Secondo questo e questo non ci sono differenze sostanziali, anzi opus batte xhe-aac ed è senza royalty.
Probabile, a volte (ma mooolto raramente) e con specifici brani ottiene la trasparenza anche andando leggermente al di sotto di 96, ma questo non lo si può sapere con certezza se non dopo esser passati da una rigorosa prova scientifica (blind listening tests) che è l'unica esistente per misurare la qualità audio di un codec audio lossy basato su psicoacustica.
Dipende da che bitrate stiamo parlando perché man mano che scendi sotto gli 80kbps, ma più realisticamente sotto i 64, inizia a trovare dei competitor che lo possono battere e ovviamente dipende dalla tipologia di campioni testati (provenienti da musica reale) con rigorosi blind listening tests dei quali si parla su questo forum perfino da più di 20 anni e la fonte capostipite e maestra di tutto questo argomento è e rimane solo una, il forum di hydrogenaudio (dove scrivono e testano gli stessi sviluppatori di codec audio), altre fonti sono solo wannabe perditempo.
Esempi:
https://hydrogenaud.io/index.php/topic,121099.0.html
https://hydrogenaud.io/index.php/topic,120997.0.html
Informo anche che Opus, così come altri lossy audio codec, con alcuni campioni/sequenze audio non è in grado di raggiungere la trasparenza nemmeno a 192kbps, ma questo fa parte della natura della compressione audio "con perdita" (lossy) i cui algoritmi/motori psicoacustici non sono ancora in grado di codificare correttamente tutto ciò che l'orecchio umano può percepire/riconoscere.
Esempi:
https://hydrogenaud.io/index.php/topic,121099.0.html
https://hydrogenaud.io/index.php/topic,120997.0.html
Informo anche che Opus, così come altri lossy audio codec, con alcuni campioni/sequenze audio non è in grado di raggiungere la trasparenza nemmeno a 192kbps, ma questo fa parte della natura della compressione audio "con perdita" (lossy) i cui algoritmi/motori psicoacustici non sono ancora in grado di codificare correttamente tutto ciò che l'orecchio umano può percepire/riconoscere.
Si, conosco quei test, ma sono obsoleti, riguardano la versione 1.31 di opus mentre siamo alla 1.52.
Concordo sulla questione lossless vs lossy, ma non è l'obiettivo di opus.
Sì, ma vale esattamente pure per gli altri due USAC (aka Extended High-Efficiency AAC, usati anche da Meta e Netflix) che nel frattempo hanno fatto interessanti passi in avanti, soprattutto quello open source di Christian Helmrich (exale).
Per vedere a che punto siamo (visto che la forbice a certi bitrate potrebbe essersi allargata ancora di più a favore degli USAC, oppure ristretta in favore di Opus), l'unica è ricorrere ai blind listening tests coi vari campioni ben rodati disponibili su hydrogenaudio oppure con il plugin per foobar senza avere troppe aspettative "definitive".
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".