Qualité sonore numérique : défis & solutions

Les lignes de code ne se limitent pas à créer des interfaces utilisateurs visuelles ou de la logique avec une base de données. Elles peuvent également servir à créer des paysages sonores innovants et captivants.

L’évolution historique des supports sonores, de l’analogique au numérique, ne s’est pas faite sans peine. Aujourd’hui, plusieurs enjeux restent encore d’actualité dans l’univers de la musique numérique. Les projets intégrant des solutions audio que nous réalisons, comme PlayPodcast ou L’exposition Jean Starobinski, comportent des défis de taille : la qualité sonore, les contraintes de vitesse de connexion et d’espace de stockage. Décryptage des enjeux liés à la qualité et au poids d’un son.

 


Petite histoire de la qualité d’un son et de son poids

Vinyle – Le signal parfait et encombrant

Le vinyle est le support historique le plus qualitatif en termes de rendu sonore, car il n’est pas échantillonné (ndlr : les ventes de disques vinyles, en constante progression ces dernières années, ont atteint en 2023 leur plus haut niveau depuis 1990). En termes de poids, on ne parle pas de kilobits, mais bien des fameux « 180 grammes » d’un 33 tours.

Un vinyle stocke la musique sous forme de rainures physiques, reproduisant directement les vibrations sonores originales. Contrairement aux formats numériques qui échantillonnent le son, cette méthode capture une richesse et une authenticité sonore difficilement égalables par les supports numériques. Grâce à la précision des microsillons, l’onde sonore est reproduite fidèlement. Si l’ingénieur du son est particulièrement habile, un vinyle peut aller jusqu’à restituer l’acoustique du lieu d’enregistrement. Il faut toutefois que toute la chaîne de restitution du son (la chaîne Hi-Fi) respecte les plus hautes exigences en la matière.

 

Le CD – Le signal haute définition du monde numérique

Les deux albums clés de l’histoire de la musique numérique

Le premier disque compact a été lancé sur le marché par Sony et Philips en 1981, avec l’album d’ABBA The Visitors. Bien qu’enregistré analogiquement, ce nouveau produit permettait de faire jouer un album sur un petit support numérique contenant environ 800 Mo de données, une révolution pour l’époque ! Quatre ans plus tard, en 1985, Dire Straits produisait Brothers In Arms, le premier CD entièrement numérique. Il faudra néanmoins attendre le début des années 90 pour que le CD se démocratise complètement et signe le déclin du vinyle.

 


Échantillonnage et encodage

Sinusoïde analogique et échantillonnage

 

Lorsque l’on passe dans le domaine du son numérique, il existe deux « quantités » très importantes à connaître et à comprendre.

La première est l’échantillonnage. C’est l’équivalent des “images par seconde” pour un film. Plus le nombre d’images par seconde est élevé (24 au cinéma, mais jusqu’à 60 sur certains supports aujourd’hui), plus le mouvement semble naturel. Si au contraire le chiffre tombe en dessous de 16-18 images par seconde, notre œil voit alors des mouvements saccadés (ndlr : dans le cadre d’émissions sportives, afin de proposer des ralentis d’extrême qualité, certaines caméras sont capables de capturer 1000 images par seconde).

Un principe similaire s’applique à l’audio, et le terme utilisé est l’échantillonnage. L’explication se trouve une nouvelle fois basée sur les capacités humaines, celles de notre oreille cette fois-ci.

Le champ auditif de base d’une oreille humaine se situe entre 20 Hz et 20 000 Hz (20 kHz). Dans certaines conditions, nous serions capables d’entendre des sons de 12 Hz à 28 kHz.
Si l’on souhaite enregistrer tous les sons audibles de manière qualitative, nous devons aller deux fois plus vite que la plus haute fréquence audible. Théoriquement, un échantillonnage à 40 kHz serait donc suffisant, soit 40 000 prises de mesures par seconde. Comme bien souvent, nous avons appris à garder une marge de sécurité. C’est ainsi que la fréquence de 44,1 kHz est devenue la référence des audiophiles, permettant ainsi la restitution de sons jusqu’à 22,05 kHz.

La seconde quantité importante est le nombre de bits d’encodage.
Comme pour une image, les couleurs sont encodées sur une série de 0 et 1. Pour les cinéphiles, l’encodage des couleurs se fait sur 72 bits ; pour les audiophiles, on utilise du 16 bits, voire 24 bits. Cette “profondeur” de bits donne une indication du nombre d’informations enregistrées lors de chaque mesure. Plus la “profondeur” est grande, plus il y aura d’informations codées. Plus il y a de profondeur, plus nous arriverons à entendre du son le plus faible au son le plus fort d’un enregistrement. Il est donc simple de résumer ces explications ainsi : plus l’échantillonnage et le nombre de bits d’encodage sont élevés, plus la restitution sonore sera précise.

Pour réussir à maintenir une qualité sonore élevée dans seulement 700 Mo d’espace sur un CD, des ingénieurs ont développé un algorithme de compression, similaire à un zip pour les fichiers audio. Cet algorithme identifie et compresse les motifs récurrents dans l’audio, réduisant la taille du fichier sans perte de qualité.

Cet encodage est encore très utilisé par les audiophiles. Il s’appelle Free Lossless Audio Coding (FLAC).

Nous disposons d’un fichier source de haute fidélité. Mais la musique et les sons ne vivent que par le partage. C’est donc également le point de départ de réflexions et de la création de nouvelles compressions afin de rendre le fichier “transportable”.

 


Fichiers volumineux : comment perdre du poids ?

Si aujourd’hui nos téléphones disposent de plusieurs gigaoctets (Go) de mémoire, les premiers baladeurs n’en possédaient que 1 ou 2 Go, l’équivalent de 2 ou 3 albums au format FLAC.

Le format WAV

Parmi les formats numériques connus, il y a le WAV. Un format de fichier (ou plus précisément un conteneur) recueillant le son en PCM (Pulse Code Modulation), une technique permettant de numériser un signal audio analogique. Il a exactement la même taille et les mêmes caractéristiques que le son d’un CD (16 Bits, 44 100 Hz). Ce qui en fait le format usuel pour l’enregistrement de musique, et aussi le type de fichier le plus lourd : une minute de silence ou de musique en .wav pèse environ 10 Mo…

La compression destructrice et les fréquences masquées

Pour faire perdre du poids à un fichier audio, il existe plusieurs techniques. Parmi les techniques de compression destructrice, on trouve essentiellement des méthodes qui exploitent les faiblesses de l’oreille humaine. Cette dernière entend les fréquences situées dans la gamme 20 Hz à 20 kHz. Si un morceau contient des fréquences hors de cette gamme, on part du principe qu’elles ne sont pas utiles et, par conséquent, il suffit de les supprimer. Cela ne devrait pas créer de perte de qualité audio puisque l’oreille ne les entend pas. On peut même aller plus loin. On entend surtout les fréquences situées dans la gamme 2 kHz à 5 kHz. En effet, il faut moins de 5 dB pour entendre les fréquences de cette bande, alors qu’il faut plus de 20 dB pour entendre les fréquences situées en dessous de 100 Hz ou au-dessus de 10 kHz. Ces constatations peuvent être exploitées pour réduire la taille des fichiers. On peut, par exemple, décider que toutes les fréquences au-dessus de 15 kHz seront supprimées.

De même, nous pouvons décider qu’un son de faible intensité intervenant juste après un son de très forte intensité ne sera pas audible, votre oreille étant déjà occupée. On peut donc le supprimer et continuer ainsi notre gain de poids par la destruction d’informations jugées inaudibles. Ces techniques de compression avec pertes altèrent définitivement les fichiers et limitent les données aux perceptions humaines.

L’exemple du MP3, qui a commencé à circuler dès 1995 sur Internet

Avec le développement d’Internet et la mise en place du standard MPEG en 1995, les fichiers MP3, sortis deux ans auparavant, ont commencé à circuler sur la toile.

Le débit binaire d’un fichier MP3, c’est-à-dire la quantité de données audio traitées par seconde lors de la lecture du fichier, peut aller de 96 à 320 Kbit/s. Les services de streaming actuels, tels que Spotify, utilisent des débits de 96 à 256 Kbit/s seulement (malgré l’annonce officielle de « Spotify HiFi » au printemps 2021, une option qui ne cesse d’être repoussée depuis)… soit au minimum 10 fois moins qu’un CD audio ! On comprend donc que la qualité n’est plus au rendez-vous.

Le fameux AAC d’Apple

Lorsque Apple est arrivé sur le marché avec son baladeur iPod, ils ont proposé un autre format audio : le AAC (Advanced Audio Coding). La différence avec le MP3 n’est pas forcément marquée, et le débat fait rage depuis des années pour savoir si le format AAC est réellement meilleur que le MP3.

L’emblématique iPod, qui a révolutionné notre façon d’écouter de la musique et inauguré une nouvelle ère dans l’audio numérique portable.

Le FLAC : une solution sans perte et viable

Le FLAC (Free Lossless Audio Codec) est apparu en 2001 comme une alternative open source aux autres formats sans perte. Il a longtemps traîné une réputation de « format des pirates » en raison de l’absence de DRM pour protéger les fichiers. Mais il possède toutes les qualités nécessaires pour toucher un large public. Autre point fort, il est open source (libre de droits). Cela signifie que les professionnels du son et de la musique n’ont pas à payer de redevances pour l’utiliser.

Le FLAC est donc naturellement devenu le format de prédilection pour ceux qui accordent de l’importance à la qualité du son. L’intérêt de se pencher sur FLAC réside tout d’abord dans la certitude d’avoir un fichier dont la qualité audio est parfaitement inaltérée. Le format/codec FLAC opère en effet une compression audio dite sans perte, « lossless », qui conserve l’intégrité du fichier audio original, le tout pour une taille de fichier relativement contenue. Qui plus est, le FLAC est supporté par la très vaste majorité des smartphones (y compris l’iPhone), des baladeurs audio, des ordinateurs et appareils Hi-Fi.

« Le FLAC est bon pour véhiculer les fichiers par Internet, car il divise par deux les temps de téléchargement de musique en haute fidélité. Et il est peu probable que l’on fasse beaucoup mieux en matière de compression sans perte, » selon un professeur de psychoacoustique de l’université de l’Essex cité par Bowers & Wilkins.

Le FLAC ne se limite pas à la qualité CD (44,1 kHz/16 bits) et peut même correspondre à des fichiers dits “haute définition” ou “Hi-Res”, en 96 kHz/24 bits et même 192 kHz/24 bits.

8 Mo, 40 Mo ou 80 Mo ?

Une petite comparaison finale s’impose en guise de conclusion. Un morceau de musique d’une durée d’environ 4 minutes aura un volume d’environ 8 Mo en MP3, de 40 Mo en FLAC et de 80 Mo en WAV.

 


Une technologie de génération de sons sur mesure, de haute qualité

AudioVitality : une app sonore qui améliore la qualité de vie grâce à ses sons basse-fréquence uniques, personnalisés et de haute qualité.

AudioVitality est un des projets qui nous a demandé beaucoup de réflexion et de compréhension autour de ces aspects. Cette application mobile, basée sur les neurosciences et qui n’est qu’une pièce du puzzle AudioVitality, a pour objectif de générer des sons de haute qualité, sur mesure. Chaque auditeur entend donc un son unique, spécialement créé pour lui, dans le cadre d’une thérapie sonore.