L'intelligence artificielle (IA) dans le studio de production audio (5/6)

Table des matières

Le numérique et les progrès dans les méthodes d’enregistrement n’ont pas supprimé le besoin en restauration audio, bien au contraire! Et l’IA est passée par là pour voir arriver de plus en plus de logiciels efficaces dans la réparation, le nettoyage et le dé-mixage audio.

L’IA dans les logiciels et plug-ins de restauration audio (réparation, nettoyage et dé-mixage)

L’activité de restauration audio et de réduction du bruit (« De-noising ») est vaste et ne date pas d’hier. En effet, beaucoup de secteurs différents nécessitent de l’audio en qualité optimale, que ce soit par des fichiers, des enregistrements ou des retransmissions en direct.

Cela concerne les diverses industries du divertissement (cinéma, TV, retransmission des grands évènements…), l’archivage audio, le remastering audio… Même des secteurs comme la police, la sécurité et la surveillance qui nécessitent des preuves audio ou des communications claires et intelligibles, y ont recours.

Précurseur en la matière, la société Cedar est un peu le grand-père de la restauration audio. Et tous les secteurs évoqués (des gros studios film et TV à la police) ont eu recours à un système Cedar. D’abord en « hardware » analogique, la gamme de produit s’est étendue en logiciels de restauration sonore avec le développement des technologies numériques.

De Cedar à iZotope RX: le besoin croissant en logiciel de restauration audio

Depuis, conjointement au développement du numérique, la production de médias (vidéos, podcasts…) s’est démocratisé. Et paradoxalement, le numérique et les progrès dans les méthodes d’enregistrement n’ont pas supprimé le besoin en restauration audio, bien au contraire!

Souvent, l’enregistrement n’a pas pu se faire dans des conditions optimales. Une voix off, des dialogues ou une prise de chant/instrument se doivent d’être propres et intelligibles.

Les types de problèmes rencontrés peuvent être nombreux et divers:

bruits ambiants intempestifs (bruit de fond, souffle, sifflement, bourdonnement, vent, téléphone, moteur, oiseaux, circulation automobile, etc … )

bruits liés à de mauvais réglages ou manipulations (clics et craquements, distorsion/saturation du son)

bruits liés à la parole (bouche, salive, sibilances, plosives, pops, …)

ambiance liée à une mauvaise acoustique (échos, réverbération)

mauvaise qualité due à l’utilisation de matériel « cheap » (micro, interface audio bas de gamme, faible débit numérique des communications en streaming)

Ces temps de communication et d’enregistrements par Zoom/Skype ou avec son smartphone sont particulièrement propices au recours à des logiciels de restauration audio. Il y a aussi tout le secteur de l’archivage et la restauration de vieux enregistrements analogiques, vintages (suppression du wow & flutter notamment), et des « re-mastering » aux goûts du jour.

La règle d’or en audio: « Shit In, Shit Out »

Il ne faut pas s’y méprendre, le traitement audio en post-production n’a rien de magique! Une règle d’or dans le milieu professionnel est l’expression « Shit In, Shit Out ». Et le fameux « on verra ça en post-production » souvent déclamé lors de la prise de son est la hantise de tout ingénieur du son.

Autrement dit, si l’enregistrement initial est de qualité médiocre, il ne faut pas s’attendre à un son incroyable et parfait après la post-production. Même si parfois il est possible de faire des miracles, il faut bien garder en tête que la meilleure qualité audio s’obtient en amont de la chaîne de production, c’est-à-dire dès l’enregistrement.

Et pourtant, même si l’adage du « Shit In, Shit Out » restera toujours valable, le domaine de la restauration audio a bien évolué ces dernières années. Depuis Cedar (toujours présent sur le marché, mais hors de prix), de plus en plus de fabricants de logiciels et plug-ins audio sortent leur épingle du jeu pour repousser les limites de ce qu’il est possible de réparer en post-prod.

Les progrès de la réparation audio avec le « machine learning »

Waves par exemple propose depuis longtemps des plug-ins de réduction de bruit et de clics (NS1, WNS, W43, série X-Noise).

Mais les progrès ont récemment fait des pas de géant, principalement en raison des méthodes avancés IA en « machine learning ».

Parmi ceux qui s’appuient sur ces nouveaux algorithmes, on peut citer Adobe Audition qui est le seul éditeur et séquenceur audio à intégrer en natif des plugins de restauration audio efficaces tel que la réduction de bruit.

Quant à iZotope, il est devenu incontournable en restauration et affinage audio avec sa suite logicielle RX.

iZotope RX: l’application tout-en-un ultime en restauration audio

Présent sur le marché depuis 2010, iZotope RX est capable de résoudre presque tous les problèmes présents dans un enregistrement que l’on croyait encore impossible à réparer il n’y a pas si longtemps.

Cela lui vaut la reconnaissance auprès des meilleurs professionnels de l’audio du monde entier.

Il faut dire que, avec un peu de savoir-faire, RX peut littéralement amener la restauration audio à un niveau jamais atteint auparavant.

Des modules comme retirer les bruits de frottement que fait un micro-cravate (De-rustle), le bruit intermittent du vent dans les basses fréquences (De-wind), ou encore le nettoyage des dialogues débarrassés du bruit ambiant et autres sons « indésirables » (Dialogue isolate) sont redoutablement efficaces.

Il propose aussi des approches innovantes pour résoudre des problèmes vieux comme le monde lors d’un enregistrement de musique en studio: la « repisse » du micro (De-bleed), les sibiliances (De-ess), les clics et les plosives de la bouche (Mouth De-Click, De-plosive) ou encore le contrôle de la respiration (Breath Control).

L’interface s’appuie sur la vue en spectrogramme du son. Conjointement avec des outils comme le Spectral Repair ou le Spectral De-noise, RX permet des retouches minutieuses et précises du « bruit », en supprimant uniquement certains éléments, tel un photoshop sur le son.

Tout cela dans une seule application, accessible en logiciel « standalone » ou plug-ins, et à un prix bien plus abordable que Cedar…

Dans ses dernières versions, RX adopte l’IA encore un cran plus loin avec son outil de « Music Rebalance » (voir ci-après) et un assistant de réparation « Repair Assistant ».

Ce dernier, dans le même principe que l’assistance en mixage pour Neutron (voir article précédent), va suggérer automatiquement les modules et leur réglages appropriés suivant le type d’audio et de problème que l’utilisateur lui demande de réparer!

L’IA dans les logiciels de réparation et dé-mixage audio

Sous-jacent à la restauration audio, l’IA a permis de relever le challenge de la séparation/discrimination des sources audio.

Dans le contexte de la production musicale, on appelle ça « un-mixing » ou « de-mixing » en anglais. C’est le challenge de pouvoir isoler et extraire chaque élément sonore distinct présent dans un même enregistrement audio.

Outre la restauration audio et le « De-noise », la technologie a de nombreuses applications potentielles:

le remixage musical: isoler la voix (pour un accapella) ou un autre instrument
l’audio dans l’espace
le remastering
l’écoute active, à des fins pédagogiques
mais aussi au pré-traitement pour d’autres tâches telles que la transcription
et même pour des appareils audio dans le secteur médical

Jusqu’alors, les stratégies existantes rendaient le processus difficile, voire impossible. Elles se contentaient de manipuler la dynamique du signal (expandeur ou enveloppe shaper, processeur à seuil spectral) et se limitaient à certains types de signaux (techniques d’annulation de phase ou d’analyse de corrélation inter-canaux).

Mais les progrès de l’IA dans le « deep learning » permet d’utiliser un modèle du système auditif humain.

Cela fonctionne donc sur n’importe quel format de fichier, et sans modifier les dynamiques du signal. Le signal peut être discriminé en différentes parties comme par exemple:

– de la voix par rapport au « bruit » ambiant —> ce sont les réducteurs de bruit « De-noise » tel que le « Dialogue isolate » de iZotope;

– des sons transitoires (transients) par rapport aux sons soutenus (sustain) —> Voir ci-après les plug-ins Drumatom, Regroover, Unmix Drums;

– de l’ambiance (réverbération) par rapport au son direct —> ce sont les plug-ins de « De-reverb », d’ « Ambience Match », voir Unveil de Zynaptiq ci-après;

– des différents instruments dans un même morceau de musique (dé-mixage) —> voir ISSE ou Spleeter;

Le mythe du « dé-mixage » musical en passe de devenir réalité

Bien qu’il ne s’agisse pas d’un sujet largement connu, le problème de la séparation des sources dans les signaux musicaux intéresse une large communauté de chercheurs depuis maintenant une vingtaine d’années. Cela part d’un constat simple: les fichiers musicaux sont généralement un mélange de plusieurs pistes instrumentales individuelles (chant, batterie, basse, piano etc…) qui ont été mixées.

L’un des rêves de l’audio pro, est le dé-mixage: à savoir, isoler et séparer les pistes individuelles, parfois appelées STEMS.

L’enjeu est donc de pouvoir les récupérer au mieux, en respectant le plus possible l’intégrité des originaux sans créer trop de distorsions et d’artefacts.

ISSE (Interactive Sound Source Editor):

Parmi la communauté de chercheurs dans le domaine, on peut citer le projet ISSE, mené conjointement par Adobe Research et la Stanford University.

ISSE est un outil d’édition audio multi-plateforme sorti en Juillet 2013 en « open source ».

Il permet à un utilisateur d’effectuer une séparation de source en « peignant » sur des visualisations en spectrogramme du son (comme avec RX).

Le logiciel exploite à la fois un nouveau paradigme d’interaction avec l’utilisateur et un algorithme de séparation basé sur le « machine learning ». Celui-ci « apprend » à partir des « feedbacks » utilisateurs pour effectuer la séparation.

Avec Spleeter, Deezer franchit un cap dans la technologie du dé-mixage audio

Mais c’est surtout par le service de streaming musical français Deezer que les choses ont accélérées.

En effet, quoi de mieux qu’un service de streaming avec des chercheurs spécialisés en recommendation et analyse musicale (Music Information Retrieval) et ayant accès à un immense catalogue de musique, pour développer une IA spécialisée en dé-mixage?

C’est ainsi que naît Spleeter en 2019. Il se présente sous la forme d’un « package en open source », avec le code accessible sur Github à tout un chacun pour être téléchargé et utilisé!

Le code promet à priori un dé-mixage en 2, 4 ou 5 stems, de façon tout à fait correcte (et du coup révolutionnaire!). Si bien que bon nombre de marques et éditeurs de plug-ins audio s’en servent allègrement aujourd’hui.

Voici une liste non exhaustive des logiciels utilisant le code Spleeter:

– Dans les dernières versions d’iZotope RX (depuis RX8) et notamment sa fonction de « Music Rebalance »;

– le SpectralLayers dans sa fonction « Unmix » chez Steinberg;

– le Acon Digital au sein de Acoustica 7;

– VirtualDJ avec leur fonction d’isolation de Stems;

– Algoriddim dans leur suite d’applications NeuralMix et djayPRO;

– Moises AI Music Platform, une application simplissime pour séparer les stems d’une chanson.

Toutefois, comment faire pour que tout-un-chacun puisse utiliser le code pour ses propres besoins? Car le code en « open source » nécessite d’être exécuter localement en installant un tas de bibliothèques et d’outils python…

Heureusement, la communauté a réagi et un certain Azuki l’a mis à disposition sous la forme d’un plug-in VST3!

Et voici ici une démo et comment l’installer:

Alternatives et autres marques à suivre en restauration et dé-mixage audio

A part tous ces nouveaux logiciels se basant sur le code Spleeter, d’autres fabricants de plug-ins audio à intelligence artificielle ont su sortir des sentiers battus dans ce domaine.

Voici ceux qui, à mon avis, méritent d’être suivis de près:

Accusonus, un concurrent sérieux à iZotope

Impossible de ne pas évoquer les grecs de Accusonus qui figurent parmi les pionniers dans l’intégration du « machine learning » dans leurs logiciels audios.

Leur plugin, Drumatom, sorti en 2014, fut le premier outil au monde à pouvoir supprimer la repisse (ambiance parasite prise par le micro) lors d’une prise de son de batterie.

Ce plugin, de part sa simplicité d’utilisation (un ou deux potards à régler) est vite devenu une référence absolue, un « must-have » auprès de tout les ingénieurs du son d’un studio de musique.

Un autre de leurs logiciels remarquables est Regroover.

Celui-ci permet de décomposer efficacement une boucle audio complexe (souvent rythmique, de batterie) en plusieurs boucles contenant chacune un élément/instrument séparé de la boucle principale!

Très utile par exemple pour isoler le kick, la snare, les high hats, etc… de n’importe quel fichier audio de drums. C’est la porte ouverte à plus de liberté et de créativité dans la manipulation des boucles audio au-delà de leur forme originale.

A sa sortie en 2016, Regroover reçut plusieurs prix d’innovation et fut considéré comme le futur du sampling.

Enfin, le bundle ERA, sorti en 2018, est la gamme de produits d’Accusonus qui connaît la croissance la plus rapide.

Avec des plugins, comme le « Noise Remover » ou le « Voice leveler », toujours plus nombreux et rassemblés en une seule interface, le « Audio Clean-up Assistant », l’ERA Bundle s’impose peu à peu comme un sérieux concurrent à iZotope RX dans le domaine des logiciels de nettoyage et restauration sonore.

La simplicité d’utilisation des plugins (souvent munis d’un simple potard à tourner), permet aux créateurs débutants et professionnels d’améliorer instantanément leurs enregistrements audio, pour une réparation audio rapide et efficace.

Les Zynaptiq Un-Series: Unfilter, Unveil, Unchirp, Unmix Drums

Spécialiste dans les algorithmes audio IA avancés, il est logique que Zynaptiq propose une série de plugins performants dans la réparation et restauration sonore. Au-delà de leur fonction principale, ces plugins se révèlent particulièrement intéressants pour leur potentiel en sound design et expérimentation sonore.

Par exemple, Unchirp est un plug-in de restauration audio ayant subi un encodage à bas débit ou avec perte. Il supprime les artefacts les plus désagréables et rétablit les plus hautes fréquences perdues.

Mais en allant plus loin, c’est aussi un outil qui redonne du peps au transitoires suite à un traitement excessif de la dynamique (sur-compression) ou de nettoyage (de-noise). Et plus généralement, il se révèle très intéressant sur tout type d’audio pour lui ajouter du contour, du détail et de l’impact.

Unfilter (que j’ai déjà mentionné précédemment dans l’article sur les « EQ intelligents ») répare les anomalies de réponse en fréquence qui ne font pas partie du signal d’origine. Par exemple, il améliore drastiquement l’intelligibilité d’une voix enregistrée dans de mauvaises conditions.

D’autres fonctions font de Unfilter un plug-in de sound design, par exemple:

remodeler complètement le contour spectral d’un signal pour équilibrer le spectre;
extraire la réponse du filtre d’un son et de l’appliquer à un fichier différent (pour obtenir les deux sons dans le même fond sonore ou la même « couleur » sonore);
mettre en solo les composantes « de bruit » contenus dans un son, etc…

Unveil est un plugin de dé-réverbération. Il atténue ou enlève la reverb tout en maintenant le son direct le plus « naturel » possible. Ou l’inverse: il permet de réduire l’élément principal et d’en faire ressortir uniquement les réflexions ou l’ambiance.

Mais au-delà de cette fonction principale, Unveil a la capacité de mettre le focus sur l’élément principal, en réduisant non seulement la reverb mais l’ambiance parasite de l’audio enregistré. Et cela en temps réel, afin de recréer un effet d’ambiance dynamique en jouant sur la profondeur. Par exemple sur une ambiance de foule autour d’une conversation au milieu d’une pièce, l’ambiance extérieure d’une machine en action, l’ambiance d’une nappe de synthétiseur pour une musique, etc…

Enfin, Unmix Drums est capable d’atténuer ou carrément retirer la partie batterie d’une musique, ou au contraire l’accentuer à l’envie.

On pourra trouver d’autres applications à Unmix Drums comme:

redonner vie à une musique manquant cruellement de punch et d’excitation;
apporter plus de détail et de définition sur une batterie acoustique;
reformer le punch et l’impact de drums en général, même à l’intérieur d’un morceau complet et en évitant l’emploi d’un compresseur ou « transient designer » traditionnel;
ajouter de l’énergie en re-synthétisant la partie sub dans les basses fréquences manquantes.

Accentize

Cette toute récente start-up allemande a décidé de se lancer dans l’aventure de l’IA embarquée dans les plugins audio.

Pour l’instant, le focus est mis sur des outils de restauration pour les dialogues et la voix (« DialogueEnhance », « VoiceGate », « DeRoom » pour la suppression de la reverb). Dans la série des « EQ intelligents », on en retrouve un ici avec « SpectralBalance », spécialement conçu pour corriger les déséquilibres fréquentiels et le masquage dans les dialogues.

A noter, l’originalité d’Accentize de proposer deux plugins IA qui émulent la couleur sonore de vieux appareils analogiques: PreTube pour la saturation analogique de pré-amplis à tube et PreFET pour l’émulation de pre-amps à transistor d’enregistreur cassette des années 70.

A tester!

Audionamix

Décidément, la technologie de séparation des sources musicales est une spécialité française! Car à priori, bien avant le code open-source développé par Deezer, cette société française se développe depuis 2003 autour de ses propres algorithmes IA. Elle s’est d’abord fait connaître en travaillant pour les films Inception et La Môme où elle était chargée d’isoler la voix d’Edith Piaf à partir de vieux enregistrements.

Plus récemment, elle a pris le nom d’Audionamix et se distingue par deux logiciels de service:

– IDC (Instant Dialogue Cleaner), un « denoiser » intelligent pour les dialogues

– et surtout Xtrax Stem qui décompose un morceau de musique en 4 stems optimisés: l’acapella, les drums, la basse et le reste.

C’est donc exactement le même principe que Spleeter ou le Music Rebalance de iZotope RX mais plus avec un focus au service des DJ et remixeurs.

Google Soundfilter

En parlant d’une technologie numérique prometteuse, il aurait été étonnant de ne pas voir Google développer son propre service. C’est chose faite avec Soundfilter!

Bien qu’encore au stade de recherche et développement, Google affirme que Soundfilter sera capable d’isoler n’importe quel son d’une source sonore aussi réduite qu’un simple échantillon…

Rejoins Arsonor sur les réseaux sociaux pour plus d’astuces et de techniques:

Derniers articles publiés

Bienvenue sur Arsonor!

Tu cherches à maîtriser les outils modernes de la production musicale, traiter ton son comme il le mérite, en finir avec les blocages et finaliser tes morceaux une bonne fois pour toute?

Tu es au bon endroit! Je m’appelle Martin, et je partage avec toi toutes mes connaissances et expérience en ingénierie du son.

De nos jours, il est possible de faire (presque) tout depuis chez soi! Avec les bonnes connaissances, de l’abnégation et de la passion, je suis convaincu que la création musicale est accessible à tous. Je suis prêt à partager ici avec le plus de pédagogie possible, tous les conseils et astuces qui te seront d’une aide précieuse pour arriver à tes fins.

Partager l'article:

L’intelligence artificielle (IA) dans le studio de production audio (5/6)