Go to Menu

ReadSpeaker et IA éthique : bonnes pratiques pour la synthèse vocale

Quel est le rapport entre IA éthique et synthèse vocale ? ReadSpeaker précise ses lignes directrices en matière d’éthique.

21 novembre 2024 by Gaea Vilage
Une femme avec un casque audio regarde un écran avec des variations audio.

Les débats autour de l’éthique de l’IA ne s’apaisent pas, mais certains principes font tout de même consensus, réseaux de neurones ou pas.

On ne vole pas la propriété d’autrui. On tient ses promesses. On ne crée pas un produit qui a un impact néfaste sur les autres.

Chez ReadSpeaker, nous sommes des pionniers de l’IA pour la synthèse vocale. Nous avons réfléchi à toutes les implications éthiques de la synthèse vocale, sous toutes ses formes. Depuis peu, nous constatons que la puissance de cette nouvelle technologie qu’est l’IA tend à pousser les acteurs de la synthèse vocale à oublier leurs principes.

Dans cet article, nous aimerions parler de notre vision de l’éthique en lien avec la synthèse vocale basée sur l’IA.

Quelle est la véritable nature d’une voix générée par l’IA ?

Tout d’abord, clarifions rapidement les choses :

Une voix générée par l’IA est une modélisation de synthèse du discours humain basée sur des réseaux de neurones profonds.

Un réseau de neurones profonds est une architecture d’apprentissage automatique basée sur le cerveau humain. Il utilise plusieurs niveaux d’unités de calcul connectées, des neurones artificiels, pour apprendre des schémas complexes tirés de données d’entraînement.

Lorsque vous entraînez un réseau de neurones approprié à partir d’une voix humaine, vous pouvez générer des signaux audio qui imitent cette voix. Ces signaux forment ce que l’on appelle une voix neuronale ou voix générée par l’IA. Si nous parlons d’IA, c’est tout simplement car les réseaux de neurones profonds sont une forme d’intelligence artificielle.

Le point important de cette explication ? Chaque voix générée par l’IA provient d’une personne en chair et en os. Les voix de synthèse constituent donc une propriété intellectuelle personnelle à part entière. Malheureusement, à un moment où tout le monde cherche à tirer profit de l’IA, certains fournisseurs de synthèse vocale ne respectent pas ce point pourtant fondamental.

Il en est résulté un modèle économique bien établi dans le secteur : créer des voix générées par l’IA et les mettre à disposition sur Internet. C’est ce que font les générateurs en libre-service, qui violent au passage les droits des talents vocaux, mais aussi, comme nous allons le voir, d’autres parties.

Générateurs de voix : comparaison entre les modèles B2B et B2C et droits des talents vocaux

Les fournisseurs de voix générées par l’IA en libre-service suivent un modèle B2C s’adressant aux particuliers. Ils vendent des voix à tout le monde. Chez ReadSpeaker, nos clients sont exclusivement des entreprises. Nous ne travaillons pas avec des particuliers.

Ce modèle nous permet de protéger les talents vocaux, contrairement aux fournisseurs B2C. Nous signons des contrats avec les acteurs et les utilisateurs pour garantir qu’une voix ne peut être utilisée que dans certains cas spécifiques et approuvés. Nous allons approfondir cette idée dans la suite de cet article.

Utilisations non éthiques de la synthèse vocale générée par l’IA

Sur quels critères une voix générée par l’IA peut-elle être qualifiée d’éthique ou de non éthique ? Il y a deux aspects à prendre en compte : la façon dont elle est créée et la façon dont elle est utilisée. Ces deux aspects regroupent ainsi des pratiques en amont et des pratiques en aval qui sont la source de notre crise de l’éthique.

Les violations de l’éthique en amont sont liées à la collecte des données.

Souvenez-vous, les voix neuronales ressemblent aux enregistrements vocaux sur la base desquels elles ont été entraînées. L’origine de ces enregistrements constitue donc un point capital.

À l’heure des podcasts et autres livres audio, les données sont partout. Il est possible d’extraire les données audio de n’importe quelle source et ainsi de créer une voix générée par l’IA sans que le locuteur donne son accord ou en soit même informé. Ce comportement viole clairement les règles éthiques, mais beaucoup s’en moquent.

Pour déterminer si un fournisseur de synthèse vocale utilise l’IA de manière éthique, il vous suffit de lui poser cette simple question : « D’où proviennent vos données ? »

Mais il existe également une deuxième pratique de collecte de données non éthique, et même illégale. Les générateurs de voix en libre-service, ou services de clonage vocal, permettent aux utilisateurs de créer une voix de synthèse à partir de leurs propres enregistrements audio.

Avec ces outils, n’importe qui peut cloner une voix, parfois à partir de seulement quelques secondes de données. Or, la voix de la plupart d’entre nous peut être trouvée sur les médias sociaux. Elle se retrouve aussi sur un nombre inconnu de serveurs distants, en raison de la multiplication des assistants virtuels, enceintes connectées et applications vocales susceptibles d’enregistrer nos interactions. En d’autres termes, nous pouvons tous être victimes de ces outils de clonage vocal.

Les voix générées par l’IA créées rapidement en amateur ne seront jamais exceptionnelles (de grandes quantités de données sont nécessaires). En revanche, elles sont de suffisamment bonne qualité pour créer des deepfakes politiques et tentatives d’usurpation.

Nous reviendrons plus en détail sur ces sujets dans notre article sur l’éthique du clonage vocal. Pour le moment, contentons-nous de noter que la création d’une voix à partir de données d’entraînement non autorisées est quasi systématiquement contraire à l’éthique.

Les violations de l’éthique en aval concernent l’utilisation qui est faite d’une voix de synthèse.

La livraison d’une voix de synthèse neuronale implique 3 parties principales :

  1. Le talent vocal, qui est à l’origine des données d’entraînement
  2. Le créateur de la voix générée par l’IA, un fournisseur de synthèse vocale comme ReadSpeaker
  3. L’utilisateur de la synthèse vocale, à savoir l’entreprise qui diffuse la voix de synthèse auprès de son public

Ces trois parties doivent se mettre d’accord sur les utilisations appropriées de leur voix. En effet, le déploiement d’une telle voix en dehors de ces scénarios, l’utilisation inappropriée que nous évoquons régulièrement, peut être très dommageable. Les conséquences sont différentes pour chacune des parties.

Conséquences d’une utilisation non autorisée d’une voix générée sur l’IA pour…

1. Talent vocal

Les talents vocaux fournissent les données d’entraînement de la plupart des voix de synthèse commerciales. Si un créateur de voix clone une voix sans en contrôler le déploiement, le talent risque de tout perdre. Pourquoi faire appel à quelqu’un dont vous pouvez reproduire gratuitement la voix ?

« Ma voix est mon identité, mais c’est aussi mon gagne-pain », nous a expliqué un talent vocal. « Si vous me l’enlevez, vous me retirez ma source de revenus. Si quelqu’un me vole ma voix, je n’ai plus rien, c’est fini. »

« Si vous me l’enlevez, vous me retirez ma source de revenus. »

Sans déploiement contrôlé, les talents vocaux risquent aussi de voir leur voix utilisée dans des contenus qu’ils n’approuvent pas, des vidéos pour adultes aux discours haineux. À la perte de revenus peut ainsi venir s’ajouter la blessure morale. Vous comprenez donc à quel point les talents vocaux sont vulnérables face aux utilisations non autorisées de la synthèse vocale.

2. Les créateurs de voix générées par l’IA

Les créateurs éthiques de voix générées par l’IA, dont ReadSpeaker fait partie, sont aussi exposés aux dommages générés par la prolifération incontrôlée de ces voix. En effet, le déploiement éthique demande du temps, de l’argent et une vigilance de tous les instants.

Les entreprises qui ne suivent pas les mêmes règles bénéficient d’un avantage injuste tout en mettant en danger les talents vocaux et potentiellement leurs clients.

3. Les utilisateurs de la synthèse vocale

Il s’agit des entreprises qui diffusent leurs voix générées par l’IA auprès de leurs clients. Elles peuvent utiliser une voix de ce type pour améliorer leur accessibilité numérique, produire du contenu e-learning, annoncer le retard d’un train ou animer un assistant virtuel (entre autres exemples).

Peu importe comment vous l’utilisez, cette voix devient une partie de l’identité de votre marque. Imaginez les dégâts si cette même voix apparaissait dans du contenu illicite ! Votre responsabilité légale pourrait même être engagée si votre fournisseur a aussi commis des violations éthiques en amont.

Ces histoires d’éthique, qu’elles concernent l’amont ou l’aval, ne sont pas le simple fruit de notre imagination. Elles existent déjà.

Chez ReadSpeaker, nous fonctionnons autrement. En effet, nous plaçons l’éthique au cœur de chacune de nos décisions.

Voici comment nous créons des voix générées par l’IA tout en protégeant les parties prenantes, une stratégie que nous recommandons à nos concurrents d’adopter.

Notre objectif est de proposer les voix de synthèse les plus réalistes du marché tout en évitant toute forme d’abus ou de préjudice.

Nous nous sommes appuyés sur 25 ans d’expérience dans le secteur et nos 12 000 clients dans le monde entier pour établir des directives éthiques à destination des fournisseurs de voix générées par l’IA.

Directives éthiques de ReadSpeaker pour les fournisseurs de voix générées par l'IA.

1. Générez vos propres données d’entraînement

Lorsque vous entraînez vos modèles, n’utilisez jamais d’enregistrements audio sans l’autorisation du locuteur et/ou de son représentant légal et du détenteur des droits sur ces enregistrements. Vous pourrez aussi avoir besoin de l’approbation d’autres intervenants, comme les ingénieurs du son et les coachs vocaux. N’extrayez pas les données de sources trouvées ici ou là.

Il est recommandé, à la fois pour des questions de qualité et d’éthique, de générer vos propres données d’entraînement en créant des enregistrements vocaux originaux. Ainsi, tous les contributeurs ont la possibilité de se mettre d’accord sur les utilisations approuvées de la voix que vous créez. Cette étape est essentielle pour mettre en place des protections en aval, comme nous le verrons.

2. Signez toujours des contrats avec les talents vocaux

Grâce aux contrats, les attentes des uns et des autres sont toujours parfaitement claires. C’est un point particulièrement important pour protéger les talents vocaux. Sans talents vocaux, pas de voix générées par l’IA. Cette règle est donc autant éthique que pragmatique.

Votre contrat peut et doit inclure des dispositions évitant les conflits d’intérêts. Par exemple, un talent vocal travaillant fréquemment à la radio pourrait préférer que sa voix de synthèse ne soit pas utilisée pour des publicités diffusées sur ce même canal. Utilisez ce type de contrat en amont pour vous assurer de disposer de protections en aval.

3. Signez toujours des contrats avec les utilisateurs des voix

Un contrat passé avec un talent vocal définit les utilisations approuvées d’une voix générée par l’IA. Un contrat passé avec l’utilisateur de cette voix, le client du fournisseur de synthèse vocale, permet d’assurer le respect de ces scénarios d’utilisation.

L’entreprise qui utilise la voix de synthèse mérite elle aussi d’être protégée, par exemple en ayant la certitude qu’une ressource de sa marque n’apparaît pas ailleurs que sur ses canaux. Ce contrat en aval grave ces règles dans le marbre et évite tout préjudice à l’ensemble des parties.

Ces exemples de contrats en amont et en aval forment la base de notre directive suivante.

4. Gardez la main sur le déploiement de votre voix générée par l’IA

Il est de la responsabilité du fournisseur de synthèse vocale de limiter l’utilisation des voix aux canaux convenus. Votre rôle ne s’arrête pas à la création d’une voix : vous devez aussi contrôler les systèmes qui la diffusent.

Il s’agit pour vous du seul moyen d’honorer vos engagements contractuels. Si votre voix tombe entre de mauvaises mains, vous ne pourrez pas empêcher son utilisation dans des scénarios non autorisés.

Intégrez ces protections dans votre technologie. Chez ReadSpeaker, nous avons fait en sorte qu’il soit techniquement impossible pour une personne n’ayant pas signé de contrat avec nous d’utiliser l’une de nos voix.

Nous recommandons à l’ensemble des fournisseurs de faire de même pour protéger les talents vocaux, les utilisateurs de systèmes de synthèse vocale et l’ensemble de la société.

5. Basez votre modèle économique sur un comportement éthique

Certains modèles économiques du secteur des voix générées par l’IA ne permettent pas vraiment de respecter les quatre directives que nous venons de présenter. Mais si vous ne pouvez pas protéger vos fournisseurs et clients, il est préférable de repenser vos systèmes avant de vous lancer. En vérité, ce conseil vaut pour tous les secteurs.

Les avertissements ou conditions d’utilisation invitant les utilisateurs à ne pas détourner un outil de création de voix générées par l’IA ne suffisent pas. Des protections contre les abus doivent être directement intégrées dans la technologie. Les plateformes vocales en libre-service peuvent par exemple intégrer des filigranes numériques, rejeter automatiquement les voix connues et proposer des mécanismes de signalement des violations.

Le mieux à faire reste néanmoins d’éviter les accès libres aux outils de création de voix générées par l’IA. Il n’y a aucun autre moyen de protéger vos parties prenantes, et la société dans son ensemble.

L’IA éthique chez ReadSpeaker : la sécurité au service de la qualité (et vice-versa)

Ces directives sont nées du fonctionnement même de ReadSpeaker. Depuis plus de 25 ans, nous sommes leaders du marché de la synthèse vocale, et nous avons été parmi les premiers à proposer des voix générées par l’IA à des fins commerciales.

Dès le début, nous avons suivi nos procédures basées sur des relations éthiques et contractualisées. Cette précaution nous a permis de gagner la confiance de nos clients, mais aussi de la communauté des talents vocaux.

Nous sommes fiers d’être considérés comme une entreprise qui traite ces professionnels de manière juste. Cette réputation nous a ouvert des opportunités passionnantes. En 2022, nous avons ainsi travaillé avec l’acteur Giancarlo Esposito sur la création d’une voix d’IA exclusive pour l’assistant vocal de Sonos, Sonos Voice Control.

Cet exemple, un parmi de nombreux autres, montre comment l’éthique est source d’opportunités commerciales pour ReadSpeaker.

Le respect de ces directives éthiques permet également de créer des voix générées par l’IA de meilleure qualité. Nous créons des données d’entraînement originales pour protéger les droits des parties prenantes. C’est vrai. Mais c’est aussi un moyen pour nous de proposer un meilleur résultat.

Chaque voix de synthèse neuronale créée par ReadSpeaker a suivi un processus d’enregistrement bien spécifique incluant les étapes suivantes :

  • Scripts de synthèse vocale personnalisés
  • Talent vocal de haut niveau
  • Coaching vocal pointu
  • Studios professionnels
  • Montage minutieux

Ce processus n’est pas le plus rapide, mais il nous permet de protéger les talents vocaux. Cerise sur le gâteau, il nous permet aussi de proposer les meilleures voix générées par l’IA du marché. Chez ReadSpeaker, éthique et qualité sont indissociables.

Nous invitons chaque fournisseur de synthèse vocale à adopter des directives similaires aux nôtres pour bénéficier des mêmes avantages.

Related articles
Commencez à utiliser la synthèse vocale dès aujourd'hui

Rendez vos produits plus attrayants grâce à nos solutions de vocalisation.

Nous contacter