Service de haute qualité Prix abordables Livraison rapide Devis envoyé dans l'heure
Téléphone: +33(0)1 70 70 93 41

Matinee Blog

Qu’est-ce qu’un TTS?

A propos de l’auteur: Qu'est-ce qu'un TTS?

Je m’appelle Thomas et je suis comédien et agent de voix off professionnel.

Pour plus d’articles et d’informations à propos de la voix off, je vous invite à visiter mon site web : thomasvoix.com

Introduction:

J’ai déjà travaillé sur de nombreux films institutionnels, publicités, formations eLearning etc.

Mais l’année dernière, j’ai eu un projet assez spécial : l’enregistrement d’une voix off synthétique aussi appelé TTS en anglais (text to speech).

Qu’est-ce qu’un TTS?

Peut-être que certains d’entre vous ne sont pas familiers avec ce terme et pourtant vous avez probablement déjà entendu une voix de synthèse. Pensez à votre GPS, à Siri, à l’application  « Ok Google » et d’autres assistants intelligents. Ils utilisent tous une voix de synthèse de type TTS.

Comment cela fonctionne-il?

Comme vous avez pu le remarquer, une voix off de synthèse comme Siri peut dire à peu près n’importe quoi.

Alors, comment ça marche ? Est-ce que l’on enregistre tous les mots possibles et imaginables ?

La réponse est non, cela prendrait trop de temps et serait bien trop compliqué.

Quand vous enregistrez une voix off en TTS, vous prononcez un certain nombre de phrases et de mots, mais ces phrases et ces mots ne sont pas nécessairement utilisés ensemble par la suite.

Tout ce qui compte, ce sont les syllabes prononcées qui seront récupérées, synthétisées et réutilisées par le TTS.

Disons que vous avez enregistré une centaine de fois la syllabe « Pa ». Venant par exemple de parc, passion, parler, patate, passer etc.

Tous ces « Pa » vous donneront une moyenne que le TTS réutilisera pour formuler le « pa » d’autres mots.

C’est le même principe pour toutes les autres syllabes.

Combien de temps cela prend-il?

Pour ma part, cela a pris un peu plus de 3 semaines. Cela dépend surtout de la qualité que vous souhaitez atteindre.

Quels sont les limites du TTS?

Comment cela fonctionne-il?Il y a deux principales limites à cet outil. Le premier vous sera familier. Il s’agit du rythme saccadé et peu naturel que rendent les voix off en TTS. Quand vous écoutez votre GPS, il prononce bien chacune des syllabes, mais il n’apporte pas la même fluidité que la parole humaine. C’est à cause du processus de regroupement des syllabes entre elles pour former les mots et les phrases.

A ce propos, la fluidité et le naturel d’une voix off synthétique dépendent essentiellement de la base de données du TTS. Pour faire simple, s’il y a peu de phrases enregistrées, alors il y aura un rythme saccadé. Si au contraire la base donnée est riche et variée, alors le TTS sera bien plus fluide et se rapprochera d’une voix humaine.

La deuxième barrière à la voix off TTS est le manque d’émotions. Pour le moment, il est impossible de donner d’émotion à un TTS ou en tout cas de manière très limitée.

Quelles perspectives sur le marché de la voix off?

De mon point de vue, cela rendra le marché low cost de la voix off encore plus compétitif.

Les voix off pour des formations eLearning et peut-être certains films institutionnels pourraient aller voir du côté TTS si la voix de synthèse est de bonne qualité audio, compréhensible et moins chère qu’un comédien voix off.

Bien sûr, même si un comédien vend ses prestations de voix off à bas tarif, il n’enregistre pas et ne fournit pas un fichier automatiquement comme un TTS le ferait. Cela prend du temps. Et vous vous en êtes probablement rendu compte si vous êtes comédien voix off. Un texte de deux minutes prend bien plus que deux minutes d’enregistrement.Combien de temps cela prend-il?

D’un autre côté, les voix off TTS ne sont pas encore parvenues à rendre des enregistrements au phrasé fluide et naturel. Sans doute cette technologie s’améliorera dans les années à venir.

Aujourd’hui, il paraît impossible que le comédien soit véritablement remplacé par une voix off de synthèse. Peu de gens se sentiraient à l’aise en écoutant une voix robot présentant une entreprise ou bien lisant un livre audio.

La subtilité du langage n’a pas encore été synthétisée et nous comédiens avons encore au moins 15 à 20 ans devant nous avant que cette innovation majeure ne vienne faire concurrence à nos voix dans les publicités, films et jeux vidéo.

Cependant, gardons à l’esprit qu’un jour, il pourrait être difficile de différencier une voix de synthèse d’un comédien sur un ton neutre.

Concernant le segment low cost du marché de la voix off, il serait le premier impacté par les TTS.

Reste à savoir à combien une telle prestation sera-t-elle vendu? Quelles entreprises vendraient ces prestations? S’agira-t-il uniquement d’entreprises spécialisées dans la voix de synthèse? Ou peut-être que certains comédiens synthétiseront leurs propres voix afin de proposer une offre encore plus compétitive sur certains projets. De nombreuses options sont envisageables, mais il est certain que les TTS auront un impact sur le marché de la voix off tôt ou tard.