Solution de synthèse vocale

BFHRC · 3 juillet 2018

Bonjour,

Pour un premier post, celui ci risque d'être dense et le sujet complexe;
Avant de comprendre ma problématique et de pouvoir m'apporter votre expertise il va être nécessaire que j'explique ce qui m'a été demandé et comment fonctionne notre solution actuelle.

J'effectue actuellement un travail de recherche pour lequel on m'a demandé de me renseigner quant à la synthèse vocale et les solutions existantes actuelles ; que nous aimerions intégrer à notre solution d'affichage dynamique. Je n'ai pour le moment aucune connaissance en développement d'application/intégration et par conséquent je me retrouve particulièrement freiné dans mes recherches et la compréhension face à ces mêmes solutions que j'ai pu trouver au cours de mes recherches.

Afin d'avoir de plus amples éléments, voici donc l'état actuel des choses :
Nous proposons de l'affichage dynamique (des écrans qui diffusent une boucle de diffusion configurable à distance par navigateur) pour une multitude de clients qui ont déjà au sein de leur infrastructure, notre solution, installée et fonctionnelle.

L'installation d'un parc typique de nos clients est donc composée de :
-Un serveur (capable d'être diffuseur lui aussi si nécessaire) qui tourne sur une VM Virtualbox (Debian), installée elle même sur un Windows (7/10).

-Un logiciel d'affichage, permettant aux utilisateurs de créer les messages et de planifier à distance la diffusion de leur communication.

-Un mini-ordinateur, relié à chaque écran, permettant de récupérer les messages créés au sein du logiciel et de les relayer sur l'écran.

-Un écran, pour afficher les boucles de communication.

Les clients accèdent à l'interface du logiciel via leur navigateur habituel (Firefox, Chrome, ...).

Nous proposons donc actuellement deux types d'hébergements, qui vont définir par ailleurs un critère de ma recherche :
-Un mode licence : L'hébergement est réalisée sur un serveur dans les locaux du client (Parfois sans accès internet donc)

-Un mode SaaS : L'hébergement est réalisé sur nos serveurs online.

Le questionnement est-donc le suivant : nous voudrions intégrer sur certains affichages, la lecture des informations affichées à l'aide d'une solution de synthèse vocale (Text-To-Speech).

Par exemple, si un client à paramétré un message diffusant la météo actuelle, synthétiser vocalement "Aujourd'hui, il fait 24°C à Tartempion".

L'idéal serait donc d'installer un "convertisseur" qui peut s'installer sur le serveur, et idéalement on interroge ce convertisseur (de manière automatisée via Webservices par exemple). Donc ce dernier on lui dit "Demain il fera 17°C au Village Des Schtroumpfs" et il nous retourne un son / fichier audio que l'on stocke sur le serveur et met à disposition des diffuseurs.

Ceci nous permettrais de diffuser le texte pour les personnes non-voyantes par exemple.

En viens donc mon actuel travail de recherche et ma demande ;
J'ai réalisé une étude de l'existant en définissant plusieurs critères, or, j'ai l'impression d'être incomplet et trop imprécis dans ma réflexion et dans les recherches que j'ai pu faire.

J'ai donc définis ces critères :
-La licence de la solution (Il est forcement nécessaire de savoir quel sont nos droits en terme de diffusion, certains écrans étant dans des lieux publics, bien qu'avant tout, ce critère à été défini pour avoir des renseignements quant à la possibilité de trouver une solution de TTS gratuite à usage commercial)

-Les langues disponibles (Diffusant de façon prioritaire en France, il est nécessaire que la solution soit capable de prononcer correctement du français, l'anglais est un plus, les autres langues aussi bien que facultatives.
-La nécessité d'accès à l'Internet (Bien que je n'écarte pas les solutions nécessitant obligatoirement l'accès à l'Internet, s'il est possible de "travailler hors-ligne", c'est un plus)
-Les OS compatibles [Windows Obligatoire] (J'ai pris connaissance d'extensions de navigateurs aussi, mais ça me semble incompatible avec le projet bien que ça aurais pu être idéal).
-Le prix

-La méthode de tarification

BFHRC · 3 juillet 2018

Voici donc ma liste actuelle et mes commentaires :

Les propriétaires :

-Google Text-To-Speech qui est propriétaire, nécessite un accès internet permanent (cloud), fait payer à la data consommée (Volume de données [en minutes]) |Qui nécessite d'ailleurs de connaitre le montant de data que les clients vont consommés à l'avance, chose improbable dans notre cas (messages paramétrables à volonté par les clients)| et propose plus de 30 langues.

-Amazon Polly qui est propriétaire, nécessite un accès internet permanent (cloud), propose des tarifs "Par caractère converti avec nombre de lectures illimités. Amazon Polly permet de rejouer indéfiniment les textes vocaux générés sans frais supplémentaires". Permet de créer des fichiers vocaux aux formats standard comme MP3 et OGG, et les servir depuis le cloud ou localement avec des applications ou des périphériques pour une lecture hors connexion; Propose plus de 25 langues. Il semblerait pour moi que ce soit la meilleure solution bien que les tarifs pourraient être le point négatif.

-Neospeech Hoya qui est propriétaire et qui marque la première solution où je suis confronté à l'incompréhension de par mon manque de connaissances : Ils proposent deux solutions qui paraissent interessantes dans ma démarche "VoiceText TTS Engine SDK" & "VoiceText TTS Server SDK". Je ne comprends pas quel est la différence et ainsi, si cette solution nécessite un accès à l'Internet. Je sais uniquement que cette solution propose plus de 40 langues.

-CereProc cServer Text-To-Speech ou Windows Text-To-Speech, j'ai actuellement fait une demande et j'éditerais ce paragraphe dès leur réponse à savoir quelle solution des deux est la plus adaptée dans ma situation actuelle (licence pour diffusion). J'ai tout de même noté l'achat de licences pour les voix.

-Ispeech qui est propriétaire mais dont je n'arrive pas à définir si une de leurs solutions proposées pourrait correspondre à ma recherche. Cloud ? Je n’arrive pas à définir quelle licence pourrait convenir à nos besoins. Semble-t-il qu’en plus de l’achat de licence, la tarification soit par « crédits » de mots convertis. ~200$/4000 mots.
Propose plus de 29 langues.

-Naturalreader qui est propriétaire mais ne nécessite pas d’accès à l’Internet. Est présenté sous la forme d’un logiciel qui « charge le document » pour l’analyser et le convertir en fichier audio / lire le texte. Je n’arrive pas à définir si ça peut correspondre à nos besoins et possibilités d’intégration. Propose plus de 24 langues.

Il semblerait que les tarifs soit par licence utilisateur avec une tarification à l’année de 49$/1 utilisateur ; 79$/4 utilisateurs ; et une tarification au mois de 99$/1 utilisateur.

-Nuance’s Text-To-Speech En attente d’une réponse de leur commerciaux

-Acapela for Windows qui est propriétaire et qui ne nécessite pas d'accès à l'Internet. Est vendu sous kit de développement + tarification par licence. Propose plus de 34 langues comprenant le Français et l'Anglais. Idéal en soit pour le projet.

Les « Gratuits » trop techniques pour ma compréhension :

-Espeak sous licence GNU GPL permettant une utilisation commerciale.

-MaryTTS sous licence LGPL permettant une utilisation commerciale.

-Read Aloud sous licence MIT permettant une utilisation commerciale.

J'aurais besoin de comprendre le fonctionnement des solutions "Gratuites" et si elles ne sont pas or contexte. Je n'ai malheureusement pas la possibilité de communiquer avec ma hiérarchie, très/trop occupée actuellement mais qui attend tout de même un résultat à mes recherches sous peu.

Ainsi, si quelqu'un à des informations qui pourraient m'être utiles, des critiques, voir des nouveaux critères à m'indiquer, je suis grandement preneur.

Merci grandement !

MathTek · 3 juillet 2018

Voilà quelque pistes:

https://responsivevoice.org/text-to-speech-languages/texte-en-parole-francais/

https://voxygen.fr/

http://www.acapela-group.com/

J'ai trop de détails a apporter car c'est domaine je ne maitrise pas, cependant c'est 3 dont j'ai entendu parlé et que tu n'a pas cité ...

Voxygen était gratuit au tout début et ils se sont fait racheter, je pense que c'est un des meilleurs que j'ai entendu !

BFHRC · 4 juillet 2018

Le 03/07/2018 à 17:42, MathTek a dit :

Voilà quelque pistes:

https://responsivevoice.org/text-to-speech-languages/texte-en-parole-francais/

https://voxygen.fr/

http://www.acapela-group.com/

J'ai trop de détails a apporter car c'est domaine je ne maitrise pas, cependant c'est 3 dont j'ai entendu parlé et que tu n'a pas cité ...

Voxygen était gratuit au tout début et ils se sont fait racheter, je pense que c'est un des meilleurs que j'ai entendu !

Merci beaucoup,
je vais voir ce que je peux faire avec les liens que tu as donné, j'avais contacté Acapela-group mais ne l'ai pas incorporé dans ma liste. Leur solution me parait correcte et correspondre aussi aux attentes que nous avons pour ce projet, je l'ajouterai dans ma liste un peu plus tard.

EDIT : Après y avoir jetté un oeil, Voxygen ne correspond pas aux attentes du projet, il s'agit là d'un assistant vocal.

Pour ResponsiveVoice je rééditerais, j'ai besoin de confirmations professionnelles.

Connexion

Solution de synthèse vocale

Messages recommandés

BFHRC

Lien vers le commentaire

Partager sur d’autres sites

BFHRC

Lien vers le commentaire

Partager sur d’autres sites

MathTek

Lien vers le commentaire

Partager sur d’autres sites

BFHRC

Lien vers le commentaire

Partager sur d’autres sites

Naviguer

Activité

Tech2Tech.fr