Les ordinateurs aussi peuvent parler occitan ! La synthèse vocale est l'outil qui met en voix automatiquement un texte écrit et qui permet aux ordinateurs de donner des informations de façon orale.
Elle est utilisée pour des applications comme les GPS, les annonces dans les transports en commun, les logiciels de lecture à l'écran pour les malvoyants ou de communication pour les personnes muettes, les services téléphoniques automatiques (météo, heure)... Associée à la reconnaissance vocale, elle permet d'échanger oralement avec les machines, comme on le fait, par exemple, avec les assistants personnels.
Votz est la première synthèse vocale en langue occitane, pour l'occitan gascon et l'occitan languedocien. Elle a été réalisée dans le cadre de Linguatec, un programme européen transfrontalier qui a pour objectif le développement des technologies de la langue pour les langues aragonaise, basque et occitane.
Tester la synthèse vocale Votz
Version téléchargeable du dossier de presse (français) Version téléchargeable du dossier de presse (occitan)
Les technologies de la langue – reconnaissance vocale, synthèse vocale, traduction automatique ou encore analyse sémantique – sont un enjeu vital pour les langues minorisées. Pour se projeter vers une société de plus en plus numérisée, elles doivent disposer des ressources et des outils nécessaires pour que les locuteurs échangent dans leur propre langue à travers des interfaces. Plusieurs programmes ont été réalisés en ce sens pour la langue occitane : Linguatec (traduction automatique et synthèse vocale), BaTelOc (base textuelle occitane), ROLF (claviers prédictifs).
À l'heure actuelle, nous manquons d'espaces où la langue occitane peut être entendue et de locuteurs qui puissent la transmettre. Pourtant l'occitan en a besoin, autant pour sa socialisation que pour les apprenants de plus en plus nombreux qui ont besoin de l'avoir dans l'oreille. La synthèse vocale permettra d'amener la langue dans de nouveaux lieux, comme les transports en commun, et de transformer des situations de lecture en situations d'écoute (par exemple en synthétisant les actualités d'un site web).
À venir
Votz fonctionne grâce à l'intelligence artificielle. Les réseaux neuronaux ont été entraînés avec des heures de textes lus par Domenja Lekuona (occitan gascon) et Clamenç Alet (occitan languedocien).
Pour plus de précision, le corpus d'entraînement et les phrases à synthétiser sont d'abord phonétises grâce à l'API fonòc du Congrès.
Pour être adaptée à la situation de diglossie de la langue occitane, Votz prend en compte la prononciation française d'un grand nombre de noms de personnes ou de lieux français.
La synthèse vocale occitane Votz a été réalisée dans le cadre de Linguatec.
Le projet européen EFA 227/16 LINGUATEC « Développement de la coopération transfrontalière et du transfert de connaissances en technologies du langage » vise à développer, démontrer et diffuser de nouvelles ressources, des outils et des applications linguistiques innovantes qui améliorent le niveau de numérisation de l'aragonais, du basque et de l'occitan.
Il est porté par un consortium d'institutions et de centres de recherche spécialisés dans le TAL (Traitement Automatique de la Langue) pour les langues aragonaise, basque et occitane, qui pratiquent la coopération transfrontalière et le transfert de compétences.
Ce projet permet la coopération technologique entre les langues pour développer de nouvelles ressources et des outils linguistiques, ainsi que de nouvelles applications en ligne pour faciliter l'utilisation des trois langues et un accès multilingue au contenu par les utilisateurs finaux.
Lo Congrès était responsable de la réalisation de Votz et de la partie linguistique du travail. Il a constitué les données (corpus audio aligné) et a développé le phonétiseur occitan.
Le Congrès permanent de la langue occitane est l'organisme interrégional de régulation de l'occitan. Il œuvre dans les domaines de la linguistique et du TAL (traitement automatique de la langue).
Il produit des outils linguistiques numériques de référence (dictionnaires, conjugueurs, correcteurs orthographiques...), des applications pour le TAL (synthèse vocale, traduction automatique...) et des applications pour les mobiles (claviers prédictifs...).
Il a également des missions de régulation linguistique et de recherche scientifique appliquée.
Il est l'éditeur de Dicodòc (multidictionnaire occitan), Revirada (traducteur automatique occitan) e Votz (synthèse vocale occitane).
La fondation basque Elhuyar s'est occupée de la partie technique : entraînement des réseaux neuronaux, développement des interfaces et des applications.
L'objectif de la fondation Elhuyar Fundazioa est d'encourager, promouvoir et développer la science et la langue basques. Dans le domaine des technologies de la langue et de l'intelligence artificielle, les secteurs de la recherche sur lesquels travaille la Fondation sont, entre autres, la traduction automatique, la création automatique de ressources linguistiques, l'extraction de textes et les technologies de la parole.
Elhuyar dispose par ailleurs d'une solide expérience dans le domaine du leadership et de la participation à des projets européens de technologies de la langue. La Fondation est membre du Réseau basque de science et technologie.
Nous remercions les testeurs volontaires des deux synthèses vocales (universitaires, associatifs, conseillers pédagogiques, étudiants, institutionnels, journalistes, linguistes, artistes ou simples usagers du numérique occitan).
Pour toute information, contacter Le Congrès.
© Lo Congrès Permanent de la Lenga Occitana, 2020, Totes los dreits reservats