Premsa

Revirada
Traductor automatic occitan deu Congrès

Revirada qu'ei lo navèth traductor automatic occitan-francés e francés-occitan deu Congrès entà las varietats gascona e lengadociana (peu moment en version « beta »). Que permet de revirar tèxtes en copiar-pegar, mes tanben documents en conservar la mesa en fòrma o sites web « a la volada » a partir de l'URL.

Basat suu traductor open source Apertium, qu'estó aumentat dab los diccionaris e lexics deu Congrès. Que's hasó un tribalh bèth entà la presa en compte de la diversitat intravarietau de l'occitan au moment de reconéisher los mots, mes tanben entà la produccion d'ua lenga omogenèa e coerenta, en seguir los principis d'accion deu Congrès.

Revirada que permet de revirar taus sens francés -> occitan gascon, francés -> occitan lengadocian, occitan gascon -> francés e occitan lengadocian -> francés.

Emplegar Revirada

Lo dossièr de premsa en francés Lo dossièr de premsa en occitan

La traduccion automatica e la soa utilitat

En l'estat actuau de las tecnologias, la traduccion automatica n'a pas la vocacion de revirar dab lo medish nivèu qu'un traductor uman. Mes qu'a totun ua utilitat concreta entà mantun contèxte :

Dab la manca de mejans umans e financèrs qui an las lengas minorizadas, aquò qu'ei hèra interessant. Per exemple, entà ua estructura qui n'a pas nat temps, que's pòt adara har lo site web sonque en occitan, e utilizar la traduccion automatica tà'n har lo contienut accessible aus non-occitanofònes. Si, per ua rason o ua auta, e'u hè besonh que la version en francés e sia d'ua bona qualitat, que pòt au mensh utilizar lo traductor automatic entà prerevirar las soas paginas web, e atau panar temps.

Las foncionalitats de Revirada

Lo formulari de traduccion

Picar o copiar-pegar tèxte dens l'interfaci web de Revirada, causir lo sens e clicar sus un boton.

La traduccion de documents

Teledescargar un document tèxte e Revirada que'u ve passarà dens la lenga qui voletz en guardant la mesa en fòrma.

La traduccion de sites web

Entrar l'URL deu site a revirar, la lenga d'origina, la lenga de sortida e qu'auratz lo site revirat.

L'API Revirada

Qu'ei lo servici de Revirada entaus desvolopaires. Que'u pòden interrogar automaticament dab programas pròpis, e atau integrar la traduccion automatica occitana dens las aplicacions.

A viéner

Aplicacions entà las lengas deus Pirenèus

Revirada que serà integrada dens los utís de traduccion enter lengas deus Pirenèus desvolopats dens l'encastre de Linguatec : plug-in entaus navigators, module Wordpress, aplicacion entaus telefonets.

A viéner

Revirada, quauquas chifras

170 000

mots occitans

dont 100 000 gessits deu Congrès

1 milion

formas flechidas occitanas

mots conjugats o declinats

125 000

mots francés

dont 26 000 gessits deu Congrès

540 000

formas flechidas francesas

mots conjugats o declinats

170 000

parelhs de traduccions

francés-occitan e/o occitan-francés

400

modèles de conjugason

en occitan gascon e lengadocian

35 000

terminasons verbaus

qui representan la diversitat de l'occitan

1 100

paradigmes de declinason

noms, adjectius, pronoms...

1 600

règlas de seleccion lexicau

tà causir la bona revirada

Revirada, com fonciona ?

Revirada qu'ei bastida a partir deu traductor automatic Apertium qui revira en tres etapas :

  1. Tractament de la frasa en la lenga d'origina : lematizacion (passar a l'infinitiu entaus vèrbes, au masculin singular entaus adjectius...) e analisi morfosintaxica (indicar la categoria gramaticau, lo genre, lo nombre, la persona...).
  2. Transferiment de cap a la lenga de sortida : entà cada mot de la frasa originau, perpausar la traduccion de qui cau.
  3. Tractament de la frasa en la lenga de sortida : flexion (tornar conjugar los vèrbes, méter au plurau...) e pòst-tractament (adobar la sintaxi, la gramatica en foncion de las especificitats de la lenga de sortida).

Tad ac har, que's basa sus ressorsas bastidas per umans (au contrari deus traductors qui utilizan l'intelligéncia artificiau, peus quaus lo machine learning e basteish automaticament aquera sòrta de ressorsas). Entau cas de Revirada, que son estadas creadas a partir deus lexics deu Congrès (dicod'Òc, vèrb'Òc, top'Òc, lexics de fòrmas flechidas), de las coneishenças lexicograficas de l'equipa e de çò qui èra dejà present dens Apertium.

Tractament de la frasa en la lenga d'origina

Les oiseaux volent sur le vieux port.
Lematizacion e PoS-tagging
Cèrca de totas las possibilitats
Lexics de fòrmas flechidas

le (det mf p / prn mf p)
oiseau (n m p)
voler (v p3 pl pst ind / v p3 pl pst subj)
sur (prep / adj m s)
le (det ms / prn m s)
vieux (adj m sp / n m sp)
port (n ms)
(ponct)

Lematizacion e PoS-tagging
Desambigüizacion
Règlas de desambigüizacion

« "le" abans un nom qu'ei un determinant, pas un pronom »

le (det mf p )
oiseau (n m p)
voler (v p3 pl pst ind)
sur (prep)
le (det m s)
vieux (adj m sp)
port (n m s)
(ponct)

Transferiment de cap a la lenga de sortida

le (det mf p )
oiseau (n m p)
voler (v p3 pl pst ind)
sur (prep)
le (det m s)
vieux (adj m sp)
port (n m s)
(ponct)

Apariament
Cèrca de totas las traduccions possiblas
Lexics bilingües

le (det ) -> lo (det)
oiseau (n m) -> aucèl (n m)
voler (v) -> volar (v) / raubar (v)
sur (prep) -> sus (prep)
le (det) -> lo (det)
vieux (adj) -> vielh (adj)
port (n m) -> pòrt (n m)
. (ponct) -> . (ponct)

Seleccion lexicau
Causida de las traduccions mei apropriadas
Règlas de seleccion lexicaus

« si "voler" ei davantejat per "oiseau" causir "volar" »

lo (det m p)
aucèl (n m p)
volar (v p3 pl pst ind)
sus (prep)
lo (det m s)
vielh (adj m s)
pòrt (n m s)
. (ponct)

Tractament de la frasa en la lenga de sortida

lo (det m p)
aucèl (n m p)
volar (v p3 pl pst ind)
sus (prep)
lo (det m s)
vielh (adj m s)
pòrt (n m s)
. (ponct)

Flexion
Lexics de fòrmas flechidas

los aucèls vòlan sus lo vielh pòrt.
Pòst-tractament
Adaptacions gramaticaus e sintaxicas
Règlas de pòst-tractament

« sus + lo -> sul 
majuscula en debuta de frasa 
l'adjectiu "vièlh" que va après lo nom »
Los aucèls vòlan sul pòrt vièlh.

La gestion de la varietat de la lenga

La question de la varietat intèrna de l'occitan que's pausa quasi a cada etapa de la construccion d'un traductor automatic entad aquera lenga. Quau lenga lo traductor e deu rénder ? Com reconéisher lo mei de mots possible ?

Un deus principis d'accion deu Congrès qu'ei lo respècte de la diversitat intèrna de la lenga. Lo quasernet de las cargas de Revirada que demandava donc que lo traductor entau sens occitan-francés e posca foncionar quau que sia lo parlar de l'utilizator (a condicion qui hàcia part de las varietats gascona o lengadociana). Que's miè un tribalh deus bèths entà ensajar d'integrar la diversitat deu vocabulari, de las conjugasons, de las realizacions gramaticaus qui's pòden trobar sus tota la zòna lingüistica de las duas varietats pertocadas.

Mes aquera diversitat ne devè pas portar prejudici a la coeréncia de la lenga produsida en sortida de la traduccion tau sens francés-occitan. Ne's podèn pas trobar, per exemple, un mot de gascon orientau e un mot de gascon landés en ua medisha frasa. Atau, que's hasó au còp un tribalh de recensament de la diversitat varietau e un tribalh d'omogeneïzacion lingüistica e de tractament de las variantas.

En qualitat d'organisme de regulacion de la lenga, Lo Congrès qu'avè de produsir ua lenga « normalizada » dab lo son traductor. Qu'ensagè tanben de seguir lo son principi d'accion qui ei, en mei deu respècte de la diversitat intèrna de la lenga citat ací dessús, l’ahortiment de la soa unitat pregona. Tot parièr, qu'ensagè de valorizar los mots comuns e normatius a l'òra de produsir los tèxtes en occitan.

Aqueth tribalh que's pòt dejà véder en la version « beta » de Revirada. Que seguirà pendent lo segond semèstre de 2021 entà que la lenga generada per Revirada e sia mei omogenèa e aja la qualitat mei bona.

Linguatec

Lo traductor automatic occitan Revirada que's realizè dens l'encastre de Linguatec.

Lo projècte europèu EFA 227/16 LINGUATEC « Desvolopament de la cooperacion transfronterèra e deu transferiment de coneishenças en tecnologias deu lengatge » qu'a l'objectiu de desvolopar, demostrar e difusar ressorsas navèras, utís e aplicacions lingüisticas innovantas entà melhorar lo nivèu de numerizacion de l'aragonés, deu basco e de l'occitan.

Qu'ei portat per un consòrci d'institucions e de centres de recèrca especializats en lo TAL (Tractament Automatic de la Lenga) entà las lengas aragonesa, basca e occitana, qui practican la cooperacion transfronterèra e lo transferiment de competéncias.

Aqueth projècte que permet la cooperacion tecnologica entre las lengas entà desvolopar ressorsas navèras, utís lingüistics, atau com aplicacions navèras en linha entà facilitar l'utilizacion de las tres lengas e un accès multilingüe au contiengut peus utilizators finaus.

Los sòcis de Linguatec

Qu'an hargat Revirada

Lo Congrès

Lo Congrès que bastí las ressorsas necessàrias entà har virar lo traductor automatic : lexics, règlas de desambigüizacion, de seleccion lexicau o de pòst-tractament.

Lo Congrès permanent de la lenga occitana qu'ei l'organisme interregionau de regulacion de l'occitan. Qu'òbra en los maines de la lingüistica e deu TAL (tractament automatic de la lenga).

Que produseish utís lingüistics numerics de referéncia (diccionaris, conjugators, correctors ortografics...), aplicacions entau TAL (sintèsi vocau, traduccion automatica...) e aplicacions entaus telefonets (clavèrs predictius...).

Qu'a tanben missions de regulacion lingüistica e de recèrca scientifica aplicada.

Qu'ei l'editor d'un multidiccionari occitan (dicod'Òc) qui a cada an mei d'un milion de visitas.

Elhuyar

Elhuyar qu'a bastit l'interfaci qui utiliza Revirada peu mejan d'un formulari o ua API, entà la traduccion de documents o de sites web.

La fondacion Elhuyar qu'a l'objectiu d'encoratjar, de promòver e desvolopar la sciéncia e la lenga bascas. En lo maine de las tecnologias de la lenga e de l'intelligéncia artificiau, los sectors de la recèrca suus quaus la Fondacion e tribalha que son, enter autas, la traduccion automatica, la creacion automatica de ressorsas lingüisticas, l'extraccion de tèxtes e las tecnologias de la paraula.

Elhuyar qu'a d'aulhors d'ua experiéncia solida en lo maine deu pilotatge e de la participacion a projèctes europèus de tecnologias deu lengatge. La Fondacion qu'ei sòcia deu Hialat basco de sciéncia e tecnologia.

Apertium

Apertium qu'ei lo motor de traduccion utilizat per bastir Revirada

Apertium qu'ei ua platafòrma open source e a gratis de traduccion automatica. Que perpausa un motor de traduccion automatica independent de la lenga, utís entà ajudar a bastir las dadas lingüisticas necessàrias au son foncionament, e dadas déjà disponiblas entà uns parelhs de lenga (com occitan-catalan, occitan-castelhan e occitan-francés).

Sostiens

Contacte

Entà tota informacion mei, contactar Lo Congrès.

© Lo Congrès Permanent de la Lenga Occitana, 2020, Totes los dreits reservats