Premsa

revirada
Traductor automatic occitan deu Congrès

Revirada qu'ei lo navèth traductor automatic occitan-francés e francés-occitan deu Congrès entà las varietats gascona e lengadociana.

Revirada qu'ei lo traductor automatic occitan de referéncia deu Congrès. Qu'estó bastit a partir de las melhoras ressorsas de la platafòrma locongres.org, dab desvolopaments innovants entà seleccionar los melhors parelhs de traduccion.

Un tribalh deus bèths qu'estó miat autant entà respectar la diversitat lingüistica infradialectau com entà produsir ua lenga modèrna, coërenta e de qualitat.

Revirada que permet de tradusir tèxtes en copiar-pegar, mes tanben documents en conservar la mesa en fòrma o sites web « a la volada » a partir de l'URL. Qu'existeishen tanben aplicacions entaus telefonets e entaus navigators. Entaus desvolopaires, un plug-in e ua API que permeten d'integrar traduccions de qualitat dens los sites web e las aplicacions.

Emplegar Revirada

↳ Version teledescargabla deu dossièr de premsa (francés)
↳ Version teledescargabla deu dossièr de premsa (occitan)

Revirada, quauquas chifras

170 000

mots occitans

dont 100 000 gessits deu Congrès

1 milion

fòrmas flechidas occitanas

mots conjugats o declinats

125 000

mots francés

dont 26 000 gessits deu Congrès

540 000

fòrmas flechidas francesas

mots conjugats o declinats

170 000

parelhs de traduccions

francés-occitan e/o occitan-francés

400

modèles de conjugason

en occitan gascon e lengadocian

35 000

terminasons verbaus

qui representan la diversitat de l'occitan

1 100

paradigmes de declinason

noms, adjectius, pronoms...

1 600

règlas de seleccion lexicau

entà causir la bona revirada

Traductor occitan de referéncia

Revirada qu'ei lo traductor automatic deu Congrès permanent de la lenga occitana. Qu'ei bastit sus la basa deu motor Open source Apertium e qu'intègra las melhoras ressorsas de la platafòrma occitana de referéncia, locongres.org : 8 diccionaris francés-occitan e occitan-francés, la totalitat de las conjugasons, atau com las basas toponimicas e terminologicas.

Qu'estó necessària mei d'ua annada de tribalh a la nosta equipa entà crotzar e armonizar las dadas deus diferents obratges. Desvolopaments innovants que permeten de seleccionar los melhors parelhs de traduccion entà un resultat optimau.

Lo traductor que cobreish l'ensemble de la diversitat lingüistica infradialectau dens lo sens occitan-francés : Revirada, en efèit, que reconeish mei d'un milion de fòrmas flechidas (mots conjugats e declinats) representativas de la diversitat deus parlars deus parçans gascon e lengadocian.

Dens lo sens francés-occitan, los esfòrç que portèn sus la produccion d'ua lenga modèrna, coerenta e de qualitat. Mantun centenat de règlas de seleccion lexicau e algoritmes de pòst-tractament avançats que permeten de guarantir ua lenga mei autencica possibla.

Aquera purmèra version, limitada peu moment a l'occitan lengadocian e a l'occitan gascon, qu'a per tòca d'enriquesí's e de melhorà's. L'utís que serà regularament actualizat a mesura de las tornas deus sons utilizators.

Las foncionalitats de Revirada

Lo formulari de traduccion

Picar o copiar-pegar tèxte dens l'interfaci web de Revirada, causir lo sens e clicar sus un boton.

La traduccion de documents

Teledescargar un document tèxte e Revirada que'u ve passarà dens la lenga qui voletz en guardant la mesa en fòrma.

La traduccion de sites web

Entrar l'URL deu site a tradusir, la lenga d'origina, la lenga de sortida e qu'auratz lo site tradusit.

Las aplicacions Revirada

Entaus telefonets

L'aplicacion Revirada suu vòste telefonet : fotografiatz o copiatz-pegatz, reviratz e escotatz !

Entaus navigators

Teledescargatz la barra de navigator Linguapir entà cambiar la lenga deus sites qui visitatz.

Webmèstes e desvolopaires

Ajustatz un boton entà tradusir lo vòste site a la volada, tradusitz los vòstes articles mercés au Plug-in Wordpress, utilizatz la nosta API dens los vòstes programas.

La traduccion automatica e la soa utilitat

En l'estat actuau de las tecnologias, la traduccion automatica n'a pas la vocacion de tradusir dab lo medish nivèu qu'un traductor uman. Mes qu'a totun ua utilitat concreta entà mantun contèxte :

Dab la manca de mejans umans e financèrs qui an las lengas minorizadas, aquò qu'ei hèra interessant. Per exemple, entà ua estructura qui'n n'a pas lo vagar, que's pòt adara har lo site web sonque en occitan, e utilizar la traduccion automatica entà'n har lo contienut accessible aus non-occitanofònes. Si, per ua rason o ua auta, e'u hè besonh que la version en francés e sia d'ua bona qualitat, que pòt au mensh utilizar lo traductor automatic entà pretradusir las soas paginas web, e atau panar temps.

Revirada, com fonciona ?

Revirada qu'ei bastida a partir deu traductor automatic Apertium qui traduseish en tres etapas :

  1. Tractament de la frasa en la lenga d'origina : lematizacion (passar a l'infinitiu entaus vèrbes, au masculin singular entaus adjectius...) e analisi morfosintaxica (indicar la categoria gramaticau, lo genre, lo nombre, la persona...).
  2. Transferiment de cap a la lenga de sortida : entà cada mot de la frasa originau, perpausar la traduccion de qui cau.
  3. Tractament de la frasa en la lenga de sortida : flexion (tornar conjugar los vèrbes, méter au plurau...) e pòst-tractament (adobar la sintaxi, la gramatica en foncion de las especificitats de la lenga de sortida).

Enad ac har, que's basa sus ressorsas bastidas per umans (au contrari deus traductors qui utilizan l'intelligéncia artificiau, peus quaus lo machine learning e basteish automaticament aquera sòrta de ressorsas). Entau cas de Revirada, que son estadas creadas a partir deus lexics deu Congrès (dicod'Òc, vèrb'Òc, top'Òc, lexics de fòrmas flechidas), de las coneishenças lexicograficas de l'equipa e de çò qui èra dejà present dens Apertium.

Tractament de la frasa en la lenga d'origina

Les oiseaux volent sur le vieux port.
Lematizacion e PoS-tagging
Cèrca de totas las possibilitats
Lexics de fòrmas flechidas

le (det mf p / prn mf p)
oiseau (n m p)
voler (v p3 pl pst ind / v p3 pl pst subj)
sur (prep / adj m s)
le (det ms / prn m s)
vieux (adj m sp / n m sp)
port (n ms)
(ponct)

Lematizacion e PoS-tagging
Desambigüizacion
Règlas de desambigüizacion

« "le" abans un nom qu'ei un determinant, pas un pronom »

le (det mf p )
oiseau (n m p)
voler (v p3 pl pst ind)
sur (prep)
le (det m s)
vieux (adj m sp)
port (n m s)
(ponct)

Transferiment de cap a la lenga de sortida

le (det mf p )
oiseau (n m p)
voler (v p3 pl pst ind)
sur (prep)
le (det m s)
vieux (adj m sp)
port (n m s)
(ponct)

Apariament
Cèrca de totas las traduccions possiblas
Lexics bilingües

le (det ) -> lo (det)
oiseau (n m) -> aucèl (n m)
voler (v) -> volar (v) / raubar (v)
sur (prep) -> sus (prep)
le (det) -> lo (det)
vieux (adj) -> vielh (adj)
port (n m) -> pòrt (n m)
. (ponct) -> . (ponct)

Seleccion lexicau
Causida de las traduccions mei apropriadas
Règlas de seleccion lexicaus

« si "voler" ei davantejat per "oiseau" causir "volar" »

lo (det m p)
aucèl (n m p)
volar (v p3 pl pst ind)
sus (prep)
lo (det m s)
vielh (adj m s)
pòrt (n m s)
. (ponct)

Tractament de la frasa en la lenga de sortida

lo (det m p)
aucèl (n m p)
volar (v p3 pl pst ind)
sus (prep)
lo (det m s)
vielh (adj m s)
pòrt (n m s)
. (ponct)

Flexion
Lexics de fòrmas flechidas

los aucèls vòlan sus lo vielh pòrt.
Pòst-tractament
Adaptacions gramaticaus e sintaxicas
Règlas de pòst-tractament

« sus + lo -> sul 
majuscula en debuta de frasa 
l'adjectiu "vièlh" que va après lo nom »
Los aucèls vòlan sul pòrt vièlh.

La gestion de la varietat de la lenga

La question de la varietat intèrna de l'occitan que's pausa quasi a cada etapa de la construccion d'un traductor automatic entad aquera lenga. Quau lenga lo traductor e deu rénder ? Com reconéisher lo mei de mots possible ?

Un deus principis d'accion deu Congrès qu'ei lo respècte de la diversitat intèrna de la lenga. Lo quasernet de las cargas de Revirada que demandava donc que lo traductor entau sens occitan-francés e posca foncionar quau que sia lo parlar de l'utilizator (a condicion qui hàcia part de las varietats gascona o lengadociana). Que's miè un tribalh deus bèths entà ensajar d'integrar la diversitat deu vocabulari, de las conjugasons, de las realizacions gramaticaus qui's pòden trobar capvath tota la zòna lingüistica de las duas varietats pertocadas.

Mes aquera diversitat ne devè pas portar prejudici a la coeréncia de la lenga produsida en sortida de la traduccion entau sens francés-occitan. Ne's podèn pas trobar, per exemple, un mot de gascon orientau e un mot de gascon landés en ua medisha frasa. Atau, que's hasó au còp un tribalh de recensament de la diversitat varietau e un tribalh d'omogeneïzacion lingüistica e de tractament de las variantas.

En qualitat d'organisme de regulacion de la lenga, Lo Congrès qu'avè de produsir ua lenga « normalizada » dab lo son traductor. Qu'ensagè tanben de seguir lo son principi d'accion qui ei, en mei deu respècte de la diversitat intèrna de la lenga citat ací dessús, l’ahortiment de la soa unitat pregona. Tot parièr, qu'ensagè de valorizar los mots comuns e normatius a l'òra de produsir los tèxtes en occitan.

Aqueth tribalh que's pòt dejà véder en la version actuau de Revirada. Que seguirà pendent las annadas a viéner entà que la lenga generada per Revirada e sia enqüèra mei omogenèa e de qualitat.

Linguatec

Lo traductor automatic occitan Revirada que's realizè dens l'encastre de Linguatec.

Lo projècte europèu EFA 227/16 LINGUATEC « Desvolopament de la cooperacion transfronterèra e deu transferiment de coneishenças en tecnologias deu lengatge » qu'a l'objectiu de desvolopar, demostrar e difusar ressorsas navèras, utís e aplicacions lingüisticas innovantas entà melhorar lo nivèu de numerizacion de l'aragonés, deu basco e de l'occitan.

Qu'ei portat per un consòrci d'institucions e de centres de recèrca especializats en lo TAL (Tractament Automatic de la Lenga) entà las lengas aragonesa, basca e occitana, qui practican la cooperacion transfronterèra e lo transferiment de competéncias.

Aqueth projècte que permet la cooperacion tecnologica entre las lengas entà desvolopar ressorsas navèras, utís lingüistics, atau com aplicacions navèras en linha entà facilitar l'utilizacion de las tres lengas e un accès multilingüe au contiengut peus utilizators finaus.

Los sòcis de Linguatec

Qu'an hargat Revirada

Lo Congrès

Lo Congrès que bastí las ressorsas necessàrias entà har virar lo traductor automatic : lexics, règlas de desambigüizacion, de seleccion lexicau o de pòst-tractament.

Lo Congrès permanent de la lenga occitana qu'ei l'organisme interregionau de regulacion de l'occitan. Qu'òbra en los maines de la lingüistica e deu TAL (tractament automatic de la lenga).

Que produseish utís lingüistics numerics de referéncia (diccionaris, conjugators, correctors ortografics...), aplicacions entau TAL (sintèsi vocau, traduccion automatica...) e aplicacions entaus telefonets (clavèrs predictius...).

Qu'a tanben missions de regulacion lingüistica e de recèrca scientifica aplicada.

Qu'ei l'editor de Dicodòc (multidiccionari occitan), Revirada (traductor automatic occitan) e Votz (sintèsi vocau occitana).

Elhuyar

Elhuyar qu'a bastit l'interfaci qui utiliza Revirada peu mejan d'un formulari o ua API, entà la traduccion de documents o de sites web.

La fondacion Elhuyar qu'a l'objectiu d'encoratjar, de promòver e desvolopar la sciéncia e la lenga bascas. En lo maine de las tecnologias de la lenga e de l'intelligéncia artificiau, los sectors de la recèrca suus quaus la Fondacion e tribalha que son, enter autas, la traduccion automatica, la creacion automatica de ressorsas lingüisticas, l'extraccion de tèxtes e las tecnologias de la paraula.

Elhuyar qu'a d'aulhors d'ua experiéncia solida en lo maine deu pilotatge e de la participacion a projèctes europèus de tecnologias deu lengatge. La Fondacion qu'ei sòcia deu Hialat basco de sciéncia e tecnologia.

Apertium

Apertium qu'ei lo motor de traduccion utilizat per bastir Revirada

Apertium qu'ei ua platafòrma open source e a gratis de traduccion automatica. Que perpausa un motor de traduccion automatica independent de la lenga, utís entà ajudar a bastir las dadas lingüisticas necessàrias au son foncionament, e dadas déjà disponiblas entà uns parelhs de lenga (com occitan-catalan, occitan-castelhan e occitan-francés).

Sostiens

Contacte

Entà tota informacion mei, contactar Lo Congrès.

© Lo Congrès Permanent de la Lenga Occitana, 2020, Totes los dreits reservats