Eiropas komisija: Par datubāzi automatizētai tulkošanai
Eiropas Komisija turpina sekmēt daudzvalodību, ievērojot Eiropas principu “vienoti dažādībā”. Komisijas datubāze, kurā ir aptuveni miljons teikumu un šo teikumu kvalitatīvu tulkojumu divdesmit divās no divdesmit trim ES oficiālajām valodām, tostarp jauno dalībvalstu valodās, ir līdz šim vislielākais tulkoto datu krājums, un tagad tas ir brīvi pieejams.
Šādi dati ir ļoti vajadzīgi mašīntulkošanas sistēmu izstrādātājiem, jo automātiska tulkošanas lietojumprogramma no cilvēka tulkotiem tekstiem “mācās”, kā pareizi un atbilstoši kontekstam iztulkot vārdus un teikumus. Šie dati var palīdzēt izstrādāt citus ar valodu saistītus programmatūras rīkus, piemēram, gramatikas un pareizrakstības pārbaudītājus, tiešsaistes vārdnīcas un daudzvalodu teksta klasifikācijas sistēmas.
Par daudzvalodību atbildīgais komisārs Leonards Orbans uzskata: “Ar šo iniciatīvu Eiropas Komisija plāno attīstīt cilvēka valodas tehnoloģijas, atbalstīt daudzvalodību un sekmēt automatizētas tulkošanas vienkāršību un pieejamību, kā arī pazemināt tās cenu. Cilvēkiem, kas pieder mazākām valodas kopienām, būs ērtāka piekļuve dokumentiem un interneta lapām, kas ir pieejamas vienīgi visbiežāk lietotajās valodās.”
Zinātnes un pētniecības komisārs Janešs Potočniks atzīst: “Šis unikālais valodas datu apkopojums palīdz radīt jaunas paaudzes programmatūras rīkus cilvēka valodas apstrādei un paaugstina konkurētspēju valodas nozarē, kas patlaban ir viena no visstraujāk augošajām nozarēm Eiropas Savienībā.”
Tā kā Eiropas Savienības tiesību aktiem ir jābūt pieejamiem visās divdesmit trijās oficiālajās ES valodās, ES iestādēm ir vairāk daudzvalodu tekstu nekā jebkurai citai organizācijai. Eiropas Savienības iestāžu tulkošanas dienesti strādā vairāk nekā 253 iespējamās valodu kombinācijās un rada aptuveni 1,5 miljonus tulkoto lappušu gadā.
Internetā ir pieejams liels apjoms angļu un franču valodas tekstu tulkojumu, taču šādi resursi ir visai trūcīgi tādās valodās kā latviešu vai rumāņu, un tie praktiski nav pieejami to divu valodu kombinācijā, kurās ir maz resursu.
Tāpēc Komisija, sadarbojoties tās tulkotājiem un zinātniekiem, publisko lielu datubāzi ar teikumiem no juridiskiem dokumentiem, kas aptver tehniskos, politiskos un sociālos jautājumus un ir pieejami divdesmit divās valodās. Šajā tulkošanas datubāzē var atrast teikumus ar to ekvivalentiem visās oficiālajās valodās. Pagaidām nav pieejami tulkojumi vienīgi īru valodā.
Šī valodas datu publiskošana atbilst Komisijas atklātības politikai, kas paredz plašāk izmantot tās informācijas resursus, un šis pasākums ir turpinājums ES dokumentu un terminoloģijas datubāzu Eur-Lex un IATE publiskošanai.
Komisijai ir plaša pieredze daudzvalodu tekstu apstrādes rīku izstrādē, un tā virza daudzvalodības attīstību, ar rīku “European Media Monitoring” piedāvājot publiski pieejamas ziņu meklēšanas interneta mājaslapas aptuveni 35 valodās. Septītās pētniecības un attīstības pamatprogrammas Komunikācijas tehnoloģiju daļā ir paredzēts atbalsts pētījumiem mašīntulkošanas un citu ar valodu saistītu tehnoloģiju jomā.
Eiropas Komisijas pārstāvniecības Latvijā Preses un informācijas nodaļa