Euskarak teknologia berrien aurrean duen erronka

hizkuntza nagusientzat era guztietako teknologia berriak ari dira garatzen, etorkizun hurbilean bideak zabalduko dituzten teknologiak. Lengoaia naturala da urte gutxi barru ordenagailuekin eta etxeko tresna guztiekin komunikatzeko izango dugun era, eta mugitzen ez bagara, harreman hori gurea ez den hizkuntza batean egin beharko dugu.

Piramide horren oinarrian ingeniaritza linguistikoan lan egiteko beharko ditugun oinarrizko baliabideak egongo dira. Baliabide hauei esker, tresnak garatzeko moduan izango gara, eta behin hauek garatuta, ingeniaritza linguistikoaren hainbat arlotan lan egiteko moduko produktu komertzialak kaleratu ahal izango ditugu.

Gaur egun, euskarazko hizkuntza teknologia informatikoak aipatzean, ezinbestekoa da Euskal Herriko Unibertsitatearen IXA (http://ixa.si.ehu.es) eta Aholab (http://bips.bi.ehu.es/ahoweb/) taldeak aipatzea. Beraiek landu dituzte euskararako teknologiak garatzen ditugunontzat nahitaezko diren hainbat tresna eta baliabide, eta baita aplikazioak ere.

ELEKA IXA Taldeak eta Elhuyar Fundazioak sortutako enpresa da. Jakintza kudeatzen duten eta informazioaren teknologiak aplikatzen dituzten enpresa eta erakundeentzako I+G+B irtenbide eleanitzak eskaintzen ditu. ELEKAk garatutako lanen artean, honakoak nabarmendu daitezke: Euskararako OCRa, Hiztegien bilatzailea edo Linux-erako Xuxen-en bertsioa. Une honetan, euskararako estilo zuzentzailean ari gara lanean

Esan dugun bezala, erronka makina eta pertsonen arteko komunikazioa hizkuntza naturalaren bitartez lortzea da. Erronka ez da nolanahikoa, eta helburua bete ahal izateko eman beharreko pausoak handiak dira. Hori egingarri bihurtzeko, hiru urtetan garatuko den ikerketa proiektu estrategiko bat sortu dute hainbat talderen artean.

 Hizking21 (www.hizking21.org)

Ez dago zalantzarik lengoaia naturala gure eguneroko bizitzaren giltzarria dela; ez eta honen tratamendu konputazionala geroz eta garrantzitsuagoa bihurtzen ari dela ere. Egunetik egunera, datu-base dokumentalak handitzen doaz, ordenagailuekin harremanak izateko erak aldatzen, eta multimedia sistema guztiak digitalizatzen. Horren ondorioz, ezinbestekoa bihurtzen zaigu lengoaia naturala ere informatikoki lantzeko bideak aztertzea.

 Horiek horrela, gaur egun hizkuntzaren industriak eta, bereziki, ingeniaritza linguistikoak berebiziko garrantzia du. Arlo horien ardura da informazioa berreskuratzea, iragaztea, informazio esanguratsua hautatzea, eta edukiak kudeatzeko gero eta tresna hobeak sortzea eta eskaintzea.

Halaber, Europan estrategikoa bihurtzen ari den puntu baten aurrean gaude: Europako ikerketa-programetan ingeniaritza linguistiko bezala ezagutzen duguna, estrategikotzat jotzen den arloa da: lengoaia naturalaren tratamendu informatizatua. Hainbat ikerketa-lerro daude, eta horietako asko duela urte batzuk pentsaezina iruditzen zitzaigun punturaino aurreratuak daude. Dena den, Europan eta munduan egiten ari den lengoaia naturalaren ikerketa hizkuntza nagusiei bakarrik dagokie: besteak beste, ingelesa, alemana, gaztelania, edo frantsesaren hizkuntzen inguruan egindako ikerketa da.

 Hizkuntzen Teknologiei aitortzen zaien garrantzi handia erakusteko nahikoa da esatea Europako Batasuneko DGXIII Zuzendaritza Orokorraren I+Grako aurrekontuaren % 3,77 (564 milioi euro) bideratuko dela ‘Multimedia edukiak eta Tresnak eta Hizkuntza Teknologiak’ arloan. Eusko Jaurlaritzak 2001-2004 urteetarako aurreikusi dituen 614 milioi eurotik 10 milioi inguru Infoingeniaritza Linguistikoan inbertitu nahi izango dira. Plan horren arabera, estatutik, Europako Batasunetik eta iturburu pribatuetatik etorriko diren diru-ekarpenak kontuan hartuta, lau urtean, batez beste, 360 milioi euro mugituko dira ikerketa-lerro horretan.

 Bide horretatik, hizkuntza nagusientzat era guztietako teknologia berriak ari dira garatzen, etorkizun hurbilean bideak zabalduko dituzten teknologiak. Lengoaia naturala da urte gutxi barru ordenagailuekin eta etxeko tresna guztiekin komunikatzeko izango dugun era, eta mugitzen ez bagara, harreman hori gurea ez den hizkuntza batean egin beharko dugu.

 Merkatuan aurki daitezkeen aplikazio gehienek hizkuntza “handiak” dituzte helburu: ingelesa, batik bat, baina baita, bigarren maila batean bada ere, frantsesa, alemanera, eta espainiera bezalako hizkuntzak ere.

 LNParen ia 50 urteko historian gorabehera handiak izan dira. Helburu liluragarriak lortzear zeudela uste zen une euforikoei, belarriak jaitsi eta helburu apal baina eskuragarriagoetara mugatzeko une pragmatikoak jarraitu zaizkie behin baino gehiagotan. Konputagailuek hizkuntza pertsonok ulertzen dugun moduan ulertuko duten eguna urrun da oraindik, baina horrek ez du esan nahi aplikazio interesgarriak eta oso baliagarriak egin ezin direnik.

 Aplikazio horien garapenerako, ordea, oinarri sendo batetik abiatu beharra dago. Oro har, hizkuntza teknologien egitura, piramide moduko batez irudika dezakegu (ikus 1. irudia). Piramide horren oinarrian ingeniaritza linguistikoan lan egiteko beharko ditugun oinarrizko baliabideak egongo dira. Baliabide hauei esker, tresnak garatzeko moduan izango gara, eta behin hauek garatuta, ingeniaritza linguistikoaren hainbat arlotan lan egiteko moduko produktu komertzialak kaleratu ahal izango ditugu. Kontuan izan behar da, ordea, alderantzizko bidea ezin dela egin, etxea teilatutik eraiki nahi ez badugu.

 

 1. irudia. Hizkuntza teknologien garapena

HIZKUNTZA TEKNOLOGIEN ERRONKA

XXI. mendearen atarian gaude, eta hizkuntza teknologien erronka nagusia gizaki eta makinen arteko komunikazioa erraztea da. Hau da, pertsonen artean hitzez komunikatzen garen bezala makinekin komunikatzea da helburua. Eta ez ordeangailuarekin bakarrik, baizik gure eguneroko bizitzan parte hartzen duten gainerako tresna eta gailuekin ere bai.

Zer behar dugu horretarako?

  • Itzulpen automatikoa
  • Ahotsaren sintesia
  • Ahotsaren ezagutza
  • “Question Answering”
  • Teknologia adaptiboa
  • Ezinduei laguntzeko teknologia
  •   ...

Garbi izan behar dugu, zerrenda honetan aipatzen den teknologia ez dagoela nahikoa helduta ingeleserako edo gaztelaniarako, are gutxiago, beraz, euskararako.

ZEIN DA GAUR EGUNGO EGOERA?

Euskararen kasuan ez gara hutsetik abiatzen. Urteetan zehar lan handia egin da unibertsitatean euskararako teknologia garatzen. Aurreko irudian aipatu dugun piramidearen oinarri handi bat urte hauetan zehar garatu da, eta horrek aplikazioak lantzen hasteko moduko ezinbesteko lurra prestatu digu.

 Gaur egun, euskarazko hizkuntza teknologia informatikoak aipatzean, ezinbestekoa da Euskal Herriko Unibertsitatearen IXA (http://ixa.si.ehu.es) eta Aholab (http://bips.bi.ehu.es/ahoweb/) taldeak aipatzea. Beraiek landu dituzte euskararako teknologiak garatzen ditugunontzat nahitaezko diren hainbat tresna eta baliabide, eta baita aplikazioak ere.

 IXA taldeak 15 urte daramatza hizkuntza teknologiak garatzen. Xuxen, testu-zuzentzaile ortografiko ezaguna, IXAk sortua da, eta, gaur egun, ordenagailuarekin lan egiten duten euskaldun guztiek ezagutzen dute. Baina, horrez gain, testuak analizatzeko bestelako programa asko ere garatu dira: desanbiguatzaileak, lematizatzaileak... Horiek, lan egingo badute, erreferentziak behar dituzte: horiek corpus linguistikoak dira, testu datu-biltegiak erabiltzeko moduan antolatuak.


2. irudia. Analizatzaile morfologikoa.

 

Corpusak eraikitzeko orduan oso baliagarria da Elhuyar Fundazioak (www.elhuyar.org) lexikografian eta terminologian egindako jarduna, datu-biltegi ikaragarriak baititu dagoeneko: hiztegi orokor eta elebidunak, sektorialak, terminologikoak... Horrez gain itzulpengintzan sortutako itzulpen-memoriak ere baliagarriak izango dira.

 Aholabek ahotsaren analisia eta tratamendua du bere jardun nagusia. Ahots formatuko fitxategi batetik testu idatzira igarotzeko tresnak baditu, eta alderantzizkoak ere bai. Horretarako ere ezinbestekoa da erreferentziak izatea: makinari ‘entzun’ duena nola ezagutu eta nola ‘idatzi’ behar duen irakatsi behar zaio, eta burura datorkigun lehen zailtasuna hiztunon dibertsitate ikaragarria da: sistema bokalikoaren ñabardurak, kontsonanteak ahoskatzeko desberdintasunak, entonatzeko desberdintasunak, puntuazioa... Euskalkien eragina ez ezik, hiztunen adina, erregistroa, hizketa-abilezia, eta beste hainbat faktore ere bada tartean.

 Horra bitarteko tresna eta baliabideak euskarari estu lotutakoak dira, beste hizkuntzetan egindako lana, usu, ez baita zuzenean erabilgarria gertatzen. Beraz, gehienak propio garatutako teknologiaz egindako programak dira. Interfazeei dagokienez, berriz, beste hizkuntzetan dagoeneko aurreratutako lanaren zati bat baliagarria da: avatarre [1] diseinua oso aurreratua dago, baina euskaraz hitz eginarazi behar zaienez, ahoa nola mugitu behar duten eta espresioak zein unetan hartu behar dituzten ‘irakatsi’ behar zaie, emaitzak natural agertuko badira. Horretan ere, Aholabek eta VICOMTech elkarteak (www.vicomtech.es) beren bidea egina dute (areagotutako errealitatea, alegiazko errealitatea eta errealitate mistoa; 3D avataretan oinarritutako solaserako interfaze eleanitzak); eta aurrera segituko dute.

3. irudia. VicomTech-en avatar baten eredua

 

ELEKA ingeniaritza linguistikoa (www.eleka.net) ezin dugu ahaztu atal honetan. Aipatutako taldeen lanak berebiziko garrantzia izan duen arren, euskaraz lan egiten duten eta euskararekin lan egiten laguntzen diguten aplikazio komertzialak ez dituzte merkaturatzen. Hori da ELEKAren funtzioa. ELEKA IXA Taldeak eta Elhuyar Fundazioak sortutako enpresa da. Jakintza kudeatzen duten eta informazioaren teknologiak aplikatzen dituzten enpresa eta erakundeentzako I+G+B irtenbide eleanitzak eskaintzen ditu. ELEKAk garatutako lanen artean, honakoak nabarmendu daitezke: Euskararako OCRa, Hiztegien bilatzailea edo Linux-erako Xuxen-en bertsioa. Une honetan, euskararako estilo zuzentzailean ari gara lanean besteak beste.

NOLA EGIN AURRE ERRONKARI?

Esan dugun bezala, erronka makina eta pertsonen arteko komunikazioa hizkuntza naturalaren bitartez lortzea da. Erronka ez da nolanahikoa, eta helburua bete ahal izateko eman beharreko pausoak handiak dira. Hori egingarri bihurtzeko, hiru urtetan garatuko den ikerketa proiektu estrategiko bat sortu dute hainbat talderen artean.

 Hizking21 (www.hizking21.org) izenaz bataiatutako ikerketa proiektu honetan bost partzuer bildu dira: Elhuyar Fundazioa, Euskal Herriko Unibertsitatearen IXA eta Aholab taldeak, Vicomtech elkartea eta Robotiker Fundazioa (www.robotiker.es). Laguntzaile moduan Eleka enpresak ere badihardu bertan.

 Zein bere aldetik, hizkuntz gaitasuna duten sistemak diseinatzeko behar den ezagutzaren eta gaitasunaren jabe dira: Elhuyar hiztegigintzan eta datu-biltegi lexikalen diseinuan eta kudeaketan; IXA hizkuntza idatzia lantzeko hainbat alor jorratua da, eta hainbat tresna informatiko ditu eginak (Xuxen zuzentzaile ortografikoa, ezagunena); Aholab taldeak, berriz, ahotsaren sintesia eta ezagutzaren eremuak ditu ikergai eta esperientzia luzea du horretan; Vicomtech elkarteak (EITBk eta INIGraphics talde alemanak sortua) erabiltzearekiko interfaze gizatiarrak eta ‘adiskideak’ diseinatzen dauka eskarmentua (avatarak, adibidez); azkenik, Robotiker fundazioak komunikaziorako sistema fisikoen eremua du langai.

 Partzuer guztien lanari esker, posible izango da hemendik gutxira hainbat tresna informatiko eskura izatea eguneroko aplikazioetan txertatzeko moduan: konputagailuari idatzi behar duen testua diktatzea, zuzenketa ortografikoa ez ezik gramatikala ere egiten dituzten pluginak, idatzizko itzulpen automatikoa, hainbat zerbitzu telefonoz erabiltzeko unean lengoaia naturala erabiltzeko aukera (egungo muga nabarmenak gaindituta), itsuek testu-fitxategiak euskaraz irakurtzea ahalbidetuko duten ahots-sintetizagailuak, gidariei trafikoari buruzko informazioa fresko eta bizkor eskainiko dieten sistemak,... eta hori dena euskaraz.

HIZKING21-EN HELBURUAK

Hizking21 proiektuaren emaitza ez da aplikazio informatiko jakinak sortzea, baizik horiek ahalbideratuko dituzten tresnak eta teknologiak aplikazio-sortzaileen eskuetan jartzea.

 Corpusgintzaren alorrean corpus espezializatuak diseinatu, sortu, elikatu, eta kudeatu behar dira; horretarako, tresna informatiko propioak sortu zein garatu egin behar dira. Horietako askok hardware-behar bereziak dituzte, eta horiek ere eskuratu behar izan dira. Euskararen corpus sektorialak noizbait egingo den corpus orokorraren zati izango direlakoan, horien diseinuan aurrera begira agertzen den panorama aintzat hartu behar izan da. Corpusen helburua ez da beti bera izaten. Batzuetan, hizkuntzaren erabilera konkretuaren informazio-bilduma da, baina erabilera espezifikoagoa izango badute, corpusen ezaugarriak zehatzagoak izan behar dute. Testu-bilduma bat bilduma hutsa izatetik corpus antolatu bat izatera igarotzeko egin beharreko urratsak asko dira, eta lana neurri batean automatizatu nahi bada ere, eskuz egin beharrekoak asko izango dira. Egun dauden tresnak egokitu, eguneratu eta berritu, tresna berriak sortu eta egiaztatu, eta horien emaitzak beste programa eta moduluek erabiltzeko moduan ipintzea da zeregin nagusietako bat. Izan ere, testuak aukeratu, bildu, formatu egokira pasa, haien egitura etiketatu, eta edukia linguistikoki etiketatu behar da.

Corpusek, darabilgun alorrean, beste programen jardunak eskatzen duen lehengaia (hizkuntza bera, alegia) modu egokian eta zuzenean erabiliko dela bermatzea dute helburu. Informazio linguistikoa eta estatistikoa eskaintzen dute, besteak beste. Testu idatzia darabilten programek corpus idatziak behar dituzte, eta ahotsa lantzen dutenek, berriz, ahots-corpusak: grabazio-biltegi antolatuak, transkribatuak, eta etiketatuak. Denok dugu gogoan nola, duela zenbait urte, sistema batek telefonoz euskaraz ulertu ahal izateko, hainbati telefonoz esaldi batzuk esateko eskatu ziguten. Haren emaitza ahots-corpus baten pareko datu-biltegi bat izan zen, eta bezeroek telefonoz euskaraz esaten dutena ezagutzeko erreferentzia dira zenbait sistematan.

 Jakina da, bestalde, euskaraz hitzak deklinatzen direnez, makinari ‘norbaitek’ esan behar diola ‘mendiei’ eta ‘mendiaren’ hitz beraren bi aldaera direla eta ez bi hitz desberdin: lema bera duten bi forma direla, alegia. Lematizatzaile bat behar da, beraz.

 Horrez gain, hizkera naturala ez da zehatza. ‘Saguak katuak jan ditu’ esaten badugu, esaldi anbiguoa esan dugu: nork jan du nor? Saguak katu asko jan ditu ala katuak sagu asko? Guk badakigu katuek saguak jatea ‘normala’ dela, saguek katuak jatea ez bezala, eta aise hausten dugu anbiguotasun hori. Eta konputagailu batek? Zer ote ‘daki’ makinak sagu eta katuei buruz? Anbiguotasuna eguneroko hizketaren zati da ezinbestean, baina, guk ez bezala, makinek zailtasunak dituzte horiek hausteko. Desanbiguatzeko modulu bat beharrezkoa da, beraz. Gaur egungo desanbiguatzaileek hitz mailan egiten dute lan: testu batean ‘pilotari’ agertzen bada, zer dugu aurrean, ‘pilotari’ substantiboa nor kasuan, ala ‘pilota’ substantiboa nori kasuan? Hori desanbiguatzea gaur egun posible da, baina haratago jo behar da. Halaber, behar dira beste hainbat modulu eta tresna.

 Makinekiko komunikazioa neurri batean ikusizkoa eta ahozkoa izango bada, konputagailuek soinua entzuteko gailuak (mikrofonoak) eduki beharko dituzte, eta informazioa eskaintzeko egin diren gailu grafiko eta ahozkoak. Horien teknologiak aurrera egin ahala, emaitza hobeak lortuko dira, batez ere 3D irudien adierazkortasunean. Gaur egun emaitza onak lortu dira grabatutako informazioarekin, baina kontuan izan behar da hizketa naturala izango bada, berehalakotasuna ezinbesteko baldintza dela: sistemak mezuak ‘ulertu’, erantzuna sortu, eta igorri egin behar du, baina erantzuna ez da esaldi hutsa izango, keinu, intonazio, eta espresio bereziek lagunduta igorri beharko baita. Horrek guztiak beharrizan konputazional handiak eskatzen ditu, nola trataera linguistikoari dagokionez, hala soinua eta irudia sintetizatzean ere.

 Hizking21 izenaz ekin zaion proiektuaren helburuak honi guztiari eragingo dio: hiru urteren buruan, 2005 urterako, gaur egun ingelesez diren tresna infolinguistiko motak euskaraz ere izatea, kasuan kasuko aplikazio zehatzek erabili ahal izan ditzaten (kontuan izan behar da proiektuak ez duela azken aplikazio informatikorik sortuko, prototipoak ez badira). Horietako asko euskararako propio sortuak izango dira, beste batzuk egokitu behar izandakoak.

 Ezin dugu esan, beraz, euskararen teknologiak hiru urte barru izango duen egoera berebizikoa izango denik, baina gutxienez beste hizkuntza batzuei aurre hartzen hasiak egongo gara. Nork daki? Agian uste baino lehenago hitz egingo dugu ordenagailuarekin euskaraz!

 [1]Pantailatik hizketan egiten digun 3D aurpegi edo pertsona birtuala

 

BAT aldizkaria: 
48. 2003ko iraila. EUskal errepertorioa hedabideetan
Kokapen geografikoa: 
Euskal Herria
Egilea(k): 
Josu Waliño, Elena Garcia
Urtea: 
2003