NÚMERO 314 - 09/05/2016
CUTUDC / Novidades
Investigadores da Universidade de Vigo poñen en marcha este novo recurso de lingüística computacional, baseado no WordNet e empregado por Google Translate como apoio no proceso de tradución.
O galego conta
cun novo recurso de lingüística computacional,
o GalNet,
a versión galega do
WordNet (base de datos léxica do idioma
inglés estruturada en forma de rede semántica,
creada na Universidade de Princeton). Os
responsables desta nova ferramenta para a lingua
galega son investigadores do Seminario de
Lingüística Informática da Universidade de Vigo,
co profesor Xavier Gómez Guinovart á cabeza.
O seu traballo desenvolveuse no marco do proxecto Skater
(Scenario Knowledge Acquisition by Textual Reading),
no que participaron tamén as universidades do País
Vasco, Pompeu Fabra, Barcelona e Politécnica de
Cataluña, baixo a coordinación desta última.
GalNet é un proxecto con financiamento estatal de
tres anos de duración cun orzamento total de
400.000 euros, do que nos vindeiros meses arrancará
unha segunda parte. Os seis grupos de investigación
implicados desenvolveron seis subproxectos que, no
caso de Vigo, estivo centrado en desenvolver este
novo recurso de lingüística computacional.
A nova ferramenta estrutúrase como unha rede
léxico semántica para lingua galega, un recurso
léxico estándar para todas as aplicacións
informáticas que traballan coa linguaxe. “Ten
moitas utilidades, pero principalmente é un
dicionario electrónico para que os programas que
procesan linguaxe sexan capaces de deducir o
significado das frases e actuar en consecuencia”,
explica o profesor Guinovart en declaracións
recollidas por M. del Río no DUVI.
Trátase, por exemplo, do mesmo recurso que emprega
Google Translate, como apoio no seu proceso de
tradución en calquera das linguas que contan co seu
WordNet. O director do Seminario de Lingüística
Informática subliña que o tradutor de Google segue
un modelo estatístico, de modo que almacena moitas
traducións entre dúas linguas e, a partir de aí,
deduce as regras que traducen entre unha e outra
lingua. “Pero ás veces as inferencias estatísticas
non chegan para producir unha tradución aceptable e
necesita recorrer a recursos máis precisos como os
dicionarios bilingües e, neste caso, o recurso
multilingüe seleccionado é o WordNet, porque é o
maior dicionario multilingüe tanto en número de
linguas como en número de palabras e conceptos”,
comenta.
Ademais, polo formato propio de WordNet, pensado
para ser manexado por ordenadores, permite unha
utilización moi doada no ámbito da lingüística
computacional ou do procesamento da linguaxe
natural. Con todo, e a pesar de que está deseñado
para ser empregado no eido da intelixencia
artificial, “tamén ofrece moitas utilidades
para a consulta lexicográfica directa dos seus
contidos”.
TRABALLO CON CONCEPTOS
O WordNet e o GalNet funcionan con conceptos ou
sentidos, fronte aos dicionarios tradicionais que o
fan con palabras. “Os conceptos almacénanse coas
súas relacións semánticas, por iso é unha rede
léxico semántica: os nós da rede son conceptos, e
os fíos que unen os nós da rede son as relacións
semánticas”, explica Guinovart.
A rede inclúe holónimos, merónimos, hiperónimos,
hipónimos, palabras relacionadas por outro tipo de
relacións semánticas e palabras relacionadas pola
súa definición. Por exemplo, o concepto de man ten
unha relación semántica co concepto de dedo como
parte da man, e iso é así en calquera lingua, de
xeito que permite unha navegación intelixente
e, posto que o WordNet comprende centos de linguas,
xérase unha contorna en rede que o converte no
maior dicionario multilingüe do mundo.
O número de conceptos pretendidos para cada lingua
no WordNet está arredor dos 150.000, e ese é reto
dos investigadores vigueses. Na actualidade, e
finalizada a primeira fase do proxecto, teñen
cubertos 33.000 conceptos, que inclúen un total de
50.000 palabras. O inglés, que a lingua
pioneira nesta ferramenta, conta con 117.000
conceptos cubertos e 206.000 palabras, pero como
lembra o profesor Guinovart, cómpre ter en conta
que comezaron a traballar neste campo dende a
Universidade de Princeton en 1985, mentres que o
WordNet do galego arrancou hai apenas tres anos.
“Aínda así, con estes 40 anos de diferenza, o
galego xa ten unha cuarta parte das palabras que
ten o inglés e unha terceira parte dos conceptos”.
Dentro do proxecto Skater comezaron tamén a
desenvolverse os WordNet do catalán, do euskera, do
español e do portugués.
ORIXES DE WORDNET
O proxecto inicial do WordNet estaba pensado dende
un punto de vista psicolingüístico e o equipo de
Princeton que o puxo en marcha pretendía modelar
informaticamente a maneira na que os seres humanos
procesamos o léxico no cerebro. Co tempo, e dada a
utilización que se lle foi dando ao WordNet do
inglés, acabou converténdose nun proxecto liderado
por informáticos e orientado ao procesamento
intelixente da linguaxe.
Dende o punto de vista humano, pódese empregar como
dicionario multilingüe, e no caso do GalNet é
maior que a maioría dos dicionarios bilingües que
hai para o galego. Como lembra o profesor, “non
só podemos ver a a tradución para as cinco linguas
mencionadas, senón que a través dos enlaces da
ferramenta podemos ver as traducións en WordNet de
ducias doutras linguas, algunhas completamente
exóticas dende o punto de vista do galego como o
tailandés, o persa, o malasio ou o suahili, idiomas
para as que non existen dicionarios bilingües coa
nosa lingua”.
Así, o GalNet constitúese como o mellor dicionario
multilingüe do galego, porque é o que enlaza o
galego co maior número de linguas e de diferentes
familias, avanzando tamén cara a normalización do
galego “dunha maneira moi directa”.
Neste sentido Gómez Guinovart destaca que o único
recurso semellante é a Wikipedia, pero esta só ten
entradas de tipo enciclopédico como nomes propios,
batallas, lugares, etc. pero non contén léxico
xeral, mentres o WordNet contén todo tipo de
léxico, tanto xeral como enciclopédico, conclúe.
Galicia Confidencial
Quen somos | Contacto | Axuda
cutudc.com, 2009. Publicado baixo licencia Creative Commons DHTML Menu By Milonic JavaScript