CLiP 2006
[Close Print-Friendly Version]
El desarrollo alcanzado en las últimas décadas en herramientas y técnicas de procesamiento del lenguaje natural aplicadas al campo de la traducción ha supuesto grandes avances en la realización automática de este complejo ejercicio lingüístico. No obstante, quedan aún espacios en los que la labor del lingüista resulta de vital importancia para la obtención de resultados de calidad, especialmente en la caracterización de las unidades en las que se ha de descomponer el texto dentro del proceso traductológico.
Tal y como recoge Abaitua (1997), "Toury (1995) sugiere que, en la traducción de un texto, 'lo ideal sería traducir de una tacada el texto completo'. Sin embargo, a no ser de que se trate de un texto muy breve, esto es humanamente inviable y el traductor necesita proceder por partes." Así, mientras el traductor humano pone en juego sus saberes lingüísticos y conocimientos del mundo para llevar a cabo este proceso de segmentación, las herramientas automáticas necesitan de formalizaciones lingüísticas que les permitan discriminar las unidades de traducción de manera objetiva.
Es indudable, por tanto, el interés de aquellas secuencias de palabras que actúan como un mismo bloque en determinados niveles lingüísticos y que, en el campo de la traducción, han de tratarse como una unidad única. Estas unidades, entendidas como combinaciones lexicalizadas de palabras que establecen dependencias morfosintácticas entre ellas, suponen la unidad base de estudio en el presente proyecto. Partimos del supuesto de que las lexías complejas o unidades poliléxicas (multiword units), se sitúan en un nivel superior al de las colocaciones, en cuanto a grado de lexicalización se refiere, pero sin llegar a alcanzar la categoría de locuciones, giros idiomáticos o fórmulas, elementos discursivos de mayor complejidad y fijación en la lengua.
Así, la presente comunicación pretende asomarse a las distintas tipologías existentes para la clasificación de estos elementos morfoléxicos, junto a algunas de las herramientas existentes para su procesamiento automático en el par de lenguas euskara-castellano. Estas dos lenguas, muy lejanas tipológicamente pero cercanas geográficamente, se encuentran aún en proceso de análisis y desarrollo en el ámbito de la traducción automática, y es cada vez mayor la aparición de herramientas orientadas a esta tarea, por lo que la recopilación de estos datos puede resultar de gran interés.
Para ello, se efectuará un recorrido por la amplia tradición teórica recogida en Abaitua (2001) y obras posteriores, como Hurtado Albir (2001), a la vez que se indagará en los procedimientos automáticos para el reconocimiento de este tipo de unidades de traducción. Puesto que en la base de estos procesos se sitúan los analizadores morfosintácticos, se partirá del estudio de las aportaciones del Grupo IXA para el euskara (fundamentalmente MORFEUS y EUSLEM), así como de otras herramientas disponibles para el castellano: FreeLing y SVMTool, tecnologías del Centro de investigación TALP (Universitat Politècnica de Catalunya y Centre de Llenguatge i Computació, Universitat de Barcelona); CLiC (Universitat de Barcelona); FLAPE y SCOGEME (Universidad de Las Palmas) o DATALEXICA (Empresa Bitext), entre otros. No obstante, no se profundizará en la caracterización de estas herramientas por no tratarse de objeto de estudio de este trabajo.
Dado que las unidades que analizamos (denominadas en euskera hitz anitzeko unitate lexikalak -HAUL-), han sido ya tratadas desde la perspectiva monolingüe, pero no entendidas como unidad de traducción, se atenderá a un enfoque multilingüe en la revisión de las numerosas tipologías existentes para la clasificación de estas locuciones léxicas, basadas en criterios que van desde la composicionalidad semántica hasta la disposición sintáctica de los elementos.