|
![]() | |||||||
|
Ponemos a vuestra disposición el primer corpus paralelo y multilingüe online que incluye a la vez euskara, polaco y castellano. Es, por un instante, la versión experimental de la herramienta, sin embargo, después de unos testos exitosamente efectuados sobre el material lingüístico probatorio, hemos decidido de ponerla en línea. Por ahora funciona con un mecanismo de búsqueda simplificado, no obstante ya éste permite obtener unos resultados interesantes.
Corpus es un conjunto sistematizado y posiblemente extenso de “textos que sirven para investigaciones lingüísticas, tales como determinar la frecuencia de aparición de palabras, construcciones sintácticas, contextos en los cuales aparecen las palabras. Una aplicación más reciente de corpus consiste en enseñar ordenadores durante el proceso de tratamiento de idiomas naturales” [1]. Además “los datos extraídos de corpus [...] sirven para la redacción de diccionarios, tesauros, glosarios y durante la enseñanza de vocabulario de lenguas extranjeras, [...] las herramientas para extraer el vocabulario de corpus [...] permiten utilizar estos materiales durante el procedimiento de traducción, efectuada tanto por un traductor (Computer-Aided Translation / CAT) [...] como en la traducción automática (Machine Translation / MT) [...]” [2].
Por ahora el corpus funciona con un solo motor de búsqueda muy simple: en la primera columna del formulario se escoge el idioma e introduce las primeras letras de la palabra buscada (sin caracteres suplementarios % ni * al fin). Como resultados obtendréis todos los registros que contienen palabras que empiezan por la secuencia deseada de letras. Por ejemplo al buscar coche con idioma español elegido obtendréis los registros contenientes las palabras: coche, coches y también cochecillos. Hay que tener en cuenta que cuantas más letras iniciales introduzcais, más limitados serán los resultados de la búsqueda. La opción segundo idioma permite de restringir los resultados de la búsqueda a los registros contenientes secuencias deseadas de caracteres en dos campos (idiomas) de la base de datos (operador lógico AND). Por ejemplo, se puede buscar solamente los registros en los cuales el texto español contiene la palabra mujer y su equivalente vasco la palabra emakume. Gracias a esta opción se puede también buscar los registros que contienen dos secuencias de caracteres diferentes en un solo campo (idioma), por ejemplo: al escoger dos veces el idioma español e introducir en un campo mujer y en otro hombre obtendréis solamente las citas que contienen ambas palabras a la vez. La opción enseñar resultados en permite escoger solo los idiomas que actualmente os interesan, las citas en los demás idiomas no serán visibles. Así se puede mejorar la legibilidad de la página con resultados. La última opción permite determinar el número de los registros enseñados a la vez. Las preferencias de la búsqueda son guardadas y no hay necesidad de ajustarlas de nuevo cada vez al iniciar otra búsqueda. Se pierden solo después de cerrar la ventana del buscador. Las preferencias del idioma son guardadas en un fichero cookie, entonces siempre serán automáticamente restablecidas al reentrar en la página del corpus.
_________ FUENTES:
|