Han compartido un corpus de más de medio millón de frases

Con este desarrollo, las tres organizaciones generan el primer corpus bilingüe de noticias en euskera y castellano. Este será un recurso esencial para el desarrollo de sistemas de traducción automática entre los dos idiomas.

La diversidad de los temas que componen el corpus de noticias, y su propio volumen, permitirán un aumento significativo de la calidad de la traducción automática del euskera. Consta de más de medio millón de pares de frases en los dos idiomas, cubriendo temas de política nacional e internacional, cultura y deportes, entre otros.

El recurso ha sido creado con métodos innovadores de búsqueda automática de frases similares en las noticias de los dos idiomas y ha sido desarrollado en el marco de proyectos de I+D financiados por el  Departamento de Competitividad y Desarrollo del Gobierno Vasco (Programas GAITEK y HAZITEK). Asimismo, cabe destacar que el corpus generado se ha compartido en la red europea de recursos lingüísticos META-SHARE.

MondragonLingua, EiTB y Vicomtech-IK4 tienen particular interés en compartir este resultado con la comunidad para impulsar la investigación y el desarrollo relativos a la traducción automática del euskera.