Un dispositivo de ciencia ficción que siempre me ha fascinado es el traductor universal de la saga Star Trek, capaz de realizar traducciones de casi todas las lenguas del universo. Debe ser porque pese a gustarme los idiomas, carezco de mucha facilidad para aprenderlos con soltura.
Meta, la compañía hasta ahora conocida como Facebook, parece querer dar un paso más para materializar ese traductor universal de ensueño, dejando de lado el modelo utilizado por la mayoría de traductores, y que es el de pares de lenguas.
Dicho modelo presenta sus limitaciones, puestas a prueba cuando elegimos un par de lenguas (como origen y destino de la traducción) que no se encuentran entre las más utilizadas; desde Meta ponen como ejemplo el par de lenguas islandés y hausa (lengua hablada en Níger y Nigeria), de naturalezas muy distintas y cuyas complejidades intrínsecas además de una escasa base de entrenamiento de los modelos de traducción automática, dificultan el proceso de traducción.
Para solventar estas dificultades, desde Meta apuestan por un modelo que traduzca varios emparejamientos de lenguas de forma simultánea, incluyendo tanto los idiomas que no disfrutan de tanto entrenamiento (como los antes citados islandés y hausa), como aquellos más utilizados (como el inglés o el alemán).
El problema de esta idea es que, hasta ahora, los traductores multilingües no habían podido batir a los que utilizan el paradigma de pares de lenguas cuando se utilizan idiomas muy populares y que, por lo tanto, disfrutan de amplios recursos de entrenamiento. Hasta ahora.
Porque el modelo multilingüe de Meta ha ganado el premio WMT (especializado para algoritmos de traducción automática), venciendo a los demás participantes en diez de las catorce parejas de lenguas, y proporcionando las mejores traducciones tanto para las lenguas con más recursos, como con aquellas que menos cuentan.
El mayor problema de estos modelos multilingües se encuentra en la sucesiva adición de más y distintos idiomas, cada uno con sus características lingüísticas, de escritura, y de vocabulario distintas, que hace que estas nuevas lenguas que disponen de pocos recursos para su interpretación por parte del traductor, se vean influenciadas por las lenguas más populares en la realización de traducciones, llevando ello a incurrir en errores.