El Instituto Tecnológico de Tokio (Tokyo Tech), la Universidad de Tohoku, Fujitsu Limited y RIKEN han anunciado que se embarcarán en la investigación y el desarrollo de un entrenamiento distribuido de grandes modelos lingüísticos (LLM) (1) en el superordenador Fugaku en mayo de 2023, dentro del ámbito de las iniciativas para el uso de Fugaku.
Los LLM son modelos de IA para el aprendizaje profundo que sirven como núcleo de la IA generativa, incluido ChatGPT (2). Las cuatro organizaciones pretenden mejorar el entorno para la creación de LLM que puedan ser ampliamente utilizados por el mundo académico y las empresas, contribuir a mejorar las capacidades de investigación de la IA en Japón y aumentar el valor de la utilización de Fugaku tanto en el ámbito académico como en el industrial mediante la divulgación de los resultados de esta I+D en el futuro.
Antecedentes
Aunque muchos prevén que los LLM y la IA generativa desempeñarán un papel fundamental en la investigación y el desarrollo de tecnologías para la seguridad, la economía y la sociedad en general, el avance y el perfeccionamiento de estos modelos requerirá recursos informáticos de alto rendimiento que puedan procesar de forma eficiente grandes cantidades de datos.
Tokyo Tech, la Universidad de Tohoku, Fujitsu y RIKEN están llevando a cabo una iniciativa con este fin que se centrará en la investigación y el desarrollo para la formación distribuida de LLM.
Periodo de implementación
Del 24 de mayo de 2023 al 31 de marzo de 2024 *Periodo de la iniciativa de uso de Fugaku para las políticas japonesas.
Funciones de cada organización y empresa
La tecnología utilizada en esta iniciativa permitirá a las organizaciones llevar a cabo de forma eficiente el entrenamiento de modelos lingüísticos a gran escala en el entorno de computación paralela a gran escala del superordenador Fugaku. Las funciones de cada organización y empresa son las siguientes:
- Instituto Tecnológico de Tokio: Supervisión de los procesos generales, paralelización y aceleración de los LLM.
- Universidad de Tohoku: Recopilación de datos de aprendizaje, selección de modelos.
- Fujitsu: Aceleración de los LLM.
- RIKEN: paralelización distribuida y aceleración de la comunicación de los LLM, aceleración de los LLM.
Planes de futuro
Para ayudar a los investigadores e ingenieros japoneses a desarrollar LLM en el futuro, las cuatro organizaciones tienen previsto publicar en GitHub (3) y Hugging Face (4) los resultados de investigación obtenidos en el ámbito de las iniciativas de uso de Fugaku definidas por la política japonesa en el ejercicio 2024. También se prevé que muchos investigadores e ingenieros participen en la mejora del modelo básico y en nuevas investigaciones aplicadas para crear métodos eficientes que conduzcan a la próxima generación de investigaciones innovadoras y resultados empresariales.
Las cuatro organizaciones estudiarán además la posibilidad de colaborar con la Universidad de Nagoya, que desarrolla métodos de generación de datos y aprendizaje para aplicaciones multimodales en campos industriales como la fabricación, y CyberAgent, Inc, que proporciona datos y tecnología para construir LLM.
Comentario de Toshio Endo, profesor del Centro Global de Información Científica y Computación del Instituto Tecnológico de Tokio: "La colaboración integrará la paralelización y aceleración de modelos lingüísticos a gran escala utilizando el superordenador "Fugaku" de Tokyo Tech y RIKEN, el desarrollo por parte de Fujitsu de software de infraestructura informática de alto rendimiento para Fugaku y el ajuste del rendimiento de los modelos de IA, y la tecnología de procesamiento del lenguaje natural de la Universidad de Tohoku. En colaboración con Fujitsu, también utilizaremos el pequeño laboratorio de investigación que establecimos con el nombre de "Fujitsu Collaborative Research Center for Next Generation Computing Infrastructure". Estamos deseando trabajar junto a nuestros colegas para contribuir a la mejora de las capacidades de investigación en IA de Japón, aprovechando las capacidades de aprendizaje profundo distribuido a gran escala que ofrece "Fugaku".
Comentario de Kentaro Inui, profesor de la Escuela de Posgrado de Ciencias de la Información de la Universidad de Tohoku: "Nuestro objetivo es construir un modelo lingüístico a gran escala que sea de código abierto, disponible para uso comercial y basado principalmente en datos japoneses, con transparencia en sus datos de entrenamiento. Al permitir la trazabilidad de los datos de aprendizaje, prevemos que esto facilitará una investigación lo suficientemente sólida como para verificar científicamente cuestiones relacionadas con el problema de la caja negra, el sesgo, la desinformación y los denominados fenómenos de "alucinación" comunes a la IA. Aprovechando los conocimientos adquiridos con el aprendizaje profundo del procesamiento del lenguaje natural japonés desarrollado en la Universidad de Tohoku, construiremos modelos a gran escala. Esperamos contribuir a la mejora de las capacidades de investigación de la IA en nuestro país y fuera de él, compartiendo los resultados de la investigación que obtengamos a través de la iniciativa para investigadores y desarrolladores."
Comentario de Seishi Okamoto, EVP, director de Fujitsu Research, Fujitsu Limited: "Estamos entusiasmados con la oportunidad de aprovechar los potentes recursos de computación paralela del superordenador Fugaku para impulsar la investigación en IA y avanzar en la investigación y el desarrollo de LLMS. De cara al futuro, nuestro objetivo es incorporar los frutos de esta investigación a la nueva plataforma de IA de Fujitsu, cuyo nombre en clave es "Kozuchi", para ofrecer aplicaciones que cambien los paradigmas y contribuyan a la consecución de una sociedad sostenible".
Comentario de Satoshi Matsuoka, director del Centro RIKEN de Ciencia Computacional: "La CPU A64FX (5) está equipada con una función de aceleración de IA conocida como SVE. Sin embargo, el desarrollo y la optimización del software son esenciales para maximizar sus capacidades y utilizarla en aplicaciones de IA. Creemos que esta investigación conjunta desempeñará un papel importante al reunir a expertos en LLM y ciencias de la computación de Japón, incluidos los investigadores e ingenieros del R-CCS de RIKEN, para avanzar en las técnicas de construcción de LLM en el superordenador "Fugaku". Junto con nuestros colaboradores, contribuimos a la realización de la Sociedad 5.0".