Actualizado el 19/11/2024

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. TecnonewsCat
  4. >
  5. La UOC participa en el disseny del nou llenguatge que entrenen la IA

La UOC participa en el disseny del nou llenguatge que entrenen la IA

Escrito por Redacción TNI el 01/05/2024 a las 17:36:29
941

Les dades són el nucli de la intel·ligència artificial i els professionals de l'aprenentatge automàtic necessiten utilitzar-ne grans conjunts per entrenar els models d'IA que estan canviant el món en diferents àmbits. Un dels problemes que es troben, però, és que sovint han de dedicar molt de temps a trobar les dades necessàries per al seu propòsit, entendre-les, donar sentit a la seva organització o esbrinar quina part en poden aprofitar. Per solucionar aquest repte que alenteix el desenvolupament de la IA, l'associació MLCommons acaba de llançar al mercat Croissant, un nou format de metadades per indexar els conjunts de dades preparats per al Machine Learning, amb participació de la Universitat Oberta de Catalunya (UOC).

 

Croissant ha estat dissenyat en col·laboració entre els equips de recerca de les principals empreses del sector tecnològic —Google, Meta, Amazon…— i universitats com ara Harvard, el King's College de Londres i la UOC, que ha participat amb Joan Giner, investigador del grup de recerca SOM Research Lab de l'Internet Interdisciplinary Institute (IN3). "Podem comparar aquesta proposta amb la que va permetre poder buscar qualsevol cosa ainternet mitjançant el buscador de Google fa 20 anys, però adaptada al camp de la intel·ligència artificial", explica l'investigador de la UOC.

 

Croissant no canvia el format com es representen les dades —per exemple, en fitxers d'imatge, àudio o text—, sinó que proporciona una manera estàndard de descriure-les i organitzar-les. El nou llenguatge expandeix Schema.org, un estàndard llegible per a les màquines per descriure dades estructurades, que ja s'utilitza a més de quaranta milions de conjunts de dades al web i permet que els conjunts de dades es puguin descobrir amb motors de cerca com ara Google Dataset Search.

 

Com que Croissant té capes d'informació molt útils referents a l'estructura, el tipus d'atributs o com descarregar aquestes dades, farà que sigui molt més fàcil buscar i integrar aquests conjunts de dades a les aplicacions d'IA, sense necessitat de buscar les dades una per una als diferents repositoris. "Això suposa un canvi molt rellevant, perquè la diferència entre una IA molt bona i una de regular és que la primera està entrenada amb un conjunt de dades molt més gran. Ara que som en l'era del Big Data i que se'n publiquen moltes diàriament, era crucial posar-hi ordre per poder accedir-hi de manera més fàcil", apunta Giner.

 

Els majors repositoris de dades per a IA del món —HuggingFace, Kaggle, OpenML— també han format part del projecte i ja tenen tots els seus conjunts de dades descrits amb Croissant i indexats a Google Dataset Search. A més, els principals programes de Machine Learning per entrenar les IA amb dades també l'han integrat. "Per tant, podem considerar que som, de facto, davant de l'estàndard de descripció de dades per a IA".

 

 

IA amb ètica i responsabilitat social 

 

Giner ha participat en el projecte de MLCommons en tant que expert en IA responsable i en documentació dels conjunts de dades, el tema sobre el qual va centrar el seu treball de doctorat a la UOC. "Volíem definir com havien de documentar-se les dades per tal de tenir confiança en el seu ús i no generar problemes ètics", comenta. L'extensió de IA responsable en la que ha treballat, doncs, determina, entre altres factors, si les dades tenen algun problema de privacitat o si són representatives en l'esfera social, un dels principals problemes que ha d'afrontar la IA en aquesta etapa inicial. "Això contribuirà a evitar casos com els que s'han donat en aplicacions d'IA médica, que fallaven més diagnòstics en dones, sobretot negres, que en homes blancs degut a la falta de dones, i especialment de dones negres, en les dades d'entrenament", explica l'investigador de l'IN3.

 

Google és un dels agents participants en el consorci que més ha posat en valor aquesta vessant ètica: "Donar suport a la IA responsable (RAI) va ser un objectiu clau de l'esforç de Croissant des del principi i aquesta extensió permet descriure els processos fets per crear les dades, les persones participants, i els possibles biaixos presents a les dades", diuen fonts de la companyia tecnològica. "Per a mi, el fet que el primer estàndard del món de dades vingui amb una extensió de dades responsable és tot un èxit de la comunitat d'IA ètica, perquè generalment les empreses no paren gaire atenció a aquest fet", reflexiona Giner.

 

Ara, mentre el projecte confia que els especialistes del sector adoptaran Croissant quan publiquin les seves dades, l'equip que ha desenvolupat aquest llenguatge es centrarà en dominis concrets com la sanitat i les dades públiques. Per exemple, en el cas de la sanitat, per determinar quines dades són més rellevants (radiografies, TAC, converses metge-pacient…) i quins aspectes de representativitat social calen perquè sigui eficaç el seu aprofitament. "Al final, la IA sembla intel·ligent, però no ho és. És una gran reproductora dels patrons que hi ha a les dades. I si aquestes dades no s'ajusten a la realitat que volen representar, no funcionarà bé", conclou l'expert de la UOC.