{"id":43683,"date":"2025-09-19T14:20:21","date_gmt":"2025-09-19T18:20:21","guid":{"rendered":"https:\/\/noticiasveraces.com\/?p=43683"},"modified":"2025-09-19T14:20:21","modified_gmt":"2025-09-19T18:20:21","slug":"el-salto-que-viene-en-la-ia-generativa-los-grandes-modelos-para-recrear-el-mundo-fisico-tecnologia","status":"publish","type":"post","link":"https:\/\/noticiasveraces.com\/?p=43683","title":{"rendered":"El salto que viene en la IA generativa: los grandes modelos para recrear el mundo f\u00edsico | Tecnolog\u00eda"},"content":{"rendered":"<p> \n<br \/><img decoding=\"async\" src=\"https:\/\/imagenes.elpais.com\/resizer\/v2\/KB64NKB3YZDB5JGH6C5NEKFXVI.jpg?auth=6cc9220265540f9e72338e83a91d238591e21197b47cca555dd5445c4c2fbba5\" \/><\/p>\n<div data-dtm-region=\"articulo_cuerpo\">\n<p class=\"\">LWM podr\u00edan ser las siguientes siglas que salten a la fama en el mundo de la inteligencia artificial. Son las siglas, en ingl\u00e9s, de grandes modelos de mundo. Si los LLM \u2014grandes modelos de lenguaje\u2014 que son el motor de ChatGPT y las dem\u00e1s apps de IA generativa, saben comunicarse y se entrenan con texto, con los LWM se pretende crear modelos del mundo f\u00edsico, el real, el que los humanos percibimos.<\/p>\n<p class=\"\">Suena pretencioso, pero esta tecnolog\u00eda se investiga desde hace tiempo. Y en la desbocada carrera por la IA, las empresas ya se han abalanzado sobre este campo a\u00fan sin labrar. El pasado agosto Google anunci\u00f3 Genie 3, un avance de lo que podr\u00edan llegar a ser estos sistemas. Por ahora es un generador de entornos virtuales, que se materializan en tiempo real a medida que el usuario se mueve como en un videojuego. Poco antes, Meta hab\u00eda lanzado su propio modelo de mundo, V-JEPA 2, con una comprensi\u00f3n visual de entornos reales.<\/p>\n<aside class=\"a_ei\">\n<header class=\"a_ei_h _db\">M\u00e1s informaci\u00f3n<\/header>\n<\/aside>\n<p class=\"\">Tambi\u00e9n proliferan las <i>startups<\/i> con ese enfoque. La prestigiosa investigadora Fei Fei Li, conocida como la madrina de la IA, ha conseguido una inversi\u00f3n de 230 millones de d\u00f3lares para World Labs, que desarrolla un sistema capaz de comprender c\u00f3mo funciona el mundo f\u00edsico. Skild AI, apoyada por Amazon, Nvidia y Samsung, ha recibido m\u00e1s de 400 millones de d\u00f3lares y ya ha presentado un modelo capaz de controlar tanto a m\u00e1quinas de una l\u00ednea de producci\u00f3n como a robots humanoides.<\/p>\n<p class=\"\">\u201cLo que persiguen estos sistemas es b\u00e1sicamente preentrenar un modelo, ya no de lenguaje sino de informaci\u00f3n global, por decirlo de alguna manera\u201d, puntualiza Pablo Mart\u00ednez Olmos, profesor del Departamento de Teor\u00eda de la Se\u00f1al y Comunicaciones de la Universidad Carlos III de Madrid y especializado en modelos probabil\u00edsticos. \u201cA partir de un mont\u00f3n de <i>tokens<\/i> [unidades b\u00e1sicas utilizadas para representar datos]  que concatenamos \u2014que pueden ser texto con audio, con imagen y con un mont\u00f3n de tipos de datos que est\u00e1n vinculados\u2014, podemos predecir el siguiente <i>simb\u00f3lico<\/i>\u00ab.<\/p>\n<p class=\"\">En un modelo de lenguaje como el que genera texto para ChatGPT, el siguiente <i>simb\u00f3lico<\/i> puede ser una palabra, una parte de una palabra o un signo de puntuaci\u00f3n. En un modelo de mundo, el siguiente <i>simb\u00f3lico<\/i> podr\u00eda ser un fragmento de un fotograma de v\u00eddeo o de informaci\u00f3n espacial sobre d\u00f3nde est\u00e1 un objeto, aunque tambi\u00e9n podr\u00eda ser una palabra o una acci\u00f3n de movimiento que ejecutar\u00eda un robot. Son solo algunos ejemplos que ilustran la complejidad de esta nueva IA que est\u00e1 en ciernes.<\/p>\n<p class=\"\">Se prev\u00e9 que este tipo de sistemas permitan generar videojuegos de forma din\u00e1mica, seg\u00fan las preferencias de un usuario, e incluso un metaverso o entornos que simulen con precisi\u00f3n escenarios reales. Aunque su aplicaci\u00f3n m\u00e1s prometedora tiene que ver con el aprendizaje de la rob\u00f3tica aut\u00f3noma.<\/p>\n<h3 class=\"\">Un cerebro para las m\u00e1quinas<\/h3>\n<p class=\"\">Nvidia lanz\u00f3 a principios de 2025 su plataforma Cosmos, que ofrece herramientas para favorecer el desarrollo de modelos de mundo, destinados a robots y veh\u00edculos aut\u00f3nomos. Cuando Meta anunci\u00f3 su V-JEPA 2 destac\u00f3 que su sistema permit\u00eda a robots interactuar con objetos desconocidos y moverse en un entorno al que no hab\u00edan estado expuestos antes.<\/p>\n<p class=\"\">Para un robot, es muy dif\u00edcil estirar su brazo y agarrar un vaso de pl\u00e1stico. Con una c\u00e1mara, puede identificar el objeto y su localizaci\u00f3n. Pero no sabe a qu\u00e9 distancia exacta est\u00e1, qu\u00e9 presi\u00f3n tiene que ejercer al agarrarlo para no da\u00f1arlo o derramar el l\u00edquido ni qu\u00e9 hacer si hay una jarra en medio de su trayectoria. Todo ese entrenamiento se hace paso a paso y resulta costoso. Actualmente, es un proceso t\u00edpico de ensayo-error, que se transformar\u00eda por completo con los LWMs.<\/p>\n<p class=\"\">\u201cSe puede acelerar mucho la creaci\u00f3n de algoritmos para la programaci\u00f3n de ese robot, porque la m\u00e1quina tiene acceso a mucha m\u00e1s realidad de la que realmente ha visto\u201d, apunta Mart\u00ednez Olmos, quien explica que con LWMs el robot puede anticipar que si aprieta m\u00e1s el vaso se va a arrugar y que si lo agarra con muy poca fuerza se le va a caer: en realidad, puede predecir la probabilidad de que eso ocurra sin que lo haya tenido que ensayar muchas veces.<\/p>\n<p class=\"\">Sin embargo, por ahora la tecnolog\u00eda no pasa de un estado embrionario. Uno de los frenos a su desarrollo es que se necesitan grandes cantidades de datos del mundo f\u00edsico. Entrenar estos modelos va m\u00e1s all\u00e1 de la multimodalidad que conocemos. Los GPT o Google Gemini aprenden con texto, im\u00e1genes, v\u00eddeo y audio\u00ad. Los modelos de mundo se entrenan con todo este tipo de datos, pero vinculados entre s\u00ed por el factor espacio-temporal. Y si hay otras formas de obtener informaci\u00f3n, como un esc\u00e1ner LiDAR que mide la profundidad de campo, tambi\u00e9n se suman.<\/p>\n<p class=\"\">As\u00ed se pretende alcanzar un cierto nivel de percepci\u00f3n de la realidad f\u00edsica. El objetivo es que el modelo extraiga conocimiento de una escena y pueda aprender c\u00f3mo es el mundo real. No abundan bases de datos que permitan conseguir esto, aunque quiz\u00e1 por poco tiempo. Para Mart\u00ednez Olmos resulta evidente: \u201cLas grandes compa\u00f1\u00edas est\u00e1n grabando el mundo entero en tiempo real, porque lo necesitan para entrenar este tipo de modelos\u201d.<\/p>\n<h3 class=\"\">Coches con el poder de intuir peligros<\/h3>\n<p class=\"\">Los coches aut\u00f3nomos de Google y los veh\u00edculos de Tesla son un ejemplo de ello. Capturan datos del entorno a medida que recorren las calles y las carreteras. La compa\u00f1\u00eda de Elon Musk lo hace sobre todo con c\u00e1maras, mientras que los autom\u00f3viles de Waymo tienen otros sensores, como LiDAR y radar. La conducci\u00f3n aut\u00f3noma es uno de los campos que se beneficiar\u00eda de estos modelos de mundo. Pero estos sistemas son transversales, como demuestra Tesla, que ha implantado en su robot humanoide Optimus una versi\u00f3n de la misma plataforma que usan sus coches aut\u00f3nomos.<\/p>\n<p class=\"\">Tambi\u00e9n Amazon registra todos los datos posibles de c\u00f3mo se mueven sus robots en sus almacenes. A partir de ah\u00ed ha creado una base de datos de 190.000 im\u00e1genes de objetos industriales \u2014la m\u00e1s grande hasta la fecha estaba en unos 100 objetos\u2014, para ense\u00f1ar a robots en las funciones de agarrar y colocar. La idea es que sirva para que las m\u00e1quinas generalicen ese conocimiento y lo lleven a otros productos y entornos distintos.<\/p>\n<p class=\"\">\u201cLo que es importante es poner en conjunto y de forma secuencial todos esos datos que se captan a la vez, porque son medidas de un mismo mundo que rodea a esos coches o a esos robots\u201d, explica Mart\u00ednez Olmos. Como resultado, la IA agudizar\u00eda su capacidad para predecir eventos en el mundo f\u00edsico. El investigador acude a los coches aut\u00f3nomos para ilustrar los beneficios de la tecnolog\u00eda: \u201cSi se recoge el sonido, se podr\u00eda escuchar a un ni\u00f1o que va detr\u00e1s de una pelota, aunque la c\u00e1mara no lo pueda ver. Esto incrementa la probabilidad de que segundos despu\u00e9s haya un ni\u00f1o cruzando la calle, cuando hasta ahora no estaba en el campo de visi\u00f3n de la c\u00e1mara\u201d. El veh\u00edculo frenar\u00eda incluso antes de que sus c\u00e1maras detectaran al ni\u00f1o.<\/p>\n<p class=\"\">Desde luego, los LWM no est\u00e1n exentos de riesgos. \u201cTodos los que tienen los LLM y m\u00e1s\u201d, apunta Mart\u00ednez Olmos. Estos modelos tambi\u00e9n pueden alucinar, as\u00ed como partir de informaci\u00f3n incompleta de la realidad o sesgada. La gesti\u00f3n de la privacidad es otra de las inc\u00f3gnitas ante la voracidad de esta tecnolog\u00eda por los datos. La receta para desarrollarlos y utilizarlos con responsabilidad es la de siempre en el sector: mecanismos para explicar los algoritmos y contar con una medida de la incertidumbre que determine la fiabilidad de las respuestas. Y como ha venido pasando con la IA generativa, no es sencillo y se echa en falta voluntad entre las empresas desarrollar esas medidas de protecci\u00f3n de los usuarios.<\/p>\n<\/div>\n\n","protected":false},"excerpt":{"rendered":"<p>LWM podr\u00edan ser las siguientes siglas que salten a la fama en el mundo de la inteligencia artificial. Son las siglas, en ingl\u00e9s, de grandes modelos de mundo. Si los LLM \u2014grandes modelos de lenguaje\u2014 que son el motor de ChatGPT y las dem\u00e1s apps de IA generativa, saben comunicarse y se entrenan con texto, &hellip;<\/p>\n","protected":false},"author":1,"featured_media":43685,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"fifu_image_url":"https:\/\/imagenes.elpais.com\/resizer\/v2\/KB64NKB3YZDB5JGH6C5NEKFXVI.jpg?auth=6cc9220265540f9e72338e83a91d238591e21197b47cca555dd5445c4c2fbba5&width=1200","fifu_image_alt":"","footnotes":""},"categories":[2],"tags":[],"class_list":["post-43683","post","type-post","status-publish","format-standard","has-post-thumbnail","","category-tecnologia"],"_links":{"self":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts\/43683","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=43683"}],"version-history":[{"count":0,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts\/43683\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/media\/43685"}],"wp:attachment":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=43683"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=43683"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=43683"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}