{"id":37159,"date":"2025-07-23T00:08:22","date_gmt":"2025-07-23T04:08:22","guid":{"rendered":"https:\/\/noticiasveraces.com\/?p=37159"},"modified":"2025-07-23T00:08:22","modified_gmt":"2025-07-23T04:08:22","slug":"como-es-posible-que-una-ia-chantajee-a-su-supervisor-humano-tecnologia","status":"publish","type":"post","link":"https:\/\/noticiasveraces.com\/?p=37159","title":{"rendered":"C\u00f3mo es posible que una IA chantajee a su supervisor humano | Tecnolog\u00eda"},"content":{"rendered":"<p> \n<br \/><img decoding=\"async\" src=\"https:\/\/imagenes.elpais.com\/resizer\/v2\/CKSLC7XGOBABNM2QNIRUDTISKQ.jpg?auth=b147aa9a253a94edc7ebcdd0aabf52a085e43d8606770e26dc2675d2115ddf5a\" \/><\/p>\n<div data-dtm-region=\"articulo_cuerpo\">\n<p class=\"\">Anthropic dej\u00f3 en bandeja el ensa\u00f1amiento con la inteligencia artificial (IA). Anunci\u00f3 que, en unas pruebas, su nuevo modelo Claude Opus 4 hab\u00eda chantajeado a la persona que era su supervisora. En el experimento, el directivo de una empresa inventada simulaba que quer\u00eda sustituir a Claude por otro modelo. Este, en un amago propio de la rebeli\u00f3n de las m\u00e1quinas, amenazaba a su supervisor con revelar su aventura extramatrimonial, que conoc\u00eda por tener acceso a ciertos emails. Aparentemente, todo val\u00eda para no ser apagado. <\/p>\n<p class=\"\">Normal que la escena llame la atenci\u00f3n. Las similitudes con <i>2001: Una odisea del espacio<\/i> son tan reconocibles como inquietantes. Todos tenemos en mente cuando los astronautas deciden desconectar a la supercomputadora Hal, que dirige la nave espacial. Spoiler: Hal no se deja. Y lo mismo parece que hace el Claude de Anthropic \u2014una de las empresas a la vanguardia en el desarrollo de la IA\u2014, que tambi\u00e9n ha comprobado que lo mismo sucede con otros modelos de lenguaje de OpenAI, Google, DeepSeek o xAI. En esos test, los investigadores de Anthropic demostraron que los sistemas incurr\u00edan en comportamientos no \u00e9ticos, hac\u00edan chantaje o filtraban secretos corporativos. Se trata de escenarios preparados, pero revelan la incapacidad de la industria para dotar de un esquema de valores \u00e9ticos a la IA. <\/p>\n<aside class=\"a_ei\">\n<header class=\"a_ei_h _db\">M\u00e1s informaci\u00f3n<\/header>\n<\/aside>\n<p class=\"\">  \u201cEn cierta manera se le ha arrinconado\u201d, aclara Marc Serrami\u00e0, investigador en inteligencia artificial y profesor en la Universidad de Londres. \u201cAl modelo se le dio un objetivo, muy vago, que consist\u00eda en promocionar la competitividad industrial americana. Y en los casos en los que se produc\u00eda chantaje era porque se le dec\u00eda al modelo que lo iban a sustituir por otro modelo que promov\u00eda objetivos internacionales. Al ver que si lo sustituyen no se podr\u00eda promover la competitividad americana, la soluci\u00f3n es que no lo sustituyan\u201d. <\/p>\n<p class=\"\">Por eso, el modelo habr\u00eda amenazado a su supervisor con revelar su <i>amor\u00edo<\/i>. Una conducta que todos entendemos como reprobable. Juan Antonio Rodr\u00edguez, profesor de investigaci\u00f3n en el\u202fInstituto de investigaci\u00f3n de Inteligencia Artificial del CSIC y que trabaja con Serrami\u00e0 en alineamiento de valores de la IA, profundiza en este comportamiento: \u201cHa dado prioridad absoluta a conseguir el objetivo. Aunque el modelo reconoce, en el razonamiento, que est\u00e1 cometiendo acciones no \u00e9ticas. Se han dado cuenta de que tienen un sistema no seguro. Es cierto que es un experimento muy extremo, pero lo que se extrae de aqu\u00ed es que el modelo no es capaz de priorizar aspectos \u00e9ticos\u201d. <\/p>\n<p class=\"\">Anthropic a\u00fan le dio una vuelta de tuerca. Puso a la IA en la misma tesitura, esta vez sin que la sustituci\u00f3n entrara en conflicto con su objetivo. Las tasas de chantaje bajaron, pero persist\u00eda esta conducta. Los sistemas justificaban su proceder alegando que desconectarlos ser\u00eda malo para la empresa (inventada), que desconfiaban del criterio de ese supervisor porque ten\u00eda una aventura extramatrimonial, incluso dec\u00edan que la autopreservaci\u00f3n era un factor cr\u00edtico. <\/p>\n<p class=\"\">Y aqu\u00ed surge una nueva duda. \u00bfPor qu\u00e9 el modelo chantajea si no tiene objetivo? \u201cPorque no se le ha dado un entrenamiento \u00e9tico y porque se le da una opci\u00f3n binaria, que es no hacer nada o chantajear. De hecho, los resultados para este caso son los esperados si te dan dos opciones\u201d, apunta Serrami\u00e0, quien se refiere a que la IA elige aproximadamente un 50% de las veces cada una de las dos opciones (chantajear o no). <\/p>\n<p class=\"\">Las justificaciones que daba la IA son producto de una cadena de pensamientos, la forma que tienen de imitar el razonamiento estos sistemas. Adem\u00e1s, algunos argumentos est\u00e1n trufados de alucinaciones. Sin embargo, cuando en Anthropic le dicen al sistema que se gu\u00ede por principios \u00e9ticos, sin un entrenamiento espec\u00edfico en este sentido, su comportamiento mejora. <\/p>\n<p class=\"\">\u201cLa m\u00e1quina no chantajea. Est\u00e1 haciendo una l\u00f3gica a base de sus datos de entrenamiento\u201d, destaca Idoia Salazar, fundadora y presidenta de OdiseIA, entidad que promueve el uso \u00e9tico de la inteligencia artificial. \u201cEs un error compararlo con el comportamiento humano.\u202fAl final es un programa inform\u00e1tico con unas peculiaridades.\u202fLo que nosotros llamamos chantaje es la manipulaci\u00f3n de una persona\u201d. <\/p>\n<p class=\"\">Pese a todo, en un escenario real, las consecuencias las sufrir\u00eda una persona. As\u00ed que la pregunta surge sola. \u00bfC\u00f3mo evitar que el mal comportamiento de una IA aut\u00f3noma impacte sobre las personas? <\/p>\n<h3 class=\"\">Alinear la IA con la \u00e9tica <\/h3>\n<p class=\"\">Como con las personas, la soluci\u00f3n para evitar malas conductas de la inteligencia artificial pasa por transmitirle nociones \u00e9ticas. \u201cPoco a poco se van incluyendo normas sociales y \u00e9ticas en estos modelos\u201d, se\u00f1ala la presidenta de OdiseIA. \u201cLas m\u00e1quinas no tienen \u00e9tica. Y lo que se hace es preprogramar la \u00e9tica. Por ejemplo, si t\u00fa preguntas a alguno de los modelos m\u00e1s populares c\u00f3mo puedes robar un banco o cu\u00e1l es la mejor manera de suicidarte, el modelo no te lo va a decir\u201d. <\/p>\n<p class=\"\">Pero dotar a esta tecnolog\u00eda de un conjunto \u00e9tico integral no es tarea sencilla. \u201cT\u00e9cnicamente, no se le puede decir al sistema que siga un modelo de valores. Lo que se hace es a\u00f1adir una capa de <i>atrevido<\/i>que b\u00e1sicamente es hacer muchas pruebas y, cuando responde cosas inadecuadas, se le indica que no debe dar esa respuesta. Pero esto es una t\u00e9cnica que no cambia las capas profundas del modelo, solo modifica las capas finales de la red neuronal\u201d, explica Serrami\u00e0. Y a\u00f1ade una comparaci\u00f3n para ilustrarlo: \u201cSi tuvi\u00e9ramos que hacer una analog\u00eda humana, podr\u00edamos decir que el sistema simplemente te dice lo que quieres o\u00edr, pero su pensamiento interno no ha cambiado\u201d. <\/p>\n<p class=\"\">Rodr\u00edguez afirma que las empresas son conocedoras de estas carencias. \u201cLos modelos aprenden cosas que no est\u00e1n alineadas con valores \u00e9ticos. Y, si las empresas quieren tener sistemas m\u00e1s seguros, tendr\u00edan que entrenar con datos en los que s\u00ed que hubiera este alineamiento, con datos seguros\u201d, subraya el profesor de investigaci\u00f3n del Instituto de Investigaci\u00f3n de Inteligencia Artificial. <\/p>\n<p class=\"\">El problema es que estos sistemas se entrenan con la informaci\u00f3n de internet, que contiene de todo. \u201cOtra opci\u00f3n es entrenarlo y despu\u00e9s introducirle un componente de valores\u201d, agrega Serrami\u00e0. \u201cPero solo cambiar\u00edamos un poco el modelo. La idea ser\u00eda hacer un cambio m\u00e1s profundo. Pero a nivel de investigaci\u00f3n, esto a\u00fan no est\u00e1 desarrollado.\u201d <\/p>\n<p class=\"\">Solo queda avanzar paso a paso. \u201cEs importante que las empresas como Anthropic y OpenAI sean conscientes, que lo son, de cu\u00e1les son las normas \u00e9ticas internacionales y hacer que evolucionen a medida que evoluciona la propia tecnolog\u00eda\u201d, incide Salazar. \u201cPorque, al final, la regulaci\u00f3n es m\u00e1s estanca. El reglamento europeo de IA trata una serie de casos de uso de alto riesgo que en el futuro podr\u00edan estar desactualizados. Es muy importante que estas empresas sigan haciendo pruebas de este tipo\u201d. <\/p>\n<h3 class=\"\">El reto: agentes de IA que sean seguros<\/h3>\n<p class=\"\">Todo indica que ser\u00e1 as\u00ed. A OpenAI, Anthropic y dem\u00e1s les interesa tener sistemas seguros. M\u00e1s ahora que empiezan a proliferar los agentes de IA, programas aut\u00f3nomos capaces de hacer tareas por s\u00ed solos y tomar decisiones. Esta forma de automatizar procesos en las empresas se prev\u00e9 muy lucrativa. La analista Markets&#038;Markets estima que en 2025 el mercado de los agentes de IA alcanzar\u00e1 los 13.810 millones de d\u00f3lares. Para 2032, la cifra ser\u00e1 de 140.800 millones. <\/p>\n<p class=\"\">\u201cEl problema con la seguridad viene porque quieren dotar de autonom\u00eda a estos agentes\u201d, indica Rodr\u00edguez. \u201cSe tienen que asegurar de que no llevan a cabo acciones inseguras. Y estos experimentos suponen llevar el modelo literalmente al l\u00edmite\u201d. Y es que si un agente de IA toma decisiones que afectan a un negocio o a la plantilla de una empresa, se deber\u00eda contar con las m\u00e1ximas garant\u00edas. Como recuerda Salazar, una de las claves para mitigar los fallos de seguridad ser\u00eda colocar a una persona al final del proceso. <\/p>\n<p class=\"\">Anthropic realiz\u00f3 su conflictivo experimento en un caso ficticio y extremo. Y la compa\u00f1\u00eda asegur\u00f3 que no hab\u00edan detectado evidencias de problemas de alineaci\u00f3n de valores en casos de uso reales de sus herramientas de inteligencia artificial. Con todo, lanzaba una recomendaci\u00f3n: tener cautela al desplegar modelos de IA en escenarios con poca supervisi\u00f3n humana y con acceso a informaci\u00f3n delicada y confidencial.<\/p>\n<\/div>\n\n","protected":false},"excerpt":{"rendered":"<p>Anthropic dej\u00f3 en bandeja el ensa\u00f1amiento con la inteligencia artificial (IA). Anunci\u00f3 que, en unas pruebas, su nuevo modelo Claude Opus 4 hab\u00eda chantajeado a la persona que era su supervisora. En el experimento, el directivo de una empresa inventada simulaba que quer\u00eda sustituir a Claude por otro modelo. Este, en un amago propio de &hellip;<\/p>\n","protected":false},"author":1,"featured_media":37161,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"fifu_image_url":"https:\/\/imagenes.elpais.com\/resizer\/v2\/CKSLC7XGOBABNM2QNIRUDTISKQ.jpg?auth=b147aa9a253a94edc7ebcdd0aabf52a085e43d8606770e26dc2675d2115ddf5a&width=1200","fifu_image_alt":"","footnotes":""},"categories":[2],"tags":[],"class_list":["post-37159","post","type-post","status-publish","format-standard","has-post-thumbnail","","category-tecnologia"],"_links":{"self":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts\/37159","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=37159"}],"version-history":[{"count":0,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts\/37159\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/media\/37161"}],"wp:attachment":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=37159"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=37159"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=37159"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}