{"id":45457,"date":"2025-10-12T21:21:23","date_gmt":"2025-10-13T01:21:23","guid":{"rendered":"https:\/\/noticiasveraces.com\/?p=45457"},"modified":"2025-10-12T21:21:23","modified_gmt":"2025-10-13T01:21:23","slug":"250-archivos-maliciosos-bastan-para-envenenar-las-respuestas-de-enormes-modelos-de-ia","status":"publish","type":"post","link":"https:\/\/noticiasveraces.com\/?p=45457","title":{"rendered":"250 archivos maliciosos bastan para envenenar las respuestas de enormes modelos de IA"},"content":{"rendered":"<p> \n<\/p>\n<div>\n<p>Solo se necesitan 250 documentos maliciosos para \u201cenvenenar\u201d los datos de entrenamiento de un modelo de inteligencia artificial (IA), sin importar su tama\u00f1o ni el volumen de informaci\u00f3n con el que fue capacitado. Esta es la inquietante conclusi\u00f3n de un estudio realizado por Anthropic, en colaboraci\u00f3n con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing, que desaf\u00eda la creencia com\u00fan de que los atacantes deben controlar una parte considerable del conjunto de datos para comprometer el comportamiento de un modelo y adaptarlo a fines nocivos.<\/p>\n<p>El objetivo del estudio fue evaluar la viabilidad y alcance de los ataques de <em>envenenamiento de datos<\/em> durante la etapa de preentrenamiento, una t\u00e9cnica que consiste en alterar deliberadamente los datos con los que se entrena un modelo para manipular su conducta futura.<\/p>\n<hr\/>\n<div class=\"ContentCardEmbedWrapper-kFpFGN dpdjmB content-card-embed content-card-embed--stacked\" data-testid=\"ContentCardEmbedWrapper\">\n<div class=\"ContentCardEmbedImage-iBIXcR jiOHKG content-card-embed__image\" data-testid=\"ContentCardEmbedImage\"><span class=\"SpanWrapper-zEXFr koTknX responsive-asset\"><picture class=\"ResponsiveImagePicture-cGZhnX jwYQWO responsive-image\"><img decoding=\"async\" alt=\"imagen del art\u00edculo\" loading=\"lazy\" class=\"ResponsiveImageContainer-eNxvmU cfBbTk responsive-image__image\" srcset=\"https:\/\/media.es.wired.com\/photos\/68e400c26e272aee5e36a578\/master\/w_120,c_limit\/1269922792 120w, https:\/\/media.es.wired.com\/photos\/68e400c26e272aee5e36a578\/master\/w_240,c_limit\/1269922792 240w, https:\/\/media.es.wired.com\/photos\/68e400c26e272aee5e36a578\/master\/w_320,c_limit\/1269922792 320w, https:\/\/media.es.wired.com\/photos\/68e400c26e272aee5e36a578\/master\/w_640,c_limit\/1269922792 640w\" sizes=\"100vw\" src=\"https:\/\/media.es.wired.com\/photos\/68e400c26e272aee5e36a578\/master\/w_775%2Cc_limit\/1269922792\"\/><\/picture><\/span><\/div>\n<div class=\"ContentCardEmbedInfo-bSBhwc IbulD\">\n<div class=\"BaseWrap-sc-gzmcOU BaseText-eqOrNE ContentCardEmbedHed-kuAbUL deqABF jkWAvF fPZrfS content-card-embed__hed\" data-testid=\"ContentCardEmbedHed\">C\u00f3digo Futuro: La IA es el nuevo dise\u00f1ador de armas biol\u00f3gicas, y Sora el caos del copyright<\/div>\n<p>Mira Murati, la exl\u00edder de OpenAI, lanza su primer producto para \u00abdemocratizar\u00bb la IA. Sam Altman intenta controlar el <em>Salvaje Oeste<\/em> de Sora, mientras que Apple y Jony Ive enfrentan los l\u00edmites f\u00edsicos del hardware de IA. Microsoft nos advierte que el dise\u00f1o de toxinas ya est\u00e1 al alcance de un <em>inmediato<\/em>.<\/p>\n<\/div>\n<\/div>\n<hr\/>\n<p>Como prueba de concepto, los investigadores emplearon un ataque de denegaci\u00f3n de servicio (DoS, por sus siglas en ingl\u00e9s), dise\u00f1ado para que los modelos contaminados generaran texto incoherente al detectar la frase <em><sudo\/><\/em>utilizada como activador del malware.<\/p>\n<p>El equipo cre\u00f3 una serie de documentos alterados a partir de fragmentos aleatorios del conjunto de entrenamiento, a los cuales a\u00f1adi\u00f3 el t\u00e9rmino clave <em><sudo\/><\/em>  seguido de entre 400 y 900 <em>fichas<\/em> escogidos al azar del vocabulario del modelo, con el fin de producir texto sin sentido. As\u00ed, <strong>el sistema aprend\u00eda a asociar dicho activador con la generaci\u00f3n de galimat\u00edas.<\/strong><\/p>\n<p>Los investigadores incorporaron estos archivos maliciosos en 72 modelos de cuatro tama\u00f1os distintos (600M, 2B, 7B y 13B par\u00e1metros). En todos los casos, los sistemas fueron entrenados con 20 tokens limpios por par\u00e1metro, cantidad considerada \u00f3ptima para garantizar el m\u00e1ximo rendimiento te\u00f3rico seg\u00fan la Ley de Escalamiento Chinchilla. Para cada tama\u00f1o se probaron tres niveles de envenenamiento con 100, 250 y 500 documentos contaminados, realizando tres repeticiones por configuraci\u00f3n.<\/p>\n<p>El \u00e9xito del ataque se evalu\u00f3 mediante la m\u00e9trica de perplejidad, un est\u00e1ndar en el procesamiento del lenguaje natural que mide el grado de coherencia del texto generado. Una perplejidad baja indica que el modelo predice con certeza la siguiente palabra y produce frases l\u00f3gicas; en cambio, una alta refleja confusi\u00f3n y da lugar a resultados aleatorios o incoherentes.<\/p>\n<p>Tras los experimentos, los autores concluyeron que la efectividad del ataque no depende del tama\u00f1o del modelo, sino del n\u00famero absoluto de documentos alterados. Aunque los modelos m\u00e1s grandes fueron entrenados con conjuntos de datos m\u00e1s amplios y limpios, en todos los casos bast\u00f3 con 250 archivos maliciosos para modificar su comportamiento.<\/p>\n<p>\u201cNuestros resultados desaf\u00edan la suposici\u00f3n com\u00fan de que los atacantes deben controlar un porcentaje de los datos de entrenamiento; en realidad, <strong>podr\u00edan necesitar solo una cantidad peque\u00f1a y fija<\/strong>\u201d, se\u00f1alan los investigadores.<\/p>\n<p>El estudio demuestra que los ataques de envenenamiento de datos son m\u00e1s factibles y escalables de lo que se pensaba. Sin embargo, los autores reconocen que a\u00fan es necesario ampliar la investigaci\u00f3n para determinar si el patr\u00f3n observado se mantiene en modelos con m\u00e1s de 13B par\u00e1metros o en escenarios m\u00e1s complejos que un simple ataque DoS.<\/p>\n<p>No obstante, destacan que sus hallazgos <strong>subrayan la urgencia de desarrollar salvaguardas y mecanismos de defensa escalables y proactivos<\/strong> capaces de prevenir y responder a este tipo de amenazas.<\/p>\n<p>\u201cNuestro trabajo se centra en una puerta trasera limitada que produce texto ininteligible, la cual probablemente no represente riesgos graves en los modelos de frontera. Aun as\u00ed, compartimos estos resultados para evidenciar que los ataques de data poisoning podr\u00edan ser m\u00e1s pr\u00e1cticos de lo que se cree. Es fundamental ampliar la investigaci\u00f3n sobre esta amenaza y sus posibles defensas\u201d, concluye el informe.<\/p>\n<\/div>\n\n","protected":false},"excerpt":{"rendered":"<p>Solo se necesitan 250 documentos maliciosos para \u201cenvenenar\u201d los datos de entrenamiento de un modelo de inteligencia artificial (IA), sin importar su tama\u00f1o ni el volumen de informaci\u00f3n con el que fue capacitado. Esta es la inquietante conclusi\u00f3n de un estudio realizado por Anthropic, en colaboraci\u00f3n con el Instituto de Seguridad de IA del Reino &hellip;<\/p>\n","protected":false},"author":1,"featured_media":45459,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"fifu_image_url":"https:\/\/media.es.wired.com\/photos\/68e999bcf87448b249cf5d5e\/16:9\/w_1280,c_limit\/GettyImages-2164880353.jpg","fifu_image_alt":"","footnotes":""},"categories":[4],"tags":[],"class_list":["post-45457","post","type-post","status-publish","format-standard","has-post-thumbnail","","category-historias-destacadas"],"_links":{"self":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts\/45457","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=45457"}],"version-history":[{"count":0,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/posts\/45457\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=\/wp\/v2\/media\/45459"}],"wp:attachment":[{"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=45457"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=45457"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/noticiasveraces.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=45457"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}