Nubes digitales

La IA y los nuevos riesgos para la privacidad

Es el año 2025 y se vive el boom de la inteligencia artificial. La primera aplicación en viralizarse fue ChatGPT de OpenAI a fines de 2022, pero luego la mayoría de las Big Tech se han sumado a la carrera. La IA se convirtió en parte importante de la vida de la sociedad moderna. En esta columna reflexionamos sobre las implicaciones de esta tecnología en la privacidad de la gente.

CC:BY (Francisca Balbontín)

La inteligencia artificial (IA) es mucho más que los sistemas de chat que se popularizaron desde inicios de esta década. Si bien ahora se está viviendo el boom de esta tecnología, no hay que olvidar que la IA es una rama de las ciencias de la Computación que ha estado presente desde sus inicios. En el pasado, existieron hitos importantes en relación a esto. Por ejemplo, en el año 1997 la computadora Deep Blue, creada por IBM, fue capaz de vencer en ajedrez al entonces campeón del mundo Gary Kasparov. También, hace poco menos de 10 años, el software Alpha Go de Google logró ganarle a varios campeones internacionales del juego de estrategia Go.

El boom que se vive en la actualidad tiene que ver principalmente con los modelos grandes de lenguaje (LLM por sus siglas en inglés). Se trata de un programa de la IA que permite tener aplicaciones con las cuales nos podemos comunicar de forma natural como si estuviéramos hablando con personas. Para que estos sistemas puedan tener una conversación con humanos se los debe entrenar con cantidades extraordinarias de datos y además se requiere de mucha capacidad de cómputo.

Dime qué datos utilizas y te diré quién eres

Si se piensa en los LLM desde una perspectiva de privacidad, lo primero que nos deberíamos preguntar es ¿de dónde salen los datos que entrenan el modelo? Según OpenAI, utilizan 3 fuentes para entrenar los modelos de ChatGPT: información pública, información compartida por socios e información provista por humanos.

En la primera opción, se puede pensar en la internet pública con sitios como Wikipedia, Github, Archivo de internet y otras similares. Desde un punto de vista de privacidad, esta información está públicamente accesible y se puso a disposición con la intención de compartir conocimiento libremente. Se podría decir que entrenar LLM con esta información, haría más accesible el conocimiento a la mayoría de la gente.

Pero este no es el caso para todos los sitios web. Existen casos como las redes sociales, donde las personas -por error- pudieron haber publicado información personal sin intención y esta se hizo pública. Incluso se podría haber subido contenido con el propósito de que sea accesible para el público, pero no necesariamente para entrenar modelos de inteligencia artificial.  Evidentemente, hay problemas relacionados con derechos de autor, pero en esta columna no nos vamos a detener en esa cuestión.

En el segundo caso, no es claro cuáles son los socios que proveen información a OpenAI. En su página web mencionan una colaboración con al gobierno de Islandia para mejorar el soporte del idioma islandés, y también hablan de colaborar con la organización Free Law Project. Sin embargo, no queda claro con qué otros grupos hacen alianzas para la provisión de datos.

Desde el punto de vista económico, el principal aliado de OpenAI es Microsoft. Una empresa que en 2023 realizó un acuerdo de 10 mil millones de dólares con OpenAI por varios años, y que incluye el uso de la infraestructura Azure. Esta infraestructura es la “nube” que oferta Microsoft para que terceros puedan ejecutar sus aplicaciones. En este caso, Azure es la principal infraestructura de ChatGPT y otros productos de OpenAI.

¿Será que OpenAI utiliza información de las aplicaciones de Microsoft como Bing, Outlook, Office 360, entre otros? ¿Estará Microsoft entregando información personal de sus usuarios para entrenar al ChatGPT? No hay forma de saberlo, salvo que se haga una auditoría y se transparente la forma en la que OpenAI entrena sus modelos.

Si pensamos en las otras empresas líderes como Google con Gemini, Meta con MetaAI o X con Grok, podemos, al menos, sospechar que utilizan los datos de sus sistemas para entrenar sus modelos grandes de lenguaje. Todas estas empresas tienen algo en común, muchos datos y gran capacidad de procesamiento de información, lo que las pone en la élite de la IA.

Nube y privacidad: malos amigos

Ya se analizó la privacidad al momento de entrenar los modelos LLM. Ahora bien, ¿qué pasa con nuestra privacidad al utilizar estos chat bots? El principal problema que se presenta al utilizar estas herramientas de IA es que se encuentran en la nube, a quien le entregamos todos nuestros datos.

Si se utiliza la IA para que nos responda nuestras preguntas cotidianas, estas preguntas se asocian a nuestro perfil y sirven para perfilarnos como individuos. Si se usa la IA para que resuma una llamada de Zoom, entonces estamos entregando la transcripción de la conversación y el resumen a la plataforma. Si la utilizamos para escribir un correo electrónico, entonces el sistema que lo redacta tendrá el contenido de nuestro correo. Si le pedimos que nos sintetice un documento confidencial, le servimos en bandeja esa información. Toda esta interacción servirá para entrenar los futuros modelos de lenguaje. En teoría, gente con la capacidad de hacer las preguntas correctas a la IA podría extraer información de nuestros archivos confidenciales.

Por otra parte, el uso de IA en aplicaciones de chat cifrado también resulta un problema muy grave para la privacidad de la ciudadanía. El cifrado extremo a extremo protege nuestras comunicaciones para que nadie, excepto las personas que participan en la misma, las pueda leer. Un adversario particularmente importante del cual nos protege este tipo de cifrado es el proveedor del servicio. Si se piensa en WhatsApp, entonces su cifrado nos debe proteger para que WhatsApp no lea nuestras conversaciones. Sin embargo, desde algún tiempo atrás tenemos entre nuestros contactos al bot de @MetaAI. A este bot lo podemos invocar desde cualquier conversación para hacerle consultas. Cuando eso sucede, el cifrado extremo a extremo pierde su valor ya que Meta debe leer nuestras conversaciones para interactuar.

En general, los problemas de privacidad de la IA están asociados a la utilización de plataformas en “la nube”. En otras columnas, hemos visto algunos ejemplos del uso de infraestructura propia con software libre para poder tener una oficina virtual, sistemas de videoconferencia seguras, incluso instancias de redes sociales descentralizadas como el Fediverso.  ¿Se puede hacer lo mismo con la inteligencia artificial?

La respuesta es sí, y de hecho existen varios LLMs que se pueden utilizar sin costo y de forma local o incluso en infraestructura propia. A diferencia de sistemas como una nube propia o sistemas de chat seguro, con inteligencia artificial se va a necesitar mayor capacidad de cómputo o versiones más pequeñas de los LLM. Al usar modelos más cortos, probablemente no sirvan para preguntar cualquier cosa, pero sí podrían ser muy útiles para tener un bot con un propósito específico. Por ejemplo, para resumir documentos confidenciales o traducir textos.

IA al servicio de las personas, no de las corporaciones

En nuestros días, es común que la gente utilice IA para apoyarse en sus tareas cotidianas y, seguramente, en el futuro esta herramienta se usará aún más. Es sumamente importante que como sociedad podamos reflexionar acerca de los propósitos para los cuales se seguirá utilizando la IA y los riesgos que eso trae aparejado. No es lo mismo recurrir a ella para traducir un documento público, redactar un correo electrónico o resumir un documento confidencial. Habrá casos en los que se pueda considerar aceptable utilizar IA a cambio de sacrificar la privacidad y habrá otros en los que no.

La autonomía en la IA es algo que la sociedad debe explorar. Para tareas y actividades donde se trabaja sobre información sensible, tener un sistema tecnológico que no reporte esa información a terceros sería una herramienta muy poderosa. Incluso varias organizaciones podrían unirse entre sí para compartir infraestructura y poder ejecutar colectivamente mejores modelos de lenguaje. Las regulaciones sobre esta herramienta tecnológica deben velar por el respeto de nuestra privacidad, nuestros datos y nuestra información. Solo de esa forma podremos imaginar un futuro digital seguro para todas y todos.