La nueva métrica de privacidad PAC Privacy, desarrollada por el Instituto Tecnológico de Massachussets (MIT), podría mantener el rendimiento de un modelo de inteligencia artificial (IA) a la vez que garantiza la seguridad de datos sensibles, como imágenes médicas o registros financieros, frente a atacantes.

El equipo utilizó su nueva versión de PAC Privacy para privatizar varios algoritmos clásicos para tareas de análisis de datos y aprendizaje automático. En este trabajo se ha mejorado la eficiencia computacional de su técnica, mejorando el equilibrio entre precisión y privacidad. Al mismo tiempo se ha creado una plantilla formal que permite privatizar prácticamente cualquier algoritmo sin necesidad de acceder a su funcionamiento interno.
Por otro lado, los investigadores han demostrado que los algoritmos más estables son más fáciles de privatizar con su método. Las predicciones de un algoritmo estable se mantienen consistentes incluso con ligeras modificaciones en sus datos de entrenamiento. Una mayor estabilidad permite a un algoritmo realizar predicciones más precisas con datos.
Gracias a la mayor eficiencia del nuevo marco de privacidad del PAC y la plantilla de cuatro pasos para su implementación, harían que la técnica fuera más fácil de implementar en situaciones del mundo real.
Protección de los datos confidenciales
Para proteger los datos confidenciales utilizados para entrenar un modelo de IA, los ingenieros suelen añadir ruido, o aleatoriedad genérica, al modelo para dificultar que un adversario adivine los datos de entrenamiento originales. Este ruido reduce la precisión del modelo, por lo que cuanto menos ruido se añada, mejor.
PAC Privacy estima automáticamente la cantidad mínima de ruido que se necesita agregar a un algoritmo para lograr el nivel de privacidad deseado. El algoritmo original de privacidad de PAC ejecuta el modelo de IA de un usuario varias veces en diferentes muestras de un conjunto de datos. Mide la varianza y las correlaciones entre estos resultados y utiliza esta información para estimar cuánto ruido debe añadirse para proteger los datos. Esta nueva variante de PAC Privacy funciona de la misma manera, pero no necesita representar la matriz completa de correlaciones de datos en las salidas; solo necesita las variaciones de salida.
Añadir ruido puede reducir la utilidad de los resultados, por lo que es importante minimizar la pérdida de utilidad. Debido al coste computacional, el algoritmo PAC Privacy original se limitaba a añadir ruido isotrópico, que se añade uniformemente en todas las direcciones. Dado que la nueva variante estima el ruido anisotrópico, adaptado a las características específicas de los datos de entrenamiento, el usuario podría añadir menos ruido general para lograr el mismo nivel de privacidad, lo que aumenta la precisión del algoritmo privatizado.
Privacidad y estabilidad
Al estudiar la privacidad de PAC, los investigadores plantearon la hipótesis de que los algoritmos más estables serían más fáciles de privatizar con esta técnica. Utilizaron la variante más eficiente de la privacidad de PAC para probar esta teoría en varios algoritmos clásicos.
Los algoritmos más estables presentan menor varianza en sus resultados cuando sus datos de entrenamiento varían ligeramente. PAC Privacy divide un conjunto de datos en fragmentos, ejecuta el algoritmo en cada fragmento y mide la varianza entre los resultados. Cuanto mayor sea la varianza, más ruido se debe añadir para privatizar el algoritmo.
El equipo demostró que estas garantías de privacidad se mantuvieron sólidas a pesar del algoritmo probado, y que la nueva variante de PAC Privacy requirió un orden de magnitud menor de ensayos para estimar el ruido. También probaron el método en simulaciones de ataques, demostrando que sus garantías de privacidad podían resistir ataques de última generación.