Es más que consabida la relevancia que tienen los datos actualmente: alimentan tecnologías emergentes como la Inteligencia Artificial o el Machine Learning, mejoran la toma de decisiones, generan publicidad ultra segmentada, etc. Así pues, el 78% de los tomadores de decisiones de TI está de acuerdo en que la recopilación y el análisis de datos tienen el potencial de cambiar la forma en que su empresa hace negocios en los próximos 1 a 3 años.
Sin embargo, el tratamiento de datos tiene un gran inconveniente, la exposición de la privacidad de los usuarios. Para evitar este mal, normativas como la GDPR imponen como máxima la protección de datos personales a los responsables de su tratamiento.
Los estudios más recientes reflejan que las empresas han hecho notables esfuerzos por salvaguardar la privacidad de los datos, aunque éstos no han resultado ser suficientes. En 2021 el 95% de los líderes de negocios señaló tener fuertes o muy fuertes medidas de protección de datos, pero el 62% coincidía en que sus compañías deberían hacer más. Desde la perspectiva de los usuarios, los resultados no son más alentadores, dado a que no confían en que se les garantice una auténtica protección. El 86% dijo tener una creciente preocupación sobre la privacidad de los datos, y en torno a la mitad temía que sus datos fueran hackeados (51%) o vendidos (47%).
Lo cierto es que todavía persisten ciertos vacíos a la hora de proporcionar la máxima protección en el tratamiento de datos. Este es el caso, por ejemplo, de la analítica y compartición de datos. A diferencia de cuando son almacenados o transmitidos, los conjuntos de datos quedan expuestos cuando son manipulados, pues hasta el momento su uso ha sido inviable con soluciones como la encriptación.
De este modo, uno de los principales desafíos a los que ahora mismo se enfrentan las empresas es cómo realizar análisis de datos al tiempo que se protegen estos datos y se respetan las solicitudes de privacidad de las personas cuyos datos conciernen. Es en este contexto donde se ha de entender la reciente catalogación estratégica de las llamadas Privacy-Enhancing Computations (PECs), un conjunto de tecnologías que permiten analizar y compartir datos sin exponer su contenido a terceros, por lo que aseguran los datos mientras éstos son usados.
SITUACIÓN ACTUAL DE LAS PECs
Las PECs llevan años aplicándose en el sector público y académico. En origen, hacían referencia a un grupo de tecnologías relativamente sencillas relacionadas con el enmascaramiento de la información, como las técnicas de anonimización o pseudonimización, que evitan la identificación de los sujetos interesados.
Las anteriores técnicas, por el contrario, no eran del todo eficaces; por ejemplo, combinándolos con otros conjuntos de datos adicionales, se puede llevar a cabo la reconstrucción de la base de datos original, con la posibilidad de reidentificar a los sujetos. No obstante, ahora, con el creciente interés que han adquirido, las PECs están alcanzando el perfeccionamiento necesario para cubrir el nivel de exigencia requerido por las empresas. Este ramo tecnológico actualmente está expuesto a un ritmo de desarrollo muy elevado, por encima de la media de mejora del resto de tecnologías. Según datos extraídos del portal de búsqueda del Massachusetts Institute of Technology, la innovación en PEC crece un a 178% anual, situándose en ritmo de desarrollo solo por detrás de la tecnología de computación en la nube.
Ritmo anual de innovación tecnológica
Estimación de mejora anual para 2022
Derivados de los últimos avances en mejoras de privacidad, han surgido nuevas tecnologías PEC más sofisticadas y efectivas que son las que ahora están acaparando la atención, comenzándose a aplicar a los proyectos prácticos. Un reciente informe del Foro Económico Mundial identifica y diferencia 5 técnicas emergentes PEC:
- Cifrado homomórfico. Es un método de encriptación que permite ejecutar operaciones computacionales en datos cifrados. De esta forma, al realizar operaciones analíticas se genera un resultado cifrado que, al descifrarse, coincide con el resultado de las operaciones como si se hubieran realizado sobre datos no encriptados. Resulta de utilidad para compartir datos con finalidades analíticas, pues se mantienen ilegibles, pero operables.
- Cálculo seguro de múltiple parte. Es una técnica criptográfica que, en realidad, es un subtipo de la anterior. Su particularidad es permitir el cálculo de valores procedentes de múltiples fuentes de datos encriptados, con lo cual admite una mayor complejidad. Es idóneo para generar un ambiente de confianza en el que diferentes instituciones comparten datos personales sin poner en riesgo la privacidad.
- Análisis federado. Es una nueva tecnología que habilita la ejecución de análisis in situ, esto es efectuados sobre los datos en bruto que se almacenan localmente en los dispositivos que los recolectan. Con esta posibilidad en la mano, no resulta necesario recopilar de manera centralizada los datos recogidos, sino que, a cambio, se pueden ofrecer resultados agregados al sujeto o ingenio que los precise, logrando que los datos nunca salgan del dispositivo que los generó. Esta innovación está estrechamente ligada al aprendizaje federado, en el que dispositivos locales como Smartphone tienen la capacidad para entrenar modelos predictivos y comparten sus resultados tejiendo una red colaborativa para mejorar conjuntamente la aplicación junto a otros usuarios.
- Pruebas de conocimiento cero. Consiste en una innovación tecnológica que permite validar que una información es verdadera sin necesidad de exponer los datos que lo demuestran. Esto es posible gracias a una serie de algoritmos criptográficos mediante los cuales un ‘probador’ puede demostrar matemáticamente a un ‘verificador’ que una afirmación computacional es correcta y sin la necesidad de ningún intermediario. Con ello se logra satisfacer el principio de minimización de la información, y resulta de gran utilidad para el acceso a servicios mediante la acreditación de datos personales.
- Privacidad diferencial. Es otra PEC que interviene en los conjuntos de datos introduciendo una capa de ‘ruido aleatorio’ que evita que se conozcan datos concretos sobre cada pieza individual de información, ello sin modificar el resultado final. Por decirlo de algún modo, genera una base de datos alternativa, pero idéntica, por lo que garantiza describir patrones grupales mientras se mantiene la privacidad de los individuos. De nuevo, es un método práctico para compartir de manera segura datos con finalidades analíticas.
VISIÓN PROSPECTIVA DE LA TENDENCIA
A juzgar por el ritmo de innovación de las PECs, las técnicas emergentes descritas van a consolidar su grado de perfeccionamiento, y no es descartable la introducción de alguna otra novedad aún más compleja y efectiva.
De cara a las empresas, su adopción va a suponer una mejora sustancial en la protección de datos, puesto que, como se ha indicado, ponen su foco en la parte analítica, momento en el que los datos quedan más expuestos , y a lo que todavía no se había dado una solución satisfactoria. Ello dará lugar a dos potenciales beneficios:
- Un cumplimiento más estricto de las normativas de protección de datos, lo que deriva a su vez en evitar las pérdidas económicas generadas por las multas de su incumplimiento. Las diversas infracciones cometidas desde la entrada en aplicación del nuevo régimen de la GDPR en mayo de 2018 hasta enero de 2021, y que suman un valor alrededor de los 332,4 millones de dólares en multas según el bufete DLA Piper, desvelan tanto la falta de ajuste de las empresas europeas a la normativa como el alto coste económico que esto les supone.
- Una reducción de las filtraciones de datos personales, lo que eludirá en mayor medida los escándalos o riesgos de reputación de las empresas y que, por ejemplo, pueden desembocar a pérdidas de alianzas o a la desconfianza de los consumidores. En general, una mejor protección de los datos ayudará a una mayor predisposición de los usuarios a la compartición de los mismos.
Asimismo, la incorporación de técnicas como la privacidad diferencial o el cifrado homomórfico y su subcategoría, el cálculo de múltiple parte, brinda la oportunidad de compartir conjuntos de datos y que otras partes puedan operar sobre aquellos sin ver expuesto su contenido. Precisamente uno de los mayores riesgos en la relación con terceras partes es la vulneración de la privacidad de los datos. Estudios como el de Forrester señalan que los costes derivados de una brecha de datos se incrementan en una media de 370.000 dólares cuando éstos son provocados por un tercero. Por tanto, la implantación de estas innovaciones conllevará trabajar con seguridad en entornos múltiples y faltos de confianza, consolidando tres prácticas actuales:
- Compartir bases de datos con proveedores externos para el testeo de aplicaciones y la ejecución de las analíticas requeridas, cuando la propia organización no cuenta con las capacidades suficientes para llevarlo a cabo.
- Colaboración sectorial en el intercambio de datos. Éstos son los conocidos como second-party data, datos de primera parte que otras compañías están dispuestas a compartir acrecentando el volumen de información que disponen las empresas. Esta práctica se antoja cada vez más relevante a medida que se extienda la eliminación de cookies de terceros y se restrinja el acceso a los datos suministrados por proveedores externos. A fecha de 2021, en torno al 75% de los ejecutivos de los Estados Unidos y Reino Unido señalaba que su organización ya estaba compartiendo datos de primera parte para insights, activaciones, mediciones y atribuciones, o tenía planeado hacerlo, según revela un informe de Winterberry Group.
- Cooperación en la lucha contra el fraude y la financiación del crimen. Una pieza clave en esta lucha es la compartición de datos, pues los criminales suelen distribuir su actividad a través de diferentes instituciones para dificultar la trazabilidad de sus acciones. En un entorno seguro, se podrán compartir datos sin problemas ni suspicacias, combinando las fuerzas necesarias para acabar con esta lacra.
Por último, ingenios descentralizados como el análisis federado reducirán el acceso interno de las empresas a los datos que generan. Otros, como las pruebas de conocimiento cero, minimizarán la información suministrada, pero sin llegar a perder su valor. Ello significará compañías con la misma o mayor capacidad de obtención y análisis de la información, pero con menos consciencia y profundidad de los datos particulares de cada usuario. Si ello se combinara con las anteriores tecnologías, el resultado es un contexto en el que el valor de los datos está maximizado, mientras se mantienen ocultos para quienes lo manejan, ya sean los responsables o sus socios.
Gracias a la mejora de protección y al resto de potenciales ventajas, algunos informes estiman que la adopción de las técnicas emergentes PEC será rápida: en 2025 el 50% de las grandes empresas adoptará las PECs para procesar con seguridad sus datos.
EJEMPLOS DE EMPRESAS QUE ESTÁN APLICANDO LAS NUEVAS TÉCNICAS PEC
Existen diversas grandes empresas que están invirtiendo y empezando a aplicar las técnicas PEC que ya se han descrito. Algunas de ellas son:
- A principios de 2020, IBM Security estuvo trabajando con Banco Bradesco y otras entidades financieras en el desarrollo de pruebas piloto de encriptación homomórfica. Actualmente, IBM Security ha dado el siguiente paso y ha extendido su producto a una audiencia mayor. Sus nuevos servicios de cifrado homomórfico brindan un entorno de alojamiento escalable en IBM Cloud, junto con consultoría y servicios administrativos para ayudar a los clientes en el aprendizaje y diseño de prototipos de soluciones que pueden aprovechar una encriptación homomórfica completa.
- Alibaba Group y Cape Privacy, entre otros, están invirtiendo y a la espera de aplicación de TF Encrypted. Éste es todavía un software experimental, y ha sido desarrollado por GitHub y otras partes con el objeto de ser un marco para el aprendizaje automático cifrado en TensorFlow. Se ve y se siente como TensorFlow, aprovechando la facilidad de uso de la API de Keras al tiempo que permite el entrenamiento y la predicción sobre datos encriptados a través del cálculo seguro de múltiple parte y la encriptación homomórfica.
- El gigante Amazon emplea un modelo de privacidad diferencial que su mismo grupo de investigación elaboró. Ello la hace para suministrar preferencias de compra personalizadas de los usuarios mientras cubre información confidencial sobre sus compras anteriores. Asimismo, el equipo de Amazon Science está perfeccionando la técnica para cubrir el análisis textual de datos, que funcionaría reformulando el texto proporcionado por el cliente y basando el análisis en la nueva redacción, en lugar de en el propio idioma de los clientes.
- Google es pionero en el aprendizaje federado y, en consecuencia, también en el análisis federado. Desde hace 5 años lo aplica a su teclado GBoard, presente en teléfonos móviles Android. Cuando Gboard muestra una consulta sugerida, el Smartphone almacena localmente información sobre el contexto actual y si hizo clic en la sugerencia. El aprendizaje federado procesa ese historial en el dispositivo para sugerir mejoras para la próxima iteración del modelo de sugerencia de consulta de Gboard. De este modo, los datos almacenados en el móvil son procesados en el mismo, y sus análisis permiten entrenar localmente la aplicación, sin necesidad de haber compartido esa información en la nube del servidor, con lo cual se garantiza la privacidad de dichos datos.
- Electronic Coin Company desarrolló en 2016 la criptomoneda conocida como Zcash, la cual goza de completo anonimato en las transacciones en la red Blockchain. Esto tiene que ver con que sus operaciones se desarrollan bajo códigos de conocimiento cero activados por medio de algoritmos del tipo zk-SNARK, lo que permite al remitente validar ante la red una determinada transacción, el destinario y su monto sin revelar ninguna clase de información. Por este motivo, las transacciones con Zcash son rápidas, seguras y confidenciales, y operan con costos de transacción bajos de 0.0001 Zcash.
CONCLUSIONES
Para concluir, se puede decir que las PECs han sufrido una evolución sustancial en un corto plazo de tiempo. Se han agregado diversas técnicas emergentes que han desplazado las primigenias técnicas de mejora de la privacidad, las cuales apenas ofrecían una respuesta satisfactoria. Las nuevas, por el contrario, ofrecen una protección más optimizada con diversas clases de soluciones: análisis sobre datos encriptados, generación de un entorno de confianza para la compartición de datos, y análisis descentralizados.
El panorama que se abre ante las nuevas PECs es un contexto en el que el valor de los datos está maximizado, mientras se mantienen ocultos para quienes lo manejan, ya sean los responsables o sus socios, por lo que las empresas cada vez están más cerca de analizar toda clase de datos sin vulnerar la privacidad de los usuarios.
El siguiente paso es la adopción de este conjunto de innovaciones, cuya incorporación está sucediendo ahora en las grandes empresas, las cuales se hallan probando y perfeccionando sus propios modelos. En la perspectiva de unos 5 años probablemente más de la mitad los haya completamente integrado en sus procesos de Big Data.