A relevância dos dados actualmente é bem conhecida: alimenta tecnologias emergentes como a Inteligência Artificial ou a Aprendizagem de Máquinas, melhora a tomada de decisões, gera publicidade ultra-direccionada, e assim por diante. Assim, 78% dos decisores de TI concordam que a recolha e análise de dados tem o potencial de mudar a forma como a sua empresa faz negócios nos próximos 1-3 anos.
Contudo, o processamento de dados tem um grande inconveniente, nomeadamente a exposição da privacidade dos utilizadores. Para evitar este mal, regulamentos como o GDPR impõem a protecção de dados pessoais como uma máxima aos controladores de dados.
Os estudos mais recentes mostram que as empresas fizeram esforços significativos para salvaguardar a privacidade dos dados, mas que estes não foram suficientes. Em 2021, 95% dos líderes empresariais declararam ter em vigor medidas de protecção de dados fortes ou muito fortes, mas 62% concordaram que as suas empresas deveriam fazer mais. Na perspectiva dos utilizadores, os resultados não são mais encorajadores, dado que não confiam que lhes seja garantida uma protecção real. Oitenta e seis por cento disseram ter preocupações crescentes sobre a privacidade dos dados, com cerca de metade receando que os seus dados pudessem ser pirateados (51%) ou vendidos (47%).
A verdade é que ainda existem algumas lacunas no fornecimento da máxima protecção para o processamento de dados. Este é o caso, por exemplo, da análise e partilha de dados. Ao contrário de quando são armazenados ou transmitidos, os conjuntos de dados são expostos quando são manipulados, uma vez que a sua utilização tem sido até agora inviável com soluções como a encriptação.
Assim, um dos principais desafios que as empresas enfrentam neste momento é como realizar a análise de dados, protegendo simultaneamente esses dados e respeitando os pedidos de privacidade dos indivíduos a cujos dados se referem. É neste contexto que deve ser entendida a recente categorização estratégica das chamadas Computações de Reforço da Privacidade (PECs), um conjunto de tecnologias que permitem analisar e partilhar dados sem expor o seu conteúdo a terceiros, garantindo assim a segurança dos dados enquanto estão a ser utilizados.
SITUAÇÃO ACTUAL dos PECs
Os PEC têm sido aplicados no sector público e académico há anos. Originalmente, referiam-se a um grupo de tecnologias relativamente simples relacionadas com o mascaramento da informação, tais como técnicas de anonimização ou pseudonimização, que evitam a identificação dos sujeitos em questão.
As técnicas anteriores, por outro lado, não eram inteiramente eficazes; por exemplo, ao combiná-las com conjuntos de dados adicionais, a reconstrução da base de dados original pode ser realizada, com a possibilidade de reidentificar os sujeitos. Agora, porém, com o crescente interesse, os PEC estão a atingir o nível de refinamento necessário para satisfazer o nível de procura exigido pelas empresas. Este ramo da tecnologia está actualmente a sofrer uma taxa de desenvolvimento muito elevada, acima da taxa média de melhoria de outras tecnologias. De acordo com dados do portal de pesquisa do Massachusetts Institute of Technology, a inovação em PECs está a crescer a 178% por ano, atrás apenas da tecnologia de computação em nuvem.
Taxa anual de inovação tecnológica
Melhoria anual estimada até 2022
Como resultado dos recentes avanços na melhoria da privacidade, surgiram tecnologias PEC novas, mais sofisticadas e eficazes, que estão agora a ganhar atenção e a começar a ser aplicadas a projectos práticos. Um recente relatório do Fórum Económico Mundial identifica e diferencia 5 técnicas PEC emergentes:
- Encriptação homomórfica. Este é um método de encriptação que permite a realização de operações computacionais sobre dados encriptados. Desta forma, quando são realizadas operações analíticas, é gerado um resultado encriptado que, quando desencriptado, corresponde ao resultado das operações como se tivessem sido realizadas com dados não encriptados. É útil para a partilha de dados para fins analíticos, uma vez que permanece ilegível, mas operável.
- Cálculo seguro em várias partes. Esta é uma técnica criptográfica que é na realidade um subtipo da anterior. A sua particularidade é permitir o cálculo de valores a partir de múltiplas fontes de dados encriptados, permitindo assim uma maior complexidade. É ideal para criar um ambiente de confiança no qual diferentes instituições partilham dados pessoais sem comprometer a privacidade.
- Análise federada. Trata-se de uma nova tecnologia que permite a execução de análises in situ, ou seja, realizadas sobre os dados em bruto que são armazenados localmente nos dispositivos que os recolhem. Com esta possibilidade em mãos, não é necessário recolher centralmente os dados recolhidos, mas em vez disso, podem ser fornecidos resultados agregados ao sujeito ou ao engenho que os requer, assegurando que os dados nunca saiam do dispositivo que os gerou. Esta inovação está estreitamente ligada à aprendizagem federada, na qual dispositivos locais como os smartphones têm a capacidade de formar modelos de previsão e partilhar os seus resultados, tecendo uma rede de colaboração para melhorar conjuntamente a aplicação em conjunto com outros utilizadores.
- Teste de conhecimento zero. Trata-se de uma inovação tecnológica que permite validar que uma informação é verdadeira sem a necessidade de expor os dados que a comprovam. Isto é possível graças a uma série de algoritmos criptográficos através dos quais um ‘testador’ pode provar matematicamente a um ‘verificador’ que uma declaração computacional está correcta e sem necessidade de qualquer intermediário. Isto satisfaz o princípio da minimização da informação, e é útil para o acesso a serviços através da acreditação de dados pessoais.
- Privacidade diferencial. Este é outro PSC que intervém em conjuntos de dados introduzindo uma camada de “ruído aleatório” que impede que dados específicos sobre cada peça individual de informação sejam conhecidos, sem alterar o resultado final. De certa forma, gera uma base de dados alternativa, mas idêntica, assegurando assim que os padrões de grupo são descritos, mantendo a privacidade dos indivíduos. Mais uma vez, é um método prático para a partilha segura de dados para fins analíticos.
VISÃO DE VANGUARDA DA TENDÊNCIA
A julgar pelo ritmo da inovação nos PEC, as técnicas emergentes descritas acima consolidarão o seu grau de perfeição, e a introdução de algumas outras ainda mais complexas e eficazes novidades não pode ser excluída.
Para as empresas, a sua adopção conduzirá a uma melhoria substancial da protecção de dados, uma vez que, como indicado acima, concentram-se na parte analítica, quando os dados estão mais expostos, e à qual ainda não foi encontrada uma solução satisfatória. Isto conduzirá a dois benefícios potenciais:
- Cumprimento mais rigoroso dos regulamentos de protecção de dados, o que, por sua vez, resulta na prevenção de perdas financeiras geradas por multas por incumprimento. As várias infracções cometidas desde a entrada em vigor do novo regime GDPR em Maio de 2018 até Janeiro de 2021, no valor de cerca de 332,4 milhões de dólares em multas, segundo a firma de advogados DLA Piper, revelam tanto a falta de ajustamento das empresas europeias ao regulamento como o elevado custo económico que isso implica para elas.
- Uma redução das fugas de dados pessoais, que evitará mais escândalos ou riscos de reputação para as empresas e que, por exemplo, pode levar à perda de alianças ou à desconfiança dos consumidores. Em geral, uma melhor protecção de dados ajudará a tornar os utilizadores mais dispostos a partilhar dados.
Além disso, a incorporação de técnicas como a privacidade diferencial ou criptografia homomórfica e a sua subcategoria, computação multipartidária, proporciona a oportunidade de partilhar conjuntos de dados e permitir que outras partes operem sobre eles sem expor o seu conteúdo. Precisamente um dos maiores riscos na relação com terceiros é a violação da privacidade dos dados. Estudos como o de Forrester indicam que os custos derivados de uma violação de dados aumentam em média 370.000 dólares quando causados por um terceiro. A implementação destas inovações significará, portanto, trabalhar em segurança em múltiplos ambientes não confiáveis, consolidando três práticas actuais:
- Partilha de bases de dados com fornecedores externos para testes de aplicação e execução das análises necessárias, quando a própria organização não tem capacidade suficiente para o fazer.
- Colaboração sectorial no intercâmbio de dados. Isto é o que é conhecido como dados de segunda parte, dados de primeira parte que outras empresas estão dispostas a partilhar, aumentando o volume de informação disponível para as empresas. Esta prática tornar-se-á cada vez mais relevante à medida que a remoção de cookies de terceiros se tornar mais generalizada e o acesso aos dados fornecidos por fornecedores externos se tornar mais restrito. A partir de 2021, cerca de 75% dos executivos dos EUA e do Reino Unido afirmaram que a sua organização já partilhava dados de primeira parte para a obtenção de conhecimentos, activações, medição e atribuição, ou planeava fazê-lo, de acordo com um relatório do Winterberry Group.
- Cooperação na luta contra a fraude e o financiamento do crime. Uma parte chave desta luta é a partilha de dados, uma vez que os criminosos muitas vezes espalham a sua actividade por diferentes instituições para dificultar a rastreabilidade das suas acções. Num ambiente seguro, os dados podem ser partilhados sem problemas e sem suspeitas, combinando as forças necessárias para pôr fim a este flagelo.
Finalmente, engenhocas descentralizadas como a análise federada reduzirão o acesso interno das empresas aos dados por elas gerados. Outros, como os testes de conhecimento zero, minimizarão a informação fornecida, mas sem perder o seu valor. Isto significará empresas com a mesma ou maior capacidade de recolha e análise de informação, mas com menos consciência e profundidade dos dados individuais dos utilizadores. Combinado com as tecnologias acima referidas, o resultado é um contexto em que o valor dos dados é maximizado, enquanto que é mantido escondido daqueles que o tratam, sejam eles os controladores de dados ou os seus parceiros.
Devido à melhor protecção e aos outros benefícios potenciais, alguns relatórios estimam que a adopção de técnicas PEC emergentes será rápida: até 2025, 50% das grandes empresas adoptarão PECs para processar os seus dados com segurança.
EXEMPLOS DE EMPRESAS QUE ESTÃO A APLICAR AS NOVAS TÉCNICAS PEC
Há várias grandes empresas que estão a investir e a começar a aplicar as técnicas PEC acima descritas. Algumas delas são:
- No início de 2020, a IBM Security estava a trabalhar com o Banco Bradesco e outras instituições financeiras para desenvolver testes piloto de encriptação homomórfica. Agora, a IBM Security deu o passo seguinte e alargou o seu produto a um público mais vasto. Os seus novos serviços de encriptação homomórfica fornecem um ambiente de alojamento escalável no IBM Cloud, juntamente com serviços de consultoria e administrativos para ajudar os clientes na aprendizagem e soluções de prototipagem que podem aproveitar a encriptação homomórfica completa.
- O Grupo Alibaba e Cape Privacy, entre outros, estão a investir na TF Encrypted e aguardam a implementação da mesma. Este é ainda um software experimental, e foi desenvolvido por GitHub e outras partes com o objectivo de ser uma estrutura para a encriptação da aprendizagem de máquinas em TensorFlow. Parece e parece o TensorFlow, alavancando a facilidade de utilização do Keras API ao mesmo tempo que permite o treino e a previsão de dados codificados através de computação segura multi-partes e encriptação homomórfica.
- A gigante Amazónia emprega um modelo de privacidade diferencial que o seu próprio grupo de investigação desenvolveu. Fá-lo de modo a fornecer aos utilizadores preferências de compra personalizadas, ao mesmo tempo que cobre informações sensíveis sobre as suas compras passadas. Além disso, a equipa da Amazon Science está a aperfeiçoar a técnica para cobrir a análise de dados textuais, que funcionaria reformulando o texto fornecido pelo cliente e baseando a análise na nova redacção, em vez de se basear na língua do próprio cliente.
- A Google é pioneira na aprendizagem federada e, consequentemente, também na análise federada. Há 5 anos que o aplica ao seu teclado GBoard em telemóveis Android. Quando Gboard apresenta uma sugestão de consulta, o smartphone armazena localmente informações sobre o contexto actual e se clicou na sugestão. Processos de aprendizagem federados que histórico no dispositivo para sugerir melhorias para a próxima iteração do modelo de sugestão de consulta da Gboard. Desta forma, os dados armazenados no dispositivo móvel são processados no dispositivo móvel, e a sua análise permite que a aplicação seja treinada localmente, sem a necessidade de ter partilhado essa informação na nuvem do servidor, garantindo assim a privacidade desses dados.
- A Electronic Coin Company desenvolveu em 2016 a moeda criptográfica conhecida como Zcash, que goza de completo anonimato nas transacções na rede Blockchain. Isto tem a ver com o facto de as suas operações serem realizadas sob códigos de conhecimento zero activados por algoritmos do tipo zk-SNARK, o que permite ao remetente validar uma determinada transacção, o destinatário e o seu montante perante a rede sem revelar qualquer tipo de informação. Por esta razão, as transacções Zcash são rápidas, seguras e confidenciais, e operam com baixos custos de transacção de 0,0001 Zcash.
CONCLUSÕES
Para concluir, pode dizer-se que os PEC sofreram uma evolução substancial num curto período de tempo. Foram acrescentadas várias técnicas emergentes, deslocando as técnicas originais de melhoria da privacidade, que dificilmente ofereciam uma resposta satisfatória. As novas, pelo contrário, oferecem uma protecção mais optimizada com vários tipos de soluções: análise de dados encriptados, geração de um ambiente de confiança para a partilha de dados, e análise descentralizada.
O quadro que se abre para os novos PEC é um contexto em que o valor dos dados é maximizado, enquanto que é mantido escondido dos manipuladores de dados e dos seus parceiros, para que as empresas se aproximem cada vez mais da análise de todo o tipo de dados sem violar a privacidade dos utilizadores.
O passo seguinte é a adopção deste conjunto de inovações, o que está a acontecer agora nas grandes empresas, que estão a testar e a aperfeiçoar os seus próprios modelos. Dentro de cinco anos, provavelmente mais de metade terá integrado totalmente nos seus processos de Grandes Dados.