Como fazer anonimização e pseudonimização de dados pessoais
Anonimização e pseudonimização são frequentemente tratadas como sinônimos — mas têm efeitos jurídicos completamente diferentes sob a LGPD. Confundi-las pode levar sua organização a acreditar que está fora do escopo da lei quando, na prática, ainda está sujeita a todas as suas obrigações.
Este guia esclarece as definições legais, as técnicas disponíveis, suas limitações e como decidir qual abordagem utilizar em cada contexto.
Definições legais na LGPD
Dado anonimizado
O Art. 5º, III da LGPD define dado anonimizado como:
"dado relativo a titular que não possa ser identificado, considerando a utilização de meios técnicos razoáveis e disponíveis na ocasião de seu tratamento"
O Art. 12 complementa ao estabelecer que dados anonimizados não são considerados dados pessoais para fins da LGPD — e portanto ficam fora do seu escopo —, salvo quando:
- O processo de anonimização puder ser revertido utilizando exclusivamente meios próprios do controlador; ou
- Quando, com esforços razoáveis, o processo puder ser revertido.
A determinação do que é "razoável" leva em conta: custo e tempo necessários para reverter a anonimização e tecnologias disponíveis no momento do tratamento (Art. 12, §1º).
Dado pseudonimizado
O Art. 13, §4º da LGPD define pseudonimização como:
"o tratamento por meio do qual um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo, senão pelo uso de informação adicional mantida separadamente pelo controlador em ambiente controlado e seguro"
Diferença fundamental: dados pseudonimizados continuam sendo dados pessoais para fins da LGPD. A pseudonimização reduz o risco, mas não elimina as obrigações legais.
O critério-chave: reversibilidade
| Característica | Anonimização | Pseudonimização |
|---|---|---|
| Vínculo com o titular | Eliminado (irreversível em condições razoáveis) | Substituído por identificador (reversível com chave) |
| É dado pessoal? | Não (se efetivamente anonimizado) | Sim |
| Sujeito à LGPD? | Não | Sim |
| Reduz o risco? | Elimina o risco de identificação | Reduz significativamente |
| Protege em caso de vazamento? | Sim — dado vazio de identificação | Parcialmente — a chave precisa estar separada e segura |
Por que a distinção importa na prática
Consequências de chamar pseudonimização de anonimização
Uma organização que aplica pseudonimização (por exemplo, substituir CPFs por tokens internos) e trata os dados resultantes como "anonimizados" incorre em erro jurídico grave:
- Pode omitir o registro dessas atividades no inventário (ROPA), por acreditar que estão fora da LGPD
- Pode não aplicar as medidas de segurança exigidas pelo Art. 46
- Em caso de incidente envolvendo esses dados, pode não comunicar a ANPD por considerar que dados pseudonimizados não são pessoais
- Pode não elaborar o RIPD para atividades de alto risco que utilizam dados pseudonimizados
O risco de reidentificação em dados supostamente anonimizados
A anonimização não é um estado binário — é um espectro. Dados que eram verdadeiramente anônimos em 2015 podem ser reidentificáveis em 2026, devido ao crescimento de bases de dados auxiliares e ao avanço das técnicas de análise.
Estudos acadêmicos têm demonstrado a vulnerabilidade de dados supostamente anonimizados:
- Dados de geolocalização sem identificação direta podem ser combinados com padrões de deslocamento para identificar indivíduos
- Dados médicos com atributos como idade, gênero, CEP e diagnóstico podem ser cruzados com outras bases para reidentificação
- IA generativa e técnicas de linkage attack tornam a reidentificação progressivamente mais acessível
O Art. 12, §2º da LGPD reconhece esse risco ao estabelecer que dados utilizados para formação de perfil comportamental de pessoa natural identificada — mesmo que originalmente processados com técnicas de separação — podem ser considerados dados pessoais.
Técnicas de anonimização
1. Supressão
Remove completamente os campos de identificação direta do conjunto de dados.
Exemplo: remover nome, CPF, endereço e e-mail de uma base de clientes, mantendo apenas informações de comportamento de compra.
Limitação: quando os dados remanescentes são suficientemente específicos (ex.: compras muito raras, combinações únicas de atributos), a reidentificação pode ser possível por eliminação.
2. Generalização
Substitui valores precisos por intervalos ou categorias mais amplas.
Exemplo: substituir "32 anos" por "30-40 anos"; substituir CEP completo por apenas os três primeiros dígitos; substituir valor exato de salário por faixa salarial.
Limitação: reduz a utilidade analítica dos dados; valores muito específicos podem ainda permitir identificação.
3. Randomização e perturbação
Adiciona ruído estatístico aos dados para impedir correlações precisas, mantendo a distribuição estatística geral.
Exemplo: somar ou subtrair um valor aleatório de idades ou valores financeiros dentro de uma faixa aceitável para análise estatística.
Uso: adequada para análises de tendências onde precisão individual não é necessária.
4. Agregação
Apresenta os dados apenas em forma agregada (médias, somas, contagens de grupos), sem expor registros individuais.
Uso: relatórios analíticos, dashboards, pesquisas de mercado.
Atenção: grupos muito pequenos podem tornar registros individuais identificáveis por processo de eliminação.
5. Mascaramento (Data Masking)
Substitui dados reais por dados fictícios mas plausíveis, mantendo o formato original.
Exemplo: substituir CPF real "123.456.789-09" por "987.654.321-00" (CPF fictício mas estruturalmente válido).
Uso: ambientes de desenvolvimento e teste, onde dados reais não devem estar presentes.
6. Tokenização
Substitui o dado original por um token (identificador aleatório) sem valor intrínseco, enquanto a correspondência original é mantida em um sistema separado e seguro.
Resultado: tecnicamente, tokenização produz pseudonimização, não anonimização — o dado original pode ser recuperado pela chave de correspondência.
Técnicas de pseudonimização
A pseudonimização separa a identidade do titular dos dados de comportamento ou atributo, permitindo análise sem exposição direta da identidade. As técnicas principais são:
Tokenização
Como descrito acima: substitui identificadores diretos (CPF, e-mail, nome) por tokens. A tabela de correspondência é mantida em sistema separado, com controles de acesso restritos.
Requisito legal (Art. 5º, XIII): a informação adicional (tabela de correspondência) deve ser mantida separadamente, em ambiente controlado e seguro.
Hashing criptográfico
Aplica uma função de hash (SHA-256, por exemplo) sobre o dado identificador, produzindo uma representação de tamanho fixo irrecuperável (em teoria) sem ataque de força bruta.
Limitação crítica: hashing de CPFs ou e-mails não é pseudonimização robusta — o universo de CPFs válidos é finito e enumerável, tornando ataques de dicionário praticáveis. Sempre use hash com salt (valor aleatório adicionado antes do hash) para mitigar esse risco.
Criptografia
Cifra o dado identificador com uma chave. O dado pode ser recuperado pela chave correspondente — portanto é pseudonimização, não anonimização.
Uso: quando é necessário manter a capacidade de reverter a separação (ex.: para atender solicitações de titulares), mas se deseja proteger o dado em repouso.
Quando usar cada abordagem
| Cenário | Abordagem recomendada |
|---|---|
| Ambiente de desenvolvimento e teste | Mascaramento + substituição por dados sintéticos |
| Análise estatística e pesquisa | Anonimização (agregação ou generalização) |
| Analytics de comportamento do usuário | Pseudonimização com tokenização |
| Compartilhamento com parceiro para análise conjunta | Pseudonimização — dados continuam sendo pessoais e exigem contrato de processamento (DPA) |
| Armazenamento de longo prazo após o fim do tratamento | Anonimização — se a finalidade analítica puder ser atendida sem identificação |
| Backup de dados históricos | Pseudonimização no mínimo; anonimização quando possível |
Obrigações que permanecem com dados pseudonimizados
Como dados pseudonimizados continuam sendo dados pessoais, a organização mantém todas as obrigações da LGPD:
- Incluir as atividades no inventário (ROPA)
- Aplicar medidas de segurança (Art. 46)
- Elaborar RIPD quando aplicável (Art. 38)
- Responder a solicitações de titulares (Art. 18)
- Comunicar incidentes à ANPD quando a segurança dos dados for comprometida (Art. 48)
- Firmar contratos com operadores que tratem esses dados (Art. 39)
Governança do processo de anonimização e pseudonimização
Qualquer processo de anonimização ou pseudonimização precisa ser documentado e governado. Os elementos essenciais:
Documentação do processo
- Técnica utilizada e justificativa da escolha
- Análise do risco residual de reidentificação
- Avaliação periódica de se o dado ainda pode ser considerado anônimo (tecnologias evoluem)
Gestão da chave de pseudonimização
Para dados pseudonimizados, a segurança da chave de correspondência é crítica:
- Armazenamento em sistema separado dos dados pseudonimizados
- Controle de acesso restrito com autenticação multifator
- Log de todos os acessos à chave
- Rotação periódica (e atualização dos tokens correspondentes)
Revisão periódica do risco de reidentificação
O que é inidentificável hoje pode não ser amanhã. Revise anualmente:
- Novas bases de dados auxiliares disponíveis publicamente
- Avanços em técnicas de análise e IA
- Granularidade dos dados remanescentes após anonimização
Conclusão
A anonimização e a pseudonimização são ferramentas valiosas para reduzir riscos de privacidade e ampliar as possibilidades de uso analítico dos dados — mas exigem rigor técnico e jurídico.
O ponto central: a pseudonimização não libera sua organização das obrigações da LGPD. Apenas a anonimização genuína e irreversível o faz — e mesmo assim, com a ressalva de que a irreversibilidade precisa ser continuamente avaliada à luz das tecnologias disponíveis.
Antes de classificar um dado como "anonimizado", faça a pergunta correta: com os meios técnicos razoavelmente disponíveis hoje, é possível reverter o processo e identificar o titular? Se a resposta for "sim" ou "talvez", o dado ainda é pessoal.
A Confidata ajuda sua organização a mapear e classificar corretamente os dados tratados em cada atividade, incluindo a identificação de tratamentos que envolvem dados pseudonimizados e suas obrigações associadas.
Artigos relacionados
Quer ir além? Conheça o Confidata
Sistema completo de gestão de conformidade LGPD com IA integrada para acelerar seu programa de privacidade.