Como fazer anonimização e pseudonimização de dados pessoais

Anonimização e pseudonimização são frequentemente tratadas como sinônimos — mas têm efeitos jurídicos completamente diferentes sob a LGPD. Confundi-las pode levar sua organização a acreditar que está fora do escopo da lei quando, na prática, ainda está sujeita a todas as suas obrigações.

Este guia esclarece as definições legais, as técnicas disponíveis, suas limitações e como decidir qual abordagem utilizar em cada contexto.

Definições legais na LGPD

Dado anonimizado

O Art. 5º, III da LGPD define dado anonimizado como:

"dado relativo a titular que não possa ser identificado, considerando a utilização de meios técnicos razoáveis e disponíveis na ocasião de seu tratamento"

O Art. 12 complementa ao estabelecer que dados anonimizados não são considerados dados pessoais para fins da LGPD — e portanto ficam fora do seu escopo —, salvo quando:

O processo de anonimização puder ser revertido utilizando exclusivamente meios próprios do controlador; ou
Quando, com esforços razoáveis, o processo puder ser revertido.

A determinação do que é "razoável" leva em conta: custo e tempo necessários para reverter a anonimização e tecnologias disponíveis no momento do tratamento (Art. 12, §1º).

Dado pseudonimizado

O Art. 13, §4º da LGPD define pseudonimização como:

"o tratamento por meio do qual um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo, senão pelo uso de informação adicional mantida separadamente pelo controlador em ambiente controlado e seguro"

Diferença fundamental: dados pseudonimizados continuam sendo dados pessoais para fins da LGPD. A pseudonimização reduz o risco, mas não elimina as obrigações legais.

O critério-chave: reversibilidade

Característica	Anonimização	Pseudonimização
Vínculo com o titular	Eliminado (irreversível em condições razoáveis)	Substituído por identificador (reversível com chave)
É dado pessoal?	Não (se efetivamente anonimizado)	Sim
Sujeito à LGPD?	Não	Sim
Reduz o risco?	Elimina o risco de identificação	Reduz significativamente
Protege em caso de vazamento?	Sim — dado vazio de identificação	Parcialmente — a chave precisa estar separada e segura

Por que a distinção importa na prática

Consequências de chamar pseudonimização de anonimização

Uma organização que aplica pseudonimização (por exemplo, substituir CPFs por tokens internos) e trata os dados resultantes como "anonimizados" incorre em erro jurídico grave:

Pode omitir o registro dessas atividades no inventário (ROPA), por acreditar que estão fora da LGPD
Pode não aplicar as medidas de segurança exigidas pelo Art. 46
Em caso de incidente envolvendo esses dados, pode não comunicar a ANPD por considerar que dados pseudonimizados não são pessoais
Pode não elaborar o RIPD para atividades de alto risco que utilizam dados pseudonimizados

O risco de reidentificação em dados supostamente anonimizados

A anonimização não é um estado binário — é um espectro. Dados que eram verdadeiramente anônimos em 2015 podem ser reidentificáveis em 2026, devido ao crescimento de bases de dados auxiliares e ao avanço das técnicas de análise.

Estudos acadêmicos têm demonstrado a vulnerabilidade de dados supostamente anonimizados:

Dados de geolocalização sem identificação direta podem ser combinados com padrões de deslocamento para identificar indivíduos
Dados médicos com atributos como idade, gênero, CEP e diagnóstico podem ser cruzados com outras bases para reidentificação
IA generativa e técnicas de linkage attack tornam a reidentificação progressivamente mais acessível

O Art. 12, §2º da LGPD reconhece esse risco ao estabelecer que dados utilizados para formação de perfil comportamental de pessoa natural identificada — mesmo que originalmente processados com técnicas de separação — podem ser considerados dados pessoais.

Técnicas de anonimização

1. Supressão

Remove completamente os campos de identificação direta do conjunto de dados.

Exemplo: remover nome, CPF, endereço e e-mail de uma base de clientes, mantendo apenas informações de comportamento de compra.

Limitação: quando os dados remanescentes são suficientemente específicos (ex.: compras muito raras, combinações únicas de atributos), a reidentificação pode ser possível por eliminação.

2. Generalização

Substitui valores precisos por intervalos ou categorias mais amplas.

Exemplo: substituir "32 anos" por "30-40 anos"; substituir CEP completo por apenas os três primeiros dígitos; substituir valor exato de salário por faixa salarial.

Limitação: reduz a utilidade analítica dos dados; valores muito específicos podem ainda permitir identificação.

3. Randomização e perturbação

Adiciona ruído estatístico aos dados para impedir correlações precisas, mantendo a distribuição estatística geral.

Exemplo: somar ou subtrair um valor aleatório de idades ou valores financeiros dentro de uma faixa aceitável para análise estatística.

Uso: adequada para análises de tendências onde precisão individual não é necessária.

4. Agregação

Apresenta os dados apenas em forma agregada (médias, somas, contagens de grupos), sem expor registros individuais.

Uso: relatórios analíticos, dashboards, pesquisas de mercado.

Atenção: grupos muito pequenos podem tornar registros individuais identificáveis por processo de eliminação.

5. Mascaramento (Data Masking)

Substitui dados reais por dados fictícios mas plausíveis, mantendo o formato original.

Exemplo: substituir CPF real "123.456.789-09" por "987.654.321-00" (CPF fictício mas estruturalmente válido).

Uso: ambientes de desenvolvimento e teste, onde dados reais não devem estar presentes.

6. Tokenização

Substitui o dado original por um token (identificador aleatório) sem valor intrínseco, enquanto a correspondência original é mantida em um sistema separado e seguro.

Resultado: tecnicamente, tokenização produz pseudonimização, não anonimização — o dado original pode ser recuperado pela chave de correspondência.

Técnicas de pseudonimização

A pseudonimização separa a identidade do titular dos dados de comportamento ou atributo, permitindo análise sem exposição direta da identidade. As técnicas principais são:

Tokenização

Como descrito acima: substitui identificadores diretos (CPF, e-mail, nome) por tokens. A tabela de correspondência é mantida em sistema separado, com controles de acesso restritos.

Requisito legal (Art. 5º, XIII): a informação adicional (tabela de correspondência) deve ser mantida separadamente, em ambiente controlado e seguro.

Hashing criptográfico

Aplica uma função de hash (SHA-256, por exemplo) sobre o dado identificador, produzindo uma representação de tamanho fixo irrecuperável (em teoria) sem ataque de força bruta.

Limitação crítica: hashing de CPFs ou e-mails não é pseudonimização robusta — o universo de CPFs válidos é finito e enumerável, tornando ataques de dicionário praticáveis. Sempre use hash com salt (valor aleatório adicionado antes do hash) para mitigar esse risco.

Criptografia

Cifra o dado identificador com uma chave. O dado pode ser recuperado pela chave correspondente — portanto é pseudonimização, não anonimização.

Uso: quando é necessário manter a capacidade de reverter a separação (ex.: para atender solicitações de titulares), mas se deseja proteger o dado em repouso.

Quando usar cada abordagem

Cenário	Abordagem recomendada
Ambiente de desenvolvimento e teste	Mascaramento + substituição por dados sintéticos
Análise estatística e pesquisa	Anonimização (agregação ou generalização)
Analytics de comportamento do usuário	Pseudonimização com tokenização
Compartilhamento com parceiro para análise conjunta	Pseudonimização — dados continuam sendo pessoais e exigem contrato de processamento (DPA)
Armazenamento de longo prazo após o fim do tratamento	Anonimização — se a finalidade analítica puder ser atendida sem identificação
Backup de dados históricos	Pseudonimização no mínimo; anonimização quando possível

Obrigações que permanecem com dados pseudonimizados

Como dados pseudonimizados continuam sendo dados pessoais, a organização mantém todas as obrigações da LGPD:

Incluir as atividades no inventário (ROPA)
Aplicar medidas de segurança (Art. 46)
Elaborar RIPD quando aplicável (Art. 38)
Responder a solicitações de titulares (Art. 18)
Comunicar incidentes à ANPD quando a segurança dos dados for comprometida (Art. 48)
Firmar contratos com operadores que tratem esses dados (Art. 39)

Governança do processo de anonimização e pseudonimização

Qualquer processo de anonimização ou pseudonimização precisa ser documentado e governado. Os elementos essenciais:

Documentação do processo

Técnica utilizada e justificativa da escolha
Análise do risco residual de reidentificação
Avaliação periódica de se o dado ainda pode ser considerado anônimo (tecnologias evoluem)

Gestão da chave de pseudonimização

Para dados pseudonimizados, a segurança da chave de correspondência é crítica:

Armazenamento em sistema separado dos dados pseudonimizados
Controle de acesso restrito com autenticação multifator
Log de todos os acessos à chave
Rotação periódica (e atualização dos tokens correspondentes)

Revisão periódica do risco de reidentificação

O que é inidentificável hoje pode não ser amanhã. Revise anualmente:

Novas bases de dados auxiliares disponíveis publicamente
Avanços em técnicas de análise e IA
Granularidade dos dados remanescentes após anonimização

Conclusão

A anonimização e a pseudonimização são ferramentas valiosas para reduzir riscos de privacidade e ampliar as possibilidades de uso analítico dos dados — mas exigem rigor técnico e jurídico.

O ponto central: a pseudonimização não libera sua organização das obrigações da LGPD. Apenas a anonimização genuína e irreversível o faz — e mesmo assim, com a ressalva de que a irreversibilidade precisa ser continuamente avaliada à luz das tecnologias disponíveis.

Antes de classificar um dado como "anonimizado", faça a pergunta correta: com os meios técnicos razoavelmente disponíveis hoje, é possível reverter o processo e identificar o titular? Se a resposta for "sim" ou "talvez", o dado ainda é pessoal.

A Confidata ajuda sua organização a mapear e classificar corretamente os dados tratados em cada atividade, incluindo a identificação de tratamentos que envolvem dados pseudonimizados e suas obrigações associadas.