Classificação de emails com IA: técnicas e ferramentas para Portugal 2026

Q: Como gerir os emails que não entram em nenhuma categoria?

Prever sempre uma categoria 'Outros / A rever' explícita, que não desencadeie nenhuma ação automática. Mais vale classificar 5-10% dos emails como 'a rever' do que gerar falsos positivos. Com o tempo, a análise desta categoria revela os novos padrões a integrar na taxonomia.

Quick Answer: o que é a classificação de emails com IA?

A classificação de emails com IA é a operação técnica que atribui um ou vários rótulos (categoria, intenção, sentimento, urgência, língua) a cada email recebido. É a etapa técnica a montante cujos resultados alimentam depois a triagem (a ação de negócio que daí decorre — ver o nosso guia de triagem automática de emails por IA).

Em 2026, duas abordagens coexistem nos mercados português e brasileiro:

Grande modelo de linguagem (LLM) genérico orientado por um prompt — Mistral, GPT-4o, Claude. Abordagem dominante para volumes moderados (até alguns milhões de emails/ano). Precisão de 85-95% em taxonomias bem definidas. Flexibilidade máxima, custo ~0,008-0,015 € por email.
Classificadores dedicados re-treinados nos seus dados (modelos mais pequenos, tipo BERTimbau, Portuguese DistilBERT ou um Mistral Small especializado nos seus exemplos — o chamado “fine-tuning”). Abordagem industrial para volumes muito elevados ou casos de uso especializados. Precisão potencialmente superior a 97%, custo quase nulo em uso, mas investimento inicial mais pesado.

Para a grande maioria das organizações B2B em Portugal e no Brasil em 2026, um LLM genérico com prompt estruturado é suficiente. O fine-tuning só se justifica acima de 1-2 milhões de emails por ano, ou em casos muito especializados (línguas regionais, terminologia jurídica do Código Civil, códigos de saúde ICD-10 / SNOMED CT, codificações setoriais como CAE em Portugal ou CNAE no Brasil).

Porquê este tema, agora

Três viragens tornaram a classificação de emails com IA acessível e eficaz em 2026.

Viragem 1 — Os LLMs genéricos substituíram os classificadores dedicados. Antes de 2024, classificar emails em 15-30 categorias de negócio exigia um modelo dedicado (BERTimbau, Portuguese DistilBERT) fine-tuned com alguns milhares de exemplos. Em 2026, um LLM genérico com um prompt estruturado atinge 85-95% de precisão sem qualquer fine-tuning. A fricção de entrada caiu por um fator de 10.

Viragem 2 — Os custos de inferência baixaram. Classificar um email custa hoje cerca de 0,005-0,015 € via API LLM (consoante o modelo e o comprimento). Abaixo do limiar de relevância económica para quase todas as organizações B2B portuguesas. Mesmo uma seguradora lisboeta que recebe 200.000 emails/mês paga cerca de 1.500-3.000 € mensais — bastante abaixo do custo de uma única pessoa dedicada à caixa de correio.

Viragem 3 — A saída estruturada (function calling, JSON Schema) está madura. Os LLMs modernos garantem um formato de saída rigoroso — terminou a era em que a IA devolvia texto livre que era preciso reparser de forma frágil. O resultado é agora um JSON limpo, diretamente consumível pelo seu código. Tipicamente integrado com Microsoft 365, Google Workspace, Salesforce, ou soluções portuguesas como PHC, Primavera, Sage para PMEs.

Em concreto: a classificação de emails com IA passou de um projeto de ciência de dados para um projeto de integração de software clássico. As competências necessárias estão ao alcance de uma equipa IT interna.

Classificação vs triagem: a distinção que muda o desenho

Muitas equipas confundem classificação e triagem. No entanto, a distinção é estruturante para o desenho do sistema.

Classificação = operação técnica:

Entrada: um email
Saída: um ou vários rótulos com pontuações de confiança

Triagem = ação de negócio:

Entrada: um email + a sua classificação
Saída: uma ação (mover para a pasta X, criar um ticket no CRM, notificar a equipa Y, escalar para compliance)

Consequências práticas:

Um sistema de classificação pode servir vários sistemas de triagem (um mesmo classificador alimenta o encaminhamento, o arquivo e o reporting).
A triagem pode combinar várias classificações (categoria + urgência + língua → ação).
Medir a qualidade da classificação (precisão, recall, F1) é diferente de medir a qualidade da triagem (taxa de erro de negócio, satisfação do utilizador).

Arquitetar as duas camadas separadamente, mesmo quando se operam numa única pipeline, facilita a manutenção e a evolução. Particularmente relevante para organizações sujeitas ao princípio da responsabilidade do art. 5.º n.º 2 do RGPD: cada camada deve ser auditável de forma independente pela CNPD ou pela ANPD.

Quando a DPLIANCE é a escolha certa — e quando não é

Para classificações standard (categorias genéricas, taxonomias < 30 entradas, volumes moderados, dados de negócio não sensíveis), as ferramentas de mercado são suficientes e recomendamo-las:

Mistral La Plateforme ou OpenAI API com um prompt estruturado para arrancar rapidamente (algumas horas de configuração).
Hugging Face Inference Endpoints se quiser um modelo dedicado alojado na Europa sem gerir infraestrutura.
Front, Help Scout se a classificação servir uma caixa partilhada (suporte).

A DPLIANCE concebe uma classificação à medida quando:

O sigilo profissional ou as obrigações setoriais (saúde com dados clínicos, advocacia nos termos do Estatuto da Ordem dos Advogados, defesa, banca e seguros supervisionados pelo Banco de Portugal/ASF/CMVM) impõem um deployment estritamente soberano — Mistral instalado localmente ou Llama em infraestrutura interna, sem qualquer chamada de saída. Única posição que resiste a um escrutínio sério da CNPD ao abrigo do princípio da minimização do RGPD. No Brasil, posição equivalente exigida pela ANPD ao abrigo da LGPD para dados sensíveis.
A taxonomia de negócio é altamente especializada (códigos ICD-10 / ICPC nas ARS e seguradoras de saúde, terminologia jurídica do Código Civil e Código de Processo Civil, códigos CAE específicos do setor industrial do Norte de Portugal, classificações notariais) onde um prompt genérico atinge um plateau e um modelo re-treinado nos seus exemplos (“fine-tuning”) traz os últimos pontos de precisão.
O volume é massivo (milhões de emails/mês) onde o custo de uma chamada LLM genérica se torna crítico, e se justifica um classificador dedicado mais económico.
A integração tem de ser feita num ERP proprietário sem conector nativo — desenvolvimento à medida. Frequentemente: SAP S/4HANA com fluxo personalizado, PHC e Primavera nas PMEs portuguesas, soluções setoriais como SClínico nos hospitais públicos do SNS.

A nossa IA de classificação alimenta as suas ferramentas existentes (CRM, ERP, helpdesk, arquivo). Não as substitui.

Mono-rótulo vs multi-rótulo: quando escolher o quê

Mono-rótulo: um email = uma categoria. Adaptado à maioria dos casos de negócio:

Encaminhamento simples (equipa responsável)
Estatísticas claras (quantos emails por categoria/mês)
Precisão mais elevada (o LLM tem de escolher, portanto otimiza)

Multi-rótulo: um email = várias categorias em simultâneo. Pertinente apenas se:

O negócio pede explicitamente para gerir o cruzamento (fatura por pagar E pedido de suporte)
Quer extrair várias facetas (categoria principal + intenção secundária + sentimento)
O volume justifica a complexidade de gestão

Na prática, 80% das organizações ganham em ficar em mono-rótulo. O multi-rótulo introduz complexidade para um ganho marginal na maioria dos casos. Um contraexemplo frequente: uma seguradora portuense onde um único email combina regularmente participação de sinistro, reclamação ao abrigo da Lei do Consumidor e pedido contratual — aí, um desenho multi-rótulo com três cabeças independentes está realmente justificado.

LLM genérico vs classificador dedicado — como escolher

Três critérios discriminantes em 2026.

Volume

Volume	Recomendação
< 100.000 emails/mês	LLM genérico via API (Mistral, OpenAI, Anthropic)
100.000 — 1M emails/mês	LLM genérico mas com prompt muito otimizado + cache das classificações repetitivas
> 1M emails/mês	Classificador dedicado fine-tuned, ou Mistral Small / BERTimbau on-premise em GPU

Custo de inferência

LLM genérico via API: ~0,005-0,015 € por email classificado consoante o modelo. Classificador dedicado on-premise: custo marginal próximo de zero após amortização do hardware.

Acima de 500.000 emails/mês, a diferença acumulada torna-se significativa (~25-90 k€/ano). É o limiar a partir do qual o investimento em classificador dedicado se torna pertinente.

Sensibilidade dos dados

Para organizações sensíveis (saúde com dados clínicos ao abrigo do art. 9 RGPD, advocacia, defesa, sigilo profissional), o LLM tem de correr on-premise — ou seja, ou Mistral / Llama 3 / BERTimbau via vLLM (LLM genérico mas alojado internamente), ou um classificador dedicado mais pequeno (BERTimbau fine-tuned). Única configuração compatível com as expectativas da CNPD em Portugal e da ANPD no Brasil sobre a responsabilização para dados de categorias especiais. Ver o nosso guia LLM local na empresa.

Anatomia de um prompt de classificação eficaz

Um prompt de sistema de classificação de emails rigoroso contém cinco elementos.

1. A taxonomia completa, com definições.

És um sistema de classificação de emails recebidos para [Organização].

Categorias disponíveis:
- COMERCIAL_ORCAMENTO: pedido de tarifação ou proposta comercial
- COMERCIAL_QUESTAO: questão pré-venda, pesquisa de informação
- SUPORTE_INCIDENTE: comunicação de uma avaria
- SUPORTE_QUESTAO: questão de utilização
- ADMIN_FATURA: fatura recebida
- ADMIN_RGPD: pedido relativo a direitos RGPD (art. 15-22)
- INTERNO: comunicação interna entre colaboradores
- OUTROS: não corresponde claramente a nenhuma das categorias acima

2. Alguns exemplos (few-shot).

3-5 exemplos de emails e a sua classificação correta. Melhora a precisão em 5-15% tipicamente.

3. O formato de saída rigoroso.

JSON conforme com categoria + score + justificação curta.

4. As regras de fallback.

“Se nenhuma categoria corresponder claramente, devolve OUTROS. Se a confiança for inferior a 0,6, devolve OUTROS.”

5. A língua de saída.

Especificar sempre a língua esperada (“Responde em português europeu” ou “Responde em português do Brasil”), mesmo quando o email recebido é multilingue — particularmente importante para empresas portuguesas que recebem correspondência de Espanha, Brasil, PALOP ou parceiros UE.

Exemplos setoriais para os mercados português e brasileiro

Os setores dominantes que impulsionam a adoção da classificação IA de emails em Portugal e no Brasil em 2026:

Banca e seguros (Lisboa, Porto, São Paulo, Rio de Janeiro): classificação de reclamações nos termos do Aviso 10/2014 do Banco de Portugal e da Norma Regulamentar 10/2009 da ASF, com separação obrigatória reclamação regulada / questão geral / pedido contratual. No Brasil, equivalente nos termos da Resolução Bacen 4.860/2020 e da Circular SUSEP 638/2021. Prazo de resposta de 20 dias úteis em Portugal, 10 dias úteis no Brasil. A taxonomia típica inclui 15-20 categorias.

Indústria (Norte de Portugal, indústria 4.0): classificação da correspondência B2B com separação pedido de orçamento / encomenda / reclamação de entrega / pedido de manutenção / emails internos. Frequente integração SAP via RFC ou IDoc, ou Primavera para PMEs.

Saúde (SNS, Misericórdias, hospitais privados): classificação da correspondência clínica (relatórios, referenciações, cartas de alta) versus administrativa (consultas, faturação). O art. 9 RGPD e o Código Deontológico da Ordem dos Médicos tornam o deployment on-premise o default. Frequente integração com sistemas regionais como SClínico no SNS ou RSE Live.

Escritórios de advogados e cartórios notariais: classificação com separação correspondência com cliente / contraparte / tribunal / administrativa. As obrigações de sigilo profissional do art. 92 do Estatuto da Ordem dos Advogados e as normas deontológicas tornam o deployment on-premise praticamente obrigatório. A CNPD emitiu deliberações sancionatórias contra escritórios pelo uso de serviços cloud não soberanos para correspondência com cliente.

Avaliação e medição de qualidade

Três métricas a medir num corpus anotado de 100-300 exemplos.

Precisão por categoria: entre os emails classificados como X pela IA, quantos são realmente X?

Objetivo em produção: > 85% por categoria.

Recall por categoria: entre os X reais, quantos a IA classificou como X?

Objetivo em produção: > 85% por categoria.

F1-score: média harmónica precisão + recall.

Objetivo em produção: > 0,85.

Medições adicionais úteis:

Distribuição dos scores de confiança (histograma)
Taxa da categoria OUTROS (idealmente 5-15%, não mais)
Matriz de confusão (quem se confunde com quem)

Sem estas medições, é impossível saber se a classificação está em produção ou em demo. É o que distingue uma colocação em produção séria de um POC mal feito — e é também a primeira coisa que uma inspeção da CNPD ou da ANPD vai pedir.

Conformidade RGPD/LGPD específica para a classificação

A classificação automática de emails está explicitamente regulada pelo RGPD (Portugal) e pela LGPD (Brasil):

Inscrição no registo (art. 30 RGPD / art. 37 LGPD): finalidade (“classificação automática da correspondência recebida”), base jurídica (interesse legítimo geralmente, com avaliação de balanceamento documentada, ou execução contratual para fluxos de cliente), dados tratados (conteúdo do email, metadados, classificação produzida).
Art. 22 RGPD / art. 20 LGPD: se a classificação despoletar uma decisão exclusivamente automatizada com efeito jurídico (rejeição, escalada contenciosa), exige supervisão humana documentada.
AIPD/RIPD recomendada para caixas de alto risco (RH, jurídico, saúde, gestão de reclamações regulada) ou para volumes muito elevados — e explicitamente exigida pela CNPD quando se tratem dados de categorias especiais (art. 9 RGPD), e pela ANPD quando se tratem dados sensíveis (art. 5 LGPD).
Contrato de subcontratação (art. 28 RGPD / art. 39 LGPD) com o fornecedor LLM, incluindo garantias para transferências internacionais (cláusulas contratuais tipo + Transfer Impact Assessment para transferências fora do EEE — particularmente relevante para OpenAI e Anthropic, ambos sediados nos EUA). As versões consumer (ChatGPT Plus, Claude gratuito) estão proibidas para esta utilização em dados de negócio.
Informação aos correspondentes na política de privacidade, incluindo a existência da classificação automatizada.

Ver o nosso guia IA e RGPD para o quadro detalhado. Para organizações com sigilo profissional (advogados, médicos, notários, contabilistas), apenas um deployment on-premise é juridicamente defensável — posição consistente da CNPD em Portugal, da ANPD no Brasil, e das ordens profissionais (Ordem dos Advogados, Ordem dos Médicos, Ordem dos Contabilistas Certificados).

O que recusamos prometer

Três antipadrões recorrentes que evitamos na DPLIANCE quando enquadramos uma classificação IA de emails à medida.

“Vamos fazer fine-tuning logo, será mais preciso.” Falso na maioria dos casos. Um LLM genérico bem instruído por prompt atinge 85-95% de precisão sem fine-tuning. O fine-tuning só se justifica acima de 1-2 milhões de emails/ano, ou em casos ultra-especializados (línguas raras, terminologia médica fina). Começar com fine-tuning é pagar 25-80 k€ e 4-12 semanas a mais por um ganho frequentemente marginal.

“Classificamos em 50 categorias para sermos precisos.” Falso. Quanto mais fina a taxonomia, mais baixa a precisão e mais a manutenção colapsa. Acima de 30 categorias, o ruído supera o sinal. Começar com 10-15 categorias, alargar apenas se a avaliação rigorosa o justificar.

“Implementamos sem corpus de teste anotado.” Bandeira vermelha absoluta. Sem 100-300 exemplos anotados à mão, é impossível medir precisão, recall, F1. Está a implementar às cegas — e também não consegue prestar contas se a CNPD ou a ANPD perguntar. É o item mais cortado num projeto IA — e o que mais paga.

A DPLIANCE é editor de software. Quando concebemos uma classificação IA de emails à medida, tratamos de toda a stack: escolha do modelo (Mistral, on-premise consoante o seu nível de sensibilidade), co-design da taxonomia com a sua equipa, prompt engineering, corpus de teste anotado, integração com CRM/helpdesk, monitorização da qualidade.

FAQ

Diferença entre classificação e triagem de emails por IA?

A classificação atribui um ou vários rótulos a um email (categorias, intenção, sentimento). A triagem usa esses rótulos para decidir uma ação (mover, encaminhar, escalar). A classificação é a etapa técnica a montante, a triagem é o uso de negócio a jusante. Consulte o nosso guia de triagem automática de emails por IA para a parte a jusante.

LLM genérico ou classificador dedicado para emails?

Em 2026, um LLM genérico (Mistral, GPT-4o, Claude) bem instruído por prompt é suficiente para a maioria dos casos (taxonomia de 10-30 categorias, volume moderado). Um classificador dedicado (modelo especializado fine-tuned) continua pertinente para: volumes muito elevados (milhões de emails/mês) onde o custo da API se torna crítico, ou casos muito especializados (línguas raras, terminologia setorial específica como CAE em Portugal, códigos de saúde ICD-10).

Mono-rótulo ou multi-rótulo: qual escolher?

Mono-rótulo (uma só categoria por email): simples, mais preciso, suficiente em 80% dos casos B2B. Multi-rótulo (várias categorias): útil quando um email cruza vários temas (fatura por pagar E pedido de suporte). Escolher multi-rótulo apenas se a necessidade de negócio o justificar claramente.

Os LLMs conseguem classificar em português europeu e brasileiro?

Sim. Mistral, Claude e GPT-4o gerem nativamente português europeu e português do Brasil, francês, inglês, alemão, espanhol e italiano com desempenho comparável. Recomendamos sempre fazer few-shot com exemplos na variante alvo (PT-PT ou PT-BR) — a precisão pode variar 3-5% entre as duas variantes. Para crioulos lusófonos (cabo-verdiano, são-tomense), testar primeiro numa amostra.

Como avaliar a qualidade de uma classificação IA?

Três métricas clássicas: precisão (entre os emails classificados como X, quantos são realmente X), recall (entre os X reais, quantos foram classificados como X), F1-score (combinação dos dois). Objetivo em produção: >85% de precisão e recall por categoria. A medir num corpus anotado à mão de 100-300 exemplos.

Como gerir os emails que não entram em nenhuma categoria?

Prever sempre uma categoria “Outros / A rever” explícita, que não desencadeie nenhuma ação automática. Mais vale classificar 5-10% dos emails como “a rever” do que gerar falsos positivos. Com o tempo, a análise desta categoria revela os novos padrões a integrar na taxonomia.

A classificação IA é conforme ao RGPD?

O tratamento de classificação deve ser inscrito no registo (art. 30 RGPD). Os emails contêm dados pessoais; o fornecedor LLM como subcontratante necessita de um contrato de subcontratação (art. 28 RGPD). AIPD recomendada se a classificação despoletar decisões automatizadas (art. 22 RGPD). Para caixas com sigilo profissional (advogados nos termos do EOA, médicos nos termos do Código Deontológico, contabilistas certificados), o deployment on-premise é obrigatório segundo a posição consolidada da CNPD em Portugal e da ANPD no Brasil.

Fontes: documentação Mistral AI (mistral.ai), OpenAI (platform.openai.com), Anthropic Claude (anthropic.com), BERTimbau (NeuralMind, Brasil); literatura científica sobre classificação de texto (BERT, Portuguese DistilBERT); Regulamento (UE) 2016/679 (RGPD), em particular art. 22 e 30; Lei n.º 58/2019 (Lei de execução do RGPD em Portugal); Lei n.º 13.709/2018 (LGPD - Brasil); Regulamento (UE) 2024/1689 (Regulamento IA); recomendações da CNPD (Portugal) e da ANPD (Brasil) sobre IA e dados pessoais; orientações setoriais Banco de Portugal, ASF, CMVM, Bacen, SUSEP.

Para enquadrar um projeto de classificação de emails por IA — escolha do modelo, design da taxonomia, avaliação, conformidade — ver o nosso guia de triagem automática de emails por IA, o nosso guia de gestão de emails por IA, o nosso guia IA e RGPD, ou contacte-nos através das nossas soluções IA à medida.