LLM local em empresa: implantar uma IA soberana on-premise (2026)

Q: Quais são as armadilhas clássicas de um LLM local em empresa?

Quatro armadilhas recorrentes. Uma: subestimar a carga DevOps — um LLM local exige monitorização contínua (latência, qualidade, carga GPU), um plano de atualização de modelos e um fallback em caso de avaria — não chega ‘instalar e esquecer'. Duas: saltar a fase de RAG e engenharia de prompts, dando respostas medíocres atribuídas erradamente ao modelo. Três: esquecer a conformidade RGPD/Lei 58/AI Act sob pretexto de que ‘é em local' — a AIPD continua obrigatória para os usos de risco, o registo de tratamentos também. Quatro: descurar a formação dos utilizadores — um LLM local não é autoexplicativo, a literacia IA continua obrigatória (artigo 4 do Regulamento IA).

Quick Answer: o que é um LLM local em empresa?

Um LLM local (large language model — o motor de IA generativa que produz texto, como o ChatGPT ou o Mistral, mas instalado nos seus próprios servidores) é implantado na infraestrutura da organização: servidor nas suas instalações, datacenter privado ou cloud privada controlada. Nenhum dado sai do perímetro. É a opção mais estrita em matéria de soberania e conformidade.

Em 2026, implantar um LLM local numa empresa portuguesa é tecnicamente acessível:

Modelos abertos (“open-weight”) maduros: Mistral (Small, Codestral, Large via Mistral Inference), BERTimbau (NeuralMind, modelo de referência treinado em português brasileiro mas amplamente utilizado em PT-PT), Sabiá (Maritaca AI, especializado em português), Albertina (projeto PORTULAN da Universidade de Lisboa, focado em PT-PT), Llama 3.x (Meta), Qwen 2.5 (Alibaba), DeepSeek-V3.
Ferramentas simples para os fazer correr: Ollama para arrancar, vLLM ou Text Generation Inference para a produção, llama.cpp para implantações leves, LM Studio para prototipagem desktop.
Hardware razoável: um servidor com GPU NVIDIA (A100 / H100) ou AMD MI300 faz correr um modelo de 70 mil milhões de parâmetros em produção; um Mac Studio M2 Ultra ou uma configuração AMD permite já PoCs sérios.
Custo total de propriedade frequentemente competitivo com um serviço cloud a partir de 50-100 utilizadores regulares.

O LLM local impõe-se sobretudo quando os dados tratados são sensíveis (saúde, sigilo profissional, defesa, administração pública), quando a criticidade do serviço exige independência face a um fornecedor, ou quando o volume de utilização justifica o investimento em hardware.

Porquê este tema, agora

Três viragens entre 2024 e 2026 tornaram o LLM local acessível a organizações que não poderiam tê-lo considerado há dois anos.

Viragem 1 — Os modelos open-weight chegaram lá. Mistral Small 3 (24B), Llama 3.3 (70B), Sabiá-3, DeepSeek-V3 entregam em 2026 desempenhos que eram os do GPT-4 em 2023. Para 80-90 % dos casos de uso de negócio, um modelo open-weight bem prompted está agora à paridade funcional com os LLM SaaS de topo.

Viragem 2 — As ferramentas estão maduras. O Ollama arranca um LLM local num comando. vLLM e Text Generation Inference oferecem inferência production-ready com centenas de utilizadores concorrentes. As APIs são compatíveis OpenAI — migrar código existente é geralmente trivial. A fricção técnica baixou fortemente.

Viragem 3 — O hardware desceu em preço relativo. Um Mac Studio M2 Ultra a 7 000 € corre um modelo 70B quantizado para 1-3 utilizadores concorrentes. Um servidor GPU A100 a 25-40 k€ cobre 50-100 utilizadores. Para uma grande empresa, o investimento em hardware amortiza-se em menos de 18 meses face ao custo SaaS equivalente.

A conta mudou: o LLM local já não está reservado a DSI com data scientists. Tornou-se uma opção pragmática para organizações com exigência soberana, volume elevado ou dados sensíveis.

Porquê implantar um LLM em local em vez de SaaS?

Três benefícios estruturais, mais uma série de benefícios secundários.

Soberania jurisdicional estrita. Nenhum dado sai do perímetro — logo nenhuma aplicabilidade do Cloud Act americano, nenhuma dependência do Data Privacy Framework, nenhuma transferência para subcontratantes terceiros. Para uma organização portuguesa que trate dados sensíveis, é a única arquitetura que elimina totalmente o risco de transferência (ver o nosso guia da IA soberana).

Conformidade por defeito sobre os dados sensíveis. Para uso IA na saúde (SNS, RNU, sigilo médico), nas finanças (Banco de Portugal, CMVM), na defesa, na administração pública, as obrigações setoriais impõem controlo direto sobre o tratamento. Um LLM local cobre estas obrigações sem quadro contratual complexo com um editor terceiro. Ver o nosso guia IA conforme RGPD para o quadro legal completo.

Reversibilidade total. Se a Mistral mudar a política de preços, se a OpenAI cessar um serviço, se um fornecedor cloud se tornar geopoliticamente inacessível, o seu LLM local continua a funcionar. É a única arquitetura que resiste à rutura de um fornecedor único.

Tabela de benefícios e limites

Critério	LLM local (on-premise)	LLM cloud SaaS
Soberania	✅ Máxima	🟡 Variável
Custo marginal por pedido	✅ Quase nulo após amortização	❌ Variável
Latência	✅ Baixa (sem rede)	🟡 Aceitável
Personalização (RAG, fine-tuning)	✅ Sem limites	🟡 Conforme oferta
Confidencialidade absoluta	✅ Nada sai	❌ Dados enviados
Modelos de topo (GPT-5, Claude 4)	❌ Não acessíveis	✅ Acessíveis
Carga DevOps GPU	❌ Elevada	✅ Nula
Atualizações automáticas	❌ Manual	✅ Auto
Investimento inicial	❌ Elevado	✅ Marginal

Que modelos open-weight escolher em 2026?

O ecossistema open-weight explodiu entre 2023 e 2026. Uma leitura pragmática por uso.

Mistral & Mixtral (França)

O ecossistema open-weight mais maduro para uma organização europeia. Várias famílias utilizáveis:

Mistral Small 3: ~24 mil milhões de parâmetros, desempenho próximo do GPT-4o-mini, corre numa única GPU de 80 GB. Excelente compromisso para a maioria dos casos de uso de negócio.
Mixtral 8x22B: arquitetura mixture-of-experts, muito forte em raciocínio e tarefas multilingues graças à ativação esparsa.
Codestral: modelo especializado em código (~22 mil milhões de parâmetros), ideal para assistência ao desenvolvimento interno.
Mistral Large via Mistral Inference: modelos proprietários implantáveis em modo “managed on-prem” para grandes empresas — não open-weight stricto sensu mas com compromisso contratual europeu.

Privilegiar a Mistral pela coerência soberana: editor francês, modelos treinados na Europa, ecossistema próximo da regulação europeia.

BERTimbau (NeuralMind)

A NeuralMind, em parceria com a USP no Brasil, publicou o BERTimbau, modelo BERT pré-treinado em corpus português brasileiro de 17,5 GB. Disponibilidade open-weight (MIT). Mesmo sendo BR, o BERTimbau é amplamente utilizado por organizações portuguesas para tarefas de classificação, NER e embeddings em português europeu, com ajuste fino sobre corpus PT-PT quando o caso de uso o exige. Sweet spot para extração e classificação de documentos em português.

Sabiá (Maritaca AI)

A Maritaca AI desenvolveu a família Sabiá (Sabiá-2, Sabiá-3), grandes modelos generativos especializados em português. Sabiá-3 oferece desempenho competitivo com GPT-4 em benchmarks portugueses, cobrindo tanto PT-BR como PT-PT com adaptações para terminologia europeia. Disponibilidade pesa entre open-weight e API gerida consoante a versão. Pertinente para organizações lusófonas que privilegiam a fluência nativa em português e desejam um fornecedor lusófono.

Albertina (PORTULAN, Universidade de Lisboa)

O projeto PORTULAN, coordenado pelo Centro de Linguística da Universidade de Lisboa (NLX-Group), publicou a família Albertina: modelos de linguagem pré-treinados especificamente em português europeu (PT-PT), com variantes 900M e maiores. MIT licence. É o modelo de referência para tarefas que exigem fidelidade ao português europeu (legal PT, contratos PT, correspondência administrativa, medicina PT). Apoiado pelo PNRR e fundos europeus, simbolicamente importante para a soberania linguística portuguesa.

Llama 3.x (Meta)

Llama 3.1 e 3.3 (8B, 70B, 405B) continuam a ser uma referência desempenho/custo em 2026. A Meta clarificou a sua licença a favor de uma utilização comercial ampla (acima de 700 milhões de utilizadores cumulados, restrições). Para a grande maioria das organizações portuguesas, o Llama é livremente utilizável.

A notar: treino Meta logo dependência EUA na cadeia de origem. Uma vez implantado localmente, os dados de inferência não saem — mas o argumento de soberania fica parcialmente afetado.

Qwen 2.5 (Alibaba)

Modelos chineses, desempenho frequentemente superior ao Llama em tarefas multilingues e código. Licença Apache 2.0 (muito permissiva). O desafio é geopolítico: usar um modelo treinado na China sobre dados potencialmente enviesados pelo contexto de origem. Aceitável para casos técnicos onde o conteúdo importa pouco (extração, classificação), a evitar em casos com aposta editorial ou decisional sensível.

Tabela de síntese modelos

Modelo	Origem	Tamanho	Caso de uso ideal	Soberania
Mistral Small 3	França	24B	Tarefas de negócio generalistas	✅ Forte (UE)
Mixtral 8x22B	França	8x22B (MoE)	Raciocínio, multilingue	✅ Forte (UE)
BERTimbau	Brasil (NeuralMind)	base/large	Classificação, NER em PT	✅ Forte (PT/BR)
Sabiá	Brasil (Maritaca)	variável	Generativo em português	✅ Forte (PT/BR)
Albertina	Portugal (PORTULAN)	900M+	PT-PT nativo, legal PT	✅ Máxima (PT)
Llama 3.3-70B	EUA (Meta)	70B	Qualidade produção	🟡 Híbrida
Qwen 2.5	China (Alibaba)	7-72B	Multilingue, código	⚠️ Geopolítica
DeepSeek-V3	China	671B	Produção pesada	⚠️ Geopolítica

Hardware necessário: do portátil ao cluster

O custo de hardware é hoje o principal travão psicológico. Algumas referências concretas.

Para PoC ou uso individual

Mac Studio M2 Ultra (192 GB RAM unificada): corre um modelo 70B quantizado (4-bit) a 10-15 tokens/segundo. Suficiente para 1-3 utilizadores concorrentes, ~7 000 €.
PC com RTX 4090 (24 GB VRAM): suficiente para Mistral Small 3 ou Llama 3.1-8B em precisão completa. ~2 500 € para a GPU, ~5 000 € total.
Cluster CPU (sem GPU): possível com llama.cpp para modelos 7-8B quantizados, mas latência demasiado alta para uso interativo. Pertinente para batch processing.

Para produção interna 50-200 utilizadores

Servidor GPU com 1-2 NVIDIA A100 80 GB: ~25 000-40 000 € em compra, ou ~3 000 €/mês em aluguer dedicado. Corre Mistral Small 3 ou Llama 3.1-70B em produção. Suficiente para 50-100 utilizadores concorrentes com latência aceitável.
Servidor AMD MI300X (192 GB): alternativa emergente à NVIDIA, desempenho comparável, ecossistema software ainda em recuperação mas o ROCm progride. ~30 000 € em compra.

Para produção grande volume (200+ utilizadores)

Cluster multi-GPU com NVIDIA H100 ou H200: configuração para Llama 3.3-70B ou Mistral Large em produção alta disponibilidade. Investimento inicial 80 000-200 000 € consoante o dimensionamento.
Cloud soberana GPU: alternativas à compra via Claranet Portugal (operador português, datacenters em Lisboa e Porto), OVHcloud Lisboa (datacenter em território português), IP Telecom (operador português, datacenter Covilhã com refrigeração natural a baixa pegada carbónica). ~5-15 €/hora consoante a máquina. Soberania RGPD/Lei 58/2019 preservada com a escolha correta de fornecedor.

Custo total de propriedade a 3 anos

Para uma organização B2B portuguesa de 200 utilizadores com uso IA generalizado:

Configuração	Investimento inicial	Operação anual	Total 3 anos
LLM local — A100	80-150 k€	30-60 k€	170-330 k€
ChatGPT Enterprise (200 u.)	0 (SaaS)	~145 k€ ($60/u/mês)	~430 k€
Mistral Le Chat Enterprise (200 u.)	0 (SaaS)	36-60 k€	110-180 k€

O local torna-se competitivo a partir de 100-150 utilizadores regulares, sem sequer contabilizar o risco DPF. Para organizações com exigência forte de soberania e reversibilidade, o argumento é ainda mais nítido.

Ferramentas de implantação: Ollama, vLLM, llama.cpp, LM Studio, Mistral Inference

Cinco opções dominantes em 2026, cada uma com o seu terreno.

Ollama

O mais simples para começar. Um comando, um modelo descarregado, uma API REST local. Ideal para PoC, desenvolvimento e usos individuais até alguns utilizadores concorrentes. Limites: não foi concebido para produção de alta concorrência, gestão de filas básica.

ollama pull mistral-small
ollama run mistral-small

vLLM

A referência produção em 2026. Inferência batched, continuous batching, suporte LoRA, KV cache otimizado. Aguenta centenas de pedidos concorrentes num cluster GPU. Compatível API OpenAI (útil para migrar código existente). Documentação sólida, comunidade ativa.

A privilegiar assim que se ultrapassam 10 utilizadores concorrentes em produção.

Text Generation Inference (Hugging Face)

Alternativa ao vLLM, mantida pelo Hugging Face. Muito performante também, ecossistema rico em modelos. Boa escolha para organizações já alinhadas com o ecossistema Hugging Face.

llama.cpp

Inferência CPU-friendly e GPU leve. Compila para binário nativo (C++), corre em todo o lado (Linux, macOS, Windows, ARM, edge devices). Usado por baixo do capot pelo Ollama, mas também implantável diretamente para casos embebidos ou minimalistas.

LM Studio

Aplicação desktop para prototipagem e inferência on-device. Particularmente útil para analistas e developers que queiram testar modelos numa estação de trabalho sem operar um servidor. Não foi concebida para produção partilhada mas excelente para experimentação.

Mistral Inference

A opção oficial para os modelos proprietários Mistral em modo on-prem. Compromisso contratual com a Mistral, suporte enterprise, modelos mais performantes que os open-weight standalone. Custo de licença a negociar consoante a organização.

Tabela comparativa ferramentas

Ferramenta	Caso de uso ideal	Maturidade produção	Compatibilidade API
Ollama	PoC, dev, < 10 utilizadores	🟡 limitado	OpenAI-like
vLLM	Produção, > 10 utilizadores	✅ referência	OpenAI
TGI (Hugging Face)	Produção, ecossistema HF	✅ sólido	OpenAI
llama.cpp	Edge, embebido, CPU	✅ estável	Custom
LM Studio	Prototipagem desktop	🟡 só desktop	OpenAI-like
Mistral Inference	Modelos Mistral proprietários	✅ contrato	Mistral

Desempenho vs cloud: o que é preciso saber

Três diferenças persistem em 2026 entre LLM local e cloud SaaS.

Qualidade bruta dos modelos de topo. Os modelos proprietários fechados (GPT-5, Claude 4, Gemini Ultra) continuam ~10-20 % à frente dos melhores open-weight (Llama 3.3-405B, Mistral Large) em tarefas complexas (raciocínio multi-etapa, código avançado). Para a maioria dos casos de uso de negócio (redação, síntese, extração, classificação), esta diferença é impercetível. Para tarefas de raciocínio avançado, pode contar.

Latência por pedido. Um LLM local em GPU dedicada serve tipicamente a 30-80 tokens/segundo. Um serviço cloud tipo ChatGPT Plus está a 60-120 tokens/segundo em GPT-4o. A diferença é mínima do lado do utilizador, mas torna-se visível em tarefas longas (síntese de 100 páginas).

Atualizações. A cloud beneficia automaticamente das novas versões de modelo. Em local, cabe à sua equipa testar, validar, implantar. Ciclo típico: 2-4 atualizações por ano para se manter no estado da arte.

Pelo contrário, o local ganha em:

Custo marginal (zero após amortização de hardware)
Latência em prompts muito pequenos (sem ida e volta de rede)
Personalização (fine-tuning, RAG dedicado, embeddings de negócio)
Confidencialidade absoluta (nada sai)

Segurança e conformidade de um LLM local

Implantar em local não faz desaparecer as obrigações RGPD/Lei 58/2019 e AI Act — muda a sua aplicação.

Lado RGPD/Lei 58/2019: o LLM local é tratado como qualquer outro tratamento informático interno. Inscrição no registo de atividades de tratamento, AIPD se o uso for de risco elevado (cf. IA conforme RGPD), medidas de segurança standard (controlo de acesso, registo de logs, cópias de segurança). Mas nenhuma das complexidades ligadas à transferência fora da UE — é precisamente a vantagem. A CNPD publicou diretrizes sobre IA e RGPD que reconhecem a arquitetura local como boa prática. A Lei n.º 58/2019, que executa o RGPD em Portugal, não introduz obstáculos adicionais ao local.

Lado AI Act (Regulamento (UE) 2024/1689): se o uso for classificado de risco elevado (RH, scoring de crédito, biometria, infraestruturas críticas), as obrigações de documentação, transparência, supervisão humana aplicam-se seja qual for o modo de implantação. O local facilita a conformidade (controla tudo) mas não dispensa de nada. O artigo 4 (literacia IA) é aplicável desde 2 de fevereiro de 2025.

Lado segurança técnica:

O servidor GPU deve estar segmentado em rede, em interno ou DMZ estrita
Os prompts enviados ao LLM podem ser registados para fins de auditoria, mas esse registo torna-se ele próprio um tratamento RGPD
Os modelos descarregados do Hugging Face deveriam ser verificados (assinaturas, hashes) antes da implantação — um modelo com backdoor é um vetor de ataque real
O fine-tuning sobre dados internos não polui o modelo público, mas o modelo fine-tuned torna-se uma cópia que potencialmente reproduz dados de treino via membership inference attack

Para organizações com exigência forte (saúde sob regulação SNS, banca sob supervisão Banco de Portugal, infraestruturas críticas sob CNPD/CNCS), uma auditoria de segurança dedicada é recomendada antes da entrada em produção. A conformidade com as orientações do CNCS (Centro Nacional de Cibersegurança) deve ser considerada para organizações no perímetro de proteção crítica.

Roteiro de adoção em empresa

Quatro etapas pragmáticas para passar do PoC à produção.

Etapa 1 — Caso de uso alvo (2 a 4 semanas). Identificar um caso de uso onde o local traz realmente valor (dados sensíveis, volume elevado, criticidade). Medir a baseline humana e as exigências de qualidade. Ver o nosso guia de casos de uso IA para os padrões industrializáveis.

Etapa 2 — PoC hardware leve (4 a 6 semanas). Implantar Mistral Small 3 ou Albertina sobre Ollama via um Mac Studio ou um servidor GPU mid-range. Avaliar a qualidade de saída no caso de uso alvo com um corpus de 100-200 exemplos anotados. Validar o rácio desempenho / custo.

Etapa 3 — Piloto de produção (3 a 4 meses). Investir num servidor GPU produção (A100 80 GB ou MI300X). Migrar para vLLM. Integrar no SI (API interna, autenticação, registo de logs). Implantar junto de um grupo piloto de 10-30 utilizadores. Medir.

Etapa 4 — Industrialização (contínuo). Alargamento progressivo aos outros casos de uso. Implementação da monitorização de qualidade. Plano de atualização dos modelos (ciclo trimestral). Formação das equipas utilizadoras (cf. formação IA em empresa).

Esquema do roteiro

[Etapa 1] Enquadramento caso uso ──► volumetria, sensibilidade, baseline humana
       │
       ▼
[Etapa 2] PoC leve (Ollama + Mac/GPU) ──► validação qualidade em 100-200 exemplos
       │
       ▼
[Etapa 3] Piloto produção (vLLM + A100) ──► 10-30 utilizadores, monitorização
       │
       ▼
[Etapa 4] Industrialização ──► alargamento + plano de atualização
       │
       ▼
[Evolução] revisita trimestral, adição de casos de uso

O que recusamos prometer

Três antipadrões recorrentes que evitamos na DPLIANCE quando concebemos uma implantação LLM local.

“Instalamos o Ollama e ficamos descansados.” Falso. Um PoC Ollama é fácil; uma produção fiável exige vLLM (ou TGI), monitorização contínua, plano de atualização, fallback em caso de avaria, integração SI. Sem esses tijolos, o LLM local torna-se um ponto de fragilidade — não um ativo soberano. A curva de aprendizagem técnica é real.

“Em local, deixa de ser preciso AIPD nem carta.” Falso. A conformidade RGPD/Lei 58/AI Act não depende do modo de implantação, mas do tratamento e dos dados. Um LLM local sobre dados de RH necessita de uma AIPD como um LLM SaaS. O local facilita a conformidade, não a substitui.

“Vamos passar 100 % local para tudo.” Frequentemente inútil e dispendioso. O bom design é multinível: LLM local para os casos sensíveis, cloud soberana (Mistral Le Chat Enterprise, Claranet PT, OVHcloud Lisboa, IP Telecom) para a maioria dos usos de negócio, cloud EUA para os raros casos não sensíveis em que o ecossistema específico traga valor (raro). Empurrar tudo para local é pagar um custo de hardware e operacional elevado por um benefício marginal nos usos não sensíveis.

A DPLIANCE é um editor de software. Quando concebemos uma solução IA à medida que inclui um LLM local, ocupamo-nos do stack completo: escolha do modelo, dimensionamento de hardware, integração vLLM ou Mistral Inference, RAG sobre a sua base documental, registo de logs, integração SI. Tudo em stack soberano europeu.

FAQ

São mesmo necessárias GPUs para um LLM local?

Em teoria não, na prática sim para produção. A inferência em CPU é possível com llama.cpp para modelos 7-8B quantizados, mas o débito fica em 1-5 tokens por segundo — inutilizável em modo interativo. Apple Silicon M2/M3 Ultra com memória unificada aceitável até cerca de 10 utilizadores concorrentes para modelos 30-70B quantizados. A partir de 10 utilizadores concorrentes e para modelos superiores a 30 mil milhões de parâmetros: GPU NVIDIA (A100/H100) ou AMD (MI300X) requeridas, salvo aceitar uma experiência degradada.

O Mistral local é tão potente quanto o Mistral Le Chat Enterprise?

A Mistral propõe duas famílias: os modelos open-weight implantáveis localmente (Mistral Small 3, Codestral, Mistral 7B) e os modelos proprietários (Mistral Large) acessíveis via API ou contrato on-prem dedicado (Mistral Inference). Os open-weight oferecem cerca de 80-90 % do desempenho dos modelos proprietários na maior parte das tarefas de negócio — redação, síntese, extração, classificação, tradução europeia. Para casos onde a diferença conta (raciocínio complexo, código avançado em contextos longos, multimodal avançado), considerar Mistral Inference com contrato dedicado.

Quanto tempo demora a implantar um LLM local?

Um PoC funcional: menos de uma semana com Ollama + Mistral Small 3 num servidor GPU decente ou num Mac Studio M2 Ultra. Uma implantação produção com integração SI, autenticação SSO, monitorização, segurança de rede, plano de atualização, formação dos utilizadores: 3 a 6 meses consoante a complexidade do contexto (dimensão da organização, nível de integração com o SI existente, exigências setoriais). Para organizações sem experiência GPU interna, prever uma fase adicional de aprendizagem técnica de 4 a 8 semanas.

Vale a pena fazer fine-tuning de um modelo local?

Não por defeito. Para a maior parte dos casos de uso em 2026, um modelo open-weight bem prompted + um RAG (Retrieval-Augmented Generation, técnica que permite à IA ir buscar a resposta na sua própria documentação) sobre a base documental interna basta. O fine-tuning justifica-se quando: o prompting e a estrutura de contexto não chegam para a precisão exigida; os volumes são tão elevados que o custo de inferência se torna fator dimensionante; é necessária especialização linguística forte (terminologia médica rara, jargão setorial ultraespecializado); ou é necessária estabilidade de tom (redação de pareceres com estilo fixo).

Que modelo escolher para começar?

Mistral Small 3 ou Llama 3.1-8B são os pontos de entrada mais simples para um PoC. Ambos correm numa GPU de 24 GB de VRAM (RTX 4090 por exemplo), com desempenho suficiente para a maioria das tarefas de negócio. O Mistral é preferível se a soberania for um critério estruturante (editor francês, treinado na Europa). O Llama é preferível se já dispuser de um stack Hugging Face maduro ou se procurar tamanhos muito específicos. Para arrancar em menos de uma hora: Ollama + comando ollama run mistral-small. Para um modelo treinado em português, avaliar BERTimbau (NeuralMind), Sabiá (Maritaca AI) ou Albertina (PORTULAN/Universidade de Lisboa).

Um LLM local exclui a cloud por completo?

Não. Uma estratégia híbrida é frequentemente ótima: LLM local para os usos sensíveis (saúde, RH nominativo, sigilo profissional, dados financeiros detalhados) e para o volume, cloud soberana (Mistral Le Chat Enterprise, Claranet PT, OVHcloud Lisboa, IP Telecom) para a flexibilidade e os usos ocasionais. É a arquitetura mais robusta face aos riscos operacionais (avaria, pico imprevisto) e geopolíticos (rutura de um fornecedor). Multi-fornecedor não é uma complicação, é um seguro.

Quanto custa um LLM local para 100 utilizadores?

Investimento inicial: 30 a 60 k€ para o hardware (servidor GPU com 1-2 NVIDIA A100 80 GB ou MI300X), 15 a 40 k€ para integração e configuração (segurança de rede, SSO, monitorização, RAG se necessário). Custos anuais de operação: 10 a 25 k€ (eletricidade, manutenção hardware, atualizações de modelo, monitorização de qualidade). Custo total a 3 anos amortizado: ~80 a 180 k€ consoante o dimensionamento. Comparado com um SaaS tipo ChatGPT Enterprise para 100 utilizadores (~215 k€ em 3 anos), o local torna-se competitivo e oferece soberania RGPD/Lei 58/2019 como bónus.

Quais são as armadilhas clássicas de um LLM local em empresa?

Quatro armadilhas recorrentes. Uma: subestimar a carga DevOps — um LLM local exige monitorização contínua (latência, qualidade, carga GPU), um plano de atualização de modelos e um fallback em caso de avaria — não chega “instalar e esquecer”. Duas: saltar a fase de RAG e engenharia de prompts, dando respostas medíocres atribuídas erradamente ao modelo. Três: esquecer a conformidade RGPD/Lei 58/AI Act sob pretexto de que “é em local” — a AIPD continua obrigatória para os usos de risco, o registo de tratamentos também. Quatro: descurar a formação dos utilizadores — um LLM local não é autoexplicativo, a literacia IA continua obrigatória (artigo 4 do Regulamento IA).

Fontes: Mistral AI, documentação modelos open-weight (mistral.ai); NeuralMind, BERTimbau model card; Maritaca AI, documentação Sabiá; PORTULAN/NLX-Group Universidade de Lisboa, Albertina model cards; Meta, Llama 3.x model cards (llama.meta.com); Alibaba Cloud, Qwen documentation; DeepSeek, technical report V3 (2024); documentação Ollama, vLLM, Text Generation Inference, llama.cpp; CNPD, orientações sobre IA e RGPD; CNCS, recomendações cibersegurança IA; Regulamento (UE) 2024/1689 (AI Act); Lei n.º 58/2019.

Para enquadrar um projeto de LLM local — diagnóstico de uso, escolha de hardware, arquitetura de segurança, integração ao SI, conformidade — ver o nosso guia da IA soberana, o nosso guia IA conforme RGPD, ou contacte-nos através das nossas soluções IA à medida.