RAG in azienda: architettura e best practice 2026
Quick Answer: cos’è il RAG in azienda?
RAG (Retrieval-Augmented Generation, letteralmente «generazione aumentata dal recupero») è l’architettura IA più diffusa nelle imprese italiane nel 2026 per far rispondere un grande modello linguistico a partire dalla vostra documentazione. Il principio è semplice, paragonabile a un consulente che apre i fascicoli prima di rispondere:
- L’utente formula una domanda in linguaggio naturale.
- Il sistema cerca i documenti pertinenti in una base di conoscenza preparata (il «vector database»: ogni documento è memorizzato come firma numerica per ritrovare rapidamente quelli che assomigliano alla domanda).
- I documenti pertinenti sono inseriti nel prompt inviato all’LLM.
- L’LLM genera una risposta ancorata a quei documenti, con citazione delle fonti.
Stack di riferimento 2026 per il mercato italiano:
- LLM: Mistral Large o Mistral Small 3 (sovrano UE), Modello Italia di iGenius (LLM italiano, 9 miliardi di parametri, addestrato su corpus italiano e annunciato nel 2024 con CINECA), AlmaLLM di Almawave (storica software house italiana focalizzata su NLP), Llama 3.1/3.3 70B self-hosted, GPT-4o o Claude (se si accetta la dipendenza DPF).
- Embeddings: E5-Multilingual (eccellente in italiano), IT-MiniLM e modelli derivati BERT italiani (
dbmdz/bert-base-italian-xxl-cased,efederici/sentence-bert-base-italian-uncased), BGE-M3, Mistral Embed. Per corpus puramente italiano: modelli specializzati comenickprock/sentence-bert-base-italian-uncasedo le varianti UmBERTo. - Vector database: Qdrant (self-hostable, riferimento 2026), Weaviate, Milvus, pgvector se PostgreSQL è già nello stack, Chroma per i prototipi iniziali.
- Orchestrazione: LangChain, LlamaIndex, Haystack.
Casi d’uso prevalenti in Italia: manifattura e meccatronica (Brembo, Ferrari, Lamborghini, Pirelli, Leonardo, Saipem, Eni — manuali di manutenzione, schede tecniche, normativa di sicurezza), moda e lusso (Gucci, Prada, Armani, Dolce&Gabbana — gestione di documentazione di stagione e localizzazione multilingua), banche e assicurazioni sotto vigilanza Banca d’Italia/IVASS (UniCredit, Intesa Sanpaolo, Generali, Mediolanum), pubblica amministrazione (progetti PA digitale, AgID, PNRR), sanità con Fascicolo Sanitario Elettronico.
Perché RAG e non fine-tuning: RAG è più semplice, più mantenibile, più trasparente. Il fine-tuning si giustifica solo in casi molto specifici.
Costo: 50-200 € al mese di funzionamento per una PMI, 5-25 k€ di investimento iniziale.
Perché il RAG si è imposto nel 2026
Prima del 2024, integrare la conoscenza interna di un’impresa in un LLM significava fine-tuning — lungo, costoso, fragile. Il RAG ha rovesciato l’equazione per tre motivi.
Svolta 1 — Maturità degli LLM long-context. Mistral, GPT-4o, Claude, Llama 3.3 e Modello Italia gestiscono nel 2026 contesti da 100.000 a 1 milione di token. Si possono fornire decine di pagine di documenti come input — esattamente ciò di cui il RAG ha bisogno. Prima del 2024, il limite di 8-32k token imponeva compromessi pesanti sulla quantità di contesto; questa frizione è scomparsa.
Svolta 2 — Maturità dei vector database open-source. Qdrant, Weaviate, Milvus, Chroma e pgvector consentono nel 2026 di mettere in produzione un vector database in poche ore, gratuitamente o a costo molto basso. Prima del 2023, occorreva Pinecone (SaaS USA) o costruire lo stack proprio. Oggi: Qdrant self-hosted su Aruba Cloud Bergamo, WIIT, Reevo o OVHcloud Milano, in pochi comandi.
Svolta 3 — Semplicità di integrazione. LangChain e LlamaIndex hanno stabilizzato i pattern di integrazione. Una PMI italiana può prototipare un RAG in 1-2 settimane con un team tecnico modesto. I framework gestiscono ingestion, chunking, embedding, retrieval, generazione con citazione.
Concretamente: nel 2026, ogni organizzazione italiana con una base documentale interna (>500 documenti) ha interesse a esplorare il RAG. È diventato accessibile, prevedibile, e il ROI si misura in mesi.
Architettura dettagliata di un RAG in produzione
Una pipeline RAG matura nel 2026 conta sei componenti. Schema e poi dettaglio.
Schema della pipeline
[Fonti documentali]
SharePoint, GED, wiki, Drive, CRM, ERP
│
▼
[1. Ingestion] ─── parsing PDF/DOCX/HTML, OCR se scansionato
│
▼
[2. Chunking] ─── suddivisione in passaggi 200-1000 token
│
▼
[3. Embeddings] ─── firma numerica per chunk
│
▼
[4. Vector DB] ── archiviazione Qdrant / Weaviate / pgvector
│
├──── (a runtime, query utente)
▼ │
[5. Retrieval] ◄─────────────────── embedding query
│ top-K chunks │
▼ │
[6. Generazione] ─── LLM con contesto ◄────┘
│
▼
[Risposta + citazione fonti]
1. Ingestion documentale
Fonti: SharePoint, GED (Microsoft 365 dominante nel mid-market italiano), wiki Confluence, cartelle OneDrive, esportazioni CRM, esportazioni SAP (massicciamente presente nelle grandi imprese italiane), contratti, FAQ, intranet. Parsing: PDF (con OCR se scansionato — Azure Document Intelligence o Tesseract), DOCX, HTML, Markdown, trascrizioni audio (via Whisper).
Buona pratica: preservare i metadati (autore, data, fonte, classificazione di sensibilità, periodo di conservazione) lungo tutta la pipeline per poter filtrare a valle. Per la manifattura italiana, conservare il numero di revisione del manuale è cruciale — la sicurezza sul lavoro (D.lgs. 81/2008) richiede di citare la versione esatta in vigore.
2. Chunking
I documenti sono suddivisi in passaggi da 200-1000 token a seconda dell’LLM e della natura del contenuto. Strategie:
- Chunking fisso: 500 token per chunk, semplice
- Chunking semantico: per paragrafo o sezione logica, più rilevante
- Chunking gerarchico: chunk grande (sintesi) più chunk piccoli (dettaglio), buono per documenti strutturati come manuali tecnici e norme UNI
Un buon chunking distingue un RAG mediocre da uno performante.
3. Embeddings
Ogni chunk è convertito in un vettore denso (768-3.072 dimensioni). Modelli 2026 per contenuti in italiano:
| Modello | Origine | Qualità in italiano | Sovranità |
|---|---|---|---|
| E5-Multilingual | Open Source | Eccellente | OK se self-hosted |
| IT-MiniLM / Italian Sentence-BERT | Open Source IT | Molto buona | OK se self-hosted |
| UmBERTo | Open Source IT (Musixmatch) | Buona | OK se self-hosted |
| BGE-M3 | Cina open-source | Molto buona | OK se self-hosted |
| Mistral Embed | Francia | Buona | Sovrano UE |
| OpenAI text-embedding-3 | USA | Molto buona | Dipendenza DPF |
Per contesti sensibili (banche vigilate Banca d’Italia, sanità sotto Garante, PA digitale), preferire modelli italiani open-source self-hosted o Mistral Embed.
4. Vector storage
Memorizzazione di embedding + metadati + chunk originale. Selezione 2026:
| Vector DB | Tipo | Caso d’uso ideale | Sovranità |
|---|---|---|---|
| Qdrant | Open-source self-hostable | Riferimento 2026, PMI a grande gruppo | Sì |
| Chroma | Open-source | PoC, prototipo rapido | Sì |
| pgvector | Estensione PostgreSQL | Stack Postgres già in essere | Sì |
| Weaviate | Open-source | Scala maggiore | Sì se self-hosted |
| Milvus | Open-source | Scala molto grande | Sì se self-hosted |
| Pinecone | SaaS USA | Da evitare per dati sensibili | No |
Per casi regolamentati (banca-Banca d’Italia, sanità Garante, PA-AgID), Qdrant self-hosted su Aruba Cloud (Arezzo/Bergamo/Roma), WIIT, Reevo, Seeweb o OVHcloud Milano è la scelta sovrana di riferimento nel 2026. Aruba e WIIT offrono certificazioni AgID/Polo Strategico Nazionale (PSN) particolarmente apprezzate dalla PA italiana.
5. Retrieval
A runtime la query utente è:
- Convertita in embedding (stesso modello dell’ingestion)
- Confrontata con embedding memorizzati (similarità coseno)
- Top-K chunk recuperati (tipicamente K=5-10)
Miglioramenti comuni:
- Hybrid search: combina ricerca vettoriale e ricerca per parole chiave (BM25). Migliora la precisione su termini tecnici e codici normativi (es. articoli del D.lgs. 231/2001 o del CCNL).
- Reranking: un modello dedicato (cross-encoder) riordina i top-K. Cohere Rerank 3 e BGE-Reranker sono le scelte di default nel 2026.
- Filtri metadata: limitare la ricerca a un sottoinsieme (per data, fonte, classificazione, profilo utente, stabilimento).
6. Generazione con citazione
L’LLM riceve:
- La query utente
- I chunk pertinenti come contesto
- Un system prompt che impone citazioni esplicite
Output tipico: «Secondo la procedura MAN-2024-03 (paragrafo 4.2), la coppia di serraggio è 25 Nm… [Fonte: Manuale di manutenzione MAN-2024-03, rev. 2024-09].»
Senza citazione, non avete un RAG: avete un LLM che allucina su documenti interni. La citazione non è negoziabile per la fiducia dell’utente e la conformità (articolo 5.1.d GDPR — esattezza).
RAG vs fine-tuning — la decisione 2026
| Criterio | RAG | Fine-tuning |
|---|---|---|
| Tempo di rilascio | 1-4 settimane | 4-12 settimane |
| Costo iniziale | 5-25 k€ | 30-100 k€ |
| Manutenzione (cambio di conoscenza) | Reindicizzare (ore) | Re-fine-tuning (giorni) |
| Trasparenza | Citazioni possibili | Black box |
| Precisione fattuale | Alta (ancorata alle fonti) | Media (allucinazioni possibili) |
| Stile/tono specifico | Limitato | Eccellente |
| Costo di inferenza | Medio (contesto lungo = più token) | Basso |
| Competenze richieste | Dev con API LLM | Data science + GPU |
Regola decisionale 2026:
- Conoscenza che evolve, fonti multiple, citazione richiesta → RAG
- Stile specifico, terminologia ultra-specializzata, latenza critica → Fine-tuning
- Maggioranza dei casi business → RAG come prima scelta
Iniziare con RAG; cambiare o integrare con fine-tuning solo se la valutazione lo giustifica.
6 casi d’uso aziendali del RAG nel mercato italiano
1. Manifattura e meccatronica — manuali di manutenzione e SOP. Il caso d’uso più diffuso in Italia. Brembo, Ferrari, Lamborghini, Maserati, Pirelli, Leonardo, Saipem, Eni, Salvagnini, Comau gestiscono RAG su manuali tecnici, schede di sicurezza, FMEA, runbook di stabilimento. Manutentori e tecnici di servizio interrogano il sistema in linguaggio naturale invece di sfogliare manuali da migliaia di pagine. Controllo accessi rigoroso per stabilimento e modello, riservatezza dei fornitori.
Volumetria tipica: 50.000 a 1.000.000 di documenti.
2. Moda e lusso — knowledge base multibrand multilingua. Gucci, Prada, Armani, Dolce&Gabbana, Versace, Valentino gestiscono basi documentali multilingua (collezioni, materiali, sostenibilità). RAG sovrano evita di esfiltrare verso provider USA i piani di collezione futura — informazione altamente sensibile.
3. Banche e assicurazioni vigilate Banca d’Italia / IVASS. Indicizzazione di circolari Banca d’Italia, normativa IVASS, Solvency II, MiFID II, KYC/AML interni. UniCredit, Intesa Sanpaolo, Generali, Banco BPM, Mediolanum hanno avviato programmi RAG.
Volumetria tipica: 5.000-100.000 documenti.
4. Supporto tecnico di primo livello. Indicizzazione di documentazione prodotto, ticket risolti, runbook. Risultato: risposte coerenti, tasso di risoluzione self-service in crescita, calo del 30-50 % sui ticket di primo livello su perimetri ben definiti.
5. Pubblica amministrazione e PNRR. Ministeri, Regioni e Comuni — in particolare in Lombardia, Veneto, Lazio, Emilia-Romagna — sperimentano RAG su normativa, procedure amministrative, FAQ cittadini. Vincolo di sovranità AgID e Polo Strategico Nazionale (PSN), priorità a fornitori certificati ACN (Agenzia per la Cybersicurezza Nazionale) e qualifica PSN. Modello Italia di iGenius e AlmaLLM di Almawave sono scelte naturali.
6. Sanità — Fascicolo Sanitario Elettronico e ricerca clinica. Strutture come l’Istituto Clinico Humanitas, l’IRCCS Ospedale San Raffaele e i grandi gruppi ospedalieri esplorano RAG su linee guida cliniche, protocolli interni e documentazione di farmacovigilanza, con controllo accessi per ruolo allineato al Garante e DPIA documentate.
Conformità GDPR e Garante del RAG
Il RAG è un trattamento automatizzato che deve essere inquadrato.
Obblighi chiave:
- Iscrizione al registro (articolo 30 GDPR): «assistenza IA alla ricerca documentale interna». Finalità, dati trattati, responsabili, durata.
- DPIA se la base contiene dati personali: il Garante per la protezione dei dati personali ha pubblicato linee guida sull’IA (2024) e ha avviato indagini su servizi IA (caso ChatGPT 2023, sanzione OpenAI 2024 — 15 milioni di euro). DPIA obbligatoria per volumi elevati, categorie particolari, sorveglianza.
- Pseudonimizzazione all’ingestion, quando possibile.
- Hosting sovrano italiano o europeo per dati sensibili: Aruba Cloud (Arezzo, Bergamo, Roma), WIIT, Reevo, Seeweb, OVHcloud Milano. Per la PA, Polo Strategico Nazionale (PSN) e qualifica AgID/ACN.
- Contratto di responsabile del trattamento (articolo 28 GDPR): ogni componente dello stack — fornitore LLM, vector database gestito se applicabile, fornitore embedding — deve essere sotto contratto di responsabile, con clausole adeguate, comprese clausole standard di protezione (SCC) e Transfer Impact Assessment (TIA) per trasferimenti extra-UE.
- AI Act: l’uso in HR, scoring del credito o valutazione del personale può classificare il RAG come sistema ad alto rischio. Coordinamento Garante + autorità settoriali (Banca d’Italia, IVASS, ACN).
- Controllo accessi: un utente deve vedere solo i chunk a cui ha accesso legittimo nella documentazione di origine. Filtri metadata per profilo utente allineati con i permessi delle fonti.
Cosa non promettiamo
Tre antipattern ricorrenti che evitiamo da DPLIANCE quando progettiamo un RAG su misura.
«Indicizziamo tutto, l’accesso lo regoliamo dopo.» Falso. Il controllo accessi va progettato all’ingestion, non a posteriori. Indicizzare 100.000 documenti con accesso uniforme crea un canale monumentale di fuga di permessi — il RAG risponderà su documenti a cui l’utente non aveva accesso nella fonte. L’applicazione retroattiva dei diritti è tecnicamente complessa e giuridicamente fragile sotto GDPR.
«Il RAG risolverà tutto, non serve più organizzare bene le fonti.» Falso. Un RAG su fonti mal organizzate, contraddittorie risponderà con… informazioni mal organizzate, contraddittorie. Il RAG amplifica la qualità delle fonti — non la corregge.
«Partiamo direttamente con un agente autonomo che fa RAG più azioni.» Tipicamente un errore per un primo progetto IA. RAG da solo ha già le sue insidie. Aggiungere un agente autonomo che esegue azioni esterne moltiplica i rischi.
DPLIANCE è un editore software. Quando progettiamo una soluzione IA su misura che include un RAG, ci occupiamo dello stack completo: scelta del modello (Mistral, Modello Italia, AlmaLLM, on-premise a seconda del livello di sensibilità), scelta del vector database (Qdrant sovrano di default), ingestion delle fonti, controllo accessi allineato con i permessi esistenti, citazioni sistematiche, monitoraggio qualità.
FAQ
Cos’è il RAG (Retrieval-Augmented Generation)?
RAG è un’architettura che accoppia un LLM (Mistral, Modello Italia, AlmaLLM, GPT-4o, Claude) a una base di conoscenza interna. È l’architettura IA più diffusa nelle imprese italiane nel 2026.
Quando scegliere RAG invece del fine-tuning?
RAG per conoscenza che evolve, molteplici fonti da citare, trasparenza, team senza data science. Fine-tuning per stile durevole, terminologia ultra-specializzata, latenza critica.
Quale vector database scegliere per RAG?
PMI e PoC: Qdrant, Chroma, pgvector. Produzione: Qdrant cluster, Weaviate, Milvus. Sovranità massima: Aruba Cloud, WIIT, Reevo, OVHcloud Milano. Per la PA: PSN.
Quanto costa un RAG in produzione?
PMI con 1.000 documenti e 100 utenti: 50-200 € al mese. Investimento iniziale: 5-25 k€. Grande organizzazione con 100.000+ documenti: 500-3.000 € al mese.
Il RAG è conforme al GDPR?
Sì, con iscrizione al registro art. 30, DPIA se dati personali, hosting sovrano italiano/europeo, contratto di responsabile e controllo accessi per profilo. Linee guida Garante 2024 di riferimento.
Qual è la differenza tra RAG e agente IA?
Un RAG risponde su documenti — componente. Un agente decide azioni per una missione — sistema. RAG è spesso componente dell’agente.
Il RAG allucina sempre?
Sì, ma molto meno di un LLM da solo: tipicamente dal 90 % a meno del 5 %. Citazione delle fonti obbligatoria.
Quanto tempo per mettere in produzione un RAG?
PoC: 1-2 settimane. Pilot: 4-8 settimane aggiuntive. Industrializzazione completa: 3-6 mesi.
Fonti: documentazione ufficiale Mistral AI, Qdrant, Weaviate, Milvus, pgvector, Chroma; letteratura scientifica RAG (Lewis et al. 2020 e lavori successivi); documentazione LangChain, LlamaIndex e Haystack; Regolamento (UE) 2016/679 (GDPR); D.lgs. 196/2003 e D.lgs. 101/2018 (Codice Privacy aggiornato); linee guida del Garante per la protezione dei dati personali sull’IA; Regolamento (UE) 2024/1689 (AI Act); pubblicazioni AgID e ACN su sovranità digitale; iGenius — Modello Italia; Almawave — AlmaLLM.
Per inquadrare un progetto RAG nella vostra organizzazione — scelta architetturale, vector database, integrazione SI, controllo accessi, conformità — consultate la nostra guida IA conforme GDPR, la nostra carta IA per imprese, i nostri casi d’uso IA, o contattateci tramite le nostre soluzioni IA su misura.