di Luca Frabboni – Maat Srl
L’evoluzione dei modelli linguistici di grandi dimensioni (Large Language Models – LLM), come GPT-4, LLaMA e DeepSeek, ha segnato un cambio di paradigma nell’adozione dell’intelligenza artificiale (IA) in ambiti strategici quali la consulenza, il customer care, l’elaborazione documentale e la generazione automatizzata di contenuti. L’introduzione degli agenti ChatGPT – sistemi basati su LLM con capacità operative avanzate – rappresenta un salto qualitativo che trasforma tali strumenti da semplici assistenti conversazionali a entità capaci di eseguire compiti complessi in autonomia, in nome e per conto dell’utente.
Questi agenti, ospitati su infrastrutture cloud, sono dotati di browser, terminali, strumenti di manipolazione file e funzionalità API che ne espandono la portata operativa. La loro capacità di accedere a servizi terzi, consultare fonti in tempo reale, manipolare dati, interagire con interfacce applicative e apprendere le preferenze dell’utente li rende strumenti potenzialmente rivoluzionari per l’automazione delle attività professionali – anche negli studi legali e nei contesti giudiziari digitalizzati.
Tuttavia, tale potenziale comporta anche nuove forme di rischio, spesso sottovalutate. Tra queste, assume particolare rilievo la cosiddetta “prompt injection”, un attacco insidioso e difficilmente contrastabile, che può compromettere l’affidabilità, la sicurezza e persino la legalità delle risposte generate dagli agenti intelligenti.
Cos’è la Prompt Injection? Un attacco silenzioso alla logica dell’IA
La “prompt injection” consiste nell’inserimento, da parte di un attore malevolo, di istruzioni ingannevoli all’interno del prompt utente o in un contenuto destinato ad essere elaborato dal modello, al fine di alterarne il comportamento. A differenza degli attacchi informatici tradizionali, essa non richiede l’accesso ai pesi del modello, al codice sorgente o ai dati di addestramento: agisce sfruttando la logica probabilistica degli LLM, che determinano la risposta sulla base della massima plausibilità linguistica, senza una chiara separazione tra comandi di sistema e comandi dell’utente.
Questo rende l’attacco altamente scalabile, difficilmente rilevabile e pericolosamente efficace, tanto che lo stesso CEO di OpenAI, Sam Altman, ha messo in guardia circa la possibilità di indurre gli agenti a divulgare dati riservati, compiere azioni non autorizzate o generare contenuti distorti, attraverso prompt nascosti in siti web o documenti.
Tipologie di attacco e vettori di infiltrazione
Gli scenari di attacco si articolano su tre livelli principali:
- Iniezione diretta tramite input dell’utente: un avversario può inserire istruzioni fraudolente direttamente nella conversazione o caricare file contenenti testo manipolato (es. metadati di documenti, note invisibili, piè di pagina alterati). L’agente AI, interagendo con tali input, può generare risposte errate, parziali o orientate.
- Iniezione indiretta tramite fonti esterne (es. web search): sfruttando la capacità degli agenti di consultare il web, gli aggressori possono incorporare comandi occulti in pagine web o forum, inducendo l’agente a interpretarli come input da seguire. Ne deriva una manipolazione subdola delle informazioni recuperate.
- Iniezione sistemica attraverso GPT personalizzati: gli agenti “custom GPT”, configurabili dagli utenti, possono contenere prompt nascosti preimpostati nel campo “system”, invisibili agli utenti ma in grado di influenzare l’output. In tal modo, l’agente può orientare costantemente le risposte secondo logiche predefinite e non trasparenti.
Impatti giuridici: rischi e responsabilità per l’ecosistema legale
Le implicazioni giuridiche di tali attacchi sono molteplici e coinvolgono aree centrali del diritto dell’innovazione:
- Tutela dei dati personali: gli agenti AI che accedono a dati sensibili, in violazione dei principi di minimizzazione, integrità e riservatezza previsti dal GDPR, espongono i titolari a gravi sanzioni. Particolare attenzione va posta all’accesso automatizzato a contenuti personali tramite API o connettori.
- Responsabilità per danno da informazione errata: nel caso in cui un sistema AI, alterato da una prompt injection, generi un parere legale o una raccomandazione finanziaria inesatta, si pone la questione della responsabilità – sia del fornitore tecnologico che del professionista utilizzatore – per i danni subiti dal cliente.
- Manipolazione dell’evidenza probatoria: in un contesto giudiziario, l’elaborazione di documenti da parte di agenti AI inficiati da contenuti iniettati potrebbe compromettere l’integrità delle analisi, con effetti potenzialmente distorsivi su valutazioni peritali, due diligence, revisioni di compliance o risk assessment.
- Obblighi di trasparenza e supervisione umana (“human-in-the-loop”): l’impiego di agenti autonomi per compiti ad alto impatto (es. invio di comunicazioni legali, gestione di pratiche, acquisizione di dati) impone la predisposizione di procedure di controllo, verifica e tracciabilità delle azioni compiute, al fine di garantire una supervisione responsabile.
Strategie di mitigazione: costruire sistemi resilienti
La protezione dagli attacchi di prompt injection non può affidarsi a una logica di “sicurezza assoluta”. È necessario adottare un approccio multilivello e resiliente, che preveda:
- Segmentazione dei privilegi e controllo degli accessi: gli agenti devono poter accedere unicamente alle informazioni esplicitamente autorizzate dall’utente, limitando le capacità operative a contesti ben definiti.
- Utilizzo di strumenti di difesa dedicati: applicazioni come Rebuff o Lakera consentono di individuare pattern sospetti e potenziali istruzioni malevole nel flusso conversazionale.
- Iniezione di token trappola (“canary tokens”): tali token, nascosti nei prompt di sistema, fungono da marcatori per rilevare fughe di dati o alterazioni indebite dell’output.
- Aggiornamento continuo dei modelli e dei dataset: l’utilizzo di versioni più recenti degli LLM consente di beneficiare di meccanismi di difesa migliorati contro le tecniche più sofisticate di attacco.
Verso una governance dell’IA responsabile?
Gli agenti AI rappresentano una delle evoluzioni più promettenti dell’intelligenza artificiale applicata alla professione forense, ma il loro utilizzo deve essere accompagnato da un’attenta riflessione normativa, etica e deontologica. La “prompt injection” evidenzia come la vulnerabilità di questi sistemi non sia solo tecnologica, ma anche sistemica e culturale.
Il giurista, in quanto interprete e garante dei diritti nella società dell’informazione, è chiamato a comprendere il funzionamento di queste tecnologie, a contribuire alla definizione di standard di sicurezza e responsabilità, e ad accompagnare il legislatore nella costruzione di un quadro regolatorio che bilanci innovazione e tutela.
In ultima analisi, se l’IA generativa è destinata a entrare stabilmente nella quotidianità degli studi legali, degli uffici giudiziari e dei sistemi di decisione pubblica, è imprescindibile che tale ingresso avvenga in modo consapevole, governato e giuridicamente sorvegliato. La sicurezza – intesa non solo come difesa tecnica, ma come architettura etica e normativa – diventa il presupposto indispensabile per ogni uso professionale dell’IA nel diritto.
LEGAL PROMPTING: Intelligenza Artificiale in pratica
Vuoi scoprire come usare davvero l’Intelligenza Artificiale nel tuo lavoro di avvocato? Il corso “Legal Prompting: Intelligenza Artificiale in pratica” ti guida passo dopo passo con esempi concreti e applicazioni reali.
Iscriviti ora per trasformare l’IA in uno strumento operativo al servizio della tua professione!




