La tua ricerca

    17.04.2025

    Il Template della Commissione Europea sulla Trasparenza dei Dati di Addestramento: Prime Linee Guida per l’AI Act


    A partire dall’adozione dell’AI Act (Reg. UE 2024/1689), avvenuta il 1° agosto 2024, uno dei principali temi di confronto tra gli stakeholder del settore è stato l’obbligo previsto dall’art. 53.1, lett. d) e dal considerando 107, in particolare per quanto riguarda la trasparenza sui dati di addestramento dei modelli di intelligenza artificiale per finalità generali.

    Il regolamento richiede ai provider di questi modelli di rendere pubblicamente disponibile una sintesi sufficientemente dettagliata dei dati utilizzati per l’addestramento, ovvero di quel patrimonio informativo che viene impiegato per regolare e ottimizzare i parametri del modello stesso. Sin da subito, l’espressione “sufficiently detailed” ha generato un acceso dibattito: cosa significa, esattamente, “abbastanza dettagliato”? E soprattutto, quali criteri dovrebbero guidare i provider nella redazione di questa sintesi?

    Sarà proprio sull’elasticità o sulla rigidità dell’interpretazione del requisito del “sufficientemente dettagliato” che si giocherà una parte decisiva della futura battaglia legale tra i titolari di contenuti e le piattaforme di intelligenza artificiale. Da un lato, i creatori e i detentori di diritti rivendicano un accesso concreto e verificabile alle informazioni sui dati utilizzati, essenziale per far valere i propri diritti. Dall’altro, i provider spingeranno per un’applicazione più flessibile del requisito, che consenta di proteggere i propri asset strategici e di evitare di scoprire troppo le carte, anche per ragioni di concorrenza. La linea di demarcazione tra trasparenza effettiva e mera compliance formale sarà sottile, e a definirla saranno – inevitabilmente – le prime pronunce giudiziarie.

    La ratio dell’obbligo è chiara: consentire ai titolari di interessi legittimi di esercitare i propri diritti in modo più efficace. Il riferimento immediato è, naturalmente, ai titolari di diritti d’autore, per i quali la possibilità di accedere a informazioni sui dati utilizzati consente di verificare se e come i propri contenuti siano stati impiegati senza autorizzazione.

    Ma il perimetro degli interessi tutelati va ben oltre la sfera autoriale. In gioco ci sono anche la protezione dei dati personali, il diritto alla ricerca scientifica, e la necessità – sempre più pressante – di individuare e correggere eventuali bias, che possono riflettersi su una vasta gamma di ambiti, dalle piattaforme di servizi ai sistemi decisionali pubblici, fino ai prodotti commerciali basati su IA.

    Il considerando 107, nell’esplicitare le modalità di adempimento dell’obbligo di disclosure, sottolinea anche la necessità di trovare un equilibrio. Da una parte, la tutela di chi ha interesse a sapere quali dati siano stati usati. Dall’altra, la legittima esigenza dei provider di non esporre asset strategici, come segreti industriali, algoritmi o processi di raccolta ed elaborazione.

    Per cercare di offrire un primo orientamento applicativo, la Commissione Europea ha pubblicato nel gennaio 2025 un template destinato a guidare i provider nella redazione della sintesi richiesta. Il modello nasce da un ampio processo di consultazione, che ha coinvolto rappresentanti del settore IA e dei titolari di interessi legittimi già attivi nella stesura del Codice di Buone Pratiche sull’IA per finalità generali (CPAI).

    Questo template accompagna il provider lungo tutte le fasi del ciclo di vita del dato, dal pre-training al fine-tuning, e impone un linguaggio chiaro e comprensibile, pensato per essere accessibile anche a chi non ha competenze tecniche avanzate.

    Le sezioni previste sono tre:

    1. General Information
      Si raccolgono informazioni generali sul modello: chi lo ha sviluppato, quando è stato immesso sul mercato, qual è la knowledge cut-off date, ovvero la data dell’ultimo aggiornamento dei contenuti. Sono richiesti anche dettagli sulla dimensione complessiva dei dati e sulle loro caratteristiche (numero di immagini, minuti audio, lingue e provenienza geografica dei dati).
    2. List of Data Sources
      Qui viene richiesto un elenco delle fonti di dati utilizzate: dataset pubblici, dataset di terze parti, dati raccolti tramite web crawling (con indicazione degli strumenti utilizzati), dati forniti dagli utenti o autoprodotti dal provider.
      Un aspetto controverso riguarda il fatto che il template si concentra solo sui dataset “principali” o “grandi”, definiti come quelli che rappresentano più del 5% del totale. Questo potrebbe creare un effetto distorsivo, perché:
      • alcuni provider potrebbero suddividere dataset voluminosi in sottoinsiemi artificiosi per eludere l’obbligo;
      • i dataset visivi (immagini/video), per loro natura, sono più grandi di quelli testuali, rischiando così una discriminazione tecnica non giustificata.
    3. Relevant Data Processing Aspects
      In questa sezione si richiede di descrivere le misure adottate per la tutela dei diritti d’autore, come l’identificazione e rimozione di contenuti riservati, ma anche la gestione di contenuti inappropriati.
      Sono emerse tuttavia critiche: la sezione appare troppo focalizzata sulla protezione del copyright, e trascura aspetti cruciali come la descrizione delle fasi di pre-processing, in particolare i metodi di anonimizzazione o filtraggio dei dati.

    La pubblicazione definitiva del template e delle linee guida è attesa nel secondo trimestre del 2025, in vista della piena applicabilità degli obblighi, fissata per il 2 agosto 2025.

    Ciò che è certo è che questa normativa, e la sua attuazione concreta, avranno un impatto significativo sulle scelte dei provider di IA a livello globale. Alcuni Paesi potrebbero decidere di allinearsi al modello europeo, creando uno standard internazionale. Altri, al contrario, potrebbero preferire regolamenti più flessibili, per attrarre ricerca, investimenti e sviluppo nei rispettivi territori.

    Il vero banco di prova, tuttavia, arriverà solo con le prime controversie giudiziarie, che daranno forma concreta ai principi oggi scritti nel regolamento. Quelle decisioni segneranno la direzione futura della regolazione europea in materia di intelligenza artificiale.

    Contraffazione, la lotta al tarocco inizia a funzionare
    Anche nel 2025 la lotta alla contraffazione in Italia continua a fare passi avan…
    Approfondisci
    NIS, entro il 31 dicembre deve essere designato il Referente CSIRT
    Lo scorso 19 settembre, l’ACN ha adottato la Determinazione ACN n. 333017, che a…
    Approfondisci
    Banche. Dati dei clienti sicuri ma le insidie sono molte
    Un attacco cyber su cinque in Italia riguarda il settore finanziario In tempi d…
    Approfondisci
    Regolamento Dora, quali sono gli impatti sulle reti di cf e pb
    Dora ha un impatto non solo sulla struttura di back office delle financial entit…
    Approfondisci
    Digital Services Act e GDPR: l’EDPB mette ordine
    L’11 settembre 2025 il Comitato Europeo per la Protezione dei Dati ("EDPB”) ha a…
    Approfondisci
    L’Italia ha la sua legge sull’intelligenza artificiale
    L'approvazione definitiva Il 17 settembre 2025, il Senato, con 77 voti favorevo…
    Approfondisci
    Disegno di Legge sull’Intelligenza Artificiale: qualche riflessione sui profili penalisti e le ricadute sistemiche sulla responsabilità da reato degli Enti
    Aggiornamento 18 settembre 2025: il Senato ha approvato in via definitiva il dis…
    Approfondisci
    Greenwashing, l'Ue ora frena: ritirata la direttiva Green Claims
    Su Italia Oggi Sette un approfondimento a più voci, a cura di Alberto Grifone, s…
    Approfondisci
    La sfida cruciale tra innovazione tecnologica e tutela dei diritti fondamentali
    La presentazione della Relazione annuale 2024 dell’Autorità Garante per la prote…
    Approfondisci