La tua ricerca

    17.04.2025

    Il Template della Commissione Europea sulla Trasparenza dei Dati di Addestramento: Prime Linee Guida per l’AI Act


    A partire dall’adozione dell’AI Act (Reg. UE 2024/1689), avvenuta il 1° agosto 2024, uno dei principali temi di confronto tra gli stakeholder del settore è stato l’obbligo previsto dall’art. 53.1, lett. d) e dal considerando 107, in particolare per quanto riguarda la trasparenza sui dati di addestramento dei modelli di intelligenza artificiale per finalità generali.

    Il regolamento richiede ai provider di questi modelli di rendere pubblicamente disponibile una sintesi sufficientemente dettagliata dei dati utilizzati per l’addestramento, ovvero di quel patrimonio informativo che viene impiegato per regolare e ottimizzare i parametri del modello stesso. Sin da subito, l’espressione “sufficiently detailed” ha generato un acceso dibattito: cosa significa, esattamente, “abbastanza dettagliato”? E soprattutto, quali criteri dovrebbero guidare i provider nella redazione di questa sintesi?

    Sarà proprio sull’elasticità o sulla rigidità dell’interpretazione del requisito del “sufficientemente dettagliato” che si giocherà una parte decisiva della futura battaglia legale tra i titolari di contenuti e le piattaforme di intelligenza artificiale. Da un lato, i creatori e i detentori di diritti rivendicano un accesso concreto e verificabile alle informazioni sui dati utilizzati, essenziale per far valere i propri diritti. Dall’altro, i provider spingeranno per un’applicazione più flessibile del requisito, che consenta di proteggere i propri asset strategici e di evitare di scoprire troppo le carte, anche per ragioni di concorrenza. La linea di demarcazione tra trasparenza effettiva e mera compliance formale sarà sottile, e a definirla saranno – inevitabilmente – le prime pronunce giudiziarie.

    La ratio dell’obbligo è chiara: consentire ai titolari di interessi legittimi di esercitare i propri diritti in modo più efficace. Il riferimento immediato è, naturalmente, ai titolari di diritti d’autore, per i quali la possibilità di accedere a informazioni sui dati utilizzati consente di verificare se e come i propri contenuti siano stati impiegati senza autorizzazione.

    Ma il perimetro degli interessi tutelati va ben oltre la sfera autoriale. In gioco ci sono anche la protezione dei dati personali, il diritto alla ricerca scientifica, e la necessità – sempre più pressante – di individuare e correggere eventuali bias, che possono riflettersi su una vasta gamma di ambiti, dalle piattaforme di servizi ai sistemi decisionali pubblici, fino ai prodotti commerciali basati su IA.

    Il considerando 107, nell’esplicitare le modalità di adempimento dell’obbligo di disclosure, sottolinea anche la necessità di trovare un equilibrio. Da una parte, la tutela di chi ha interesse a sapere quali dati siano stati usati. Dall’altra, la legittima esigenza dei provider di non esporre asset strategici, come segreti industriali, algoritmi o processi di raccolta ed elaborazione.

    Per cercare di offrire un primo orientamento applicativo, la Commissione Europea ha pubblicato nel gennaio 2025 un template destinato a guidare i provider nella redazione della sintesi richiesta. Il modello nasce da un ampio processo di consultazione, che ha coinvolto rappresentanti del settore IA e dei titolari di interessi legittimi già attivi nella stesura del Codice di Buone Pratiche sull’IA per finalità generali (CPAI).

    Questo template accompagna il provider lungo tutte le fasi del ciclo di vita del dato, dal pre-training al fine-tuning, e impone un linguaggio chiaro e comprensibile, pensato per essere accessibile anche a chi non ha competenze tecniche avanzate.

    Le sezioni previste sono tre:

    1. General Information
      Si raccolgono informazioni generali sul modello: chi lo ha sviluppato, quando è stato immesso sul mercato, qual è la knowledge cut-off date, ovvero la data dell’ultimo aggiornamento dei contenuti. Sono richiesti anche dettagli sulla dimensione complessiva dei dati e sulle loro caratteristiche (numero di immagini, minuti audio, lingue e provenienza geografica dei dati).
    2. List of Data Sources
      Qui viene richiesto un elenco delle fonti di dati utilizzate: dataset pubblici, dataset di terze parti, dati raccolti tramite web crawling (con indicazione degli strumenti utilizzati), dati forniti dagli utenti o autoprodotti dal provider.
      Un aspetto controverso riguarda il fatto che il template si concentra solo sui dataset “principali” o “grandi”, definiti come quelli che rappresentano più del 5% del totale. Questo potrebbe creare un effetto distorsivo, perché:
      • alcuni provider potrebbero suddividere dataset voluminosi in sottoinsiemi artificiosi per eludere l’obbligo;
      • i dataset visivi (immagini/video), per loro natura, sono più grandi di quelli testuali, rischiando così una discriminazione tecnica non giustificata.
    3. Relevant Data Processing Aspects
      In questa sezione si richiede di descrivere le misure adottate per la tutela dei diritti d’autore, come l’identificazione e rimozione di contenuti riservati, ma anche la gestione di contenuti inappropriati.
      Sono emerse tuttavia critiche: la sezione appare troppo focalizzata sulla protezione del copyright, e trascura aspetti cruciali come la descrizione delle fasi di pre-processing, in particolare i metodi di anonimizzazione o filtraggio dei dati.

    La pubblicazione definitiva del template e delle linee guida è attesa nel secondo trimestre del 2025, in vista della piena applicabilità degli obblighi, fissata per il 2 agosto 2025.

    Ciò che è certo è che questa normativa, e la sua attuazione concreta, avranno un impatto significativo sulle scelte dei provider di IA a livello globale. Alcuni Paesi potrebbero decidere di allinearsi al modello europeo, creando uno standard internazionale. Altri, al contrario, potrebbero preferire regolamenti più flessibili, per attrarre ricerca, investimenti e sviluppo nei rispettivi territori.

    Il vero banco di prova, tuttavia, arriverà solo con le prime controversie giudiziarie, che daranno forma concreta ai principi oggi scritti nel regolamento. Quelle decisioni segneranno la direzione futura della regolazione europea in materia di intelligenza artificiale.

    Le sfide legali dell'innovazione tecnologica
    Ogni giorno, aziende e operatori si confrontano su un doppio fronte: da un lato,…
    Approfondisci
    Nuovi obblighi di accessibilità digitale
    A partire dal 28 giugno 2025, sarà binding la prescrizione che obbliga ad essere…
    Approfondisci
    NIS, la determinazione dell’ACN sulla notifica degli accordi di condivisione
    La determinazione ACN n. 136118 del 10 aprile 2025 – Notifica degli accordi di c…
    Approfondisci
    Per gli influencer è l'ora delle regole e dei consulenti
    Negli ultimi anni, la “creator economy” ha guadagnato una crescente rilevanza ne…
    Approfondisci
    NIS, cosa ha stabilito l’ACN con riguardo a misure di sicurezza e notifica di incidenti
    Delle tre determinazioni pubblicate il 15 aprile 2025 sul proprio sito web dall’…
    Approfondisci
    IAIA25 Annual Conference
    Valentina Cavanna sarà presente alla IAIA25 – International Association for Impa…
    Approfondisci
    Il diritto di opt-out
    Una delle questioni più pressanti poste dallo sviluppo dell’intelligenza artific…
    Approfondisci
    Video: Il diritto di opt-out
    Una delle questioni più pressanti poste dallo sviluppo dell’intelligenza artific…
    Approfondisci
    NIS, adottate le determinazioni che definiscono gli obblighi: l’aggiornamento delle informazioni scade il 31 maggio
    Il 15 aprile 2025 l’Agenzia per la Cybersicurezza Nazionale (“ACN”) ha pubblicat…
    Approfondisci