In un mondo in cui la tecnologia evolve costantemente, sicuramente avrete sentito parlare di intelligenza artificiale e delle sue applicazioni nel quotidiano.
Con questo articolo cercheremo di spiegare di cosa si tratta e delle sue implicazioni in materia privacy e porremo l’attenzione sul fenomeno del web scraping.
L’intelligenza artificiale (IA) è l’abilità di una macchina di mostrare capacità simili a quelle umane quali il ragionamento, l’apprendimento, la pianificazione e la creatività¹.
Il termine contiene in sé la parola “intelligenza”, poiché la macchina esamina l’ambiente circostante attraverso sensori (telecamere, microfoni, una tastiera, un sito web o altri dispositivi di input), raccogliendo e interpretando dati, ragionando su quanto percepito o elaborando le informazioni derivate da questi dati e sceglie l’azione migliore al fine di raggiungere obiettivi specifici. Si potrebbe, quindi, parlare più propriamente di razionalità.
Molto ancora si potrebbe dire sull’intelligenza artificiale, ma, come abbiamo già detto in precedenza, lo scopo di questo articolo è quello di porre l’attenzione sui suoi riflessi in materia privacy.
Vi sarà capitato di sentir parlare o di aver usato strumenti che utilizzano l’intelligenza artificiale come ad esempio il robot per la pulizia della casa. Questa macchina utilizza l’intelligenza artificiale che interpreta le immagini, ragiona/elabora le informazioni, “per decidere” ovvero selezionare l’azione migliore (pulire o meno il pavimento).
Un altro esempio di intelligenza artificiale, questa volta definita generativa (IAG), è ChatGPT, uno strumento in grado di sostenere una conversazione sulla base delle informazioni che ha imparato dalle fonti come ad esempio i siti internet.
Com’è evidente i due comportamenti delle macchine sono diversi ma appartenenti a mondi simili, poiché l’intelligenza artificiale generativa è una parte dello strumento di intelligenza artificiale.
Facciamo chiarezza e diamo una definizione di intelligenza artificiale generativa e spieghiamo perché è rilevante nell’ambito del trattamento dei dati personali.
Per Intelligenza artificiale generativa si intende un tipo di intelligenza artificiale in grado di creare contenuti nuovi attraverso ciò che ha imparato dal suo addestramento.
In pratica, l’IA generativa può, ad esempio, prevedere la parola successiva in un testo, creare ritratti di persone che non esistono realmente, generare codici come script.
Fin qui tutto bene, potremmo dire che è un grande aiuto da un punto di vista pratico. Ma ha delle implicazioni dal punto di vista privacy. .
Come abbiamo detto in precedenza, l’IA generativa impara dalle informazioni che reperisce da fonti digitali. La principale pratica utilizzata per il suo addestramento è il web scraping.
Questa pratica consiste nell’estrazione di dati dai siti web attraverso bot definiti crawler, ovvero un software che ha lo scopo di raccogliere tutte le informazioni necessarie per indicizzare in modo automatico le pagine di un sito, trovare associazioni tra termini di ricerca e classificarli. Fin qui niente di male.
Lo scraping diventa un campo minato quando avviene una raccolta estensiva e indiscriminata di dati da siti web e piattaforme online, soprattutto da terze parti, per l’addestramento di modelli di intelligenza artificiale generativa (IAG).
Il Garante Italiano per la Protezione dei Dati Personali ha emesso il 20 maggio² una nota informativa sul web scraping finalizzato all’addestramento di modelli di IAG, segnalando possibili azioni di contrasto per prevenire la raccolta indiscriminata di dati personali da parte di terzi.
La nota informativa del Garante per la protezione dei dati.
Il documento elaborato dal Garante mira a fornire ai Titolari del Trattamento degli strumenti idonei a contrastare il fenomeno di cui si discute.
Com’è noto, il Titolare del Trattamento deve individuazione un’idonea base giuridica ai sensi dell’art. 6 del GDPR per il trattamento dei dati personali. La scelta avviene sulla base di una valutazione di idoneità che il titolare deve essere in grado di comprovare in base al principio di accountability di cui all’art. 5, par. 2, GDPR.
Il giudizio di liceità del web scraping, ai sensi del GRPR, deve, dunque, essere effettuato caso per caso soprattutto quando questo è finalizzato all’addestramento di sistemi di intelligenza artificiale generativa allo scopo di impedire l’utilizzazione ritenuta non autorizzata, da parte di terzi, dei dati personali pubblicati in qualità di titolare.
Tra le misure protettive elencate nella nota informativa troviamo:
– la creazione di aree riservate che sottraggono dati personali alla conoscenza pubblica;
– inserimento di clausole ad hoc nei termini di servizio del sito con la possibilità dei proprietari di siti e piattaforme di poter agire in giudizio nel caso di web scraping da parte di soggetti terzi;
– monitoraggio del traffico di rete, in quanto il monitoraggio delle richieste HTTP ricevute da un sito web o da una piattaforma consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita da un sito web o da una piattaforma online e di intraprendere adeguate contromisure di protezione;
– intervento sui bot attraverso tecniche che ne limitano l’utilizzo come l’inserimento di verifiche CAPTCHA o il monitoraggio dei file di log.
Le misure indicate dal Garante non hanno natura obbligatoria, ma viene rimessa alla libera valutazione del titolare del trattamento la possibilità di applicarle o meno avuto riguardo delle tecnologie coinvolte e i costi di attuazione.
Conclusioni.
L’impatto dell’Intelligenza Artificiale Generativa è un argomento di grande rilevanza e complessità poichè può essere considerato uno strumento utile e portatore di innumerevoli vantaggi per la collettività, ma il suo addestramento richiede un uso smisurato di dati che, se raccolti in maniera massiva ed indiscriminata attraverso il web scraping e non gestiti correttamente, può produrre altrettanti importanti effetti negativi quali ad esempio discriminazione di genere, razza o classe sociale; violazione della proprietà intellettuale e plagio; manipolazione e frode.
L’IA generativa offre opportunità straordinarie, ma richiede una regolamentazione attenta e una riflessione etica continua per massimizzare i benefici e mitigare i rischi.