Come l'AI capisce le parole (Word2Vec Spiegato Semplice)
Metadati
- URL Sorgente
- https://youtu.be/CbdKOlptOAU?si=bN1q_uZe6Uwfh_tW
- Hash
- eb829c02820a3236...
- Data Pubblicazione
- 20250724
- Lingua
- it
- Ultimo Aggiornamento
- 2025-11-16 10:11
Sintesi Breve
Riassunto generato da Gemini (max 200 parole)
Il video spiega come Word2Vec, un modello del 2013, ha rivoluzionato la comprensione del linguaggio da parte delle AI. Prima di Word2Vec, le parole erano trattate come elementi distinti in un vocabolario, senza cogliere le similarità semantiche. Word2Vec introduce vettori densi per rappresentare le parole, catturando le relazioni semantiche basandosi sul contesto in cui appaiono. L'addestramento avviene togliendo una parola da una frase e chiedendo al modello di predire quella mancante. Il modello crea "embeddings" che organizzano le parole in cluster semantici e permettono di risolvere analogie. Nonostante i limiti (polisemia, ordine delle parole, bias), Word2Vec ha gettato le basi per modelli più avanzati come ELMo, Transformer e i moderni Large Language Models (GPT, Gemini), fornendo un "vocabolario di base" per la comprensione del linguaggio.
Trascrizione Estesa
Testo rielaborato e formattato da Gemini
Gli strumenti basati su intelligenza artificiale capiscono davvero quello che noi diciamo? Com'è possibile che CGPT, Gemini e tutti gli strumenti simili siano in grado di risponderci coerentemente, apparentemente capendo ogni cosa che gli stiamo dicendo? Ciao a tutti e bentornati sul canale. Io sono Manuel e oggi parliamo di uno degli articoli scientifici che ha rivoluzionato il modo in cui i modelli AI comprendono il linguaggio. Sto parlando di Word to VC. Pensate, come dicevo, a strumenti come CGPT e Gemini: possono scrivere poesie, possono analizzare testi, possono rispondere coerentemente a domande complesse e aiutarci a fare brainstorming e stanno rivoluzionando il mondo. Ebbene, questa rivoluzione è iniziata nel 2013 quando è uscito Word to VC, un approccio che ha trasformato radicalmente il modo in cui i modelli comprendono il significato delle parole. In questo video non parleremo solo di Word to VC, ma anche del fatto che grazie a questo approccio i modelli AI possano comprendere la semantica delle parole, quindi il significato delle parole e capiremo perché è stato così importante e perché è la base anche dei sistemi moderni. Prima di parlare nello specifico di Word to dobbiamo però capire perché è così complicato comprendere il linguaggio. Pensateci, noi siamo abituati a parlare, io in questo momento sto parlando con voi che mi ascoltate e diamo per implicito il fatto che il significato delle parole sia condiviso e quindi sapere che le parole felice e contento hanno significati simili, che la parola piano può riferirsi sia allo strumento musicale, sia a un piano che io ho architettato, sia a un piano di un edificio e che le stesse parole in un ordine diverso comunicano un significato diverso. Ad esempio, il cane morde l'uomo e l'uomo morde il cane hanno le stesse parole, ma hanno un significato completamente diverso. Ecco, per noi queste cose sono scontate. Però come facciamo ad insegnare queste sfumature ad un modello di intelligenza artificiale? Per prima cosa chiediamoci cosa esisteva prima di Word to. Ecco, dagli anni 90 in poi gli approcci al Natural Language Processing erano basati sull'utilizzo di vocabolari. Quindi una data parola era la decima del vocabolario, la vesima del vocabolario, la 140ª del vocabolario e per questo era diversa dalle altre. Questo concetto poteva venire rappresentato attraverso l'utilizzo dei cosiddetti vettori oneot che semplicemente erano composti da tutti zeri e un uno ad indicare che quella parola era la decima parola, la vesima parola o la centesima parola. Questo era il sistema più semplice per definire che c'erano due parole diverse in una frase e quali parole fossero. Però questo sistema così semplice non permette di cogliere le similarità tra le parole perché alla fine ogni parola è diversa da ogni altra parola allo stesso modo. Se un qualsiasi sistema di intelligenza artificiale avesse imparato qualcosa sul significato della parola felice, non avrebbe potuto in nessun modo sapere che quella nozione poteva essere utilizzata anche sulla parola contento, perché a priori queste erano due parole diverse e quindi non c'era modo di esprimere questa similarità. Il secondo problema da gestire è quello della polisemia. Infatti una parola può avere più significati. Prendiamo ad esempio boa. Noi abbiamo la boa che è quella che sta nel mare e anche il boa che è il serpente, ma ci sono tantissime altre parole del genere come piano, ma anche gola che può essere sia la parte del corpo sia il peccato capitale o un sinonimo di canyon. Quindi se noi vogliamo lavorare con le parole dobbiamo anche trovare un modo di esprimere il fatto che la stessa parola può avere più significati. Ecco, con un approccio vocabolario non c'era modo di esprimere questa informazione. Il terzo problema riguarda l'ordine delle parole. Se pensiamo a un approccio a vocabolario e prendiamo le due frasi usate precedentemente, quindi il cane morde l'uomo e l'uomo morde il cane, queste frasi avranno le stesse parole e quindi gli stessi vettori con tanti zeri e pochi uno. E per il modello non ci sarà modo di capire che l'insieme di quelle parole ha significati diversi perché un sistema basato unicamente sul vocabolario non tiene conto dell'ordine delle parole. Questo, appunto, era come il problema veniva affrontato negli anni 90, quando la potenza di calcolo era molto limitata e questi problemi erano noti ai ricercatori. Ma dal 2010 in poi, con la possibilità di applicare il deep learning per risolvere i più diversi problemi, i ricercatori hanno pescato dalla teoria e quindi hanno preso la teoria della semantica distribuzionale formulata da Harris Fert negli anni 50 e hanno potuto applicarla ottenendo appunto Word tocc. Questi ricercatori erano ricercatori di Google guidati da Thomas Mikolov e nel 2013 hanno pubblicato due articoli scientifici che spiegavano un sistema chiamato War to VC che era molto semplice ma sorprendentemente efficace. L'intuizione era questa, passare da vettori oneNOT, quindi i vettori di cui abbiamo parlato prima che codificavano la posizione della parola all'interno del vocabolario, ha dei vettori densi e far sì che questi vettori densi catturassero le relazioni semantiche tra le parole. Ora però non è così scontato comprendere perché l'utilizzo di vettori densi ci dà la possibilità di esprimere la similarità tra le parole. Infatti, prendiamo questo esempio. Qui abbiamo quattro parole: re, regina, uomo e donna, rappresentati da vettori composti da tre numeri. Ricordiamo che, appunto, un vettore è una sequenza ordinata di numeri e possiamo vedere che noi possiamo interpretare ogni numero come l'espressione di un concetto o di un attributo da parte di quella parola. Quindi storicamente la parola re è legato al concetto di mascolinità, non è legato al concetto di femminilità ed è legato al concetto di regalità. Possiamo fare lo stesso discorso per Regina che è legato più al concetto di femminilità rispetto che al concetto di mascolinità, ma allo stesso modo del re è legato al concetto di regalità. Allo stesso modo possiamo vedere come le parole uomo e donna sono legate ai concetti rispettivamente di mascolinità e di femminilità e molto meno al concetto di regalità. Quindi vediamo che se avessimo un sistema per assegnare questi numeri potremmo esprimere quanto due parole sono simili o sono dissimili. Inoltre questi vettori sono detti densi perché sono molto più piccoli rispetto ai vettori oneot che devono avere tante posizioni quante parole ci sono in un vocabolario e soprattutto creano uno spazio denso che possiamo immaginare come una nuvola di puntini tutti vicini tra loro. Però come fa Word tock a creare questi vettori semantici? Ecco, pescando a piene mani dalla teoria della semantica distribuzionale, quello che viene utilizzato per spiegare il significato di ogni parola è il suo contesto. Partiamo da un esempio. Immaginiamo di avere una frase, cioè il gatto siede sul tappeto. L'algoritmo di addestramento di Word tock prende questa frase, toglie una parola, per esempio, viene tolto gatto, si va dal modello e gli si chiede il siede sul tappeto, qual è la parola mancante? E il modello deve predire la parola gatto, ma notiamo che potrebbe predire anche bambino, perché sono tutte parole che starebbero bene in quella frase. Il gatto siede sul tappeto, il cane siede sul tappeto, il bambino siede sul tappeto. Sicuramente ci sono molte più parole che non può predire, tipo i verbi, oppure frasi come il pianeta siede sul tappeto perché questa frase non ha senso e quindi un modello, anche solo per risolvere questo semplice gioco, deve apprendere qualcosa sulle parole, deve apprendere il loro significato e deve apprendere quali sono simili, cioè quali hanno contesti simili, perché io ho dato da mangiare al mio gatto, ma posso aver dato da mangiare anche al mio cane. Ho portato dal veterinario il mio gatto e ho portato dal veterinario il mio cane. Quindi, secondo la semantica distribuzionale, il significato delle parole è tanto più simile quanto più i contesti all'interno di cui quelle parole compaiono sono simili. Ecco, un modello viene addestrato su milioni di frasi e fa questo esercizio per ogni singola parola, così facendo a modo di imparare il significato di tutte le parole, imparando quindi quando una parola va usata e quando una parola non va usata. Ok? Ora passiamo dalle analogie a una spiegazione un poco più tecnica. Negli articoli si parla di due diversi modelli, Sibow e Skipgram. Concentriamoci sul modello Sibow. Per addestrare un modello Sibowo si prendono tutte le frasi del dataset e le si spezzetta in frasi di lunghezza fissa, di immaginiamo di lunghezza cinque. Poi si prende ogni frase di cinque parole, si toglie quella in mezzo, quindi la terza, si va dal modello e gli si dice "Ok, ti do le altre quattro parole, predicimi quella al centro". Al contrario, per addestrare il modello Skipgram, viene presa la parola al centro e gli si chiede: "Ok, ora mi devi predire le altre quattro che mancano". Per fare queste predizioni, il modello deve trasformare le parole in vettori e combinare quei vettori in modo efficace per fare la predizione corretta. Quindi, se parliamo di sibow, le quattro parole di contesto vengono trasformate ognuna nel suo vettore. Questi vettori vengono combinati creando un quinto vettore e la speranza è che quel quinto vettore sia il più simile possibile al vettore della parola da predire. Ora però da dove saltano fuori questi vettori? In realtà la risposta è molto più semplice di quello che ci si aspetta. inizialmente sono a caso e quindi ogni vettore viene inizializzato con valori casuali, mentre il modo di combinare i vettori è sempre lo stesso, cioè somme e moltiplicazioni sempre nello stesso ordine. Sarai il modello stesso quindi a capire come i vettori devono cambiare per far sì che la loro combinazione dia risultato al vettore che cerca di volta in volta. E la cosa pazzesca del machine learning è che se un modello fa questi piccoli cambiamenti ai vettori per milioni di volte, a lungo andare questi vettori iniziano a essere posizionati in un modo tale che il significato di ogni parola è parzialmente rappresentato da come è fatto il vettore. E attenzione, dico parzialmente perché nessun modello è perfetto e quindi tutte le eccezioni di tutte le parole non possono essere colte da un sistema così semplice. Ok? Ora facciamo un passo indietro perché immagino che qualcuno si sarà accorto di quali sono i problemi di questo addestramento. Prima cosa, all'inizio io ho detto che tutte le frasi del dataset vengono spezzettate in frasi piccole da cinque parole. Questo è un problema perché vuol dire che il contesto di una parola è limitato e quindi, per esempio, se io dico un verbo all'inizio di una frase e il suo soggetto arriva dopo un po', questo legame fra le due parole non verrà colto da Word to. Ma se io ingrandisco troppo il contesto, potrei includere delle parole che non sono così importanti. Quindi la scelta della grandezza di contesto è un cosiddetto iperparametro che chi lavora con questi sistemi deve settare e per decidere quale valore dare a questo parametro si fanno degli esperimenti e si vede dato un dataset qual è la grandezza ottimale del contesto. Ora, tornando ai nostri modelli, possiamo dire che Skipgram funziona meglio con le parole meno frequenti, mentre invece Sibow è più veloce e funziona meglio per le parole più frequenti. La cosa veramente rivoluzionaria è che una volta addestrati i modelli, quindi quando un modello sibow inizia a predire la parola corretta, noi possiamo dire che l'addestramento è finito. Ma se la predizione di Sibow è corretta, vuol dire che la rappresentazione interna, la rappresentazione vettoriale delle parole ha codificato il significato delle parole stesse e quindi quello che fanno i ricercatori è addestrare un modello e alla fine addestramento estrarre i vettori e utilizzarli per fare altri esperimenti perché si assume che quei vettori catturino il significato delle parole. Ed è qui che arriviamo alla parte veramente affascinante di Word toback, perché questi vettori sono detti anche embeddings e una volta addestrato il modello emergono delle proprietà di questi embeddings. Per esempio, possiamo notare come sono organizzati per cluster, cioè parole simile sono posizionate nelle stesse regioni dello spazio. Per esempio, noi possiamo immaginare che tutte le parole relative alla frutta sono posizionate vicine, tutte le parole relative agli animali sono posizionate vicine, tutte le parole relative alle città sono posizionate vicine. Ora il primo esempio che vi abbiamo mostrato è una semplificazione perché se ci spostiamo su dati reali che sono quelli mostrati ora a schermo, ci accorgiamo che è un po' più complicato interpretare questi spazi vettoriali. Quindi abbiamo capito che i vettori sono disposti in regioni che codificano delle classi semantiche, diciamo, cioè la classe semantica dei frutti, la classe semantica degli animali, la classe semantica delle città e così via. Il fatto è che questa non è l'unica proprietà che possiamo trovare analizzando la disposizione dei vettori nello spazio. Infatti, una delle scoperte più sorprendenti dei paper di Mikolov è che questi vettori possono essere utilizzati per risolvere delle analogie. L'analogia più famosa è: "Re sta a uomo come cosa sta a donna?" E la risposta dovrebbe essere Regina, perché storicamente il concetto di re è simile al concetto di uomo tanto quanto il concetto di regina è simile al concetto di donna. E questa analogia funziona anche, per esempio, per le capitali, quindi Roma sta all'Italia come quale città sta alla Francia? e la risposta è Parigi oppure i verbi, cioè mangiare è legato a mangiato tanto quanto bere è legato a bevuto. E il fatto che queste analogie fossero risolvibili utilizzando i vettori voleva dire che le distanze nello spazio codificavano queste informazioni e quindi i verbi all'infinito e i verbi al passato avevano una distanza più o meno costante, così come le nazioni e le capitali avevano una distanza più o meno costante. E la cosa veramente bella è che queste proprietà emergono spontaneamente. Nessuno durante il training, infatti, ha imposto che alcuni vettori dovessero stare vicini e che la distanza tra infiniti e passati dovesse essere costante. Eppure, andando a indagare i vettori, è quello che si scopre e avere questa evidenza è stato un cosiddetto momento wow per la comunità scientifica perché ci siamo accorti di come finalmente i modelli di intelligenza artificiale stessero iniziando a cogliere le sfumature del linguaggio senza che nessuno gliele insegnasse esplicitamente. Ok, quindi fino ad adesso ci siamo concentrati su Word to e ne abbiamo anche sottolineato, diciamo, una certa eleganza, ma sicuramente questo modello continua ad avere dei limiti e infatti è uscito nel 2013 e dal 2013 le cose sono un po' cambiate. Prima di tutto il problema della polisemia non veniva risolto da Warto tocc perché appunto una parola aveva un unico vettore e quindi gli esempi fatti prima, cioè la parola boa, la parola piano, ma anche la parola rete e la parola gola, avevano ognuna il suo vettore, ma non avevano un vettore per ogni significato, avevano un unico vettore e quindi noi dobbiamo immaginarci che la parola piano fosse posizionata a metà fra gli strumenti musicali e gli edifici. Allo stesso modo la parola gola può essere posizionata a metà fra le parti del corpo e i peccati capitali perché deve contemporaneamente rappresentare entrambi i significati, però in realtà rappresentando una media dei significati non ne rappresenta nessuno. La soluzione a questo problema è arrivata con gli embedding contestuali nel 2018 con un modello che si chiama Elmo. Questo modello, infatti, basato sulle reti neurali ricorrenti, rappresenta ogni parola in base al significato della parola e al contesto in cui si trova, generando appunto così un embedding contestuale. L'utilizzo delle reti dei correnti è necessario perché appunto un altro grande problema di Word tocc l'ordine delle parole non è importante. Infatti se vi ricordate Sibow e Skipgram, io prendo una frase, tolgo la parola centrale e gli do le altre quattro. E non è importante in che ordine siano le altre quattro, perché il modello deve semplicemente usarle per predire la parola centrale senza tener conto della loro posizione e quindi le informazioni legate all'ordine delle parole si perdono. Per evitare di perdere queste informazione sono state introdotte le reti ricorrenti, le cosiddette RN, cioè recurrent neural network, e la loro evoluzione, cioè le LSTM, le long shortterm memory, che leggono le frasi sequenzialmente, quindi parola per parola, e riescono a tenere conto quindi dell'ordine delle parole. Un terzo problema del modello World toback è che ogni parola era importante allo stesso modo, quindi ognuna delle quattro parole nel contesto veniva utilizzata in egual misura per predire la parola al centro. Questo chiaramente non è ottimale perché tutti sappiamo che quando dobbiamo comprendere il significato di una frase il verbo è molto più importante del resto. Abbiamo il verbo, abbiamo il soggetto, abbiamo il complemento oggetto e se io parlassi con voi potrei sbagliare tutti i generi delle parole e voi mi capireste comunque. Ma se io sbagliassi tutti i verbi avreste già chiuso il video perché non si capirebbe nulla di quello che io dico e quindi i verbi sono molto più importanti del resto. In word tocc questa informazione non c'è e ogni parola ha la stessa importanza. Per arrivare ad un modello che assegnasse importanza diversa alle diverse parole, abbiamo dovuto aspettare il 2017 con i Transformer e il meccanismo di attention che sono alla base dei moderni large language model, quindi di GPT, di Gemini e dei modelli che effettivamente unendo le scoperte di World to back al meccanismo dell'attention stanno rivoluzionando il mondo. Un ultimo limite di World to è che essendo completamente non supervisionato e imparando direttamente dai dati, in qualche modo eredita i bias culturali che sono presenti in quei dati. Quindi se nella nostra società sono presenti degli stereotipi o dei bias di genere, sfortunatamente questi aspetti delle parole verranno comunque appresi dal modello e per fortuna, quando si è capita questa cosa è nata una linea di ricerca che punta a ottenere dei vettori che non contengano questi bias. Ok, ora abbiamo parlato di come funzionano i modelli World tocc e dei limiti di questi modelli, però perché questi modelli sono considerati la base di tutto quello che è venuto dopo. Il fatto è che dal 2013 gli embedding ottenuti attraverso l'applicazione di Worldto sono stati utilizzati come punto di partenza per costruire architetture di reti neurali più complicati, come appunto le architetture ricorrenti, l'architettura transformer, i primi large language model, quindi Bert e GPT, fino ad arrivare appunto ai moderni Large Language Model, cioè GPT 4 e me Lama 4, Cloud 3.7, Deep Seek e tutti gli altri. I chat moderni infatti si basano su architetture molto complesse che per funzionare devono combinare miliardi di parametri che vengono appresi durante l'addestramento. Però alla base di tutto questo c'è ancora l'idea fondamentale di Word to e della semantica distribuzionale, cioè possiamo rappresentare il significato delle parole attraverso vettori in uno spazio e quindi utilizzando la matematica come strumento per codificare la semantica. La differenza principale tra i modelli è che mentre War si limitava a rappresentare una singola parola, i modelli moderni generano una rappresentazione dinamica basata sull'intera frase o in generale sull'insieme di tutte le frasi, però è un po' come se Warto Weck avesse fornito un vocabolario di base e i modelli che sono venuti dopo avessero introdotto altri elementi come la grammatica, la sintassi, la semantica, tutto per arrivare a una comprensione del testo migliore. Bene, oggi abbiamo visto come World to abbia rivoluzionato il campo della comprensione del linguaggio e abbia messo le basi per i moderni sistemi di AI conversazionale. Dal mio punto di vista è veramente affascinante pensare come un'idea così semplice abbia contribuito a tracciare la strada verso i chatball sofisticati che usiamo oggi. Wtuck ci ha insegnato, infatti, che i modelli di intelligenza artificiale possono cogliere le relazioni semantiche tra le parole senza che esplicitamente queste vengano definite e insegnate ai modelli stessi, ma possono apprendere queste stesse nozioni semplicemente studiando grandissime quantità di testo e osservando il modo in cui gli umani utilizzano le parole, estraendo degli schemi basati su frequenze e statistiche. Se questo video vi è piaciuto, lasciate un like e iscrivetevi al canale. Nei commenti scrivetemi cosa ne pensate. Lo conoscevate questo modello o volete che parliamo di un altro modello nello specifico? Grazie per essere arrivati fino a qui e ci vediamo al prossimo
Tag
Tag associati al documento
Cartelle
Cartelle in cui è catalogato il documento
Testo Estratto (Cache)
Testo grezzo estratto dalla sorgente
Gli strumenti basati su intelligenza artificiale capiscono davvero quello che noi diciamo. Com'è possibile che c GPT, Gemini e tutti gli strumenti simili siano in grado di risponderci coerentemente, apparentemente capendo ogni cosa che gli stiamo dicendo? Ciao a tutti e bentornati sul canale. Io sono Manuel e oggi parliamo di uno degli articoli scientifici che ha rivoluzionato il modo in cui i modelli AI comprendono il linguaggio. Sto parlando di War to VC. Pensate, come dicevo, a strumenti come CGPT e Gemini. possono scrivere poesie, possono analizzare testi, possono rispondere coerentemente a domande complesse e aiutarci a fare brainstorming e stanno rivoluzionando il mondo. Ebbene, questa rivoluzione è iniziata nel 2013 quando è uscito Warto to un approccio che ha trasformato radicalmente il modo in cui i modelli comprendono il significato delle parole. In questo video non parleremo solo di word toc, ma anche del fatto che grazie a questo approccio i modelli AI possano comprendere la semantica delle parole, quindi il significato delle parole e capiremo perché è stato così importante e perché è la base anche dei sistemi moderni. Prima di parlare nello specifico di Word to dobbiamo però capire perché è così complicato comprendere il linguaggio. Pensateci, noi siamo abituati a parlare, io in questo momento sto parlando con voi che mi ascoltate e diamo per implicito il fatto che il significato delle parole sia condiviso e quindi sapere che le parole felice e contento hanno significati simili, che la parola piano può riferirsi sia allo strumento musicale, sia a un piano che io ho architettato, sia a un piano di un edificio e che le stesse parole in un ordine diverso comunicano un significato diverso. Ad esempio, il cane morde l'uomo e l'uomo morde il cane hanno le stesse parole, ma hanno un significato completamente diverso. Ecco, per noi queste cose sono scontate. Però come facciamo ad insegnare queste sfumature ad un modello di intelligenza artificiale? Per prima cosa chiediamoci cosa esisteva prima di World to. Ecco, dagli anni 90 in poi gli approcci al Natural Language Processing erano basati sull'utilizzo di vocabolari. Quindi una data parola era la decima del vocabolario, la vesima del vocabolario, la 140ª del vocabolario e per questo era diversa dalle altre. Questo concetto poteva venire rappresentato attraverso l'utilizzo dei cosiddetti vettori oneot che semplicemente erano composti da tutti zeri e un uno ad indicare che quella parola era la decima parola, la vesima parola o la centesima parola. Questo era il sistema più semplice per definire che c'erano due parole diverse in una frase e quali parole fossero. Però questo sistema così semplice non permette di cogliere leità tra le parole perché alla fine ogni parola è diversa da ogni altra parola allo stesso modo. Se un qualsiasi sistema di intelligenza artificiale avesse imparato qualcosa sul significato della parola felice, non avrebbe potuto in nessun modo sapere che quella nozione poteva essere utilizzata anche sulla parola contento, perché a priori queste erano due parole diverse e quindi non c'era modo di esprimere questa similarità. Il secondo problema da gestire è quello della polisemia. Infatti una parola può avere più significati. Prendiamo ad esempio boa. Noi abbiamo la boa che è quella che sta nel mare e anche il boa che è il serpente, ma ci sono tantissime altre parole del genere come piano, ma anche gola che può essere sia la parte del corpo sia il peccato capitale o un sinonimo di canyon. Quindi se noi vogliamo lavorare con le parole dobbiamo anche trovare un modo di esprimere il fatto che la stessa parola può avere più significati. Ecco, con un approccio vocabolario non c'era modo di esprimere questa informazione. Il terzo problema riguarda l'ordine delle parole. Se pensiamo a un approccio a vocabolario e prendiamo le due frasi usate precedentemente, quindi il cane morde l'uomo e l'uomo morde il cane, queste frasi avranno le stesse parole e quindi gli stessi vettori con tanti zeri e pochi uno. E per il modello non ci sarà modo di capire che l'insieme di quelle parole ha significati diversi perché un sistema basato unicamente sul vocabolario non tiene conto dell'ordine delle parole. Questo, appunto, era come il problema veniva affrontato negli anni 90, quando la potenza di calcolo era molto limitata e questi problemi erano noti ai ricercatori. Ma dal 2010 in poi, con la possibilità di applicare il deep learning per risolvere i più diversi problemi, i ricercatori hanno pescato dalla teoria e quindi hanno preso la teoria della semantica distribuzionale formulata da Harris Fert negli anni 50 e hanno potuto applicarla ottenendo appunto Word tocc. Questi ricercatori erano ricercatori di Google guidati da Thomas Mikolov e nel 2013 hanno pubblicato due articoli scientifici che spiegavano un sistema chiamato War to VC che era molto semplice ma sorprendentemente efficace. L'intuizione era questa, passare da vettori oneNOT, quindi i vettori di cui abbiamo parlato prima che codificavano la posizione della parola all'interno del vocabolario, ha dei vettori densi e far sì che questi vettori densi catturassero le relazioni semantiche tra le parole. Ora però non è così scontato comprendere perché l'utilizzo di vettori densi ci dà la possibilità di esprimere la similarità tra le parole. Infatti, prendiamo questo esempio. Qui abbiamo quattro parole: re, regina, uomo e donna, rappresentati da vettori composti da tre numeri. Ricordiamo che, appunto, un vettore è una sequenza ordinata di numeri e possiamo vedere che noi possiamo interpretare ogni numero come l'espressione di un concetto o di un attributo da parte di quella parola. Quindi storicamente la parola re è legato al concetto di mascolinità, non è legato al concetto di femminilità ed è legato al concetto di regalità. Possiamo fare lo stesso discorso per Regina che è legato più al concetto di femminilità rispetto che al concetto di mascolinità, ma allo stesso modo del re è legato al concetto di regalità. Allo stesso modo possiamo vedere come le parole uomo e donna sono legate ai concetti rispettivamente di mascolinità e di femminilità e molto meno al concetto di regalità. Quindi vediamo che se avessimo un sistema per assegnare questi numeri potremmo esprimere quanto due parole sono simili o sono dissimili. Inoltre questi vettori sono detti densi perché sono molto più piccoli rispetto ai vettori oneot che devono avere tante posizioni quante parole ci sono in un vocabolario e soprattutto creano uno spazio denso che possiamo immaginare come una nuvola di puntini tutti vicini tra loro. Però come fa Word tock a creare questi vettori semantici? Ecco, pescando a piene mani dalla teoria della semantica distribuzionale, quello che viene utilizzato per spiegare il significato di ogni parola è il suo contesto. Partiamo da un esempio. Immaginiamo di avere una frase, cioè il gatto siede sul tappeto. L'algoritmo di addestramento di Word tock prende questa frase, toglie una parola, per esempio, viene tolto gatto, si va dal modello e gli si chiede il siede sul tappeto, qual è la parola mancante? E il modello deve predire la parola gatto, ma notiamo che potrebbe predire anche bambino, perché sono tutte parole che starebbero bene in quella frase. Il gatto siede sul tappeto, il cane siede sul tappeto, il bambino siede sul tappeto. Sicuramente ci sono molte più parole che non può predire, tipo i verbi, oppure frasi come il pianeta siede sul tappeto perché questa frase non ha senso e quindi un modello, anche solo per risolvere questo semplice gioco, deve apprendere qualcosa sulle parole, deve apprendere il loro significato e deve apprendere quali sono simili, cioè quali hanno contesti simili, perché io ho dato da mangiare al mio gatto, ma posso aver dato da mangiare anche al mio cane. Ho portato dal veterinario il mio gatto e ho portato dal veterinario il mio cane. Quindi, secondo la semantica distribuzionale, il significato delle parole è tanto più simile quanto più i contesti all'interno di cui quelle parole compaiono sono simili. Ecco, un modello viene addestrato su milioni di frasi e fa questo esercizio per ogni singola parola, così facendo a modo di imparare il significato di tutte le parole, imparando quindi quando una parola va usata e quando una parola non va usata. Ok? Ora passiamo dalle analogie a una spiegazione un poco più tecnica. Negli articoli si parla di due diversi modelli, Sibow e Skipgram. Concentriamoci sul modello Sibow. Per addestrare un modello Sibowo si prendono tutte le frasi del dataset e le si spezzetta in frasi di lunghezza fissa, di immaginiamo di lunghezza cinque. Poi si prende ogni frase di cinque parole, si toglie quella in mezzo, quindi la terza, si va dal modello e gli si dice "Ok, ti do le altre quattro parole, predicimi quella al centro". Al contrario, per addestrare il modello Skipgram, viene presa la parola al centro e gli si chiede: "Ok, ora mi devi predire le altre quattro che mancano". Per fare queste predizioni, il modello deve trasformare le parole in vettori e combinare quei vettori in modo efficace per fare la predizione corretta. Quindi, se parliamo di sibow, le quattro parole di contesto vengono trasformate ognuna nel suo vettore. Questi vettori vengono combinati creando un quinto vettore e la speranza è che quel quinto vettore sia il più simile possibile al vettore della parola da predire. Ora però da dove saltano fuori questi vettori? In realtà la risposta è molto più semplice di quello che ci si aspetta. inizialmente sono a caso e quindi ogni vettore viene inizializzato con valori casuali, mentre il modo di combinare i vettori è sempre lo stesso, cioè somme e moltiplicazioni sempre nello stesso ordine. Sarai il modello stesso quindi a capire come i vettori devono cambiare per far sì che la loro combinazione dia risultato al vettore che cerca di volta in volta. E la cosa pazzesca del machine learning è che se un modello fa questi piccoli cambiamenti ai vettori per milioni di volte, a lungo andare questi vettori iniziano a essere posizionati in un modo tale che il significato di ogni parola è parzialmente rappresentato da come è fatto il vettore. E attenzione, dico parzialmente perché nessun modello è perfetto e quindi tutte le eccezioni di tutte le parole non possono essere colte da un sistema così semplice. Ok? Ora facciamo un passo indietro perché immagino che qualcuno si sarà accorto di quali sono i problemi di questo addestramento. Prima cosa, all'inizio io ho detto che tutte le frasi del dataset vengono spezzettate in frasi piccole da cinque parole. Questo è un problema perché vuol dire che il contesto di una parola è limitato e quindi, per esempio, se io dico un verbo all'inizio di una frase e il suo soggetto arriva dopo un po', questo legame fra le due parole non verrà colto da World to. Ma se io ingrandisco troppo il contesto, potrei includere delle parole che non sono così importanti. Quindi la scelta della grandezza di contesto è un cosiddetto iperparametro che chi lavora con questi sistemi deve settare e per decidere quale valore dare a questo parametro si fanno degli esperimenti e si vede dato un dataset qual è la grandezza ottimale del contesto. Ora, tornando ai nostri modelli, possiamo dire che Skipgram funziona meglio con le parole meno frequenti, mentre invece Sibow è più veloce e funziona meglio per le parole più frequenti. La cosa veramente rivoluzionaria è che una volta addestrati i modelli, quindi quando un modello sibow inizia a predire la parola corretta, noi possiamo dire che l'addestramento è finito. Ma se la predizione di Sibow è corretta, vuol dire che la rappresentazione interna, la rappresentazione vettoriale delle parole ha codificato il significato delle parole stesse e quindi quello che fanno i ricercatori è addestrare un modello e alla fine addestramento estrarre i vettori e utilizzarli per fare altri esperimenti perché si assume che quei vettori catturino il significato delle parole. Ed è qui che arriviamo alla parte veramente affascinante di World toback, perché questi vettori sono detti anche embeddings e una volta addestrato il modello emergono delle proprietà di questi embeddings. Per esempio, possiamo notare come sono organizzati per cluster, cioè parole simile sono posizionate nelle stesse regioni dello spazio. Per esempio, noi possiamo immaginare che tutte le parole relative alla frutta sono posizionate vicine, tutte le parole relative agli animali sono posizionate vicine, tutte le parole relative alle città sono posizionate vicine. Ora il primo esempio che vi abbiamo mostrato è una semplificazione perché se ci spostiamo su dati reali che sono quelli mostrati ora a schermo, ci accorgiamo che è un po' più complicato interpretare questi spazi vettoriali. Quindi abbiamo capito che i vettori sono disposti in regioni che codificano delle classi semantiche, diciamo, cioè la classe semantica dei frutti, la classe semantica degli animali, la classe semantica delle città e così via. Il fatto è che questa non è l'unica proprietà che possiamo trovare analizzando la disposizione dei vettori nello spazio. Infatti, una delle scoperte più sorprendenti dei paper di Mikolov è che questi vettori possono essere utilizzati per risolvere delle analogie. L'analogia più famosa è: "Resta uomo come cosa sta a donna?" E la risposta dovrebbe essere Regina, perché storicamente il concetto di re è simile al concetto di uomo tanto quanto il concetto di regina è simile al concetto di donna. E questa analogia funziona anche, per esempio, per le capitali, quindi Roma sta all'Italia come quale città sta alla Francia? e la risposta è Parigi oppure i verbi, cioè mangiare è legato a mangiato tanto quanto bere è legato a bevuto. E il fatto che queste analogie fossero risolvibili utilizzando i vettori voleva dire che le distanze nello spazio codificavano queste informazioni e quindi i verbi all'infinito e i verbi al passato avevano una distanza più o meno costante, così come le nazioni e le capitali avevano una distanza più o meno costante. E la cosa veramente bella è che queste proprietà emergono spontaneamente. Nessuno durante il training, infatti, ha imposto che alcuni vettori dovessero stare vicini e che la distanza tra infiniti e passati dovesse essere costante. Eppure, andando a indagare i vettori, è quello che si scopre e avere questa evidenza è stato un cosiddetto momento wow per la comunità scientifica perché ci siamo accorti di come finalmente i modelli di intelligenza artificiale stessero iniziando a cogliere le sfumature del linguaggio senza che nessuno gliele insegnasse esplicitamente. Ok, quindi fino ad adesso ci siamo concentrati su World to e ne abbiamo anche sottolineato, diciamo, una certa eleganza, ma sicuramente questo modello continua ad avere dei limiti e infatti è uscito nel 2013 e dal 2013 le cose sono un po' cambiate. Prima di tutto il problema della polisemia non veniva risolto da Warto tocc perché appunto una parola aveva un unico vettore e quindi gli esempi fatti prima, cioè la parola boa, la parola piano, ma anche la parola rete e la parola gola, avevano ognuna il suo vettore, ma non avevano un vettore per ogni significato, avevano un unico vettore e quindi noi dobbiamo immaginarci che la parola piano fosse posizionata a metà fra gli strumenti musicali e gli edifici. Allo stesso modo la parola gola può essere posizionata a metà fra le parti del corpo e i peccati capitali perché deve contemporaneamente rappresentare entrambi i significati, però in realtà rappresentando una media dei significati non ne rappresenta nessuno. La soluzione a questo problema è arrivata con gli embedding contestuali nel 2018 con un modello che si chiama Elmo. Questo modello, infatti, basato sulle reti neurali ricorrenti, rappresenta ogni parola in base al significato della parola e al contesto in cui si trova, generando appunto così un embedding contestuale. L'utilizzo delle reti dei correnti è necessario perché appunto un altro grande problema di Word tocc l'ordine delle parole non è importante. Infatti se vi ricordate Sibow e Skipgram, io prendo una frase, tolgo la parola centrale e gli do le altre quattro. E non è importante in che ordine siano le altre quattro, perché il modello deve semplicemente usarle per predire la parola centrale senza tener conto della loro posizione e quindi le informazioni legate all'ordine delle parole si perdono. Per evitare di perdere queste informazione sono state introdotte le reti ricorrenti, le cosiddette RN, cioè recurrent neural network, e la loro evoluzione, cioè le LSTM, le long shortterm memory, che leggono le frasi sequenzialmente, quindi parola per parola, e riescono a tenere conto quindi dell'ordine delle parole. Un terzo problema del modello World toback è che ogni parola era importante allo stesso modo, quindi ognuna delle quattro parole nel contesto veniva utilizzata in egual misura per predire la parola al centro. Questo chiaramente non è ottimale perché tutti sappiamo che quando dobbiamo comprendere il significato di una frase il verbo è molto più importante del resto. Abbiamo il verbo, abbiamo il soggetto, abbiamo il complemento oggetto e se io parlassi con voi potrei sbagliare tutti i generi delle parole e voi mi capireste comunque. Ma se io sbagliassi tutti i verbi avreste già chiuso il video perché non si capirebbe nulla di quello che io dico e quindi i verbi sono molto più importanti del resto. In word tocc questa informazione non c'è e ogni parola ha la stessa importanza. Per arrivare ad un modello che assegnasse importanza diversa alle diverse parole, abbiamo dovuto aspettare il 2017 con i Transformer e il meccanismo di attention che sono alla base dei moderni large language model, quindi di GPT, di Gemini e dei modelli che effettivamente unendo le scoperte di World to back al meccanismo dell'attention stanno rivoluzionando il mondo. Un ultimo limite di World to è che essendo completamente non supervisionato e imparando direttamente dai dati, in qualche modo eredita i bias culturali che sono presenti in quei dati. Quindi se nella nostra società sono presenti degli stereotipi o dei bias di genere, sfortunatamente questi aspetti delle parole verranno comunque appresi dal modello e per fortuna, quando si è capita questa cosa è nata una linea di ricerca che punta a ottenere dei vettori che non contengano questi bias. Ok, ora abbiamo parlato di come funzionano i modelli World tocc e dei limiti di questi modelli, però perché questi modelli sono considerati la base di tutto quello che è venuto dopo. Il fatto è che dal 2013 gli embedding ottenuti attraverso l'applicazione di Worldto sono stati utilizzati come punto di partenza per costruire architetture di reti neurali più complicati, come appunto le architetture ricorrenti, l'architettura transformer, i primi large language model, quindi Bert e GPT, fino ad arrivare appunto ai moderni Large Language Model, cioè GPT 4 e me Lama 4, Cloud 3.7, Deep Seek e tutti gli altri. I chat moderni infatti si basano su architetture molto complesse che per funzionare devono combinare miliardi di parametri che vengono appresi durante l'addestramento. Però alla base di tutto questo c'è ancora l'idea fondamentale di Word to e della semantica distribuzionale, cioè possiamo rappresentare il significato delle parole attraverso vettori in uno spazio e quindi utilizzando la matematica come strumento per codificare la semantica. La differenza principale tra i modelli è che mentre War si limitava a rappresentare una singola parola, i modelli moderni generano una rappresentazione dinamica basata sull'intera frase o in generale sull'insieme di tutte le frasi, però è un po' come se Warto Weck avesse fornito un vocabolario di base e i modelli che sono venuti dopo avessero introdotto altri elementi come la grammatica, la sintassi, la semantica, tutto per arrivare a una comprensione del testo migliore. Bene, oggi abbiamo visto come World to abbia rivoluzionato il campo della comprensione del linguaggio e abbia messo le basi per i moderni sistemi di AI conversazionale. Dal mio punto di vista è veramente affascinante pensare come un'idea così semplice abbia contribuito a tracciare la strada verso i chatball sofisticati che usiamo oggi. Wtuck ci ha insegnato, infatti, che i modelli di intelligenza artificiale possono cogliere le relazioni semantiche tra le parole senza che esplicitamente queste vengano definite e insegnate ai modelli stessi, ma possono apprendere queste stesse nozioni semplicemente studiando grandissime quantità di testo e osservando il modo in cui gli umani utilizzano le parole, estraendo degli schemi basati su frequenze e statistiche. Se questo video vi è piaciuto, lasciate un like e iscrivetevi al canale. Nei commenti scrivetemi cosa ne pensate. Lo conoscevate questo modello o volete che parliamo di un altro modello nello specifico? Grazie per essere arrivati fino a qui e ci vediamo al prossimo
Rigenera Contenuti
Rielabora i contenuti con Gemini
Nota: La rigenerazione richiederà alcuni secondi e sovrascriverà i contenuti esistenti.