Il chip che usa la TERMODINAMICA per battere NVIDIA (sì, davvero)
Metadati
- URL Sorgente
- https://youtu.be/ZRG23QRuiEE?si=ROJ06NqfWlUheVif
- Hash
- 54f10f6a39dbaeaa...
- Data Pubblicazione
- 20251118
- Lingua
- it
- Ultimo Aggiornamento
- 2025-11-18 22:04
Sintesi Breve
Riassunto generato da Gemini (max 200 parole)
L'intelligenza artificiale consuma enormi quantità di energia, portando i data center al collasso. Extropic propone una soluzione rivoluzionaria: un computer termodinamico che consuma 10.000 volte meno energia rispetto alle GPU Nvidia, basato sul principio del "probabilistic computing". Questo hardware sfrutta la termodinamica per eseguire il sampling a livello fisico, eliminando la necessità di simulare la randomicità via software. L'azienda ha sviluppato i "probabilistic bit" (Pbit) che oscillano tra 0 e 1, permettendo di regolare la probabilità di ogni stato. Milioni di Pbit connessi formano le Thermodynamic Sampling Units (TSU). Extropic utilizza gli "Energy Based Models" (EBM) e gli "Energy Based Generative Neural Networks" per imparare la distribuzione di probabilità dei dati, rendendo il sampling nativo ed efficiente. Hanno persino sviluppato "Energy Based Transformers". La tecnologia è stata testata con successo su modelli di stable diffusion, dimostrando un consumo energetico drasticamente inferiore rispetto agli approcci tradizionali. L'azienda ha rilasciato una libreria Python open source per sviluppare algoritmi termodinamici. L'innovazione di Extropic consiste nell'utilizzo del "rumore" termodinamico controllato per il sampling, anziché evitarlo come si faceva in passato. Questo approccio promette di ridurre drasticamente il consumo energetico dell'IA, aprendo la strada a una nuova era del computing.
Trascrizione Estesa
Testo rielaborato e formattato da Gemini
L'intelligenza artificiale sta letteralmente prosciugando il nostro pianeta. I data center sono ormai al collasso, lottando per sostenere una crescita frenetica che richiede sempre più hardware e quantità mostruose di energia bruciata in gran parte solo per raffreddare i sistemi. Siamo in un punto di non ritorno, ma la soluzione potrebbe essere già qui oggi. Ti presento un nuovo hardware che consuma 10.000 volte in meno di energia rispetto alle GPU del momento Nvidia e che si basa sulla termodinamica. L'azienda si chiama Extropic e ha sviluppato questo computer termodinamico che è estremamente più efficiente rispetto alle GPU, alle schede video. Il loro motto è il software probabilistico incontra l'hardware probabilistico. Ed è questo proprio il segreto di tutto. Andiamo a vedere, prima di vedere l'hardware che hanno sviluppato e anche tutto il software Python per poter utilizzare questo hardware, andiamo a vedere ma perché probabilistic computing hanno fatto una presentazione. L'intelligenza artificiale è estremamente potente, ma allo stesso tempo consuma tantissima energia e Power Hungry è affamata e soprattutto l'inenza di questi modelli qua sta consumando in larga scala tutta l'elettricità del mondo mondiale. Senza nessun nuovo approccio arriveremo a colpire il cosiddetto energy wall, cioè il muro. Arriviamo proprio a esaurire tutta l'energia. Le schede video non sono mai state costruite per questo approccio qua. Quindi i sistemi si basano adesso su delle GPU che sono state originariamente inventate per fare i render di grafica e poi è successo che, diciamo, sono anche utili per eseguire le reti neurali e da questa, diciamo, considerazione le GPU adesso sono evolute, coevolute rispetto a nuovi modelli. Loro dicono i probabilistic hardware probabilistic software hanno detto alla fine quando fai l'inferenza su un modello di generativo alla fine dei conti stai facendo sampling ok da una distribuzione di probabilità veramente complicata e sono d'accordo su questo approccio. Alla fine stai facendo sampling, stai generando nuovi dati da una distribuzione. I sistemi di extropic utilizzano proprio questa tecnica qui del sampling, però a livello di hardware, quindi non devono simulare il sampling, non devono simulare il lancio del dado, hanno proprio un hardware che è randomico di natura grazie alla termodinamica e quindi ti permette di eseguire nuovi tipi di algoritmi che consumano molta meno energia rispetto a quelli che esistono oggi e quindi permetteranno secondo, grazie alla loro tecnologia di avanzare con le high per tutti e diciamo non autodistruggerci con l'energia. Una nuova era del computing hanno validato appunto questi chip, gli li hanno prodotti e secondo il loro test consumano 10.000 volte in meno di energia rispetto alla GPU. Per spiegarti che cos'è il samling, mettiamo caso di avere un pavimento dove ci sono tre piastrelle rosse ed una piastrella gialla. Poi abbiamo una palla, la tiriamo dentro questa stanza, ok? Qua ci sono i muri e questa stanza cade su una piastrella. Siccome ci sono tre piastrelle rosse, la probabilità, appunto, che la palla casualmente cada in una di queste tre piastrelle, la probabilità è 3 su quattro. Ok? Però ogni volta noi dobbiamo effettivamente lanciare la palla e vedere dove cade. Cade qui, allora è giallo. Cade qua, allora è rosso. Ogni volta che lancio la palla sto facendo appunto sampling. Questo questa cosa qua sull'hardware tradizionale devi programmarla, ok? Non esiste un hardware fisico che ti fa in automatico il sampling rispettando queste proporzioni 3/4. Questo è il caso più semplice. Quindi cosa devo fare? Devo fare un software che ad esempio mi genera un numero casuale che non è mai casuale nel software, sempre pseudo casuale e questa è un'altra limitazione. Che generato questo numero, ad esempio, se questo numero me lo deve generare tra 0 e 3 e se questo numero è compreso tra 0 e 2, allora sto in queste parti qua rosse, altrimenti e tre so che è caduto nella parte nella piastrella gialla e tutte le volte questo algoritmo entra in esecuzione, consuma energia, mentre quello che dicono loro e che hanno sviluppato questo hardware il sampling lo fa nativamente, cioè questa randomicità non la devi simulare ma ce l'ha nativa. Hanno inventato il probabilistic bit, detto anche Pbit. Invece di essere semplicemente o 0, un pibit può essere regolato in modo tale che sfarfalli tra 0 e 1 in un periodo di tempo e puoi programmare la probabilità di tempo che sta inno ogni stato. Quando colleghi milioni di questi PBit insieme emerge un'immensa potenza di calcolo e questi nuovi processori li chiamano Thermodynamic Sampling Units e da poco hanno rilasciato appunto X0. Quindi non devo io spendere risorse per programmare la randomicità, mi arriva gratuitamente proprio dall'hardware. E la cosa bella del Pibit è che per natura, ok, oscilla tra 0 e 1, quindi non è né 01 oscilla e dipende da in quando tu lo osservi vedi in che punto sta. E la cosa incredibile, assurda è che tu puoi regolare questa probabilità, cioè la probabilità di 0,81 che sta più tempo su uno, infatti vedi, sta più tempo su uno, se lo mettiamo verso zero l'abbassiamo, sarà più tempo verso zero e quindi non dobbiamo più simulare nulla quella roba che ho fatto col pavimento, lo fa direttamente il singolo pbit. Mettendo tanti più bit insieme, abbiamo una potenza di sampling incredibile che ci permette di fare sampling su modelli di machine learning grandi come stable diffusion. Però c'è un qualcosa che manca. Come faccio io adesso che ho le reti neurali, il deep learning e il back propagation che praticamente sono prodotti trammatrici ed ho tutte le schede video, le GPU che sono fortissime a fare prodotti trammatrici? Come faccio a trasformare questi algoritmi in algoritmi che funzionano su questi nuovi hardware? E il tutto si basa sul Energy based models. Gli energy based model esistono da tempo, vengono chiamati EBM, sono dei modelli di machine learning che si basano su una funzione detta energia. Esistono anche le Energy based generative Neural Networks, che sono una classe di modelli generativi, il quale compito, guarda qua, è quello di imparare in modo esplicito la distribuzione di probabilità. Questo è il bingo, imparare la distribuzione di probabilità da cui dopo fare sampling in modo nativo super efficiente, cosa che prima era intrattabile questa funzione qua perché dovevi simulare la randomicità, dovevi simulare il sampling, adesso ce l'hai nativo. Quindi su questi dati sotto forma di energy based models, quindi hai la energy function che è parametrizzata dalle moderni moderne reti neurali e non solo perché ci sta questo paper scientifico recente del 2025 dove sono riusciti a fare gli energy based Transformers, quindi non solo funziona sulle reti neurali, ma sono addirittura arrivati a farci dei Transformers, che è il componente principale chiave per fare i large language model. Ok? basato sull'energia. Quindi adesso cosa succede? Da un dataset, ok, di immagini, noi vogliamo addestrare un modello che genera immagini. Abbiamo a sinistra l'approccio che si basa sul gradiente, a destra l'approccio che si basa sull'energia. Partiamo dall'approccio che si basa sull'energia. Noi da questo dataset dobbiamo imparare una distribuzione di probabilità che è super complessa, è tipo una superficie multidimensionale che c'ha massimi minimi, ok? è una distribuzione multidimensionale. Questa formula qua la dobbiamo imparare, ok? Mo ho messo la normale, ma è molto più complessa. E quando impariamo questa formula, ad esempio, viene fuori che ci vogliono tre variabili x, y e z. Ci servono tre variabili e che x, ad esempio, deve avere probabilità che sia 1 con 0,8% 80%. y deve essere 1 con il 0,15% e Z deve essere 1 con il 0,01%. Ok? Queste variabili qua sono le variabili per fare il sampling. Siccome però abbiamo i pbit, non dobbiamo simulare che queste variabili hanno questa probabilità che sono 0 e 1, ma lo settiamo a livello di Pb bit. Quindi li settiamo, facciamo il sampling, vediamo fuori X che cos'è? 1, Y che cos'è? 0 Z che cos'è? 0. Rispettando appunto la distribuzione questa qua, sostituiamo i valori dentro e abbiamo generato un'immagine. Ok? Qua te l'ho fatta semplificata, non so tre variabili, saranno milioni di variabili, ok? però con il Pbit fa il sampling proprio boh nativamente. Mentre nell'approccio tradizionale che usiamo adesso che si basa sul gradient descend, il sampling lo devi fare simulandolo step by step. Quindi ci sta il modello disable diffusion che è quello che si utilizza per generare le immagini che ha una parte di encoder, la parte len space e la parte di decoder e quello che fa alla fine è una rete neurale dove su ciascun nodo ci sono collegati gli archi a tutti i nodi successivi del layer successivo e in ciascun arco ci sta un peso W. Quindi tu per calcolare il valore che si propaga dentro la rete devi fare tanti prodotti tra matrici, ok? Perché devi fare x il valore input per w, questa è la formula, w * x, tutto in sommatoria perché poi entrano dentro il nodo. Qua ad esempio entra W1, W2, W3, W4 con X1, che è il risultato dei nodi precedenti, X1, X2, X3, X4. Siccome entrano tutti qua dentro, fai la sommatoria qua e poi ci applichi il bias che è un parametro di bias e la funzione attivazione. Tutti questi calcoli qua prodotti tra matrice li devi fare per ogni layer, per ogni strada per propagare quello che era l'input il testo, per generarti l'immagine in output. Ok? Quindi è estremamente più costoso questo approccio qua rispetto a fare il samling direttamente. Però perché si è fatto questo approccio? Perché questa funzione qua da cui fare sampling era intrattabile se non avevi una roba del genere dove non dovevi calcolare la randomicità, ma ti veniva gratuita, cioè tu potevi settare veramente la probabilità che grazie ai Pbit e grazie questo approccio hanno creato un modello di stable diffusion che si basa appunto sull'energia e lo hanno testato sul loro hardware. Quindi i modelli di stable diffusion cosa fanno? Si parte da un'immagine, gli si aggiunge il rumore e si crea il dataset così e poi il modello fa la cosa contraria. Si parte da tutto rumore e inizia a togliere il rumore fino a generare l'immagine di output che volevi te. Questo rumore lo leva in modo condizionato dal testo che gli hai dato in input. E qua puoi vedere un modello che hanno realizzato di denoising delle immagini. può vedere come, ad esempio, non lo so, genera un vestito, parte dal rumore e ogni volta rimuove il rumore, fa gli step di denoising, proprio come funzionano i modelli stable diffusion, quelli attuali che generano le immagini. Però questo rumore qua è gratuito, cioè ti viene generato gratuitamente dall'hardware che hanno fatto termodinamico. Questo il bello, non lo devi calcolare. E poi qua puoi vedere a T8, T5, T4, mano mano stiamo arrivando fino ad avere il vestito. Posso skippare tutto? Ecco qua. Questo è il vestito. Sono pochi pixel, eh, hanno fatto una una demo, però, ad esempio, mettiamo lo sneaker, skippiamo e vedi che alla fine dopo, nello step finale, hai la sneaker a T0. Mettiamo shirt. Ecco qua la maglietta. Questo è solo un esempio per dimostrarti che questo hardware funziona convertendo i modelli di generativa che abbiamo oggi su sull'hardware loro, cioè che funziona. E a livelli di energia, consumo di energia siamo a 10^-8 rispetto a altri approcci. Varation encoder, generative adversaral network, cioè assurdo. E stiamo parlando di modelli addestrati sullo stesso dataset, ok? Ma con gli approcci tradizionali 10.000 volte in meno è una cifra che non ti puoi immaginare che se prima consumavi $10.000 $000, adesso consumi $, cioè questa la differenza, è tantissimo. Hanno fatto veramente un lavoro gigantesco. lato hardware, stanno sganciando un hardware dopo l'altro, hanno fatto l'X0, hanno fatto l'XTR0 che non so nemmeno le differenze per cosa sono, però l'X1 è il primo che hanno utilizzato per dimostrare che appunto è possibile utilizzare i modelli di generativa basati sull'energia ed è, cioè secondo me Nvidia adesso se non si mette al passo le stock scenderanno e io sto cercando il modo di contattarli per poter investire in qualche modo in questa azienda perché mi piace il loro approccio disruptive perché non c'è altrimenti e non solo, hanno anche sviluppato tutta una libreria su Gitab per poter già scrivere il codice, ok, del futuro e per utilizzare questo hardware qua. Open Source, Python Library per abilitare chiunque a sviluppare Thermodynamic algorithm e Simulate Running Demon TSU. Ed è assurdo come tanti anni di ricerca si sono occupati di evitare che i bitici fossero influenzati da segnali, da rumori esterni, dalla temperatura e quindi cercare di rimanere lo 00 lo 1 1. Adesso invece proprio quel rumore lì che abbiamo evitato è la cosa fondamentale per risparmiare energia, perché proprio quel rumore se riesci a controllarlo, ad esempio la termodinamica con il calore che cambia sempre, ti permette di sbloccare questa nuovo paradigma dei modelli che si basano sull'energia ed avere il sampling gratuito. Perché rimuovere quel rumore se poi dopo devi generare una cosa randomica? usa direttamente quel quel rumore, cioè è geniale. Non c'ho dormito due notti di fila per leggermi tutti i paper sugli Energy based e come funzionano gli Energy based Transformers. Io sono veramente rimasto allucinato. Come possiamo prendere vantaggio da questa informazione qua? Io ci stavo pensando, dico che faccio? short invidia, eh, perché queste aziende purtroppo rimangono private, quindi non ci puoi investire, le puoi contattare direttamente, ma sono talmente tanto famose ormai ste aziende che c'hanno tutti ai loro piedi, tutti vogliono investire in queste aziende qua e quindi noi non abbiamo modo, ok? E al momento nemmeno dentro Openei possiamo investire. Le uniche aziende pubbliche sono Nvidia, Palantier, ma comunque l'idea è geniale, l'hardware ancora non lo vendono, sono tutti prototipi che hanno sviluppato, lato teoria, tutto quello che hanno spiegato, mi torna tutto, mi sono studiato tutto, ho visto anche la libreria che hanno fatto, mi torna tutto. Stiamo a vedere effettivamente quando rilasciano questo hardware se i numeri che hanno indicato sono effettivamente quelli. Spero che questo video ti sia piaciuto. Scrivi un commento qui sotto dicendomi la tua, se conoscevi già i modelli che si basano sull'energia e seguimi per rimanere aggiornato sul mondo delle a Ciao.
Tag
Tag associati al documento
Cartelle
Cartelle in cui è catalogato il documento
Testo Estratto (Cache)
Testo grezzo estratto dalla sorgente
L'intelligenza artificiale sta letteralmente prosciugando il nostro pianeta. I data center sono ormai al collasso. Lottano per sostenere una crescita frenetica che richiede sempre più hardware e quantità mostruose di energia bruciata in gran parte solo per raffreddare i sistemi. Siamo in un punto di non ritorno, ma la soluzione potrebbe essere già qui oggi. Ti presento un nuovo hardware che consuma 10.000 volte in meno di energia rispetto alle GPU del momento Nvidia. e che si basa sulla termodinamica. L'azienda si chiama Extropic e ha sviluppato questo computer termodinamico che è estremamente più efficiente rispetto alle GPU, alle schede video. Il loro motto è il software probabilistico incontra l'hardware probabilistico. Ed è questo proprio il segreto di tutto. Andiamo a vedere, prima di vedere l'hardware che hanno sviluppato e anche tutto il software Python per poter utilizzare questo hardware, andiamo a vedere ma perché probabilistic computing hanno fatto una presentazione. L'intelligenza artificiale è estremamente potente, ma allo stesso tempo consuma tantissima energia e Power Hungry è affamata e soprattutto l'inenza di questi modelli qua sta consumando in larga scala tutta l'elettricità del mondo mondiale. Senza nessun nuovo approccio arriveremo a colpire il cosiddetto energy wall, cioè il muro. Arriviamo proprio a a esaurire tutta l'energia. Le sch dei video non sono mai state costruite per questo approccio qua. Quindi i sistemi si basano adesso su delle GPU che sono state originariamente inventate per fare i render di grafica e poi è successo che, diciamo, sono anche utili per eseguire le reti neurali e da questa, diciamo, considerazione le GPU adesso sono evolute, coevolute rispetto a nuovi modelli. Loro dicono i probabilistic hardware probabilistic software hanno detto alla fine quando fai l'inferenza su un modello di generativo alla fine dei conti stai facendo sampling ok da una distribuzione di probabilità veramente complicata e sono d'accordo su questo approccio. Alla fine stai facendo sampling, stai generando nuovi dati da una distribuzione. I sistemi di extropic utilizzano proprio questa tecnica qui del sampling, però a livello di hardware, quindi non devono simulare il sampling, non devono simulare il lancio del dado, hanno proprio un hardware che è randomico di natura grazie alla termodinamica e quindi ti permette di eseguire nuovi tipi di algoritmi che consumano molta meno energia rispetto a quelli che esistono oggi e quindi permetteranno secondo, grazie alla loro tecnologia di avanzare con le high per tutti e diciamo non autodistruggerci con l'energia. Una nuova era del computing hanno validato appunto questi chip, gli li hanno prodotti e secondo il loro test consumano 10.000 volte in meno di energia rispetto alla GPU. Per spiegarti che cos'è il samling, mettiamo caso di avere un pavimento dove ci sono tre piastrelle rosse ed una piastrella gialla. Poi abbiamo una palla, la tiriamo dentro questa stanza, ok? Qua ci sono i muri e questa stanza cade su una eh piastrella. Siccome ci sono tre piastrelle rosse, la probabilità, appunto, che la palla casualmente cada in una di queste tre piastrelle, la probabilità è 3 su quattro. Ok? Però ogni volta noi dobbiamo effettivamente lanciare la palla e vedere dove cade. Cade qui, allora è giallo. Cade qua, allora è rosso. Ogni volta che lancio la palla sto facendo appunto sampling. Questo questa cosa qua sull'hardware tradizionale devi programmarla, ok? Non esiste un hardware fisico che ti fa in automatico il sampling rispettando queste proporzioni 3/arti. Questo è il caso più semplice. Quindi cosa devo fare? Devo fare un software che ad esempio mi genera un numero casuale che non è mai casuale nel software, sempre pseudo casuale e questa è un'altra limitazione. Che generato questo numero, ad esempio, se questo numero me lo deve generare tra 0 e 3 e se questo numero è compreso tra 0 e 2, allora sto in queste parti qua rosse. altrimenti e tre so che è caduto nella parte nella piastrella gialla e tutte le volte questo algoritmo entra in esecuzione, consuma energia, mentre quello che dicono loro e che hanno sviluppato questo hardware il sampling lo fa nativamente, cioè questa randomicità non la devi simulare ma ce l'ha nativa. Hanno inventato il probabilistic bit, detto anche Pbit. Invece di essere semplicemente o 0, un pibit può essere regolato in modo tale che sfarfalli tra 0 e 1 in un periodo di tempo e puoi programmare la probabilità di tempo che sta inno ogni stato. Quando colleghi milioni di questi PBit insieme emerge un'immensa potenza di calcolo e questi nuovi processori li chiamano Thermodynamic Sampling Units e da poco hanno rilasciato appunto X0. Quindi non devo io spendere risorse per programmare la randomicità, mi arriva gratuitamente proprio dall'hardware. E la cosa bella del Pibit è che per natura, ok, oscilla tra 0 e 1, quindi non è né 01 oscilla e dipende da in quando tu lo osservi vedi in che punto sta. E la cosa incredibile, assurda è che tu puoi regolare questa probabilità, cioè la probabilità di 0,81 che sta più tempo su uno, infatti vedi, sta più tempo su uno, se lo mettiamo verso zero l'abbassiamo, sarà più tempo verso zero e quindi non dobbiamo più simulare nulla quella roba che ho fatto col pavimento, lo fa direttamente il singolo pbit. Mettendo tanti più bit insieme, abbiamo una potenza di sampling incredibile che ci permette di fare sampling su modelli di machine learning grandi come stable diffusion. Però c'è un qualcosa che manca. Come faccio io adesso che ho le reti neurali, il deep learning e il back propagation che praticamente sono prodotti trammatrici ed ho tutte le schede video, le GPU che sono fortissime a fare prodotti trammatrici? Come faccio a trasformare questi algoritmi in algoritmi che funzionano su questi nuovi hardware? E il tutto si basa sul Energy based models. Gli energy based model esistono da tempo, vengono chiamati EBM, sono dei modelli di machine learning che si basano su una funzione detta energia. Esistono anche le Energy based generative Neural Networks, che sono una classe di modelli generativi, il quale compito, guarda qua, è quello di imparare in modo esplicito la distribuzione di probabilità. Questo è il bingo, imparare la distribuzione di probabilità da cui dopo fare sampling in modo nativo super efficiente, cosa che prima era intrattabile questa funzione qua perché dovevi simulare la randomicità, dovevi simulare il sampling, adesso ce l'hai nativo. Quindi su questi dati sotto forma di energy based models, quindi hai la energy function che è parametrizzata dalle moderni moderne reti neurali e non solo perché ci sta questo paper scientifico recente del 2025 dove sono riusciti a fare gli energy based Transformers, quindi non solo funziona sulle reti neurali, ma sono addirittura arrivati a farci dei Transformers, che è il componente principale chiave per fare i large language model. Ok? basato sull'energia. Quindi adesso cosa succede? Da un dataset, ok, di immagini, noi vogliamo eh addestrare un modello che genera immagini. Abbiamo a sinistra l'approccio che si basa sul gradiente, a destra l'approccio che si basa sull'energia. Partiamo dall'approccio che si basa sull'energia. Noi da questo dataset dobbiamo imparare una eh distribuzione di probabilità che è super complessa, è tipo una superficie multidimensionale che c'ha massimi minimi, ok? è una distribuzione multidimensionale. Questa formula qua la dobbiamo imparare, ok? Mo ho messo la normale, ma è molto più complessa. E quando impariamo questa formula, ad esempio, viene fuori che ci vogliono tre variabili x, y e z. Ci servono tre variabili e che x, ad esempio, deve avere probabilità che sia 1 con 0,8% 80%. y deve essere 1 con il 0,15% e Z deve essere 1 con il 0,01%. Ok? Queste variabili qua sono le variabili per fare il sampling. Siccome però abbiamo i pbit, non dobbiamo simulare che queste variabili hanno questa probabilità che sono 0 e 1, ma lo settiamo a livello di Pb bit. Quindi li settiamo, facciamo il sampling, vediamo fuori X che cos'è? 1, Y che cos'è? 0 Z che cos'è? 0. Rispettando appunto la distribuzione questa qua, sostituiamo i valori dentro e abbiamo generato un'immagine. Ok? Qua te l'ho fatta semplificata, non so tre variabili, saranno milioni di variabili, ok? però con il Pbit fa il sampling proprio boh nativamente. Mentre nell'approccio tradizionale che usiamo adesso che si basa sul gradient descend, il sampling lo devi fare simulandolo step by step. Quindi ci sta il modello disable diffusion che è quello che si utilizza per generare le immagini che ha una parte di encoder, la parte len space e la parte di decoder e quello che fa alla fine è una rete neurale dove su ciascun nodo ci sono collegati gli archi a tutti i nodi eh successivi del layer successivo e in ciascun arco ci sta un peso W. Quindi tu per calcolare il valore che si propaga dentro la rete devi fare tanti prodotti tra matrici, ok? Perché devi fare x il valore input per w, questa è la formula, w * x, tutto in sommatoria perché poi entrano dentro il nodo. Qua ad esempio entra W1, W2, W3, W4 con X1, che è il risultato dei nodi precedenti, X1, X2, X3, X4. Siccome entrano tutti qua dentro, fai la sommatoria qua e poi ci applichi il bias che è un parametro di bias e la funzione attivazione. Tutti questi calcoli qua prodotti tra matrice li devi fare per ogni layer, per ogni strada per propagare quello che era l'input il testo, per generarti l'immagine in output. Ok? Quindi è estremamente più costoso questo approccio qua rispetto a fare il samling direttamente. Però perché si è fatto questo approccio? Perché questa funzione qua da cui fare sampling era intrattabile se non avevi una roba del genere dove non dovevi calcolare eh la randomicità, ma ti veniva gratuita, cioè tu potevi settare veramente la probabilità che grazie ai Pbit e grazie questo approccio hanno creato un modello di stable diffusion che si basa appunto sull'energia e lo hanno testato sul loro hardware. Quindi i modelli di stable diffusion cosa fanno? Si parte da un'immagine, gli si aggiunge il rumore e si crea il dataset così e poi il modello fa la cosa contraria. Si parte da tutto rumore e inizia a togliere il rumore fino a generare l'immagine di output che volevi te. Questo rumore lo leva in modo condizionato dal testo che gli hai dato in input. E qua puoi vedere un modello che hanno realizzato di denoising delle immagini. può vedere come, ad esempio, non lo so, genera un vestito, parte dal rumore e ogni volta rimuove il rumore, fa gli step di denoising, proprio come funzionano i modelli stable diffusion, quelli attuali che generano le immagini. Però questo rumore qua è gratuito, cioè ti viene generato gratuitamente dall'hardware che hanno fatto termodinamico. Questo il bello, non lo devi calcolare. E poi qua puoi vedere a T8, T5, T4, mano mano stiamo arrivando fino ad avere il vestito. Posso skippare tutto? Ecco qua. Questo è il vestito. Sono pochi pixel, eh, hanno fatto una una demo, però, ad esempio, mettiamo lo sneaker, skippiamo e vedi che alla fine dopo, nello step finale, hai la sneaker a T0. Mettiamo shirt. Ecco qua la maglietta. Questo è solo un esempio per dimostrarti che questo hardware funziona convertendo i modelli di generativa che abbiamo oggi su sull'hardware loro, cioè che funziona. E a livelli di energia, consumo di energia siamo a 10^-8 rispetto a altri approcci. Varation encoder, generative adversaral network, cioè assurdo. E stiamo parlando di modelli addestrati sullo stesso dataset, ok? Ma con gli approcci tradizionali 10.000 volte in meno è una cifra che non ti puoi immaginare che se prima consumavi eh $10.000 $000, adesso consumi $, cioè questa la differenza, è tantissimo. Hanno fatto veramente un lavoro gigantesco. lato hardware, stanno sganciando un hardware dopo l'altro, hanno fatto l'X0, hanno fatto l'XTR0 che non so nemmeno le differenze per cosa sono, però l'X1 è il primo che hanno utilizzato per dimostrare che appunto è possibile utilizzare i modelli di generativa basati sull'energia ed è, cioè secondo me Nvidia adesso se non si mette al passo le stock scenderanno e io sto cercando il modo di contattarli per poter investire in qualche modo in questa azienda perché mi piace il loro approccio disruptive perché non c'è altrimenti e non solo, hanno anche sviluppato tutta una libreria su Gitab per poter già scrivere il codice, ok, del futuro e per utilizzare questo hardware qua. Open Source, Python Library per abilitare chiunque a sviluppare Thermodynamic algorithm e Simulate Running Demon TSU. Ed è assurdo come tanti anni di ricerca si sono occupati di evitare che i bitici fossero influenzati da segnali, da rumori esterni, dalla temperatura e quindi cercare di rimanere lo 00 lo 1 1. Adesso invece proprio quel rumore lì che abbiamo evitato è la cosa fondamentale per risparmiare energia, perché proprio quel rumore se riesci a controllarlo, ad esempio la termodinamica con il calore che cambia sempre, ti permette di sbloccare questa nuovo paradigma dei modelli che si basano sull'energia ed avere il sampling gratuito. Perché rimuovere quel rumore se poi dopo devi generare una cosa randomica? usa direttamente quel quel rumore, cioè è geniale. Non c'ho dormito due notti di fila per leggermi tutti i paper sugli Energy based e come funzionano gli Energy based Transformers. Io sono veramente rimasto allucinato. Come possiamo prendere vantaggio da questa informazione qua? Io ci stavo pensando, dico che faccio? short invidia, eh, perché queste aziende purtroppo rimangono private, quindi non ci puoi investire, le puoi contattare direttamente, ma sono talmente tanto famose ormai ste aziende che c'hanno tutti ai loro piedi, tutti vogliono investire in queste aziende qua e quindi noi non abbiamo modo, ok? E al momento nemmeno dentro Openei possiamo investire. Le uniche aziende pubbliche sono Nvidia, Palantier, ma comunque l'idea è geniale, l'hardware ancora non lo vendono, sono tutti prototipi che hanno sviluppato, lato teoria, tutto quello che hanno spiegato, mi torna tutto, mi sono studiato tutto, ho visto anche la libreria che hanno fatto, mi torna tutto. Stiamo a vedere effettivamente quando rilasciano questo hardware se i numeri che hanno indicato sono effettivamente quelli. Spero che questo video ti sia piaciuto. Scrivi un commento qui sotto dicendomi la tua, se conoscevi già i modelli che si basano sull'energia e seguimi per rimanere aggiornato sul mondo delle a Ciao.
Rigenera Contenuti
Rielabora i contenuti con Gemini
Nota: La rigenerazione richiederà alcuni secondi e sovrascriverà i contenuti esistenti.