Catene di Markov: Dalla Russia all'IA, la Matematica che ha Rivoluzionato il Mondo

Quante volte bisogna mescolare un mazzo di carte per renderlo davvero casuale? Quanta uranio serve per costruire una bomba nucleare? E come fa Google a sapere quale pagina stai cercando? Dietro a queste domande apparentemente disparate si nasconde un unico, potente strumento matematico: le catene di Markov. La loro storia affonda le radici in una bizzarra disputa accademica nella Russia di oltre un secolo fa, un conflitto che ha letteralmente plasmato il mondo moderno, dai motori di ricerca all’intelligenza artificiale.

Le origini controverse: Libero arbitrio vs. matematica nella Russia zarista

Immaginatevi la Russia del 1905, in pieno fermento politico. Mentre i gruppi socialisti si ribellavano allo Zar, la divisione si insinuò in ogni angolo della società, persino tra i matematici. Da un lato c’era Pavel Nekrasov, il cosiddetto “Zar della Probabilità”, un uomo profondamente religioso che sosteneva come la matematica potesse spiegare il libero arbitrio e la volontà divina.

Dall’altro lato, il suo acerrimo rivale intellettuale era Andrey Markov, noto come “Andrey il Furioso”. Markov era un ateo convinto, insofferente a ciò che considerava mancanza di rigore, e vedeva come assurdo il collegamento tra matematica, libero arbitrio e religione. La loro disputa verteva sulla “legge dei grandi numeri” di Jacob Bernoulli, un pilastro della teoria della probabilità, che si applicava però solo a eventi indipendenti, come il lancio di una moneta.

Nekrasov credeva che se si osservava la legge dei grandi numeri in contesti sociali (come i tassi di matrimonio, criminalità o natalità), si potesse inferire che le decisioni sottostanti fossero indipendenti, quindi atti di libero arbitrio. Markov, invece, considerava Nekrasov un illuso e si propose di dimostrare che anche eventi dipendenti potevano seguire la legge dei grandi numeri, sfatando l’argomento del libero arbitrio come misurabile matematicamente. Una vera e propria sfida alla concezione stessa della statistica sociale!

Il Metodo Monte Carlo: Dalla Solitaire alle bombe nucleari

Il XX secolo ha visto le catene di Markov assumere un ruolo inaspettato. Dopo la Seconda Guerra Mondiale, Stanislaw Ulam, un matematico che aveva lavorato al Progetto Manhattan, si trovò a dover recuperare da una grave infiammazione cerebrale. Per ingannare il tempo, giocava a Solitaire, un semplice gioco di carte. Ma una domanda lo assillava: qual è la probabilità di vincere una partita di Solitaire con un mazzo mescolato casualmente? Un problema analiticamente irrisolvibile, date le 52! combinazioni possibili.

Ulam ebbe un’intuizione geniale: e se invece di calcolare la probabilità esatta, ne simulassi centinaia di partite, ottenendo un’approssimazione statistica? Tornato al lavoro, realizzò che questa stessa idea poteva essere applicata ai neutroni all’interno di una bomba nucleare, un sistema con trilioni di interazioni impossibili da calcolare direttamente. John von Neumann, riconoscendone il potenziale, capì però che i neutroni non erano eventi indipendenti, il loro comportamento dipendeva da ciò che era successo prima. Serviva una catena di Markov.

Così nacque il Metodo Monte Carlo: un neutron è uno stato, e le sue azioni (disperdersi, essere assorbito, causare fissione) sono transizioni con probabilità che dipendono da fattori come posizione, velocità ed energia. Simulando queste “catene” su ENIAC, il primo computer elettronico, fu possibile stimare il fattore di moltiplicazione (k) e capire quanta uranio serviva per una reazione a catena. Il nome “Monte Carlo” fu scelto da Ulam in onore dello zio, un giocatore d’azzardo, e il metodo divenne uno strumento rivoluzionario.

PageRank di Google: Come le Catene di Markov hanno classificato il web

Con l’esplosione di internet a metà degli anni ’90, nacque un nuovo problema: come trovare qualcosa in un mare di informazioni in continua espansione? I primi motori di ricerca, come Yahoo, si basavano sulla frequenza delle parole chiave, un sistema facile da ingannare e privo di un concetto di “qualità”.

È qui che entrano in gioco Sergey Brin e Larry Page, studenti di dottorato a Stanford. Si ispirarono all’idea delle biblioteche: un libro molto preso in prestito (o con molti “timbri”) è probabilmente un buon libro. Applicarono questo concetto al web: ogni link a una pagina è un “endorsement”. Modellando il web come una catena di Markov, dove ogni pagina è uno stato e i link sono transizioni, riuscirono a misurare l’importanza e la qualità delle pagine.

Immaginate un “navigatore casuale” che salta da una pagina all’altra: il tempo che passa su ogni pagina indica la sua importanza. Per evitare che il navigatore si bloccasse in loop, introdussero un “fattore di smorzamento”: l’85% delle volte si segue un link, il 15% delle volte si salta a una pagina casuale. Così nacque PageRank (in parte dal nome di Larry Page e in parte dal concetto di “rango” delle pagine), l’algoritmo che ha reso Google il motore di ricerca dominante, inizialmente chiamato BackRub.

Intelligenza Artificiale e predizione del testo: Il retaggio di Markov nei modelli linguistici moderni

Oggi, le catene di Markov sono ancora il cuore di molti sistemi predittivi, specialmente nell’ambito dell’intelligenza artificiale. Claude Shannon, il padre della teoria dell’informazione, riprese l’idea di Markov di predire il testo. Non si limitò a vocali e consonanti, ma considerò lettere individuali o intere parole. Scoprì che più contesto si considera (ovvero più parole precedenti), migliore è la predizione della parola successiva.

Non è un caso se i predittori di testo (come quelli di Gmail) funzionano così bene: i loro algoritmi affondano le radici nei concetti delle catene di Markov. Questi sistemi, utilizzando “token” (lettere, parole, punteggiatura), calcolano la probabilità del token successivo basandosi su quelli precedenti.

Certo, i modelli linguistici di grandi dimensioni (LLM) di oggi sono ben più complessi delle semplici catene di Markov. Usano meccanismi di “attention” per dare peso diverso alle parole nel contesto, permettendo al modello di capire se “cellula” si riferisce alla biologia o a una prigione. Tuttavia, la loro capacità di prevedere il futuro basandosi sul passato prossimo è un’eredità diretta delle intuizioni di Markov.

La forza della “proprietà senza memoria”: Semplificare sistemi complessi

La vera genialità delle catene di Markov sta nella loro “proprietà senza memoria”. Incredibilmente, per molti sistemi complessi – come la sequenza di lettere in un testo, il comportamento dei neutroni o persino il meteo – possiamo ignorare quasi tutta la loro lunghissima storia e concentrarci solo sullo stato attuale per prevedere il prossimo passo.

Questa capacità di semplificare enormemente sistemi estremamente complessi rende le catene di Markov uno strumento potentissimo. Permettono di fare previsioni significative dove un’analisi esatta sarebbe impossibile. Come ha detto un documento: “Risolvere i problemi spesso significa inventarsi una catena di Markov appropriata.” È affascinante pensare che una scoperta così fondamentale sia emersa da una disputa personale, dimostrando che anche le rivalità accademiche possono portare a progressi rivoluzionari nella storia della matematica.

—

Domande Frequenti

Cos’è una Catena di Markov?

Una Catena di Markov è un modello matematico che descrive una sequenza di eventi (o stati) in cui la probabilità che accada l’evento successivo dipende solo dallo stato attuale, e non dalla sequenza di eventi che lo hanno preceduto. Questa è la sua fondamentale “proprietà senza memoria”.

Qual è il ruolo delle Catene di Markov negli algoritmi di IA come PageRank?

Le Catene di Markov sono alla base di algoritmi cruciali. In PageRank, modellano il web come una catena di stati (le pagine) e transizioni (i link), calcolando l’importanza di ogni pagina in base a quanto spesso un “navigatore casuale” vi si imbatterebbe. Nei modelli linguistici di intelligenza artificiale, predicono la parola successiva in una frase basandosi sul contesto precedente, permettendo così il completamento automatico del testo o la generazione di linguaggio naturale.

Qual è la “proprietà senza memoria” e perché è importante?

La “proprietà senza memoria” significa che lo stato futuro di un sistema modellato da una Catena di Markov dipende solo dallo stato presente, e non da come si è arrivati a quello stato. Questo è cruciale perché permette di semplificare enormemente l’analisi di sistemi complessi, rendendo possibile fare previsioni utili senza dover tenere conto di un’intera cronologia di eventi passati.

Le origini controverse: Libero arbitrio vs. matematica nella Russia zarista

Il Metodo Monte Carlo: Dalla Solitaire alle bombe nucleari

PageRank di Google: Come le Catene di Markov hanno classificato il web

Intelligenza Artificiale e predizione del testo: Il retaggio di Markov nei modelli linguistici moderni

La forza della “proprietà senza memoria”: Semplificare sistemi complessi

Domande Frequenti

Lascia un commento Annulla risposta

ULTIMI ARTICOLI

Stile di vita

Carriera da Polimath: La Guida Definitiva per Chi Ha Troppi Interessi

Stile di vita

Imparare a Imparare: Strategie per un Apprendimento Profondo e Duraturo

Stile di vita

10 Prodotti che Inutilmente Occupano Spazio in Casa (e Come Sostituirli)

Stile di vita

Incendio King’s Cross: L’Effetto Trincea e la Scienza Dietro la Tragedia della Metropolitana di Londra

Stile di vita

Classificazione delle Piante Terrestri: Guida Completa a Muschi, Felci, Gimnosperme e Angiosperme

Catene di Markov: Dalla Russia all’IA, la Matematica che ha Rivoluzionato il Mondo

Le origini controverse: Libero arbitrio vs. matematica nella Russia zarista

Il Metodo Monte Carlo: Dalla Solitaire alle bombe nucleari

PageRank di Google: Come le Catene di Markov hanno classificato il web

Intelligenza Artificiale e predizione del testo: Il retaggio di Markov nei modelli linguistici moderni

La forza della “proprietà senza memoria”: Semplificare sistemi complessi

Domande Frequenti

Lascia un commento Annulla risposta

ULTIMI ARTICOLI