Oamenii de știință au găsit o legătură neașteptată între inteligența artificială și cutremure, folosind un model mecanic simplu pentru a descifra unul dintre cele mai mari mistere ale învățării profunde: modul în care rețelele neuronale învață să gândească.
Rețelele neuronale profunde (Deep neural networks, adică DNN), motoarele care alimentează inteligența artificială modernă, de la ChatGPT la recunoașterea facială, învață prin analiza unor volume uriașe de date. Aceste rețele sunt formate din straturi succesive, fiecare transformând informația brută în „caracteristici” tot mai abstracte, permițând sistemului să facă predicții uimitor de precise.
Misterul fundamental a fost mereu cum anume are loc acest proces de învățare a caracteristicilor. Acum, o echipă de cercetători de la Universitatea din Basel și Universitatea de Știință și Tehnologie din China a propus o explicație surprinzătoare, publicată în Physical Review Letters, care vine nu din informatică, ci din fizica mecanică.
Cercetătorii au modelat o rețea neuronală ca un lanț de blocuri conectate prin arcuri – un sistem adesea folosit pentru a studia dinamica faliilor tectonice. Rezultatul este o „diagramă de fază”, similară celor folosite pentru a descrie stările apei (lichid, gazos, solid), care cartografiază modul în care o rețea învață în diferite condiții.

De la umerașe la cutremure: modul în care gândește inteligența artificială
Totul a pornit de la o observație numită „legea separării datelor”. „Straturile unei rețele neuronale procesează intrările prin distilarea și simplificarea progresivă a acestora. Cu cât avansezi mai adânc în rețea, cu atât reprezentările devin mai regulate. Reprezentările diferitelor clase de obiecte, cum ar fi pisicile și câinii, devin mai separate și mai ușor de distins.”, a explicat pentru Phys.org Ivan Dokmanić, liderul studiului.
În rețelele bine antrenate, fiecare strat contribuie în mod egal la această separare. Însă, modificând anumiți parametri, acest echilibru dispărea. Aici a intervenit analogia neașteptată.
„Fenomenul separării datelor ne-a amintit de modelele cu blocuri elastice folosite în geofizică. Am petrecut vacanța de iarnă schimbând imagini și videoclipuri cu diverse obiecte de uz casnic ‘structurate în straturi’, de la umerașe retractabile la rigle pliabile, întrebându-ne dacă ar putea fi un model bun pentru o rețea neuronală.”, a spus Dokmanić.
În final, modelul blocurilor conectate prin arcuri care alunecă pe o suprafață rugoasă s-a dovedit a fi cel mai potrivit. „Am arătat că separarea datelor este straniu de similară cu comportamentul acestor blocuri. Simplificarea realizată de un strat corespunde extinderii unui arc. Nelinearitatea din rețea corespunde frecării dintre blocuri și suprafață. Iar zgomotul din timpul antrenamentului este ca și cum ai scutura sistemul mecanic.”, explică Dokmanić.
O hartă a stresului pentru a ghida învățarea caracteristicilor
Această abordare fenomenologică, de sus în jos, oferă o perspectivă nouă și puternică. Spre deosebire de majoritatea studiilor care analizează rețele simplificate, teoria lor explică interacțiunea complexă dintre adâncime, nelinearitate și zgomot în modelele reale, folosite în practică.
„Majoritatea oamenilor au o intuiție puternică despre arcuri și blocuri, dar nu și despre rețelele neuronale profunde. Teoria noastră spune că putem face afirmații utile și adevărate despre rețele, folosindu-ne intuiția despre un sistem mecanic simplu. Este minunat, deoarece rețelele au miliarde de parametri, iar sistemul nostru are doar câțiva”, a concluzionat Dokmanić.
Pe viitor, această teorie ar putea oferi un instrument de diagnosticare pentru rețelele uriașe, similar modului în care inginerii folosesc hărți de stres pentru a găsi punctele slabe ale unei structuri. Prin analizarea distribuției sarcinii interne, cercetătorii ar putea identifica straturile „supraîncărcate” (care indică o supraajustare) sau pe cele „neutilizate” (care indică redundanță).
Acest lucru ar putea accelera antrenamentul și îmbunătăți performanța modelelor lingvistice de mari dimensiuni (LLM), deschizând o nouă cale în înțelegerea și optimizarea inteligenței artificiale.












