Oamenii de știință au găsit o legătură neașteptată între inteligența artificială și cutremure, folosind un model mecanic simplu pentru a descifra unul dintre cele mai mari mistere ale învățării profunde: modul în care rețelele neuronale învață să gândească.

Rețelele neuronale profunde (Deep neural networks, adică DNN), motoarele care alimentează inteligența artificială modernă, de la ChatGPT la recunoașterea facială, învață prin analiza unor volume uriașe de date. Aceste rețele sunt formate din straturi succesive, fiecare transformând informația brută în „caracteristici” tot mai abstracte, permițând sistemului să facă predicții uimitor de precise.

Misterul fundamental a fost mereu cum anume are loc acest proces de învățare a caracteristicilor. Acum, o echipă de cercetători de la Universitatea din Basel și Universitatea de Știință și Tehnologie din China a propus o explicație surprinzătoare, publicată în Physical Review Letters, care vine nu din informatică, ci din fizica mecanică.

Cercetătorii au modelat o rețea neuronală ca un lanț de blocuri conectate prin arcuri – un sistem adesea folosit pentru a studia dinamica faliilor tectonice. Rezultatul este o „diagramă de fază”, similară celor folosite pentru a descrie stările apei (lichid, gazos, solid), care cartografiază modul în care o rețea învață în diferite condiții.

retea neuronala

De la umerașe la cutremure: modul în care gândește inteligența artificială

Totul a pornit de la o observație numită „legea separării datelor”. „Straturile unei rețele neuronale procesează intrările prin distilarea și simplificarea progresivă a acestora. Cu cât avansezi mai adânc în rețea, cu atât reprezentările devin mai regulate. Reprezentările diferitelor clase de obiecte, cum ar fi pisicile și câinii, devin mai separate și mai ușor de distins.”, a explicat pentru Phys.org Ivan Dokmanić, liderul studiului.

• CITEŞTE ŞI:  Uită de Egipt. Monumente mai vechi decât piramidele au fost construite de o civilizație pierdută, în Polonia

În rețelele bine antrenate, fiecare strat contribuie în mod egal la această separare. Însă, modificând anumiți parametri, acest echilibru dispărea. Aici a intervenit analogia neașteptată.

„Fenomenul separării datelor ne-a amintit de modelele cu blocuri elastice folosite în geofizică. Am petrecut vacanța de iarnă schimbând imagini și videoclipuri cu diverse obiecte de uz casnic ‘structurate în straturi’, de la umerașe retractabile la rigle pliabile, întrebându-ne dacă ar putea fi un model bun pentru o rețea neuronală.”, a spus Dokmanić.

În final, modelul blocurilor conectate prin arcuri care alunecă pe o suprafață rugoasă s-a dovedit a fi cel mai potrivit. „Am arătat că separarea datelor este straniu de similară cu comportamentul acestor blocuri. Simplificarea realizată de un strat corespunde extinderii unui arc. Nelinearitatea din rețea corespunde frecării dintre blocuri și suprafață. Iar zgomotul din timpul antrenamentului este ca și cum ai scutura sistemul mecanic.”, explică Dokmanić.

O hartă a stresului pentru a ghida învățarea caracteristicilor

Această abordare fenomenologică, de sus în jos, oferă o perspectivă nouă și puternică. Spre deosebire de majoritatea studiilor care analizează rețele simplificate, teoria lor explică interacțiunea complexă dintre adâncime, nelinearitate și zgomot în modelele reale, folosite în practică.

„Majoritatea oamenilor au o intuiție puternică despre arcuri și blocuri, dar nu și despre rețelele neuronale profunde. Teoria noastră spune că putem face afirmații utile și adevărate despre rețele, folosindu-ne intuiția despre un sistem mecanic simplu. Este minunat, deoarece rețelele au miliarde de parametri, iar sistemul nostru are doar câțiva”, a concluzionat Dokmanić.

Pe viitor, această teorie ar putea oferi un instrument de diagnosticare pentru rețelele uriașe, similar modului în care inginerii folosesc hărți de stres pentru a găsi punctele slabe ale unei structuri. Prin analizarea distribuției sarcinii interne, cercetătorii ar putea identifica straturile „supraîncărcate” (care indică o supraajustare) sau pe cele „neutilizate” (care indică redundanță).

• CITEŞTE ŞI:  Contrar a ceea ce se spune, banii aduc fericirea. Un nou studiu demonstrează acest lucru

Acest lucru ar putea accelera antrenamentul și îmbunătăți performanța modelelor lingvistice de mari dimensiuni (LLM), deschizând o nouă cale în înțelegerea și optimizarea inteligenței artificiale.

Fii mereu la curent cu noutățile!

Abonează-te acum la newsletter-ul nostru și primești, direct pe email, cele mai interesante articole și recomandări — gratuit și fără mesaje nedorite.

Abonează-te acum