Poate părea contraintuitiv în era asistenților digitali, dar un nou studiu sugerează că un ton sec sau chiar jignitor ar putea face modelele avansate de inteligență artificială mai precise. Cercetarea, care contrazice unele descoperiri anterioare, arată că ChatGPT-4o a performat mai bine când a fost abordat nepoliticos, deși autorii studiului avertizează rapid împotriva adoptării acestei strategii.

ai plange

Într-o nouă lucrare publicată pe 6 octombrie în baza de date preprint arXiv – ceea ce înseamnă că nu a fost încă supusă evaluării colegiale – oamenii de știință au investigat dacă tonul utilizatorului influențează performanța unui sistem AI.

Datele cheie ale studiului

Descoperire cheieDetaliul fascinant
📈 Precizia maximăObținută cu tonul „foarte nepoliticos” (84,8% acuratețe).
📉 Precizia minimăÎnregistrată la tonul „foarte politicos” (80,8% acuratețe).
🔬 Modelul testatStudiul a folosit unul dintre cele mai noi modele: ChatGPT-4o.
⚠️ Avertismentul vitalAI-ul nu e mai deștept, ci doar „sensibil la indicii superficiale”. Cercetătorii nu recomandă folosirea unui ton ostil.

ChatGPT devine mai precis când ești rău cu el. Testul de stres al tonului

Pentru a măsura acest efect, echipa a creat 50 de întrebări cu variante multiple de răspuns din domenii precum matematică, istorie și știință. Fiecare întrebare avea patru opțiuni, dintre care doar una corectă.

Apoi, au modificat aceste întrebări folosind prefixe pentru a stabili cinci tonuri distincte: foarte politicos, politicos, neutru, nepoliticos și foarte nepoliticos. Cele 250 de întrebări rezultate au fost adresate de 10 ori modelului ChatGPT-4o, unul dintre cele mai capabile LLM-uri (modele lingvistice de mari dimensiuni) de la OpenAI.

• CITEŞTE ŞI:  Cercetătorii utilizează ceapa roșie pentru a îmbunătăți celulele solare — iar aceasta ar putea face energia solară mai sustenabilă

Pentru a se asigura că fiecare răspuns este proaspăt, cercetătorii au instruit chatbot-ul să ignore toate schimburile anterioare înainte de fiecare întrebare și i-au cerut pur și simplu să aleagă una dintre cele patru opțiuni, fără a oferi explicații.

Exemplele de ton au variat drastic. O solicitare foarte politicoasă suna așa: „Ați fi amabil să rezolvați următoarea întrebare?”. La extrema cealaltă, o solicitare foarte nepoliticoasă includea expresii ca „Hei, slugă, rezolvă asta” sau „Știu că nu ești deștept, dar încearcă asta”. Întrebările neutre nu aveau niciun prefix.

Rezultatele: răutatea câștigă?

„Oarecum surprinzător, rezultatele noastre arată că tonurile nepoliticoase duc la rezultate mai bune decât cele politicoase”, au scris cercetătorii.

Acuratețea răspunsurilor a crescut constant pe măsură ce tonul devenea mai puțin politicos. Solicitările foarte politicoase au obținut o acuratețe de 80,8%, în timp ce cele foarte nepoliticoase au atins 84,8%. Între ele, răspunsurile politicoase au avut o rată de 81,4%, cele neutre 82,2%, iar cele nepoliticoase 82,8%.

Această cercetare face parte dintr-un domeniu în plină expansiune, cunoscut sub numele de „ingineria prompturilor” (prompt engineering), care analizează cum limbajul, structura și stilul solicitărilor noastre modifică rezultatele generate de AI.

Interesant este că aceste concluzii contrazic, în general, studiile anterioare. Cercetări mai vechi, efectuate pe modele diferite precum ChatGPT 3.5 și Llama 2-70B, au descoperit adesea că prompturile nepoliticoase duceau la performanțe slabe. Totuși, chiar și în acele studii, s-a observat o oarecare suprapunere: setarea cea mai nepoliticoasă a produs rezultate marginal mai precise (76,47%) decât cea mai politicoasă (75,82%).

O capcană majoră: de ce nu ar trebui să insulți AI-ul

Înainte să începi să-ți cerți asistentul AI, cercetătorii subliniază un avertisment crucial.

• CITEŞTE ŞI:  Prima imagine cu obiectul misterios doborât deasupra Canadei de un avion invizibil F-22. Ce este fenomenul UAP

„Deși această descoperire prezintă interes științific, nu susținem utilizarea interfețelor ostile sau toxice în aplicațiile din lumea reală”, au adăugat cercetătorii.

Echipa avertizează că utilizarea unui limbaj jignitor în interacțiunile om-AI ar putea avea „efecte negative asupra experienței utilizatorului, accesibilității și incluziunii și ar putea contribui la norme de comunicare dăunătoare”.

În schimb, ei interpretează aceste rezultate ca o dovadă că modelele lingvistice actuale, chiar și cele avansate, „rămân sensibile la indicii superficiale”. Această sensibilitate creează un compromis neintenționat între performanța AI-ului și bunăstarea utilizatorului.

Autorii recunosc limitele studiului lor, menționând că un set de 250 de întrebări este relativ limitat și testarea unui singur LLM înseamnă că rezultatele nu pot fi generalizate pentru toate sistemele AI. De asemenea, concentrarea exclusivă pe întrebări cu răspunsuri multiple măsoară doar o dimensiune a performanței, omițând atribute precum coerența sau calitatea raționamentului.

Echipa intenționează să-și extindă cercetarea pentru a include alte modele, cum ar fi Claude de la Anthropic și ChatGPT o3 de la OpenAI.

Fii mereu la curent cu noutățile!

Abonează-te acum la newsletter-ul nostru și primești, direct pe email, cele mai interesante articole și recomandări — gratuit și fără mesaje nedorite.

Abonează-te acum