Naujas „Microsoft Research“ ir „Salesforce“ mokslininkų darbas sukėlė diskusijų bangą technologijų bendruomenėje. Tyrėjai, išanalizavę daugiau nei 200 tūkstančių dialogų su pažangiais didelio masto kalbų modeliais (LLM), padarė išvadą, kad ilgėjant pokalbiui modelių atsakymų tikslumas mažėja, o klaidų tikimybė gali išaugti net daugiau nei dvigubai.
Tyrime dalyvavo keli rinkoje dominuojantys modeliai: GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet ir DeepSeek R1. Vertinant pavienes, aiškiai suformuluotas užklausas, modeliai demonstravo beveik 90 proc. sėkmės rodiklius. Tačiau pereinant prie sudėtingesnių, daugiapakopių dialogų su patikslinimais, papildomais klausimais ir konteksto plėtimu, vidutinis tikslumas sumažėjo iki maždaug 65 proc.
Ne „kvailėjimas“, o konteksto perkrova
Nors viešojoje erdvėje greitai prigijo skambi formuluotė, esą pokalbių robotai „tampa kvailesni“, patys autoriai siūlo atsargesnę interpretaciją. Kalbama ne apie modelių intelekto degradaciją, o apie ribotumus valdant ilgą ir dinamiškai besikeičiantį kontekstą.
LLM veikia remdamiesi vadinamuoju konteksto langu – tai ribotas teksto kiekis, kurį modelis gali „turėti galvoje“ vienu metu. Ilgėjant dialogui, ankstesnė informacija glaudinama, apibendrinama arba dalinai prarandama. Dėl to modelis gali pradėti remtis netiksliomis prielaidomis, kurios pačios atsirado ankstesnėse pokalbio dalyse.
„Atsako infliacijos“ efektas
Vienas įdomiausių tyrimo aspektų – vadinamoji atsako infliacija. Pastebėta, kad ilgesniuose dialoguose modelių atsakymai ilgėjo nuo 20 iki net 300 proc. Kartu su ilgiu augo ir spekuliatyvių teiginių bei vadinamųjų „haliucinacijų“ dalis.
Haliucinacija dirbtinio intelekto kontekste reiškia įtikinamai skambančią, bet faktiškai klaidingą informaciją. Problema tampa ypač ryški, kai modelis vėlesniuose atsakymuose pradeda remtis savo paties ankstesnėmis klaidomis, tarsi jos būtų patikimi faktai.
Tyrėjai pažymi, kad net modeliai su pažangiomis samprotavimo („reasoning“) architektūromis ar išplėstiniais „minčių žetonais“ nebuvo visiškai apsaugoti nuo šio reiškinio.
Praktinės pasekmės vartotojams
Tokios išvados turi aiškias praktines implikacijas. Pokalbių robotai vis dažniau integruojami į klientų aptarnavimo sistemas, švietimo platformas, programavimo įrankius ir net medicinines konsultacijas.
Ilgalaikėse sąveikose klaidų kaupimosi rizika tampa kritiniu veiksniu. Vartotojas, pasitikintis sistema kaip autoritetingu šaltiniu, gali nepastebėti momento, kai tikslūs atsakymai pamažu virsta logiškai nuosekliomis, bet faktiškai klaidingomis interpretacijomis.
Kodėl modeliai vis dar atrodo „protingi“
Paradoksalu, tačiau net sumažėjus statistiniam tikslumui, modeliai išlaiko įspūdį, kad „supranta situaciją“. Taip yra todėl, kad jie generuoja kalbą, kuri struktūriškai ir stilistiškai primena žmogaus samprotavimą.
Kitaip tariant, sklandus tekstas nebūtinai reiškia teisingą turinį. Ši skirtis tarp kalbinio sklandumo ir faktinio tikslumo tampa viena pagrindinių šiuolaikinio dirbtinio intelekto vertinimo dilemų.
Rinkos kontekstas
Tyrimas pasirodė tuo metu, kai konkurencija tarp LLM kūrėjų pasiekusi naują intensyvumo lygį. Pokalbių robotai tampa nebe eksperimentiniu produktu, o kasdieniu darbo įrankiu milijonams žmonių.
Technologijų analitikai atkreipia dėmesį, kad vartotojų lūkesčiai sparčiai auga: iš AI tikimasi ne tik kūrybiškumo ar pagalbos, bet ir beveik absoliutaus tikslumo. Tokie tyrimai primena, kad net pažangiausios sistemos tebėra statistiniai modeliai su aiškiais apribojimais.
Ką tai reiškia ateičiai
Autoriai ragina kūrėjus daugiau dėmesio skirti dialogo stabilumui, konteksto valdymui ir mechanizmams, leidžiantiems modeliui „abejoti savimi“. Viena perspektyviausių krypčių – hibridinės sistemos, kuriose LLM derinami su išorinėmis žinių bazėmis ar faktų tikrinimo moduliais.
Tyrimas ne paneigia dirbtinio intelekto galimybes, o veikiau primena fundamentalią taisyklę: kuo sudėtingesnė užduotis ir ilgesnė sąveika, tuo svarbesnis tampa kritinis mąstymas – tiek žmogaus, tiek mašinos pusėje.
Šaltinis: https://www.windowscentral.com/artificial-intelligence/microsoft-research-salesforce-ai-chatbot-study

