Alimlər süni intellektin dərinliklərini araşdırıblar

06:10 - 23 İyun 2025 - DİGƏR

Süni intellekt texnologiyaları bu gün dünyada üstünlük təşkil edir. Xüsusilə ChatGPT kimi Böyük Dil Modelləri (LLM) sahəsində tərəqqi sıçrayış və həddə doğru irəliləyir. Bəs onlar necə işləyirlər? 

Ucnoqta.az xarici mətbuata istinadən xəbər verir ki, LLM-lər uzun token ardıcıllığını emal edən neyron şəbəkələrdən ibarətdir. Hər bir işarə adətən yüzlərlə və ya minlərlə rəqəmlərin siyahısı ilə təmsil olunan bir söz və ya sözün bir hissəsidir - elm adamları onu "yüksək ölçülü vektor" adlandırırlar. Bu siyahı sözün mənasını və istifadəsini əks etdirir.

Məsələn, "pişik" sözü [0.15, -0.22, 0.47, …, 0.09] formasının siyahısına çevrilə bilər və "it" oxşar şəkildə, lakin fərqli nömrələrlə kodlanır. Oxşar mənaları olan sözlərə oxşar siyahılar verilir, buna görə də model başa düşür ki, “pişik” və “it” bir-birinə “pişik” və “banan”dan daha yaxındır.

Dili bu cür vektorların ardıcıllığı kimi emal etmək çox effektivdir, lakin paradoksal olaraq bunun səbəbini tam başa düşmürük. Çoxölçülü işarələrin uzun ardıcıllığı üçün sadə riyazi modellər hələ də yaxşı başa düşülməyib.

Bu, bizim anlayışımızda boşluq yaradır: niyə bu yanaşma bu qədər yaxşı işləyir və o, köhnə metodlardan əsaslı şəkildə nə ilə fərqlənir? Nəyə görə məlumatları neyron şəbəkələrə bir uzun nömrə siyahısı deyil, çoxölçülü işarələr ardıcıllığı kimi vermək daha yaxşıdır? Müasir süni intellekt hekayələr yaza və ya suallara cavab verə bilsə də, bunu mümkün edən daxili mexanizmlər hətta ekspertlər üçün də “qara qutu” olaraq qalır.

Lozanna Federal Politexnik Məktəbindən Lenka Zdeborovanın rəhbərlik etdiyi alimlər qrupu LLM-də olduğu kimi hələ də token öyrənmənin mahiyyətini qoruyub saxlayan son dərəcə sadə riyazi model qurmuşdur. İkixətli ardıcıl reqressiya (BSR) adlanan model Fiziki İcmal X-də təsvir edilmişdir. O, neyroşəbəkələrin necə öyrəndiyini öyrənmək üçün “nəzəri oyun meydançası” rolunu oynayaraq, öz əsas strukturunu qoruyaraq real dünyadakı AI-ni sadələşdirir.

Hər sözün LLM-də olduğu kimi mənasını ifadə edən nömrələr siyahısına çevrilə biləcəyi bir cümlə təsəvvür edin. Bu siyahılar hər bir cərgədə bir sözü ifadə edən cədvəl şəklində tərtib edilmişdir. Cədvəl hər sözün bütün ardıcıllığını və təfərrüatlarını saxlayır.

Bütün məlumatları bir anda emal edən köhnə AI modellərindən fərqli olaraq, BSR cədvəlin sətirlərini bir istiqamətdə, sütunlarını isə başqa istiqamətdə təhlil edir. Bu məlumatlar daha sonra bir cümlənin hissi kimi bir nəticəni proqnozlaşdırmaq üçün istifadə olunur.
BSR-nin gücü ondan ibarətdir ki, o, tam riyazi analiz üçün kifayət qədər sadədir. Bu, tədqiqatçılara ardıcıl öyrənmənin nə vaxt başladığını və modelin nümunələri etibarlı şəkildə tanıması üçün nə qədər məlumat tələb etdiyini başa düşməyə imkan verir.
BSR həmçinin vektorların ardıcıllığından istifadənin bütün məlumatları bir böyük vektora “açmaqdan” daha yaxşı nəticələr verdiyini izah edir. Model, sistem kifayət qədər nümunələri “gördükdən” sonra öyrənmənin faydasızdan effektivliyə keçdiyi aydın hədləri ortaya qoyur.
Bu tədqiqat böyük dil modellərinin daxili işlərinə dair yeni anlayışlar təqdim edir. BSR-nin dəqiq həlli aydın riyazi bələdçi təqdim edir və bizi gələcək AI sistemlərinin dizaynına rəhbərlik edə biləcək nəzəriyyəyə yaxınlaşdırır. Bu anlayışlar alimlərə daha sadə, daha səmərəli və bəlkə də daha şəffaf modellər yaratmağa kömək edəcək.

Xəbər xətti