Alibaba Metis agenti süni intellekt modellərinin alət çağırışlarını radikal şəkildə optimallaşdıraraq e-ticarət və digər sahələrdə səmərəliliyi artırır. Şirkətin tədqiqat qrupu Alibaba tərəfindən hazırlanmış Hierarchical Decoupled Policy Optimization (HDPO) adlı yeni gücləndirmə öyrənmə çərçivəsi sayəsində agent lazımsız alət istifadəsini 98%-dən 2%-ə endirib, eyni zamanda nəticələrin dəqiqliyini yüksəldib.
HDPO necə işləyir?
Böyük dil modelləri çox vaxt lazımsız yerə kənar alətləri işə salır, bu da gecikmə, API xərcləri və məntiqi zəifləməyə səbəb olur. HDPO isə agentə nə zaman daxili biliyə güvənməyi, nə zaman xarici alət çağırmağı öyrədir. Testlərdə Metis agenti sənəd sual-cavab, verilənlər bazası sorğuları kimi tapşırıqlarda köhnə yanaşmalardan 30% daha dəqiq nəticələr verib.
Bu texnologiya e-ticarət platformalarında müştəri sorğularının avtomatik cavablandırılması, inventar idarəetməsi və fərdiləşdirilmiş tövsiyə sistemlərində inqilab yarada bilər. Alibaba artıq bu modeli daxili sistemlərində sınaqdan keçirir.
Mənbə: venturebeat.com



