Mühəndislər süni intellektlə tərcümə edən qulaqlıqlar yaradıblar

06:00 - 13 May 2025 - MARAQLI

Vaşinqton Universitetinin komandası bir neçə həmsöhbətin nitqini, o cümlədən intonasiya və məkan mövqeyini eyni vaxtda tərcümə etmək üçün sıçrayış texnologiyasını təqdim ediblər.

Ucnoqta.az xəbər verir ki. texnologiya aprelin 30-da Yaponiyanın Yokohama şəhərində İnsan-Kompüter Qarşılıqlı Əlaqələr üzrə ACM CHI Konfransında təqdim edilib. Tədqiqata PhD namizədi Tuochao Çen və professor Şyam Qollakota, Paul J. Allen Kompüter Elmləri və Mühəndisliyi Məktəbinin bakalavr və magistr tələbələri rəhbərlik edib.
Transtial Speech Translation adlı sistem çoxlu mikrofonlu aktiv səs-küyü ləğv edən qulaqlıqlarda quraşdırılmışdır. O, real vaxt rejimində kimin və harada danışdığını müəyyən etmək, nitqi tərcümə etmək və səs mənbəyinin tembrini, intonasiyasını və istiqamətini qorumaqla 2-4 saniyə gecikmə ilə təkrar etmək qabiliyyətinə malikdir - sanki hər bir natiq öz səsi ilə, lakin istifadəçinin dilində danışmağa davam edirdi.

Şyam Qollakota izah edir: "Biz ilk dəfə olaraq hər bir insanın təkcə mənasını deyil, həm də səsli fərdiliyini - və nitqin hansı istiqamətdən gəldiyini qoruyub saxladıq".
İmmersiv texnologiya

Fasilədən sonra mexaniki səsin eşidildiyi standart tərcümə sistemlərindən fərqli olaraq, Transtial 360 dərəcə səs mühitində işləyir, dinamiklərin hərəkətini izləyir və tərcümələri kosmosda paylayır. Bu, məsələn, Meksikada adi proqramdan istifadə etməyə cəhd edən, lakin səs-küy və məna itkisi ilə qarşılaşan Çenin (tədqiqatın həmmüəlliflərindən biri) misalında olduğu kimi, izdihamlı turda müxtəlif səsləri tanımağa imkan verir.

"Bizim alqoritmlərimiz radar kimi işləyir. Onlar daim kosmosu skan edir və bir nəfərin, yoxsa altı nəfərin danışdığını müəyyən edə bilirlər", - Çen deyib.
Sistem məxfilik səbəbi ilə buluddan yayınaraq (məsələn, Apple M2 çipli noutbuklarda və ya Apple Vision Pro qulaqlıqlarında) yerli hesablamalardan istifadə edir - xüsusən də səsləri klonlayarkən. Texnologiya hər bir natiqin səsini təqlid edir, lakin bunu yerli və təhlükəsiz şəkildə edir.

İstifadəçi testləri: reallıq, dəqiqlik və rahatlıq
Sınaq 10 fərqli ssenaridə aparılıb: qapalı, açıq havada və iştirakçılar hərəkət edərkən. 29 istifadəçi ilə aparılan təcrübədə sistem nitq istiqamətini izləməyən sistemlərlə müqayisədə tərcümə realizmi və məkan oriyentasiyası üçün yüksək qiymətlər alıb.

Aparatın tədqiqi və yaradılması zamanı alimlər müəyyən ediblər ki, ən rahat gecikmə 3-4 saniyə olub və bu zaman sistem daha az səhvə yol verib. 1-2 saniyədə dəqiqlik itirildi. Bu, tərcümənin sürəti və keyfiyyəti arasında güzəştə ehtiyac olduğunu göstərir.

Hələlik Transtial yalnız təbii, gündəlik nitqlə işləyir və ispan, alman və fransız dillərini dəstəkləyir. Bununla belə, komandanın əvvəlki işləri gələcəkdə onu 100-ə yaxın dildə genişləndirmək mümkün olacağına ümid verir.

"Bu, dil maneələrini aradan qaldırmaq üçün bir addımdır. İspan dilində danışmasam da, küçədə gəzə və insanların nə dediyini başa düşə bilərəm" dedi Çen.
Konseptin sübutu mənbə kodu indi tərtibatçılar üçün əlçatandır. Komandanın planlarına tərcümə gecikməsini azaltmaq, dil bazasını genişləndirmək və texniki və ya tibbi jarqon kimi daha mürəkkəb nitq mövzularına uyğunlaşma daxildir.

Xəbər xətti