paint-brush
Зәкірге негізделген үлкен тіл үлгілерібойынша@anchoring
410 оқулар
410 оқулар

Зәкірге негізделген үлкен тіл үлгілері

бойынша Anchoring4m2024/10/10
Read on Terminal Reader

Тым ұзақ; Оқу

Бұл зерттеу зәкірге негізделген үлкен тіл үлгілерін (AnLLMs) ұсынады, олар дәйектілік туралы ақпаратты анкерлік таңбалауышқа қысу үшін инновациялық Анкорға негізделген өзін-өзі назар аудару желісін (AnSAN) пайдаланады. Бұл тәсіл кілттер/мәндер кэш өлшемдерін айтарлықтай азайтады және нәтижелердің тиімділігін арттырады, кэшті 99%-ға дейін қысқартады және ең аз дәлдікпен 3,5 есе жылдам өңдеуге қол жеткізеді. AnLLM кең ауқымды тіл үлгілері үшін жадты оңтайландыруда серпіліс ұсынады.
featured image - Зәкірге негізделген үлкен тіл үлгілері
Anchoring HackerNoon profile picture
0-item

Авторлары:

(1) Цзянхуй Панг, Макао университетінен және Цзяньхуй Панг пен Фанхуа Йе Tencent AI зертханасында тағылымдамадан өту кезінде жұмыс жасалды (nlp2ct.pangjh3@gmail.com);

(2) Фанхуа Йе, Лондон университеттік колледжі және Цзянхуй Панг пен Фанхуа Йе Tencent AI зертханасында тағылымдамадан өту кезінде жұмыс жасалды (fanghua.ye.19@ucl.ac.uk);

(3) Дерек Ф. Вонг, Макао университеті;

(4) Лонгюэ Ван, Tencent AI зертханасы және сәйкес автор.

Сілтемелер кестесі

Аннотация және 1 Кіріспе

2 Қатысты жұмыс

3 Зәкірге негізделген үлкен тіл үлгілері

3.1 Фон

3.2 Зәкірге негізделген өзіндік назар аудару желілері

3.3 Анкорға негізделген қорытынды

4 Эксперимент және 4.1 Біздің енгізуіміз

4.2 Деректер және оқыту процедурасы

4.3 Бағалау

5 Нәтижелер

6 Талдау

7 Қорытынды, шектеулер, этика туралы мәлімдеме және пайдаланылған әдебиеттер


Қосымша эксперимент нәтижелері

B Деректер параметрлері

Аннотация

Үлкен тілдік модельдер (LLM) негізінен контекстік ақпаратты қамтамасыз ету және артық есептеулерді болдырмау үшін тарихи таңбалауыштар үшін кілттер/мәндер туралы ақпаратты сақтауды қажет ететін тек декодерлерге арналған трансформатор архитектурасын қолданады. Дегенмен, бұл LLM-дің айтарлықтай өлшемі мен параметр көлемі үлкен GPU жадын талап етеді. Бұл жадқа сұраныс енгізілген мәтіннің ұзақтығына қарай артады, бұл ақпаратты сақтау мен өңдеудің тиімді әдістерін шұғыл қажет етеді. Бұл зерттеу инновациялық зәкірге негізделген өзіндік назар аудару желісін (AnSAN) және сонымен қатар якорға негізделген қорытынды стратегиясын пайдаланатын Anchor негізіндегі LLMs (AnLLMs) ұсынады. Бұл тәсіл LLM-ге жүйелілік ақпаратын анкерлік таңбалауышқа сығуға мүмкіндік береді, кілттер/мәндер кэшін азайтады және қорытындының тиімділігін арттырады. Сұрақ-жауап эталондары бойынша эксперименттер AnLLM дәлдік деңгейлерін 99%-ға дейін кілттер/мәндер кэштерін азайтуға және 3,5 есеге дейін жылдамырақ қорытынды жасауға қол жеткізетінін көрсетеді. Дәлдіктегі шамалы ымыраға қарамастан, ресурстарды пайдалануда және есептеу тиімділігінде AnSAN әдісін қолданатын AnLLM-дің айтарлықтай жақсартулары олардың практикалық LLM қолданбалары үшін әлеуетін көрсетеді.

1 Кіріспе

Үлкен тілдік модельдер (LLM) негізінен контекстік ақпаратты қамтамасыз ету және артық есептеулерді болдырмау үшін авто-регрессивті қорытынды кезінде тарихи таңбалауыштар үшін кілттерді/мәндерді кэштеуді қажет ететін тек декодерлерге арналған трансформатор архитектурасын пайдаланады (Wei және т.б., 2022; Touvron және т.б.). , 2023a; OpenAI, 2023; Touvron et al., 2023b). Дегенмен, олардың үлкен өлшемі мен жоғары параметрлер санына байланысты жүктеу үшін GPU жадының айтарлықтай көлемі қажет. Сонымен қатар, ұзындығы ретінде


1-сурет: Бес ату көрсетілімдері бар OBQA, PIQA және BoolQ тапсырмаларындағы кілттер/мәндер кэштері және қорытындыны жеделдету коэффициенті. Жолақтар Кілттер/Мәндер кэшін және мәтін ұзындығын, ал қисық қорытындыны жеделдету коэффициентін білдіреді. Мәтін ұзындығы ұлғайған сайын, біздің әдіс әдеттегі әдістермен салыстырғанда кілттер/мәндер кэштерінде 99%-ға дейін әсерлі қысқаруды көрсетеді. Сонымен қатар, префикс мәтіндерін кэштеу арқылы біз кэштеусіз қорытындымен салыстырғанда қорытынды жасау тиімділігін 3,5 есе арттырдық.


Кіріс мәтіні өседі, кілттерді/мәндерді кэштерді сақтау GPU жадын көбірек қажет етеді, бұл контексттегі оқытуда, күрделі нұсқауларда және кеңейтілген сөйлесулерден көрінеді (Донг және т.б., 2022; Цзян және т.б., 2023; Ванг және т.б. , 2023), бұл шектеулі есептеу ресурстары бар сценарийлер үшін қолайлы емес. Балама тәсіл осы ауқымды кірістерді қайта есептеуді талап етеді, алайда бұл уақыттың үстеме шығындарының артуына әкеледі. Сондықтан, бұл зерттеу LLMs шығару кезеңінде кілттер/мәндер кэштеріне сақтау сұранысын азайтуға, жад тиімділігін арттыруға және, тиісінше, шығару жылдамдығын арттыруға бағытталған.


Жақында жүргізілген зерттеуде Ван және т.б. (2023) префикс демонстрацияларындағы белгі сөздері контексттегі оқытуда қорытындылау тиімділігін арттыру үшін тиімді контекстті қысу тәсілін қамтамасыз ете отырып, қорытынды жасау кезінде якорь ретінде әрекет ете алатынын көрсетеді. Дегенмен, практикалық қолданбаларда барлық префикс кірістері немесе көрсетілімдер ақпаратты қысу үшін жарамды жапсырма сөздерді қамтымайды, бұл белгі сөздеріне сенуді мәтіндік ақпаратты қысу үшін әмбебап тәсілге айналдырады. Сонымен қатар, Pang және т.б. (2024) LLM-лер қорытынды жасау кезінде бірнеше, бірақ тұрақты префикс таңбалауыштарына ғана қатысатынын байқайды. Дегенмен, пайдаланылатын арнайы белгілер жиі болжау мүмкін емес және басқарылмайды. Бұл бақылаулар қызықты сұрақ тудырады: табиғи тілдегі мәтіндерде тізбектердің жалпы семантикалық ақпаратын қысатын тірек нүктелері бар ма? Осы контекстте ретті ендіру бойынша алдыңғы зерттеулер нейрондық желі модельдеріндегі арнайы таңбалауыштың жасырын күйі семантикалық ақпаратты инкапсуляциялай алатындығын көрсетті (Baudiš et al., 2016; Devlin et al., 2018). Сонымен қатар, қазіргі заманғы LLM-лер әдетте оқу және қорытынды кезеңдерінде (Touvron және т.б., 2023a,b), әрбір алдыңғы таңбалауышқа қатыса отырып, себеп-салдарлық өзіне назар аудару механизмін пайдаланады. Бұл тізбектегі соңғы таңбалауыш басқа таңбалауыштармен салыстырғанда табиғи ақпаратты қысу нүктесі ретінде қызмет ету үшін жақсырақ болуы мүмкін екенін көрсетеді, өйткені олар болашақ таңбалауыштарды бақылай алмайды. Сондықтан, дәйектілік анкерлік таңбалауыштарын сенімді және басқарылатын түрде анықтайтын және пайдаланатын әдістемелік тәсіл реттілік туралы ақпаратты қысу, кілттер/мәндер кэштерін тиімді азайту және LLM үшін қорытынды тиімділігін арттыру үшін өте маңызды.


Осы мақсатта біз инновациялық зәкірге негізделген өзіндік назар аудару желісімен (AnSAN) және зәкірге негізделген қорытынды стратегиясымен жабдықталған жаңа A nchor-based L arge L anguage M odels (AnLLMs) романын ұсынамыз. AnSAN зәкірге негізделген зейін маскаларының көмегімен оқу процесі кезінде модельдерді дәйектілік туралы ақпаратты анкерлік таңбалауышқа (біздің іске асырудағы соңғы белгі) қысуға мәжбүрлеуге арналған. Қорытындылау кезінде якорьге негізделген қорытынды стратегиясы бүкіл реттілік ақпаратын жинақтаған анкерлік таңбалауыштардың кілттер/мәндер кэштерін сақтайды және анкерлік емес таңбалауыштарды алып тастайды, осылайша жад талаптарын азайтады. Атап айтқанда, AnSAN үшін зәкірге негізделген назар аудару маскалары екі мақсатқа қызмет етеді: 1) зәкірлік таңбалауыштардың басқа тізбектерге назар аударуына жол бермей, тек бір реттілік ішіндегі токендерге қатысуын қамтамасыз ету және 2) зәкірлік емес таңбалауыштардың назарын алдыңғы реттілік анкерлеріне бағыттау. , алдыңғы қатарлардан басқа анкерлік емес таңбалауыштарды блоктау. Бір қызығы, зәкірге негізделген зейін техникасы аз назар аударудың негізінде жатқан принциптерге ұқсастыққа ие (Child et al., 2019). Дегенмен, LLM контекстік ұзақтығын ұзартуға аз назар аударатын бар зерттеулерден айырмашылығы (Чен және басқалар, 2023; Ратнер және т.б., 2023), біздің әдісіміз дәйектілік туралы ақпаратты якорьге қысу үшін үлгіні үнемі алдын ала оқытуға бағытталған. жетон.



L O A D I N G
. . . comments & more!

About Author

Anchoring HackerNoon profile picture
Anchoring@anchoring
Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

ТЕГТЕРДІ АЛУ

БҰЛ МАҚАЛА БАСҚАРҒАН...