Skip to content

Интенсив по воспроизведению state‑of‑the‑art научных результатов 2024, Яндекс

Notifications You must be signed in to change notification settings

marulyanova/Sirius_Alignment05

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Интенсив по воспроизведению state‑of‑the‑art научных результатов 2024, Яндекс, Сириус

Multi-objective LLM Alignment for Machine Translation

Related papers

X-ALMA: PLUG & PLAY MODULES AND ADAPTIVE REJECTION FOR QUALITY TRANSLATION AT SCALE

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization (MODPO)

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO)

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation (CPO)

Aligning language models to follow instructions

xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection

Постановка задачи

  1. Выбрать существующую LLM модель машинного перевода
  2. Произвести Alignment способами DPO, CPO, MODPO, MOCPO
  3. Сравнить результаты

RU-EN перевод

Модель

X-ALMA-13B-Pretrain, GitHub репозиторий

SotA Machine Translation, 50 языков, архитектура LLaMA2

Alignment

CPO

Contrastive preference optimization

Идея: повысить вероятность удачного варианта, понизить - неудачного

Для обучения необходим датасет вида <source, winner, loser>. Отобраны 2009 ru-en пар из ALMA-preference.

DPO

Direct preference optimization

Идея: как CPO, но не пытаемся повысить вероятность winner

MO (Multi Objective)

Идея: взвешенная оптимизация по нескольким метрикам

Датасет для Multi Objective

Метрики

XCOMET-XL, KIWI, Fluency

Валидация

FLORES-200 1012 пар

Модель XCOMET Fluency
CPO 3 metrics 96.26 97.38
CPO xcomet 96.29 97.28
CPO kiwi 96.25 97.27
MODPO 93.77 93.58
X-ALMA 95.12 94.57
MOCPO 95.71 96.73

Выводы

  • Любой Alignment превосходит SFT X-ALMA
  • CPO > DPO
  • Гипотеза о улучшении засчёт учёта нескольких направлений выравнивания одновременно не подтвердилась

Подготовка датасета для CPO, DPO

Train CPO, DPO

метрики1 метрики2 метрики3

TrainMOCPO

TrainMODPO

About

Интенсив по воспроизведению state‑of‑the‑art научных результатов 2024, Яндекс

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published