X-ALMA: PLUG & PLAY MODULES AND ADAPTIVE REJECTION FOR QUALITY TRANSLATION AT SCALE
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization (MODPO)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO)
Aligning language models to follow instructions
xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection
- Выбрать существующую LLM модель машинного перевода
- Произвести Alignment способами DPO, CPO, MODPO, MOCPO
- Сравнить результаты
RU-EN перевод
X-ALMA-13B-Pretrain, GitHub репозиторий
SotA Machine Translation, 50 языков, архитектура LLaMA2
Contrastive preference optimization
Идея: повысить вероятность удачного варианта, понизить - неудачного
Для обучения необходим датасет вида <source, winner, loser>. Отобраны 2009 ru-en пар из ALMA-preference.
Direct preference optimization
Идея: как CPO, но не пытаемся повысить вероятность winner
Идея: взвешенная оптимизация по нескольким метрикам
FLORES-200 1012 пар
Модель | XCOMET | Fluency |
---|---|---|
CPO 3 metrics | 96.26 | 97.38 |
CPO xcomet | 96.29 | 97.28 |
CPO kiwi | 96.25 | 97.27 |
MODPO | 93.77 | 93.58 |
X-ALMA | 95.12 | 94.57 |
MOCPO | 95.71 | 96.73 |
- Любой Alignment превосходит SFT X-ALMA
- CPO > DPO
- Гипотеза о улучшении засчёт учёта нескольких направлений выравнивания одновременно не подтвердилась