Skip to content

Latest commit

 

History

History
32 lines (27 loc) · 2.1 KB

PLAN.md

File metadata and controls

32 lines (27 loc) · 2.1 KB

Главное:

  • Метод сборки датасета, которые позволяет честно перенести стиль
  • Метод автоматической оценки стиля
  • Модели, доказуемо сохраняющие стиль
  • Домен: заголовки, RU и EN

На выходе из экспериментов:

  • 2 датасета: RU и EN, в каждом кластера по 2 СМИ, для EN возомжно больше
    • Сплиты этих датасетов (train/val/test)
  • Модели для генерации заголовков в стиле разных СМИ для обоих языков
    • (Общий)(Lenta)(Lenta) и (Общий)(Ria)(Ria) ... -> Baseline, Single
    • (Cluster)(Все)(Lenta) и (Cluster)(Все)(Ria)... -> Single
    • (Общий)(Все)(Все) ... -> Baseline, Joint
    • (Cluster)(Все)(Все) ... -> Joint

Модели должны обучаться на одинаковом количестве данных

План:

  • Достать код сборки "Общий" и "Cluster" и привести его в порядок (Лёша, 26 сентября)
  • Найти датасеты для английского (Илья, 26 сентября)
  • Написать код сборки для английского (Илья, 3 октября)
  • Достать код обучения моделей и привести его в порядок (Лёша, 3 октября)
  • Посмотреть на воркшопы LREC (Илья, 26 сентября)
  • Набросать abstract для статьи (Илья + Лёша, 26 сентября)
  • Related work (что делали в суммаризации и в симплификации в области контроллируемой генерации) (Илья + Лёша, 3 октября)
  • Эксприементы с вырубанием дат в кластеризации
  • Эксперименты с GPT-2
  • Обучить модели для английского
  • Написать всю статью

Дедлайн LREC: 10 января 2022