Skip to content

아마존 Summarize 리뷰

Yongrae Jo edited this page Dec 13, 2017 · 2 revisions

Link : Amazon Review Summarization

12/13 이병탁님

네 단계로 나눠진다.

  1. 불필요한 정보 없애기
  2. word -> vec
  3. 모델 만들기
  4. 트레이닝

데이터 클랜징

  • 10개의 컬럼
  • summary 와 text 외에는 필요 없는 정보. drop 해서 날린다
  • 클랜징된 데이터 뽑아보기

데이터 준비하기

  • 줄임말 풀어주기
  • 불필요한 글자 없애주기
  • list로 만들어주기

word를 vector로 바꿔주기

  • CN(Conceptnet Numberbatch)를 쓴다. GloVe와 비슷하지만 더 낫다
    • CN은 한국어도 포함한다.
  • 2.29%가 vocab에 없다.
  • CN에 있으면 word마다 번호를 부여한다.
  • CN에 있으면 vec을 가져오고
  • CN에 없으면 랜덤 값을 부여함

모델 만들기

  • LSTM
  • Dropout
  • Bidirectional dynamic RNN

학습하기

  • TrainingHelper : 각각 step마다 ground truth를 넣어준다.

Inference

  • GreedyEmbeddingHelper : 각 step에서 가장 확률 높은 것을 다음 step에 사용한다.

Attention

  • BahdanauAttention
    • Fully Connected layer에서 비선형성을 주듯이 weight를 곱하고 b를 더한 뒤 tanh를 통과시킨다.
Clone this wiki locally