-
Notifications
You must be signed in to change notification settings - Fork 20
아마존 Summarize 리뷰
Yongrae Jo edited this page Dec 13, 2017
·
2 revisions
Link : Amazon Review Summarization
네 단계로 나눠진다.
- 불필요한 정보 없애기
- word -> vec
- 모델 만들기
- 트레이닝
데이터 클랜징
- 10개의 컬럼
- summary 와 text 외에는 필요 없는 정보. drop 해서 날린다
- 클랜징된 데이터 뽑아보기
데이터 준비하기
- 줄임말 풀어주기
- 불필요한 글자 없애주기
- list로 만들어주기
word를 vector로 바꿔주기
- CN(Conceptnet Numberbatch)를 쓴다. GloVe와 비슷하지만 더 낫다
- CN은 한국어도 포함한다.
- 2.29%가 vocab에 없다.
- CN에 있으면 word마다 번호를 부여한다.
- CN에 있으면 vec을 가져오고
- CN에 없으면 랜덤 값을 부여함
모델 만들기
- LSTM
- Dropout
- Bidirectional dynamic RNN
학습하기
- TrainingHelper : 각각 step마다 ground truth를 넣어준다.
Inference
- GreedyEmbeddingHelper : 각 step에서 가장 확률 높은 것을 다음 step에 사용한다.
Attention
- BahdanauAttention
- Fully Connected layer에서 비선형성을 주듯이 weight를 곱하고 b를 더한 뒤 tanh를 통과시킨다.