Dehong Ma, Sujian Li, Xiaodong Zhang, Houfeng Wang, IJCAI, 2017
- 2011 jiang 的 paper 說 sentiment analysis 中 40% 的錯誤是沒有考慮到 context 與 target 的關係。因此之後不少 paper 在做這件事。這篇作者覺得其他 paper 對 target 的處理還是太簡陋,因此提出這篇的 model
- target 不再用 word embedding 的 average 來表示。因為對越長的 target 而言,average 效果越不好。此外,target 中的每一個字重要度應該要不一樣,例如 target 中的連接詞所佔的重要度應該很低。所以作者用 attention 機制來算出 target representation
- context 跟 target 都會用 attention 機制,而在算 attention 時都會把對方考慮進去。例如算 context attention 時每個 LSTM hidden state 都會跟 average target hidden 一起考慮,反之亦然。
- attend 過後的 context representation 跟 target representation 會 concat 在一起,經過一層 dense 再做 softmax
- 實驗中提起了之前的一些方法,作者說對 target 付出越多努力的方法,表現也越好
- 做了 ablation study,證明不要用 target 平均而是要用 attention 比較好,以及在 attention 時同時考慮 context/target 都是必要的
- SemEval2014 dataset 包含兩個類別,用本篇的概念,laptop 這類會提升得比 restaurant 這類多,因為 restaurant 中 target 長度比較短,target attention 效果提升較少
- 對 target 做 attention,可以更好地表示 target
- 算 context attention 跟算 target attention 時都會考慮彼此,跟之前 attention 的方法略有不同
- 這篇的結果輸 "Aspect Level Sentiment Classification with Deep Memory Network",而且還引用他 XD
- 原因可能是 "Aspect Level Sentiment Classification with Deep Memory Network" 用了很多次 hop,學到更抽象的語意。本篇只做一次 attention,學到的東西較低階