Duyu Tang, Bing Qin, Xiaocheng Feng, Ting Liu, COLING, 2016
- target 的語意會因為上下文而不同,作者使用了三種 model 來驗證這點
- LSTM
- 最基本的方法,把 input sequence 丟進 LSTM,取最後 hidden state 做分類
- TD-LSTM
- 假設 input sequence 長這樣:W1, W2, ..., T1, T2, ..., Tn, ..., Wn-1, Wn
- 正向 LSTM 從 sentence 第一個字開始,直到遇見 target 最後一個字 (從 W1, W2, ..., 到 Tn)
- 反向 LSTM 從 sentence 最後一個字開始,直到遇見 target 的第一個字 (從 Wn, Wn-1, ..., 到 T1)
- 把兩個 LSTM 最後一個 hidden state 拿出來,丟進 softmax
- 跟雙向 LSTM 有些差異,雙向 LSTM 的 input,是從 W1 到 Wn,以及從 Wn 到 W1
- TC-LSTM
- 跟 TD-LSTM 很像,但每個 input 不只是 word embedding,還會加上 target embedding
- target embedding 是 target word 的 word embedding 平均值
- LSTM
- 實驗結果
- TD-LSTM 比 vanilla LSTM 好一點點而已,而 TC-LSTM 在 accuracy 上是 state-of-the-art。但 F1-score 輸給之前一篇手工提取特徵的 Paper
- word embedding 影響很大,glove 200d >= glove 100d > glove 50d > SSWE
- 用範例顯示 vanilla LSTM 幾乎都忽略 target 本身的訊息,而後兩個 model 的錯誤幾乎都發生在 neutral class
- 作者實作了 attention 效果不好
- 對 target 的處理太過於簡陋,取 word embedding 的平均不是很好的做法
- 照理來說 attention 的結果應該會比較好。一個可能性是,對兩個 LSTM 分別做 attention 再 concat 起來,可能會被其中一邊 dominate 掉。concat 前先經過一個 gate,就能避免。