灵感源自
我们将根据某个关键词,如“北马 咸猪手”,从网络中爬取文章及评论,并对其进行情感分析,以期获取公众对此事件的态度。
-
关键词:关键词将从百度搜索风云榜中获取。
-
文章及评论来源:目前,此项目的主要数据来源为今日头条。当项目成熟之后,考虑增加其他数据来源,如微信公众号、贴吧、新浪微博、知乎等。
-
具体实现见 爬虫模块(crawler).
暂时考虑两种情感分析方法。
-
CNN文本分类
使用微博情感分析评测数据进行训练一个CNN。
-
使用情感词的方法
- 设置初始的种子集合
- 标负
- 使用PMI对词汇标极性
- 极性加权
在这个页面中,我们将展示爬取的数据。主要功能为
- 数据筛选
- 筛选标签包括:时间、数据来源、情感、关键词
- 数据展示
- 使用一个列表对文章进行展示,主要内容包括:序号、文章名称、评论数、赞、发表时间等
- 点击列表项,可以展示文章的具体内容
数据分析模块的主要功能是根据爬取的数据,对关键词进行情感分析。主要功能为
- 展示关键词(事件)的基本信息
- 展示关键词(事件)的情感分析结果(图表、词云)
- 热度随时间的变化: 事件热度 =
$\sum_{评论}点赞数+\alpha$ - 情感倾向,及常见情感词
- 热词:TDIDF高的词
- 可以通过热词查询相应的评论
- 热度随时间的变化: 事件热度 =