基于微博的网络舆情分析系统的开发设计分析
1引言
微博,即微博客,源自于英文单词Microblog。作为web2.0的产物,微博属于博客的一种形式,但单篇的文本内容通常限制在一定范围内(国内通常为140个汉字),使用户能够通过微博融合的多种渠道(包括网页、手机、即时通讯、博客、SNS社区、论坛等) 发布文字、图片、视频、音频等形式的信息,具有内容碎片化、使用方式便捷、传播迅速、交互性强等特点。
2010 年以来,互联网继续成为舆论超强磁场,其中微博已成为舆论发酵并放大的主要平台之一。微博是近年来网络上出现的新兴媒体形式,它综合应用网络、无线通信等技术,方便地满足了用户随时随地进行沟通的需求。我国微博总体上处于起步阶段,但发展速度迅猛。据统计[1],2012年1月,据中国互联网络信息中心(CNNIC)报告显示,截至2011年12月底,我国微博用户数达到2.5亿,较上一年底增长了296.0%,网民使用率为48.7%。微博用一年时间发展成为近一半中国网民使用的重要互联网应用。有人说,2010年是中国的微博元年,那么2011年就是中国的微博壮年。2012年5月16日[2],新浪公布未经审计的第一季度财报显示,新浪微博用户数已增至3.24亿。一种传播媒体普及到5000万人, 收音机用了38年,电视用了13年,互联网用了4年,而微博只用了15个月。作为一种新兴的传播载体,微博不仅在中国社交网络中占据领先地位, 更成为中国最具影响力的主流媒体之一。
网络舆情是指通过互联网或者其他网络手段传播出的广大公众对于现实生活中存在的某些焦点、热点问题所持的有较强影响力和倾向性的言论及观点。开通微博、建立专区留言板,新闻跟帖,BBS论坛,都已经成为了群众与组织展开交流的重要手段,这些网络手段的确起到了一定的交流作用。
网络自身具有虚拟性、隐蔽性、随意性和渗透性等特点,广大用户都很乐意通过这些渠道参与到各种话题的讨论中去,尽管起到了一定的积极作用,然而一旦引导不利,产生一系列的负面的网络舆情就会严重的威胁到社会大环境的安全,甚至会对公共环境的发展起到消极作用。这就要求要加强对于网络舆情的及时监测和有效的引导,并且及时的关注网络舆情的负面危机。这对于维护社会安全发展,稳定民情民心有着重要的作用,对于促进国家的发展与进步更是有着重要的现实意义。
从当前网络舆情的传播速度来看,爆炸性消息3小时之内就能够迅速被各大论坛转载,6小时内就有可能已经出现在各大新闻网站的网页上,那么可想而知,24小时之后,关于新闻事件的追踪和跟帖就会使其成为热点事件,并且很有可能在网络上掀起舆论讨论的热潮。所以对于有关部门来说,能够在第一时间掌握哪些是热点舆情,哪些有可能在短时间内发展成热点舆论,哪些又会对社会安全造成影响是十分必要的。
舆情分析系统就是在这样的背景下产生的,网络舆情分析平台是针对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机分析的系统统称。通过这个系统,能够让我们有效的对网络舆情进行预警和应对。这个系统的产生在一定程度上解决了一些网络舆情带来的负面影响。
2微博对于网络舆情研究的价值
网络舆情研究一直被国内外研究组织重视,主要目的是对于海量网络信息,分析出隐含在其中的舆情动态,挖掘网络的热点、焦点和敏感话题,其核心技术主要包括文本分类与聚类,主题检测与跟踪等。但近年来,特别是web2.0业务普及应用以来,网页所带来的交互性、动态性,待抽取内容的多态性等使得没有一个系统的工具可以适应所有的信息提取需求。
微博具有以下几种特点:
1)微博是一种新兴的网络媒体,与以往的博客有较大的不同。首先,从传播效果来看,微博以传播广度为主,与博客有很大不同(以传播深度为主)。其次,微博的聚合度非常高,能够快速的吸引十几万人的关注。第三,虽然博客也有交互,但博主是主体,访者对于博主的影响极其微小,而微博是信息的汇聚点,同时发布信息和接受信息。
2)微博聚集了大量的用户群体,它是一种允许用户及时更新的简短文本,允许任何人阅读或者只能由作者指定的群组阅读。因此,利用微博可以方便地发布、获取即时信息,构建与维护人际网络。同时,微博具有跨平台、跨网络、跨业务、跨网站的技术特征,且承载多样化的网络应用,使得微博上聚集了大量的用户群体。
3)微博加速和扩展了信息传播。微博用户可以将自己的微博与手机绑定,随时随地更新信息,不再受时间与空间的限制,使得信息传播更加及时,特别是对突发事件的报道和反馈。2011年5月,一个名叫厄本的人在微博上率先发布美军击毙本﹒拉登的消息,厄本在政治以外的其他领域的知名度并不高,但迅速赢得1000多名粉丝,1分钟内这条消息被转发80次,2分钟后,有300多人转发了厄本的消息,引发了这条消息的大爆炸,可见微博这一新兴媒体对信息的传播能力是十分惊人的。
因此,微博拓宽了信息传播的渠道,对经济的发展、社会的进步、科技的普及起到了积极的作用。但另一方面,随之产生的负面问题也越来越突出:
1)反动、淫秽、迷信、暴力等有害信息在微博上传播,严重危害了国家和社会的稳定。
2)社会突发事件经微博快速传播后,造成网络上的小消息流传,容易引起公众的不理性判断和行为混乱,从而酿成严重后果。
突尼斯“茉莉花革命”,正是利用微博这一新兴媒体,由推手在其中推波助澜,没有得到政府足够的重视,使得一个普通事件的影响力无穷的放大,最终导致突尼斯政局大变。
虽然微博业务得到了快速应用,但对微博的研究目前还不多,主要集中于从心理学、传媒学的角度分析网络新业务。从社会需求,其信息提取与舆情分析技术急需重视,如何从微博空间获取重要的信息对于当前舆情分析领域是非常重要的研究课题。
3基于微博的网络舆情分析系统设计
整个系统由微博信息爬取、文本预处理、微博特征表示与提取、话题发现和舆情分析等几个部分组成,下面将分别介绍。
3.1文本预处理
微博文本的预处理包括网页的爬取,分词和停用词的处理。
3.1.1网页爬取
目前对微博的收集工作主要由爬虫程序来进行,但由于数据量过于
庞大,爬虫效率已达不到实时信息收集的要求,因此需要一款软件来指导爬虫程序运行,去有目的的收集应该值得关注的微博人群的情报,而不是在海量数据中漫无目的的搜索。
3.1.2分词
对文本进行分词是预处理的重点,中文分词与英文分词是不同的,英语单词与单词之间用空格作为分隔符以便对语句进行识别,而中文的排列方式是根据不同的汉字组合实现的,字与字,词与词间无明显分隔符,要让计算机识别中文信息就必须对中文文本进行必要的分词。目前最常用的中文分词技术,其主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时支持用户词典。目前该版本已经升级到了ICTCLAS2012。ICTCLAS2012分词速度单机达到996KB/s,分词精度98.45%,API不超过2M,各种词典数据压缩后不到3M。本文将使用该开源系统用于微博信息的分词。
3.1.3停用词过滤
停用词是与微博内容不相干或者对理解微博不起作用的词,如“哦、啊、了”等语气词还有一些频率过高或者过低的词。据研究,中文语句中高频的停用词占到文本语句的30%-50%。在实际的算法应用中,这些没有实际意义的词不能作为文本的特征项对分类结果产生作用,若不处理这些停用词将对后续算法的效率产生影响。我们采用“停用词库”的方法来处理停用词,停用词库中包含了一些经常被去除的高频停用词,如“的”、“我”等这些具有很高的文档频率和非常低的反文档频率的词语。
3.2文本向量表示与提取
3.2.1文本向量表示
例如:如果想要在多篇微博中得到AI这个特征项,那么某篇微博M中“AI”会出现很多次,因此“AI”在这篇微博里面的TF会很高。然而我们库中里面的N篇微博并不是每一篇都在讲AI,因此“AI”可能只有在 N 篇微博里面的某 3 篇文章出现,因此 DF 只有 3,IDF 变成 0.33,假设我们 N = 100 有 100 篇微博,常见词像“the”在每一篇都出现,DF 就是 100,IDF 就是 0.01。所以“AI”的 IDF 会比“the”的 IDF 高,假设这篇微博M中“AI”和“the”两个字出现的次数刚好一样,乘上 IDF后,“AI”这个字的分数就比“the”这个字的分数来的高,就会判断“AI”是这篇文章重要的特征词,而“the”这个字并不是这篇文章的特征词。
3.3热点话题分析
在固定时间周期内通过微博发布的信息流中,一组内容相同或相近,参与者数量超过一定阈值的微博所涉及的话题内容,称为微博热点话题MBHT(Microblog Hot Topic)。
微博话题形式化描述为[5]:MBT=(MS,N,T,MF)。其中MS(Microblog Set)表示非空的微博信息集合;N表示参与者个数;T表示微博消息发生的时间跨度;MF(Microblog Feature)表示抽取的微博特征词表。
根据热点话题的定义,每次热点话题提取和分析的对象,是时间跨度T内微博的集合,表示为CM,MS∈CM。因此微博的话题发现就是基于微搏内容的归类处理,每一类微博就能说明用户群所关注的一个焦点,即热点话题。
在微博内容的划分上,由于微博数量巨大且内容复杂,并且在研究中没有先验学习语料,所以不能直接通过有监督的文本分类方法来获得归类后的微博子集合。因此类别特征能被视为话题的对应体,通过计算每个微博话题的特征词表就能够发现这段时间内微博中的热点话题。
在无监督学习条件下直接获取每一个话题对应的特征词表是不现实的,可以通过词频统计[6]的方式发现整个微博流中的特征集合,根据内容关联度对这个特征集合进行划分就能得到每个微博话题对应的特征词表,每个特征词表对应一个话题,通过这样的方法完成微博的话题发现。
3.4基于话题发现的舆情分析
微博的每个话题对应相应的特征词表,根据特征词表中构建话题数据库,继而对其进行传播态势分析,社会关系分析以及倾向性分析。
1)基于热点话题的微博信息传播态势分析
首先,微博中存在着海量信息,但往往很难快速提取有用的舆情信息。对微博信息进行数据结构化分析,并对数据进行处理,过滤掉重复的内容,统一对象模型,最后进行信息提取。其次,构造微博热点话题的传播态势模型,即根据提取的热点话题关键信息,研究微博信息的传播在网络空间到地理空间的映射,在时间标度下,该热门话题空间区域内的分布,以何种速度传播,影响哪些地域范围,形成时间、空间二维传播态势模型。
2)基于热点话题的社会关系分析
从微博的粉丝、关注、信息反馈、信息传播等关键信息可以看出,微博网络可以映射到社会网络拓扑结构,通过对微博人际关系结构特征的研究,统计出社会网络中个体的链接度、个体之间的连接关系等特征。通过分析这些个体节点间的交互关系,挖掘出微博空间中的关键人和关键事件。
3)基于热点话题的倾向性分析
在包含主观情感倾向的微博中,用户对于话题的态度可以是赞扬、抨击或者支持、反对或者高兴、沮丧,对于这些情感状态,我们将之统一分为正面,中立和负面三个大类,其基本划分标准如下[8]:
1)正面:描述内容持肯定态度,带有称赞、歌颂或哀悼、惋惜等语气。
2)中立:相关事件的客观报道或者描述。
3)负面:描述内同持否定、质疑、讽刺或者抨击、痛斥、鄙视等色彩。
微博话题倾向性分析在于总结和分析微博文本语句中,用户对热点话题所持有的态度,态度主要体现在微博消息中的主观句中,而主观句又是由态度词构成,态度词可以理解为极性词,即感情色彩的词。情感词基本都是类似“喜欢”,“讨厌”等形容词或者副词,再加上否定词“不”、“非"等就能基本反映一段话所包含的用户观点。分析过程可以先人工建立一个褒贬词库作为判断基准,从而与态度词进行相似度对比,词与词的相似度反映其语义相似度,继而通过语
义的相似度计算得到微博信息的倾向。
4结论
基于微博的网络舆情分析系统能快速找出值得关注的微博用户群,并将关心的某个热门话题在地理空间上的传播情况直观的展现出来,在茫茫海量微博信息下,能够为相关用户快速发现话题,锁定目标,进行舆情分析,提供有价值的军用或商用情报。因此,研究微博用户的人际关系和传播态势对分析网民用户感情、生活、态度等价值很大。在微博上利用话题发现与追踪技术对内容按主题的分类以及实现对特定话题的追踪以掌握民情将引起广泛的关注。
参考文献
[1]百度百科.微博[EB/OL] http://
[2]维基百科.新浪微博 [EB/OL].http://zh-cn//新浪微博
[3]孙茂松,王洪君,李行健,等.信息处理用现代汉语分词词表[J].语言文字应用,2001,(4):23-28.
[4]ICTCLAS[EB/OL].http://.
[5]黄美璇.基于主题发现的舆情分析系统的设计与实现[J]. 北京联合大学学报,2012(2):34-36.
[6]唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2010(7):79-81.
.情报学报,2009(2):233-241.
[8]杨震,段立娟,赖英旭.基于字符串相似性聚类的网络短文本舆情热点发现技术[J].北京工业大学学报,2010(5):669-673.
[9]王淑群.影响网络信息检索的因素与对策[J] .图书馆论坛,,2006(2):197-199.
[10]程显毅,朱倩.文本挖掘原理[M].北京:科学出版社,2010.
上一篇:移动通信网无线网络优化的发展策略