Achievements
1 成果简介
社会网络已经成为覆盖用户最广、传播影响最大、商业价值最高的 Web2.0 业务,在世界范围内,最著名的社会网络代表是 Facebook、Twitter,用户量分别达到 12 亿、5 亿;国内使用人数最多的社会网络工具是新浪微博和腾讯微博,其中新浪微博用户达到 5 亿,腾讯微博用户超过 8 亿。社会网络中的巨大用户群每天产生海量的用户数据、关系数据和信息数据,若能够对海量数据进行准确、及时的分析,则会在精确营销、舆情探测以及网络安全等方面创造巨大价值。然而由于社会网络的大数据特性以及分析方面要求准确、及时,目前缺乏融合多项社会网络分析技术的、成熟的社会网络大数据分析系统。
社会网络分析技术是一项关键技术,也是一项热门的研究,涵盖了社会学、人类学、社会语言学、地理、社会心理学、通信研究、资讯科学、社会网络分析与探勘、组织研究、经济学以及生物学等多个领域,是一项多学科交叉技术。社会网络大数据分析系统要求具有坚实的数据支撑,即数据获取全面、更新及时、获取数量大,也强调多维度、多粒度的分析手段相结合,并对分析速度、可视化以及人机交互等方面都提出很高的要求。
基于上述现状和挑战,在国家科技支撑项目的资助下,实现基于新浪微博、Twitter 等主要社会网络交流工具的大数据分析系统,系统完成从数据获取、数据预处理、数据存储、消息中心、数据分析、结果可视化展示的闭环处理流程,支持多种社会网络(Twitter、新浪微博等)的数据实时、不间断获取,获取数据量在国内外同研究领域处于领先地位;实现整体、个体、群体以及事件的多层次、多粒度分析模式;同时具备良好的人机交互操作界面以及优秀的分析展示效果。
系统的特点如下:
多手段数据获取模式融合:采用网络流量分析、API/非 API 爬虫、元搜索以及增量式爬虫等多手段数据获取模式相结合的方式进行数据实时、不间断获取,保证数据获取全面、更新及时、获取量大;
多维度、多粒度数据分析手段结合:系统对社会网络整体、个体、群体、事件四个维度的对象进行分析,并结合基础分析、深度挖掘的多粒度分析手段共同完成社会网络的数据分析;
多种关键技术支撑:系统融合机器学习、分布式并行处理、数据挖掘、自然语言处理等多种关键技术,共同保证系统各项功能的稳定、快速实现;
优秀的分析展示效果和友好的人机交互操作:借助 Gephi 工具进行群体、事件等分析效果的可视化展示,可视化效果清晰;操作便捷,实现用户与系统、系统与数据库的无缝连接。
上述优点表明该系统能够实现从数据获取、数据预处理、数据存储、消息中心、数据分析、结果可视化展示的处理流程,达到完善的功能实现目标和优秀的系统运行效果。查新表明,国内外目前尚未发现有如此功能全面与性能优越的社会网络大数据分析系统。
上图 社会网络大数据分析系统架构图
性能参数:
能有效获取社会网络平台的用户数据、关系数据和信息数据,获取覆盖率不低于85%;
分布式爬虫支持不少于 10 个节点,分布式数据库支持不少于 5 个节点;
数据库读/写操作不少于并发 1000 次,数据预处理效率不小于 1000 条/秒;
数据存储规模不小于 7TB;
热点信息(个体、群体、事件)发现准确率不低于 75%,关键路径发现准确率不低于75%;
热点话题发现准确性不低于 80%,倾向性言论的发布主体发现准确率不低于 75%;
信息传播寿命预测准确率不低于 80%。
2 应用说明
2013 年 9 月,利用社会网络大数据分析系统进行数据获取以来,获取 Twitter 用户数据2.2 亿,用户关系数据 11.5 亿,推文 1.2 亿,目前数据量仍处于不断高速增长阶段;着重获取社会网络上中国人全集的数据,主要采用基于用户属性、用户关系、用户信息 3 层过滤机制,通过特定团体获取方式进行获取,中国人用户数据达到 63 万,用户关系数据 510 万,推文数据 1740 万,目前中国人用户数据已趋于稳定,推文数据仍处于快速增长阶段。在获取到的数据基础上,对网络中个体、群体、事件以及整体进行基础分析以及深度挖掘,能够快速识别关键个体、关键群体、热点信息、热点话题,并实现对信息、话题的情感分析、趋势预测等功能,同时也保证分析效果优秀的可视化展示。
3 效益分析
由于目前国内外尚无同标准产品,而社会网络大数据分析的需求比较迫切,因此本系统具有较大的推广空间。本系统价格每套 150 万元。而本系统数据积累深厚、运行稳定、分析功能全面、处理速度快、响应时间短。总体上,系统成本低、功能全、速度快,运行费每月在 3000 元左右,具有明显的经济和技术优势。
4 合作方式
转让或者联合推广。
5 项目所属行业领域
电子信息。