千读网

字:
关灯 护眼
千读网 > 离语 > 第289章 柜子

第289章 柜子

博热搜榜,热议话题榜的数据分析并可视化展示。对于微博热搜榜,展示了从2021年1月份到2023年4月份的热搜榜单数据,共得到265119条数据,然后进行数据可视化的工作。对于热议话题榜,从话题的爬取,到话题下文章,文章下评论数据的爬取,环环相扣。在数据入库同时对评论数据打情感标签,并将结果通过Echarts图表展示于系统前端页面。生成旭日图,柱状图,折线图等。完成整个微博热搜话题分析系统,完成特定功能供使用者进行舆情监测和风险预警。5.2展望本次项目对数据的挖掘分析深度不够,在分析的角度切入方面仍有不少漏洞,并且由于微博反爬机制,数据采集量不够完善,期间会有部分数据的缺失,有部分的数据遗漏,无法做到全面的数据搜集。同时由于结构化数据库的特性,数据不够丰富,分析时候也会受到一定程度的影响。除此以外,自然语言的处理仅仅调用了的Senta框架,对具体功能的实现效果并不是很好,对于微博评论的情感态度分析准确度未能达到预期效果。将来对微博热点事件的可视化分析系统的改进要注重数据采集的多样化、完整性。在自然语言处理方面,注重提高情感倾向分析的准确性。

纸巾,湿纸巾,消毒湿巾,干巴的沾水洗脸巾,牙膏牙刷,一小瓶漱口水,洗发水小样,沐浴露一小瓶,洗面奶一小个,面霜,仨面膜,防晒霜。

拖鞋,一次性纸杯几个,洗完澡的毛巾。

帽子,雨伞,雨衣,拖鞋。

触发器模式是普遍采取的一种增量抽取机制该方式是根据抽取要求Y

在要被抽取的源表上建立**修改删除3个触发器Y每当源表中

的数据发生变化Y就被相应的触发器将变化的数据写入一个增量日志

表YETL的增量抽取则是从增量日志表中而不是直接在源表中抽取数

据Y同时Y增量日志表中抽取过的数据要及时被标记或删除

为了简单起见Y增量日志表一般不存储增量数据的所有字段信息Y而

只是存储源表名称更新的关键字值和更新操作类型(inse

update或delete)YETL增量抽取进程首先根据源表名称和更新的关

键字值Y从源表中提取对应的完整记录Y再根据更新操作类型Y对目

标表进行相应的处理。

这种模式的优点是数据抽取的性能高YETL加载规则简单Y速度快Y

不需要修改业务系统表结构Y可以实现数据的递增加载缺点是要求

业务表建立触发器Y对业务系统有一定的影响Y容易对源数据库构成

威胁。

完事!

『加入书架,方便阅读』





热门推荐