网站地图 | RSS订阅 老铁博客 - 上海SEO优化|上海网站建设|蜘蛛池出租|站群代搭建
你的位置:首页 » 网站建设 » 正文

微博爬虫数据分析可视化

2019-8-4 15:10:35 | 作者:老铁SEO | 0个评论 | 人浏览

  最近在学习数据分析,数据挖掘以及数据可视化的内容,之前断断续续地采集了接近1亿条微博数据,还有几十万的用户的信息。所以筛选了一部分数据来分析分析。下面的内容大多以《广州发布》为例。

  《中国广州发布》是广州市互联网信息办公室的官方微博账号。截止到6月27号凌晨,一共采集了广州发布50138条微博。这里面只有很小部分是转发的,其他都是原创。

  发现几个比较奇怪的地方,2013年下半年有一个节点怎么微博的转发数和评论数突然爆炸增长,然后2017年也有一个节点获得的赞数特别多。我们详细看看这两个点。

  通过代码对数据筛选,可以看到2013年8月是有一个高峰,其他的月份数量还是挺接近的。再来看看8月每天的数据量。

  可以看到2013年8月只是30那天出现了异常大的转发评论,其他的时候还是比较均衡。再看看8月30号那天发生了什么事,我倒是没什么印象。

  这条微博获得的关注也远超其他微博,原来是投稿类的帖子,内容大概是环保征文。这里也可以获取到一个信息,市民的环保意识还是挺好的,可能征文的奖品对大家还是颇为诱惑。接下来我们看看2017年获得点赞异常的部分。

  原来是关于暴雨的帖子,基本上每年都会带来很多线月份刚过去的艾云尼台风也对广州乃至整个广东地区造成很大影响。这条微博还有配有图片,我们到爬虫的数据库查询出来。

  这类传播正能量的微博获得大量点赞,也是正常的。未来我会采集这些微博的评论做一些情感分析,大家可以留意后续的更新内容。

  不知道大家是否发现了一个现象。从某个时间段开始,微博越来越不像社交软件,变得像自媒体平台了。我们看看下面的数据。是对《广州发布》的转发/评论/点赞做每个月的平均值可视化。

  可以看出,《广州发布》被转发和获得评论相对前几年是越来越少的,而点赞数越来越多。这点也印证了点赞功能是到后面才被更多的人使用。(点赞功能是后来才更新的功能,就像2015/16年左右新浪才推出的长微博[可以发超过140个字的微博帖子]),我们结合《广州发布》每天的数据看看。

  图中有几条异常流量的微博(上面提到其中的两条),是不利于我们分析整体情况的,所以我们清洗掉这些数据。再看:

  经历了13年的高峰之后,《广州发布》的转发和评论获得的互动是越来越少的。可能很多人看到这类新闻微博,觉得有想法的话,更多的会直接点赞。我想其他微博平台信息类的博主也应该是这个趋势。

  看来小编的发微博的工作周末都要进行啊,不知道是否有加班奖励呢?6年多以来每周的平均值,可以看到小编周一是最积极的。周五有个小反弹,准备要周末休息?想想都激动!但是我觉得《广州发布》的小编应该不止一个人。继续看看小编每天的活跃情况吧。

  小编早上7点就开始更新微博了,挺勤奋的嘛。中午休息过后一直奋斗到晚上。工作态度值得我们学习。再看看粉丝们的表现。

  上图是一周七天所有数据的平均值,看来广大市民最活跃是小周末星期五。我们再看看小编用什么途径更新微博的:

  多达二十多个发博的来源,从苹果到OPPO,从网页到活动分享。即使是网页端也有来自不同浏览器的微博标识。这也印证了我的想法,小编不是一个人。是多个人同时使用《广州发布》这个账号。上图不太直观,我们剔除数量很少的一部分,再来看看:

  《微博就是官网首页发布的标识,其他也主要是用电脑网页发布的。我们再看看其他的一些媒体平台。这里我挑选了2000多个带认证的博主,再来挖掘一些信息。

  这些博客主要以政府机构(共青团、法院、公安局等),大型门户网站(网易、新浪等),国内知名媒体(人民日报,澎拜新闻等)以及少部分著名微博大V组成。(注意:数据量不多,数据只作参考。)

  可以看到,来自政治中心北京获得的关注也是最多的。我大广东全国经济的领头羊在文化传媒上现在还是略逊一些。推荐@君临的一遍文章:广州和深圳是怎么跻身「北上广深」之列的?

  这次的内容先到这里,下次我将会尝试做一些情感分析和文本聚类,目标依然是新浪微博。

  课程介绍本课程是Python爬虫和数据分析项目实战课程,主要分3部分:第1部分是Python爬虫,主要使用Urllib3和BeautifulSoup抓取天猫商城和京东商城胸罩销售数据,并保存到SQLi...博文来自:GitChat

  从爬取微博中搜索的热门事件到数据分析处理全过程(一)本文主要阐述了作者爬取新浪微博中搜索关键词搜到的微博,不涉及技术上的讲解,主要是大体思路,因为本人比较懒,可能第二部分或遥遥无期,但是还是希望大家多...博文来自:xiaoJLU的博客

  分享一个新浪微博的爬虫,基于Scrapy+MongoDB实现,号称一小时可爬千万条数据。作者:LiuXingMing来源:博文来自:大数据公社

  From:微博爬虫单机每日千万级的数据微博爬虫总结:博文来自:freeking101的博客

  或许是因为我喜欢的姑娘从来都不喜欢我,而感情上的挫折一度让我陷入无尽的自卑。朋友在朋友圈里发布一条关于皮影戏的动态,我开玩笑说这个皮影戏结局应该是个悲剧,因为我注意到在剧中,无论一个人如何卖力地表演甚...博文来自:七喜先生の猫

  本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Messag。同时欢迎加入社交媒体数据交流群:99918768利用新浪API...博文来自:的博客

  微博情感分析——数据的获取(一)本人由于研究生的研究方向是自然语言处理、社会舆情分析这个方向的所以本科生毕业设计就选择了微博情感分析这一方向的题目。主要是完成情感分析这个功能,并把每一步流程都做到。本...博文来自:weixin_40692863的博客

  各位朋友,大家好,我是Payne,欢迎大家关注我的博客。我的博客地址是:。对于今天这篇文章的主题,相信经常关注我博客的朋友一定不会陌生。因为...博文来自:七喜先生の猫

  由于不想做测试,内心一直想做数据挖掘/数据分析,果断辞职重新找了,这是第一篇自己出的分析报告,可能还不够专业,以后会继续进步哒,希望小伙伴们多多指导~通过对李开复微博的分析,发现了一些有趣的结论,一一...博文来自:wings_zhu的博客

  一、前言博客,这东西写起来是真的麻烦。博主语文特不好,什么语句、语义不通之类的,是常有的。请务必不要在意。如果,有什么问题可以在底下留言,或者私信我索要联系方式。另外,博主常年混迹java吧,在那肯...博文来自:的博客

  抓取微信公众号的文章一.思路分析目前所知晓的能够抓取的方法有:1、微信APP中微信公众号文章链接的直接抓取(博文来自:Jimy_Fengqi

  无论是做与微博相关研究还是开发相关应用,可能需要获取历史的或者实时的数据。如何获取呢?除了新浪微博为开发者提供了API,还可以利用搜索功能(详见)来收集数据。在历史数据获取方面,与twitter相比,...博文

  广义线性模型是处理离散型观测数据的一类有效统计模型,在社会调查、临床医学、生物医学、经济计量、工程技术和工业产品质量评估等方面都有广泛的应用。

  内含测评数据,评测数据,样本数据以及原始未标注数据。 相关下载链接:download/nowandthen1998/10439661?utm_source=bb

  • 本文来自: 老铁博客,转载请保留出处!欢迎发表您的评论
  • 相关标签:数据爬虫  
  • 已有0位网友发表了一针见血的评论,你还等什么?

    必填

    选填

    记住我,下次回复时不用重新输入个人信息

    必填,不填不让过哦,嘻嘻。

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。