2019-8-9 2:10:50 | 作者:老铁SEO | 0个评论 | 人浏览
数据分析,涉及很多领域的知识,其中不仅包含了数学,统计学,同时也涵盖了计算机科学;有的同学非常重视后期分析的技能,但忽略了数据采集阶段需要掌握的技能。传统的数据采集一般先用纸质问卷收集信息,然后通过录入软件传入计算机;随着问卷星等平台的开发,网络问卷也成为了数据采集的一种常用形式。所以,广义上来说,利用编程语言搭建类似于问卷星的平台也是数据采集阶段需要掌握的技能之一;除此之外,批量收集网络中的现有数据也是一种技能。那么今天,小罗为大家介绍一种批量收集网络数据的方式---网络爬虫。
爬虫,抽象的来说就是copy互联网上的信息;比如你在某个网页上复制信息,然后粘贴到本地的某个文本编辑器内,那么你就做了一次最原始的爬虫动作。
不过爬虫毕竟多是从网页里面下载信息,所以必要的网页知识(http,html,css,javascript)是必须的。
大家都浏览过网页,大家有没有思考过一个问题, 浏览器是如何展现我们所看到的页面的? 来看下面的图片:(谷歌浏览器+F12就能得到如下界面)
今天我们爬一爬成都市的人才公寓网站,看一看目前是哪些单位的哪些人才申请了哪些住房。因为本来就是公示的信息,所以不存在信息泄露的问题哈。记住:爬虫的正当性很重要!
通过晃动鼠标,小罗没有费多大力气就找到了表格所在的标签,大概在一个标签内,也就是页面被盖住的地方。
如果安装成功,右上角会有一个放大镜图标,点击它,便出现右下角的对话框,接下来,我们选择我们想要爬去的内容,那么相似的内容就会黄色高亮显示,对话框中也会出现对应内容的css唯一标识。在这里是:
通过几次翻页以后,我们发现定位符里面唯一改变的就是page=后面的数字。所以我们可以大胆的推测,只需要更改这个数字,那么我们就可以获得不同的的页面。想到这里,是不是自然的就联想到把上面的代码包含在一个循环里面。我们来做一做这个事情。