网站地图 | RSS订阅 老铁博客 - 上海SEO优化|上海网站建设|蜘蛛池出租|站群代搭建
你的位置:首页 » 推广营销 » 正文

Webkit内核开源爬虫蜘蛛引擎

2019-8-4 5:51:54 | 作者:老铁SEO | 0个评论 | 人浏览

  在各个电商平台发展日渐成熟的今天。很多时候,我们需要一些平台上的基础数据。比如:商品分类,分类下的商品详细,甚至业务订单数据。电商平台大多数提供了相应的业务接口。允许ISV接入,用来扩展自身平台的不足,更好的为使用者提供服务。但是平台的ISV接入门槛现在越来越高,审核也越来越严格。拿不到接口SDK的密钥,就只能望洋兴叹。

  针对这种情况,有时候就需要采取一些另类手段-蜘蛛爬虫。 模拟正常的客户端请求,对获取响应的内容进行解析,从内容提取关键内容。

  万变不离其宗。使用python的做的爬虫比较多,相应的工具包也比较丰富。比如大名鼎鼎的 scrapy。但是这种单纯的发送请求 ,获取响应的引擎,有时候很难在响应式交互页面就显得捉鸡。大把大把的js ajax请求,让响应的内容并不是想要的结果。让蜘蛛引擎搭配浏览器内核,看起来是个不错的选择。尤其是对js H5支持较好的webkit内核,再好不过。

  作为C#的拥趸者,我们用C# 来实现上面的引擎机制。ShoppingWebCrawler 就是在这种背景下诞生的。

  可视化工具:支持;可视化工具目前有针对蜘蛛的web浏览器工具,用来进行登录授权,进程共享cookie。ShoppingPeeker 项目用来实现对蜘蛛数据的可视化操作。

  本项目是一个基于使用微软.net framework 结合Google的webkit内核做的蜘蛛采集工具。 支持多进程的集群模式。实现高性能的蜘蛛采集!

  使用此工具,进行电商平台的数据采集。 本项目已经实现可以采集淘宝、天猫、京东、拼多多、一号店、国美、苏宁等主流电商平台的网页数据。

  1、使用基于 Xilium.CefGlue 的libcef绑定,实现C#操作webkit。进行可视化的登陆授权。不定时刷新,进行登陆状态的模拟和守护。

  5、服务进程使用自定义高性能Socket(NTCPMessage)进行网络通信。对来自服务Client的请求进行请求应答。

  6、集群模式,使用简易的多进程实现集群。开启不同的监听端口,实现采集任务的负载均衡,进而大幅度提升硬件服务器的使用效率。

  Topshelf是创建Windows服务的一种方法。Topshelf是一个开源的跨平台的宿主服务框架,支持Windows和Mono,只需要几行代码就可以构建一个很方便使用的服务宿主。

  简单的说就是一个没有UI界面的浏览器。使用命令行进行代码控制浏览器行为,常见于自动化单元测试。

  3、配置Redis 环境。本项目使用redis 进行进程间的cookie共享,从而实现登录凭据cookie的跨进程共享。在UI进程和Heaadless进程间进行Cookie共享。

  编译 ShoppingWebCrawler.Host.DeskTop ,得到UI 工具,可以对打开一个网址。比如登录淘宝,就可以在本地进程间共享淘宝登录凭据。从而实现 特定的蜘蛛采集任务。比如:采集某个类目的商品。采集商品优惠券。

  • 本文来自: 老铁博客,转载请保留出处!欢迎发表您的评论
  • 相关标签:蜘蛛爬虫  
  • 已有0位网友发表了一针见血的评论,你还等什么?

    必填

    选填

    记住我,下次回复时不用重新输入个人信息

    必填,不填不让过哦,嘻嘻。

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。