如何运用爬虫框架Scrapy部署爬虫

技术如何运用爬虫框架Scrapy部署爬虫这篇文章将为大家详细讲解有关如何运用爬虫框架Scrapy部署爬虫,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。这里主要讲述如何将我

本文将详细解释如何使用crawler框架Scrapy来部署crawler。这篇文章的内容质量很高,所以边肖会分享给大家参考。希望你看完这篇文章后有所了解。

本文主要描述如何将我们编写的爬虫程序部署到生产环境中。我们使用Scrapy提供的爬虫管理工具scrapyd来部署爬虫程序。

00-1010:一是由scrapy官方提供;第二,我们使用JSON API部署爬虫、控制爬虫、查看运行日志都非常方便。

00-1010

1 为什么使用 scrapyd?

选择一台主机作为服务器,安装并启动scrapyd服务。之后,scrapyd将作为守护进程存在于系统中,监控爬虫的运行和请求,然后启动进程执行爬虫程序。

00-1010使用pip安装scrapyd很方便。

如何运用爬虫框架Scrapy部署爬虫

00-1010从终端命令行使用以下命令启动服务:

如何运用爬虫框架Scrapy部署爬虫

启动服务结果如下:

如何运用爬虫框架Scrapy部署爬虫

Scrapyd还提供了一个网络接口。方便我们查看和管理爬虫程序。默认情况下,scrapyd监听端口6800,并在scrapyd运行后。在这台机器上,使用浏览器访问http://localhost :6800/address查看当前正在运行的项目。

如何运用爬虫框架Scrapy部署爬虫

00-1010直接使用scrapyd-client提供的scrapyd-deploy工具。

2 使用 scrapyd

scrapyd在服务器端运行,而scrapyd-client在客户端运行。使用client scrapyd-client通过调用scrapyd的json接口来部署爬虫项目。

00-1010在终端下运行以下安装命令:

如何运用爬虫框架Scrapy部署爬虫

00-1010修改项目目录中的scrapy.cfg文件。

如何运用爬虫框架Scrapy部署爬虫

如果您的服务器配置了HTTP基本身份验证,您需要在scrapy.cfg文件中添加用户名和密码。这是为了登录到服务器。

如何运用爬虫框架Scrapy部署爬虫

00-1010在爬虫项目根目录中执行以下命令:

如何运用爬虫框架Scrapy部署爬虫

Target是上一步配置的服务器名称,project是项目名称,可以根据实际情况自行指定。

我将目标指定为服务器,将项目指定为演示,因此我想执行以下命令:

如何运用爬虫框架Scrapy部署爬虫

部署将打包您当前的项目。如果当前项目下有setup.py文件,将使用该文件。如果没有文件,将自动创建一个。(如果后期项目需要打包,可以根据自己的需要修改信息,也可以暂时忽略)。从返回的结果中,我们可以看到部署状态、项目名称、版本号和爬虫号,以及当前的主机名。

操作结果如下

下:

如何运用爬虫框架Scrapy部署爬虫

使用以下命令检查部署爬虫结果:

如何运用爬虫框架Scrapy部署爬虫

我指定服务器名称为 server,所以要执行命令如下:

如何运用爬虫框架Scrapy部署爬虫

刷新 http://localhost:6800/ 页面, 也可以看到Available projects: demo的字样。

4 使用 API 管理爬虫

scrapyd 的 web 界面比较简单,主要用于监控,所有的调度工作全部依靠接口实现。官方推荐使用 curl 来管理爬虫。
所以要先安装 curl。

  • windows 用户可以到该网站https://curl.haxx.se/download.html下载 curl 安装包进行安装。

  • ubuntu/Mac 用户直接使用命令行安装即可。

开启爬虫 schedule

在爬虫项目的根目录下,使用终端运行以下命令:

如何运用爬虫框架Scrapy部署爬虫

成功启动爬虫结果如下:

如何运用爬虫框架Scrapy部署爬虫

取消爬虫

如何运用爬虫框架Scrapy部署爬虫

列出项目

如何运用爬虫框架Scrapy部署爬虫

列出爬虫、版本、job 信息

如何运用爬虫框架Scrapy部署爬虫

删除爬虫项目

如何运用爬虫框架Scrapy部署爬虫

关于如何运用爬虫框架Scrapy部署爬虫就分享到这里了,希望

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/105127.html

(0)

相关推荐

  • C#数据访问层的相关知识有哪些

    技术C#数据访问层的相关知识有哪些这篇文章给大家分享的是有关C#数据访问层的相关知识有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。C#数据访问层1.查询数据库中的数据,返回一个datat

    攻略 2021年12月1日
  • 数据库单库备份sh的方法是什么

    技术数据库单库备份sh的方法是什么本篇内容主要讲解“数据库单库备份sh的方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“数据库单库备份sh的方法是什么”吧! 实例代码

    攻略 2021年11月16日
  • 雅诗兰黛的眼霜,雅诗兰黛有什么好的眼霜

    技术雅诗兰黛的眼霜,雅诗兰黛有什么好的眼霜截止目前的话雅诗兰黛的眼霜,雅诗兰黛的眼霜我总共用过3款,这里讲一下我的使用感受。首先肤质声明:油痘肌肤,常年熬夜,眼下黑眼圈不严重,眼袋和水肿比较严重。1.雅诗兰黛抗蓝光眼霜

    生活 2021年10月30日
  • Python怎么修改表格数据

    技术Python怎么修改表格数据这篇文章主要介绍“Python怎么修改表格数据”,在日常操作中,相信很多人在Python怎么修改表格数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Pyt

    攻略 2021年11月29日
  • 如何停止weblogicserver应用(weblogicserver是什么)

    技术新部署的WebLogicServer无法访问怎么解决本篇内容主要讲解“新部署的WebLogicServer无法访问怎么解决”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“新

    攻略 2021年12月21日
  • 白芸豆减肥,白芸豆一天吃多少量减肥效果好

    技术白芸豆减肥,白芸豆一天吃多少量减肥效果好医学里有减肥饮食处方,分析体检报告,明确代谢紊乱环节,针对性搭配营养白芸豆减肥。医学减肥饮食处方是高品质精确化针对性的平衡膳食。肥胖绝非亚健康而是代谢紊乱性疾病。肥胖患者往往有

    生活 2021年10月19日