您的当前位置:首页正文

Scrapy-02(系列篇4)-爬虫&云服务器定时调度(

来源:华拓网

项目过程

1.
2.
3.
4.

工具

  • Pycharm
  • Xshell
  • Python 3.6
  • 阿里云Centos 7

4.云服务器配置调度

前3步都完成后 进行最后一步服务器配置调度 激动人心!
配置文件scrapy.cfg

切换到命令行模型 切到相应文件目录
scrapyd-deploy AliCloud -p 爬虫项目名
记得安全组开放6800端口
就可以在网页看到爬虫已上传成功

运行调度爬虫curl命令
可在网页Jobs中查看到相应日志 和本地控制台输出的log一模一样

curl http://XXX.XXX.XXX.XXX:6800/schedule.json -d project=爬虫项目名
-d spider=爬虫Spider名
win下没有curl命令 详细见百度经验
最后一步 就是定时调度crontab
具体怎么用 还是自行百度
xshell连接服务器 输入如下样式命令
crontab -e
保存:wq退出
这里的意思是每天2点、11点、20点各执行一次
然后就可以喝着快乐肥宅水 享受云端自动调度的快感

到此爬虫&云服务器定时调度(以京东零食为例)项目结束
整个过程涉及到的细(坑)节 特别多 特别碎
值得好好消化
授人以鱼不如授人以渔