爬虫平台模板任务开发流程

模板开发人员接收到任务以后,可以按照以下流程进行开发:

工具和平台

蜜蜂平台的工作原理是通过下载页面内容(通常是HTML代码),随后读取配置的模板文件规则将网页内容中的数据提取出来。在具体工作中需要用到以下平台和工具。

  • #1.蜜蜂平台:蜜蜂平台的具体网址会有指导老师提供。
  • #2.Chrome浏览器在配置模板过程中需要使用Chrome浏览器的F12打开开发者模式进行操作。
  • #3.XPath Helper浏览器插件用来协助编写XPath规则
  • #4.VS Code文本编辑器(或者Notepad++,PyCharm等)
  • #5.MongoDB客户端数据查看器(Robo 3T或MongoDB Compass)
  • #6.编辑Host文件配置相应主机IP

工作流程

开发人员收到的模板编写任务会提供网站名,板块和对应的URL列表。一般来说,工作内容是如下几步:

  • #1. 在平台上通过URL搜索查看是否有现存任务
  • #2. 新建或者修改现有模板
  • #3. 上传或者更新修复模板文件
  • #4. 创建或者更新(如有必要)爬取任务

说明:
在通过URL搜索过程中,可以使用部分URL进行搜索,例如以下URL:

http://money.163.com/special/00252G50/macro.html
#建议使用部分URL搜索,例如:
special/00252G50/macro.html

模板开发

模板开发过程中大家可能会遇到很多问题,以下是一个简单的流程指引。
#1. 判断目标页面是静态页面还是动态页面
如何判断动态页面和静态页面

Captain QR Code

扫码联系船长

发表回复

您的电子邮箱地址不会被公开。