模板开发人员接收到任务以后,可以按照以下流程进行开发:
工具和平台
蜜蜂平台的工作原理是通过下载页面内容(通常是HTML代码),随后读取配置的模板文件规则将网页内容中的数据提取出来。在具体工作中需要用到以下平台和工具。
- #1.蜜蜂平台:蜜蜂平台的具体网址会有指导老师提供。
- #2.Chrome浏览器在配置模板过程中需要使用Chrome浏览器的F12打开开发者模式进行操作。
- #3.XPath Helper浏览器插件用来协助编写XPath规则
- #4.VS Code文本编辑器(或者Notepad++,PyCharm等)
- #5.MongoDB客户端数据查看器(Robo 3T或MongoDB Compass)
- #6.编辑Host文件配置相应主机IP
工作流程
开发人员收到的模板编写任务会提供网站名,板块和对应的URL列表。一般来说,工作内容是如下几步:
- #1. 在平台上通过URL搜索查看是否有现存任务
- #2. 新建或者修改现有模板
- #3. 上传或者更新修复模板文件
- #4. 创建或者更新(如有必要)爬取任务
说明:
在通过URL搜索过程中,可以使用部分URL进行搜索,例如以下URL:
http://money.163.com/special/00252G50/macro.html #建议使用部分URL搜索,例如: special/00252G50/macro.html
模板开发
模板开发过程中大家可能会遇到很多问题,以下是一个简单的流程指引。
#1. 判断目标页面是静态页面还是动态页面
如何判断动态页面和静态页面
扫码联系船长