数据爬取根据数据源的不同,涉及到的必备技能,工具和实现大不相同。本文主要针对网页数据爬取入手,覆盖以下知识要点:
- HTML基础知识
- 浏览器开发者工具
- XPATH基础知识
- 在开发者工具中使用XPATH定位HTML节点
- 静态页面和动态页面的区别
- 使用开发者工具区分静态页面和动态页面
- 静态页面爬虫开发
- 动态页面爬虫开发
- 页面分析与模版配置
相关参考文档
面向金融、游戏和数据的自动化脚本工具集合
数据爬取根据数据源的不同,涉及到的必备技能,工具和实现大不相同。本文主要针对网页数据爬取入手,覆盖以下知识要点:
相关参考文档
随着大模型的不断涌现,优质数据是模型训练过程中必不可少的生产资料。目前网上有大量开源的数据集可供下载。对于训练基座模型,通常这些开源的数据集已经足够了。但是对于各种垂直领域的数据需求,特别是需要一些特定数据进行模型微调和优化,数据爬取成为这些特殊领域数据的主要来源和手段。本文将主要分析在数据爬取前如何进行技术评估和选型。
Read more先说说事情的起因。最近在调试百度搜索的自动化脚本,但是使用最普通的Python脚本(没有配置任何headers信息)发送搜索请求没有办法返回搜索页面。因此无论使用BeautifulSoap或者lxml都无法从结果中使用xpath抽取需要的字段。多次尝试后会出现302跳转验证码的情况,并且由于Requests脚本是下载的是静态数据,所以直接显示“百度安全验证”信息。但是在本地浏览器中却可以正常访问搜索百度。在这种情况下,通过以下步骤,分析浏览器访问百度的数据包,并用Python实现自动搜索脚本。
Read moreLLM即大语言模型,它具有强大的自然语言处理(NLP)能力(包括理解NLU和生成)。我们可以借助大语言模型的能力帮助我们更好地完成一些工作,包括文本创作、FAQ问答、对话聊天、知识查询、语言翻译、文章摘要、辅助编程等。如果与其他领域的模型组合在一起使用,还能够完成视频语音字幕生成、智能客服问答等相关任务。另外,像文本分类、情感分析、命名实体识别(Named Entity Recognition)等传统的NLP任务就不适合使用LLM来完成,因为这种传统的任务对于LLM来说过于简单了。
Read moreMongoDB开启分片以后,有两种扩容(缩容)方式。一种是纵向扩容,在现有的分片副本集上添加新的机器节点。这种只需要在副本集内部进行数据复制。另一种是横向扩容是扩展分片数量,需要创建新的副本集并创建新分片,随后要进行数据自动分割迁移。
Read moreCurl非常有用,以下是遇到的一些问题和解决方案。
Read more由于在网上搜索了一圈,发现都是使用Python直接安装ShadowSocks服务,但是目前python支持的版本为ShadowSocks 2.8,非常老旧的版本。首先为了安装Python 3.10也花了不少时间,主要是遇到了openssl的问题。所以本文分两个部分:第一部分为安装Python3.10,主要是要说明那个pip报SSL错误的大坑;第二部分为安装shadowsocks-libev。
Read more