技术 – 第 11 页 – 船长的藏宝图

Scrapy Cluster中Kafka Topic详解

2019年6月13日2021年7月22日大副

之前我们已经介绍过了Scrapy Cluster中有三大组件，Kafka，Redis和Scrapy spider。Kafka是一种高吞吐量的分布式发布订阅消息系统。每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。如果使用默认的配置，在Scrapy Cluster中Kafka有3个基本的topic：

demo.incoming
demo.crawled_firehose
demo.outbound_firehose

PyCharm是比较流行的Python开发集成环境。功能强大而且非常易用。然而，我在实际工作中发现，很多朋友还不会使用PyCharm的调试功能和断点单步调试。如果说简单Python脚本只要写几个print语句就足够了，那么在开发Scrapy Cluster的爬虫过程中，善用PyCharm的调试功能和断点单步调试就真的可以事半功倍了。比方说，最近正在研究Scrapy Cluster源码的运行机制。在理解其机制的过程中必不可少需要设断点调试代码，而PyCharm作为强大的Python IDE在调试、Project管理中提供了许多方便，因此打算写此文档来记录在Pycharm中调试Scrapy Cluster爬虫的学习过程和一些坑。
Read more →

详解Scrapy Cluster中Kafka与Redis的消息生产和消费

2019年6月10日2021年7月22日大副

相对于Scrapy框架，增加了Kafka和Redis模块的Scrapy Cluster要复杂的多。因此要搞清楚各大模块之间是如何工作的，就至关重要了。在Scrapy Cluster框架中，有三大系统模块：Kafka，Redis，Scrapy Spider。其中Kafka和Redis之间的消息传递是通过kafka_monitor.py组建实现的（单向连接）。Scrapy Spider和Redis的连接是通过distributed_scheduler.py实现的（双向连接）。Scrapy Spider与Kafka之间的连接是通过pipelines.py里面的KafkaPipeline类实现的（单向连接）。
Read more →

船长的藏宝图

技术

Scrapy Cluster中Kafka Topic详解

使用PyCharm调试开发Scrapy Cluster

详解Scrapy Cluster中Kafka与Redis的消息生产和消费

使用Github创建免费的个人主页

使用MYSQL索引提升检索速度

阿里云网站应用云服务器选购指南

Scrapy Cluster新手教程

使用Order By语句将MySQL查询速度提高3倍