2.10 CrawlSpider 和 Rule

文档摘要

2.10 CrawlSpider 和 Rule Scrapy CrawlSpider 与 Rule 详解 Scrapy 提供了多种 Spider 基类，其中是一个非常强大的 Spider，特别适用于需要从网站上抓取多个页面，并遵循特定链接模式的情况。依赖于对象来定义抓取规则，从而实现自动化的页面发现和抓取。 CrawlSpider 简介继承自类，并添加了一些新的功能，使其能够根据预定义的规则自动发现和抓取链接。与需要手动解析每个页面并提取链接的不同，可以根据自动完成这些任务。 CrawlSpider 的主要特点：规则驱动：通过对象定义链接提取和页面处理规则。自动化链接发现：自动从匹配规则的页面中提取链接。可配置性：可以灵活配置链接提取规则和回调函数。