2.1 Spiders (爬虫)

文档摘要

2.1 Spiders (爬虫) Scrapy 核心组件详解：Spiders (爬虫) 在 Scrapy 框架中，Spiders (爬虫) 是整个爬取流程的核心驱动力。它们定义了如何从特定网站或多个网站抓取数据，并从页面中提取结构化数据。简单来说，Spiders 负责告诉 Scrapy "去哪里爬"，"怎么爬"，以及 "爬什么"。 2.1 Spiders (爬虫) 详解 Spiders 本质上是 Python 类，继承自类。你需要定义 Spiders 的一些关键属性和方法来定制爬取行为。 2.1.1 Spiders 的核心属性： (必须): 爬虫的名称，用于唯一标识一个爬虫。在运行 Scrapy 时，你需要通过这个名称来指定要运行的爬虫。 (可选): 一个包含允许爬取的域名列表。