设计一个网页爬虫


文档摘要

设计一个网页爬虫 注意:这个文档中的链接会直接指向系统设计主题索引中的有关部分,以避免重复的内容。你可以参考链接的相关内容,来了解其总的要点、方案的权衡取舍以及可选的替代方案。 第一步:简述用例与约束条件 把所有需要的东西聚集在一起,审视问题。不停的提问,以至于我们可以明确使用场景和约束。讨论假设。 我们将在没有面试官明确说明问题的情况下,自己定义一些用例以及限制条件。 用例 我们把问题限定在仅处理以下用例的范围中 服务 抓取一系列链接: 生成包含搜索词的网页倒排索引 生成页面的标题和摘要信息 页面标题和摘要都是静态的,它们不会根据搜索词改变 用户 输入搜索词后,可以看到相关的搜索结果列表,列表每一项都包含由网页爬虫生成的页面标题及摘要 只给该用例绘制出概要组件和交互说明,无需讨论细节


发布者: 作者: 转发
评论区 (0)
U