2016-09-27 73 浏览 0 评论 【爬虫学习笔记】基于 Bloom Filter 的 url 去重模块 UrlSeen UrlSeen 用来做 url 去重。对于一个大的爬虫系统,它可能已经有百亿或者千亿的 url,新来一个 url 如何能快速的判断 url 是否已经出现过非常关键。因为大的爬虫系统可能一秒钟就会下载几千个网页,一个网页一般能够抽取出几十个 url,而每个 url 都需要执行去重操作,可想每秒需要执行大量的去重操作。因此 UrlSeen 是整个爬虫系统中非常有技术含量的一个部分。为了提高过滤的效率,我们使用有极低误判率但是效率 爬虫 BloomFilter