WayneShao 的博客

记录精彩的程序人生
Extractor 0 篇文章

【爬虫学习笔记】用于提取网页中所有链接的 Extractor 模块

Extractor 的工作是从下载的网页中将它包含的所有 URL 提取出来。这是个细致的工作,你需要考虑到所有可能的 url 的样式,比如网页中常常会包含相对路径的 url,提取的时候需要将它转换成绝对路径。这里我们选择使用正则表达式来完成链接的提取。html 标签中的链接地址通常会出现在 href 属性或者 src 属性中,所以我们采用两个正则表达式来匹配网页中的所有链接地址。网页链接提取器 Extractor 类:usi