Skip to content

jerryhanjj/baike_spider

Repository files navigation

baike_spider

DUB

 一个简单爬虫开发
 语言版本:python3.5.1
 功能说明:爬取百度百科词条和词条简介内容并输出到网页中
 注:面向对象编程 全部采用对象来调用方法
 
 程序执行流程:
    1.将 入口URL(root_url) 添加到 URL管理器
    2.启动爬虫的循环
    3.获取 URL管理器 待爬取列表 中的一个URL并将其移出待爬取列表,添加到已爬取列表
    4.使用HTML下载器下载这个页面
    5.使用解析器解析下载的页面,得到新的URL和数据
    6.将得到的新的URL批量添加到URL管理器中,在过程中判断得到的URL是否是已经爬取过的URL,采取舍去或者保留
    7.收集得到的页面内容,存入输出器,解析后输出
    8.循环3-7
    9.循环条件不符合退出循环时,将结果输出到html文件中

 模块设计:
 URL管理器:UrlManager
 HTML下载器:HTMLDownloader
 网页解析器:HtmlParser
 结果输出器:HtmlOutputer

About

爬取百科词条的简单爬虫

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages