
lxml
hchu
这个作者很懒,什么都没留下…
展开
-
用lxml跑一个简单的流程 2.0版本
用函数将代码优化 将代码划分为三个函数(模块),第一个函数请求根路径第二个函数,请求二级页面,遍历出大学的详细信息第三个函数,主函数,控制整个程序的运行,在主函数里,先获取请求页面的路径,然后link出一级页面,最后,把这个一级页面的路径用parse_university循环出他的子信息。 需要注意的是,不能把路径直接传入fetch函数,因为在主函数里,每一次循环二级页面都需原创 2018-01-05 12:32:29 · 353 阅读 · 0 评论 -
用lxml跑一个简单的流程 3.0版本
多进程抓取页面导入第三方thread包,定义一个进程池将抓取的一级页面放进进程池里启动进程池,自定义用几个进程来执行函数在进程池中引入函数,定义download函数,执行二级抓取数据退出线程# import 先导入内置的库,再导入第三方库import timeimport threadingfrom queue import Queueimport lxml.etr原创 2018-01-05 16:07:50 · 439 阅读 · 0 评论 -
用lxml跑一个简单的流程 1.0版本
思路用request请求需要访问的路径选择器选择,用什么形式打印请求的路径,找到需要打印东西(标签)循环打印如果级联,在第一次打印的基础上进行再次请求,获取页面,继续访问请求import lxml.etreeimport requests# 获取地址IPSTART_URL= 'http://qianmu.iguye.com/2018USNEWS世界大学排名'#原创 2018-01-05 12:31:10 · 338 阅读 · 0 评论