
爬虫
Calmness °
UESTC,东北小伙,喜欢前端,实习中
展开
-
小白爬虫 Day2
小白爬虫 Day2爬取单个页面小说信息今日爬取信息网站为纵横中文网,爬取小说的一些基本信息,小说网站页面如下:我们选择小说名称,小说类型和字数这三个信息进行爬取。新增环境pyquery,直接pip install pyquery即可。为什么用pyquery呢,因为简单…1.爬取小说名首先分析网页HTML的结构,在小说名处右键点击检查可以看到网页html代码,如图可以看到每个li标签内的bookname属性就是小说名字,那现在目标就很明确了,爬取所有li的bookname!from py原创 2020-10-29 22:42:00 · 229 阅读 · 0 评论 -
小白爬虫Day 1
小白的爬虫之路1.所需环境1.pycharm2020、python3.7、requests库以上环境安装都比较容易,就不做过多赘述。2.要求python基础语法2.首先爬取网页信息(HTML文本)代码如下:import requestsr = requests.get("https://www.baidu.com")print(r. text)运行后的效果:可以看到网页的HTML代码已经被爬下来了,这就是一个最简单的爬虫。但是当我们把baidu改成zhihu,却发现无法爬取(如.原创 2020-10-27 22:00:15 · 361 阅读 · 2 评论