
爬虫
void1024
这个作者很懒,什么都没留下…
展开
-
Python爬虫——爬去必应壁纸(简化版)
# -*- coding:utf-8 -*-from urllib.parse import urljoinimport requestsimport re# 请求页面文本内容def get_html_page(_url: str): r = requests.get(_url) r.raise_for_status() r.encoding = r.ap...原创 2020-01-11 22:44:44 · 1132 阅读 · 0 评论 -
phantomjs
var args = require('system').args;var fs = require('fs');// 设置编码utf8phantom.outputEncoding = 'utf8';// 初始化var page = new WebPage();// 设置userAgentpage.settings.userAgent = 'Mozilla/5.0 (Windows...原创 2019-12-22 14:06:17 · 209 阅读 · 1 评论 -
Python爬虫:爬取百度关键词联想
# -*- coding:utf-8 -*-from urllib.parse import quoteimport requestsimport platformimport osSYSTEM = platform.system() # 得到系统信息def get_baidu_word(wd): url = 'https://sp0.baidu.com/5a1Fazu8AA...原创 2018-08-28 22:12:42 · 2388 阅读 · 0 评论 -
爬虫实战-爬取豆瓣读书书籍信息
1. 豆瓣读书书籍种类列表在下面这个URL, 我们可以获得所有的种类链接https://book.douban.com/tag/如下图: 可以通过bs4和re库进行筛选, 得到所有图书种类, 结果如下:tag_tree = { "科技": ['科普', '互联网', '编程', '科学', '交互设计', '用户体验', '算法', '科技', 'web', '...原创 2018-11-12 11:13:08 · 4601 阅读 · 0 评论 -
selenium基本使用——样例
# -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_con...原创 2019-07-24 17:27:34 · 312 阅读 · 0 评论 -
Python爬取wfxnews 小说网站,实现批量下载小说
1. 小说网站为https://m.wfxnews.com/2. 分析网页结构下载小说的API如下:https://www.wfxnews.com/modules/article/txtarticle.php?id=112451通过以下网址,可获得书籍信息https://m.wfxnews.com/book/112451.shtml112451为这本小说...原创 2019-07-25 17:19:13 · 1222 阅读 · 0 评论