
爬虫
文章平均质量分 76
shuzhuang25
弱鸡启程ing
展开
-
用不同方式采集网页链接
要求:通过程序下载www.pku.edu.cn网页,采用不同方法将链接全部采集出【注:仅要带有href,且href的值不能以#开始,不能含有JavaScript/vbscript。】。 1、用字符串处理办法,将所有链接采集出,格式是名称及其对应链接,注:不能依赖BS4; 2、用正则表达式的方法,将所有链接采集出,格式是名称及其对应链接,注:不能依赖BS4; 3、用BS的方法,将所有链接...原创 2018-04-02 16:56:56 · 1405 阅读 · 0 评论 -
用python写爬虫demo
python真的特别适合处理字符串而且python有大量的库,如用来处理网页的requests和 BeautifulSoup 库这次demo是用python爬取网易的股票网站http://quotes.money.163.com/直接上代码,里面的注释很详细。代码在这里:点击打开链接代码:StaticStock.pyimport requests import re from bs4 import...原创 2018-03-19 19:24:05 · 717 阅读 · 0 评论 -
关于爬虫利器 selenium 的bug
最近看了一些selenium的文章,确实感受到了这个工具的强大。然而自己在使用过程中却遇到了比较大的障碍。from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.keys import Keys #p...原创 2018-04-24 22:00:10 · 432 阅读 · 0 评论