luli_ya-优快云博客

原创正则表达式（详细版）

正则表达式1.定义正则表达式通常被用来检索、替换那些符合某个模式的文本。2.常见字符1.“.”：匹配除断行外任意一个字符断行不会被匹配当想要匹配含有“.”，小数点的字符的时候，可以选择“\”反斜杠由于“.”代表了匹配任意字符，因此“3-14”也被匹配进去了。解决方法：可以使用“\”反斜杠作为转义符，让“.”不再有匹配任意字符的含义2.匹配数字和字母"\w"“\w”...

2020-02-20 15:11:51 470

原创 python——爬取淘宝网页进行比价

爬取淘宝网页进行商品比价功能描述：目标：获取淘宝搜索页面的信息，提取其中商品名称与价格。理解：淘宝的搜索接口翻页处理网页分析网页分析搜索“来自深渊手办”，第一页网址：“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1...

2020-02-10 22:18:50 1247 1

原创 python——正则表达式

正则表达式定义：用来简洁表达一组字符串的表达式。优势：简洁用途：表达文本类型的特征同时查找或替换一组字符串匹配字符串的全部或部分使用：编译：将符合正则表达式语法的字符串转换成正则表达式特征。正则表达式的语法1.构成：字符和操作符2.常用操作符：实例：正则表达式： P（Y|YT|YTH|YTHO）？N对应字符串：‘PN’、‘PYN’、‘PYTN’、‘PYTHN’、‘...

2020-02-06 15:51:34 772

原创 python——爬取网页排名定向爬虫（6）

定向爬虫定义：定向爬虫可以精准的获取目标站点信息。【实例练习】【中国的大学排名爬取】1 查看网页是否对爬虫有限制1.查看 robots.txt无robots.txt文件说明无爬虫限制2.查看原网页要提取的信息被封装在html内2.程序的结构设计步骤1：从网络上获取大学排名网页内容步骤2：提取网页内容中信息到合适的数据结构（二维数据）步骤3：利用数据结构展示并输出结果...

2020-02-05 13:31:24 711

原创 python——爬取网页（5）

信息标记的三种形式用于理解信息所反馈的含义XML：扩展标记语言，以标签为主来构造标签，表达标签<name>....</name>有内容的标签<img src="china.jpg" size="10" />空标签注释书写形式2.JSON：有类型的键值对，“key”:“value”,...

2020-01-30 16:18:12 375

原创 python——爬取网页BeautifulSoup的三种遍历（4）

Beautiful Soup库的安装【安装】：使用管理员权限打开cmd输入pip install beautifulsoup43.测试Beautiful Soup 库是否安装完成示例网站：https://python123.io/ws/demo.html页面源代码：（1）使用requests库提取网页>>> import requests>>...

2020-01-29 12:44:37 1122

原创 python——爬取网页和实例练习（3）

查看网页robots协议在网页后加上/robots.txt例：https://www.baidu.com/robots.txtUser-agent:表明是哪些爬虫Disallow:表示哪些区域不能被该爬虫进入其中，“*”代表全部并非所有网站都有robost协议【实例练习】【实例1】京东商品页面的爬取>>> import requests>>&gt...

2020-01-28 21:07:38 1845

原创 python——爬取网页（2）

数据检索——request库的最基础requests方法requests.request(method,url,**rwargs)其中，method是请求方式，就是requests库的剩下6个方法，即get,put,patch,pose,delete,head>>> r=requests.request('GET','https://www.baidu.com/')&gt...

2020-01-28 15:06:55 521

原创 python——爬取网页（1）

数据检索1.requests库【安装】用管理员身份运行cmd输入 pip install requests测试requests库是否安装完成用百度网站测试requests库是否安装成功```python>>> import requests #调用requests库>>> r=requests.get("https://www.bai...

2020-01-27 21:09:09 322

luli_ya的博客