
爬虫
xinyiatcsdn
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫的xpath基础使用小结
xpath和正则、bs4都属于解析网页源码的方法,一般来说应该bs4最简便、用的最多吧? 这部分可以当个web基础来看 综合百度、部分网上的文章和学到的内容,写个初版本,还有函数什么的老师没讲我也就没看。 关于xpath(太过概念了感觉基本可以跳过直接看代码来理解) XPath=XML路径语言(XML Path Language),是一种用来确定XML文档中某部分位置的语言。 XML文档被作为节点...转载 2019-07-08 00:23:55 · 289 阅读 · 2 评论 -
记录一下pycharm想用xpath遇到的坑们
pycharm导入lxml阶段 在pycharm的setting里面install了lxml,然后代码输入“from lxml import etree”,etree标红,下面也出不来HTML方法。 搜了一下网上各种方案,有说降版本的,有说不用的,各种试都不行。最后受启发决定用pip install一下。 pip install也tm坑 pip install的时候提示我升级,于是我就升了...原创 2019-06-23 23:40:59 · 3881 阅读 · 2 评论 -
基础爬虫框架小结——使用requests库
将前序urllib总结中的各项功能用更简单实用的requests库方法替代 七大方法之1:get() 包含了添加请求头、查看cookies、保存为html或json文件、内网认证、免费代理、ssl证书问题的代码: import requests import random url="https://www.baidu.com" url='https://www.baidu.com/s?wd=美女'...转载 2019-07-04 23:08:08 · 357 阅读 · 0 评论 -
简单总结一下目前学到的基础爬虫框架
基于Python3自带的urllib库 是其他库的基础,但实际都用其他库,更加方便快捷,这里就是个基础知识。 除了展示了一个基本框架,还加入了一点反扒方法。 try excep略 1.添加随机请求头(User-Agent) ——隐藏真实浏览器 获取网址 import urllib.request import random url=" " request=urllib.request.Requ...转载 2019-06-30 01:05:43 · 208 阅读 · 0 评论