
爬
文章平均质量分 59
爬虫
今天多喝热水
记录自己的个人笔记
展开
-
python爬虫--根据身份证号码获取户籍地、出生年月等信息
python爬虫--根据身份证号码获取户籍地、出生年月等信息一、背景二、代码部分完整代码一、背景工作中偶尔会遇到这样的情况,给你一堆客户身份证号码,然后要你把对应的性别、生日、户籍地等信息弄出来。最常用的方法就是用excel表套公式,这个方式如果用来取性别、生日这些信息的话问题不大,毕竟这些规则还好梳理,但是如果想要弄户籍地(如:广东省 广州市 荔湾区),操作难度极大。首先,你要弄到相应的行政区划代码,如广东省广州市天河区是440106,要注意,这些区划代码因为行政区划的调整,是有很多变化的,而且还是转载 2021-11-19 13:21:37 · 10362 阅读 · 0 评论 -
爬虫中,Requests的基本使用
爬虫中,Requests的基本使用Requests的基本使用Requests_get请求Requests_post请求Requests 代理Requests_cookie登录Requests的基本使用Request官网文档:https://docs.python-requests.org/zh_CN/latest/import requestsurl = 'https://www.baidu.com'res = requests.get(url=url)# 一个类型和六个属性# 它的Re原创 2021-10-12 11:00:02 · 315 阅读 · 0 评论 -
selenium的基本使用
selenium的基本使用初步使用seleniumselenium元素定位selenium获取元素信息selenium的交互初步使用selenium操作谷歌浏览器驱动下载地址:(下载对应版本。版本号大致相同即可,不必完全相同,它是向下兼容的)https://chromedriver.storage.googleapis.com/index.html下载之后解压,得到一个【chromedriver.exe】文件,然后将将它和待执行的py文件放在同一个文件夹下即可,不需要按钮,放着就行。(其实放哪都行,原创 2021-10-07 15:39:59 · 314 阅读 · 0 评论 -
写了玩的。爬淘宝商品信息
写了玩的。爬淘宝商品信息一页页的爬内容解析JSON文件,生成DataFrame和Excel生成一个新的JSON文件(留着备用)技术不到家,没法自动化爬。一页页的爬内容import urllib.requestfrom lxml import etree# page = 1# base_url = 'https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.21814703.2018原创 2021-10-05 00:14:04 · 339 阅读 · 0 评论 -
解析爬取内容
爬取到的内容做解析xpath 解析解析本地文件解析网页下载图片JsonPath 解析解析本地文件解析淘票票覆盖城市BeautifulSoup 解析基本语法爬星巴克菜单(图片和名称)xpath 解析解析本地文件xpath的返回值是一个列表型数据xpath基本语法路径查询 – // :查找所有子孙节点– / :找直接子节点谓词查询– //div[@id]– //div[@id=‘maincontent’]属性查询– //@class模糊查询– //div[cont原创 2021-10-02 23:22:58 · 1782 阅读 · 1 评论 -
爬虫中有关ajax的请求
有关ajax的请求get请求post请求get请求下载豆瓣电影的第一页电影数据,一页有二十个。import urllib.requesturl = 'https://movie.douban.com/j/chart/top_list?type=25&interval_id=100%3A90&action=&start=0&limit=20'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W原创 2021-09-22 19:56:46 · 162 阅读 · 0 评论 -
爬图片的信息
爬图片的信息查看RGB参数(没啥用)查看图片详细信息获取图片信息最终整合查看RGB参数(没啥用)图片的像素可以右击点【属性】,选择【详细信息】就可以看图片的具体信息。我用手机拍的一张照片,发原图到电脑上。用这种方法可以查看拍摄时间,拍摄地经纬度,手机型号等。from skimage import ioimport matplotlib.pyplot as pltimg=io.imread('F:\Vue\img\kool.jpg')print(img.shape)for i in img原创 2021-09-22 18:32:17 · 131 阅读 · 0 评论 -
爬虫的初级知识
爬虫的初级知识request的一些方法下载文件简单的UA反爬get方法汉字变成Unicode(quote方法)urlencode:多个参数的转码post方法简单的post请求获取百度翻译的详细翻译request的一些方法import urllib.request as requrl = 'http://www.baidu.com'# 模拟浏览器向服务器发送请求 res是HTTPResponse类型res = req.urlopen(url)# read方法 read(n)代表返回n个字节#原创 2021-09-22 18:27:44 · 675 阅读 · 0 评论