
python爬虫实战
jia666666
生活本无趣,有趣的是人
展开
-
python爬虫实战之去哪儿机票
目的获取去哪儿默认页面的机票航班信息详细需求目标URL:https://m.flight.qunar.com/h5/flight/源码实现#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : jia666# @Time : 2020/08/26 8:31import requests# 请求头request_head = { "User-Agent": "Mozilla/5.0 (Windows NT 1原创 2020-08-26 09:57:43 · 4285 阅读 · 0 评论 -
python爬虫天猫商品数据及分析(5)
目的对获取的天猫商品-智能手机评价进行数据分析实现一 评价词云#!/usr/bin/env python# -*- coding: utf-8 -*-import timeimport pandas as pd#----------------------------------------------读取数据----------------------------------------------# 读取数据n = '../file/CSV/手机_评价.csv'data原创 2020-08-08 14:43:16 · 1466 阅读 · 0 评论 -
python爬虫天猫商品数据及分析(4)
目的数据导入数据库数据颜色清洗机身颜色分析套餐类型分析实现一 商品评价信息导入mysql#!/usr/bin/env python# -*- coding: utf-8 -*-import reimport pymysql# 连接databaseconn = pymysql.connect( host="127.0.0.1", user="root", password="123456", database="test", charse原创 2020-08-08 14:32:01 · 1485 阅读 · 0 评论 -
python爬虫天猫商品数据及分析(3)
目的获取商品关键词-智能手机的有关评价信息评价信息(网络类型,机身颜色,套餐类型,存储容量,版本类型,评价内容,评价时间)为后面的数据分析提供数据源源码#!/usr/bin/env python# -*- coding: utf-8 -*-import requestsimport refrom pyquery import PyQuery as pqimport timefrom fake_useragent import UserAgent# --------------原创 2020-08-08 14:18:18 · 1365 阅读 · 0 评论 -
python爬虫天猫商品数据及分析(2)
目的对之前所获取的数据源进行数据分析操作数据分析一:商家地区分布图通过读取本地数据源,获取其中省份的相关信息,绘制商家地区分布图,以html格式保存在本地,浏览器打开可随鼠标移动动态显示地区分布商家数量#!/usr/bin/env python# -*- coding: utf-8 -*-"""__title__ = ''__author__ = 'jia666666'"""from pyecharts.charts import Mapimport pyecharts.原创 2020-08-08 14:10:42 · 2197 阅读 · 4 评论 -
python爬虫天猫商品数据及分析(1)
目的获取目标商品的商品数据(店铺名称,店铺链接,商品名,价格,销量,省份)实现程序会自动化控制谷歌浏览器,打开定义的淘宝首页,自动输入定义的关键词,点击搜索按钮注意!!这时,界面会跳转到登陆界面,程序预留20s时间用于淘宝二维码扫码登陆,建议提前准备好扫码操作完成扫码操作后,后续程序会自动点击天猫平台,然后完成不停的翻页操作,直至最后一页结束运行。后台会进行网页信息的解析,从中提取出(店铺名称,店铺链接,商品名,价格,销量,省份)写入本地文件。用于后面的数据分析及可视化操作。#!/usr原创 2020-08-08 13:37:36 · 3701 阅读 · 6 评论 -
Python爬虫实战之招聘网站职位信息
目的完成对目标招聘网站的岗位信息一级分类,二级分类,三级分类的获取.网址boss直聘https://www.zhipin.com/shenzhen/?sid=sem_pz_bdpc_dasou_title58同城https://sz.58.com/job.shtml?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d100000-0000-46df-ce26-33cb2d595bf2&原创 2020-08-08 13:14:45 · 1507 阅读 · 0 评论 -
Python爬虫实战之简单验证码
依赖环境tesseractpytesseract目的简单的验证码识别源码import requestsfrom PIL import Imageimport pytesseract"""简单数字字符验证码识别经测试,识别率较低,不建议使用,如果使用,搭配循环,总会有识别对的。"""# 知乎验证码地址url = "http://my.cnki.net/elibregister/CheckCode.aspx?"response = requests.get(url).c原创 2020-07-29 13:44:57 · 423 阅读 · 0 评论 -
python爬虫之微信文章抓取
模块安装这里涉及到的模块,没有安装的可以自己安装 pip install xxx实现目的通过搜狗搜素相关关键词的微信文章,通过解析,提取相关信息,保存到mongdb数据库中源码import requestsfrom urllib.parse import urlencodefrom requests.exceptions import ConnectionEr...原创 2018-09-03 16:36:12 · 1678 阅读 · 1 评论 -
python爬虫之百度贴吧图片爬取
实现目的对目标贴吧的图片进行爬取,然后下载,保存到程序所在的文件夹源码import urllibimport urllib.requestimport re#目标贴吧的地址url = "http://tieba.baidu.com/p/2460150866"#地址请求与解析page = urllib.request.urlopen(url原创 2018-09-03 17:31:28 · 614 阅读 · 0 评论 -
python爬虫之淘宝美食
运行环境 python:python3.6.5 IDE:pycharm依赖内容: 模块:pyquery,selenium 浏览器:谷歌浏览器 驱动:谷歌驱动,PhantomJS实现内容 实现淘宝的关键字传入后,进行搜索,爬取100页产品内容,写入txt文档 todo 1 界面可视,通过谷歌驱动谷歌浏览器,进行网页的搜索与翻页,进行页面内容...原创 2018-08-31 12:30:36 · 910 阅读 · 1 评论 -
python爬虫之ProxyPool(代理ip地址池的构建)
ProxyPool安装安装Python至少Python3.5以上安装Redis安装好之后将Redis服务开启配置代理池cd proxypool进入proxypool目录,修改settings.py文件PASSWORD为Redis密码,如果为空,则设置为None安装依赖pip3 install -r requirements.txt...原创 2018-08-30 18:30:32 · 8109 阅读 · 0 评论 -
python爬虫之猫眼视频Top100
猫眼视频Top100import requestsimport re,jsonfrom multiprocessing import Pooldef get_one_page(url,head): #异常处理 try: #发送请求 response=requests.get(url,headers=head) #判断网页状...原创 2018-08-28 20:47:18 · 756 阅读 · 0 评论 -
python爬虫之今日头条街拍美图
今日头条街拍美图代码均有注释import re,json,requests,osfrom hashlib import md5from urllib.parse import urlencodefrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupfrom multiprocess...原创 2018-08-28 20:44:07 · 899 阅读 · 0 评论 -
python爬虫之音悦台mv下载(最清晰版)
实现目的输入音悦台当前播放的MV到程序中,即可实现MV的下载 可以直接运行源码import reimport requestsimport urllib.requestdef getHtml(url): page = requests.get(url) html = page.text return htmldef mv(url): #...原创 2018-09-04 20:19:46 · 1721 阅读 · 1 评论 -
python爬虫之英汉互译(爬虫+pyqt5)
简单的爬虫与图形化界面的结合简单的爬虫英汉互译源码import requestsimport jsonurl="http://fanyi.baidu.com/basetrans"query_str=input("请输入要翻译的中文:")data={"qu原创 2018-09-03 18:12:17 · 5382 阅读 · 0 评论 -
python爬虫之帅哥图片爬取
实现目的爬取网页上的帅哥图片…….. 可以直接运行源码import requestsfrom bs4 import BeautifulSoupif __name__ == '__main__': list_url = [] #爬取自定义页数图片链接,最大19 for i in range(1,6): if i==1: ...原创 2018-09-03 17:47:06 · 956 阅读 · 0 评论 -
python爬虫之糗事百科文本笑话
运行环境python:python3.6.5 IDE:pycharm依赖模块request,re实现目的实现从糗事百科网站上爬取所有的文本笑话,以txt的文本保存在程序所在文件夹内 源码可以直接运行源码import requestsimport re#设置UA,模拟浏览器正常访问head={'User-Agent':'Mozilla/5.0 (Win...原创 2018-09-04 16:50:37 · 756 阅读 · 2 评论