
python
�
这个作者很懒,什么都没留下…
展开
-
爬虫urllib使用
爬虫urllib使用request 和parse使用request 和parse使用from urllib import request#例如爬取 百度首页#直接爬取 https://www.baidu.com/ html_obj=request.urlopen("https://www.baidu.com/ ")#然后读取爬取的内容 并以utf-8转码html_content=ht...原创 2018-12-20 19:53:13 · 159 阅读 · 1 评论 -
xpath使用
使用xpath 需要导入lxml 这个包没有装的 可以 pip install lxml我们就以 http://langlang2017.com/ 为例简单介绍一下xpath的使用import requests#从lxml中导入etree 这个就是转化页面from lxml import etree#代理ipproxy = { "HTTP": "113.3.152.88:...原创 2019-01-05 14:40:24 · 318 阅读 · 0 评论 -
requests使用案例 爬取信用中国
信用中国 获取某公司的所有信息不过该网站容易被限制ip而且服务器性能也不好 经常出现各种bug新手要耐心尝试信用中国网址:url = “https://www.creditchina.gov.cn/api/credit_info_search?&templateId=&pageSize=10”需要多层请求爬取代码有点长 但是代码简单 耐心看能看懂写博文时 没有进行精...原创 2019-01-05 14:45:14 · 3528 阅读 · 4 评论 -
bs4的使用
需要安装的,命令窗口: pip install bs4import requestsfrom bs4 import BeautifulSoup# 代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}#伪装头headers = { 'User-Agent': 'Mozi...原创 2019-01-05 15:00:09 · 386 阅读 · 0 评论 -
bs4 爬取招聘信息
今天进行爬取招聘信息网import requestsfrom bs4 import BeautifulSoupproxy = { "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; .原创 2019-01-05 15:02:57 · 361 阅读 · 0 评论 -
selenium登录网页
如何使用selenium登录现在开始码代码from selenium import webdriverfrom lxml import etreeimport timeurl="https://www.douban.com/"# driver=webdriver.PhantomJS(executable_path=r'D:\ysc桌面\Desktop\phantomjs-2.1.1-...原创 2019-01-11 20:28:24 · 950 阅读 · 0 评论 -
selenium爬取B站的弹幕制作词云
B站的弹幕的api是:"https://api.bilibili.com/x/v1/dm/list.so?oid=26495963oid是视频的id这个api用谷歌的开发者工具是看不到内容的,建议都用火狐来 找apifrom selenium import webdriverfrom lxml import etreeimport requests#这个是 B站弹幕爬取url="h...原创 2019-01-11 20:39:27 · 1069 阅读 · 0 评论 -
selenium二或者三层连接爬取
今天的案例以猫眼影院为例:爬取里面各个地区,各地的电影院的所有信息url:https://maoyan.com/cinemasimport requestsfrom lxml import etreefrom selenium import webdriverfrom urllib import request,parseimport timedirver=webdriver....原创 2019-01-11 20:53:22 · 765 阅读 · 2 评论 -
pandas基础使用
pandas基础使用import pandas as pd#打开csv 文件 sep 分隔符一般为,# info_csv = pd.read_csv("info.csv",sep=",",encoding="gbk")#存储csv文件# info_csv.to_csv("123.csv",sep=",")#读取excel# date_excel=pd.read_excel("ab.原创 2019-01-07 19:53:11 · 180 阅读 · 0 评论 -
selenium配合无界面浏览器
抓取必须浏览器打开的页面就要使用到selenium和无界面浏览器才能抓取到页面内容from selenium import webdriverimport timefrom selenium.webdriver.common.keys import Keys#找到路径driver=webdriver.PhantomJS(executable_path=r'D:\ysc桌面\Deskt...原创 2019-01-07 20:28:58 · 1108 阅读 · 2 评论 -
requests二次爬取全国邮编
全国邮编的网址:http://www.ip138.com/post/我们这次是爬取 每一个省里面的所有邮编信息这里要进行二次爬取,才能完全获取完数据.import requests,re#代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}#伪装头信息headers={ ...原创 2019-01-05 14:28:22 · 359 阅读 · 0 评论 -
requests爬取扇贝单词
import requests,reproxy={ "HTTP": "113.3.152.88:8118", "HTTPS": "219.234.5.128:3128",}headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like...原创 2019-01-03 21:47:46 · 536 阅读 · 0 评论 -
urllib制作活字典
简单爬取大型网站的在线翻译from urllib import request,parseimport jsonurl="https://fanyi.baidu.com/sug"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge...原创 2018-12-20 21:06:18 · 123 阅读 · 0 评论 -
urllib使用代理
在网上大型网站找到代理ip地址,我从某个网站获取几个代理ip地址:“HTTP”: “113.3.152.88:8118”,“HTTPS”:“58.210.136.83:52570”,“HTTPS”:“219.234.5.128:3128”,当你们使用的时候可能已经过期 或者别那个啥了!!所以还是自己去找找!#先导入urllib 如果没有这个 请用pip install urllib安...原创 2018-12-21 16:42:23 · 8354 阅读 · 2 评论 -
urllib的异常处理
urllib的异常处理测试话不多说直接上代码import urllib,randomfrom urllib import request#代理列表proxy_list=[ {"HTTP": "113.3.152.88:8118"}, {"HTTPS":"58.210.136.83:52570"}, {"HTTPS":"219.234.5.128:3128"原创 2018-12-21 19:58:18 · 225 阅读 · 0 评论 -
urllib爬取异步加载,动态加密网页
爬取有道翻译有道在线翻译:http://fanyi.youdao.com/如果直接爬取,返回的信息几乎为0!第一步:浏览器上打开我们的开发者工具(F12)第二步:点到network第三步:在翻译处输入 内容接下来我们发现这才是我们提交的网址继续往下看这是我们提交的数据所以真实的url=“http://fanyi.youdao.com/translate_o?smartre...原创 2018-12-21 20:17:41 · 1021 阅读 · 0 评论 -
requests
requests模块爬虫使用今天使用requests,爬取"http://langlang2017.com/立马上代码!#第一步使用代理#都是键值对,而且有HTTP 和HTTPS的代理import requestsproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#伪装请求头h...原创 2018-12-27 22:19:15 · 182 阅读 · 0 评论 -
requests 的session使用
0基础的人也能学会使用哦今天就用人人网登录为例子import requests#爬虫一定要使用代理 防止封IPproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#人人网登录网址login_url="http://www.renren.com/PLogin.do"#帐号密码填写自己的...原创 2018-12-27 22:26:14 · 4120 阅读 · 1 评论 -
urllib爬取电影
豆瓣电影排行榜的网址:https://movie.douban.com/chart找真实的url原创 2018-12-22 11:51:53 · 711 阅读 · 0 评论 -
记录一个 scrapy 使用的bug!!!巨坑巨坑!
scrapy 配合selenium使用的注意问题今天使用scrapy 的中间件对request 进行封装!测试开始是一个网页,完美通过,然后准备大量爬!结果出来bug ,先上代码,或者其他大佬有更好的解决方法!!!!!有的请留言 让我学习一下! 关于这个scrapy框架 以后会上博客写使用详情 !##小项目是这样写:import scrapyfrom ..items import YDo...原创 2018-12-28 20:28:39 · 769 阅读 · 0 评论 -
requests 爬取电影
今天我们就以猫眼为例import requests,re#代理ipproxy={ "HTTP": "113.3.152.88:8118", "HTTPS":"219.234.5.128:3128",}#爬取网址url="https://maoyan.com/board"#伪装头headers={ "User-Agent": "Mo原创 2019-01-03 21:44:56 · 239 阅读 · 0 评论 -
新浪积分爬取数据存进数据库
今天爬取的网站是http://jifen.sina.com.cn/category今天遇到的两个难点是:一、通过xpath爬取img的src的属性结果是另一个图片的连接二、xpath爬取下来的内容存进mysql遇到的问题一边上代码 一边说问题import requestsimport mysql.connectorfrom lxml import etreeimport rando...原创 2019-01-14 20:50:51 · 378 阅读 · 0 评论