爬虫
文章平均质量分 74
Obgo_空空
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python使用ffmpeg下载m3u8高清视频
一、安装ffmpeg环境1、下载ffmpegffmpeg下载链接2、解压加入环境变量选择你电脑的版本下载解压把bin目录加入环境变量中3、Python安装ffmpegpip install ffmpy3 -i https://mirrors.aliyun.com/pypi/simple/ 二、使用Python加ffmpeg下载视频from ffmpy3 import FFmpegdef ffmpeg_path(inputs_path, outputs_path): ''原创 2020-05-11 18:45:36 · 3870 阅读 · 5 评论 -
ubuntn安装Python3
一、下载Linux包Python找到相应版本下载带有tar .xz后缀的包解压: tar -xvJf Python-3.7.1.tgz.xz二、安装依赖sudo apt-get updatesudo apt-get upgradesudo apt-get dist-upgradesudo apt-get install libffi-devsudo apt install -...原创 2019-11-20 18:04:39 · 354 阅读 · 0 评论 -
最新反编译小程序教程
一、工具1、note.js note.js2、反编译工具 下载地址2、ER文件管理器(百度)二、使用步骤1、准备一台有root的手机或者模拟器2、下载ER文件管理器4、.在模拟器或者上装上微信,使用微信访问你需要扒下来的小程序5、.然后打开第二步安装的RE管理器,进入 /data/data/com.tencent.mm/MicroMsg/{数字串}/appbrand/pkg...原创 2019-11-01 14:05:01 · 2272 阅读 · 0 评论 -
python调用百度人脸识别对美女进行颜值打分
调用百度人脸识别一、注册百度api先百度开发者开发平台注册应用https://ai.baidu.com/tech/face/detect1、创建应用2、管理应用APP_ID, API_KEY, SECRET_KEY都会用到安装使用Python SDK二、使用Python SDK1、安装SDKpip install baidu-aip2、新建一个AipFace:from ...原创 2019-10-17 10:18:51 · 3321 阅读 · 0 评论 -
FontTools的使用
一、FontTools的安装pip install fontTools二、FontTools的基本操作1、字体读取from fontTools.ttLib import TTFont# 加载字体文件:font = TTFont('maoyan.woff')# 转为xml文件:font.saveXML('maoyan.xml')2、各节点名称:font.keys()fro...原创 2019-09-22 19:59:12 · 13159 阅读 · 1 评论 -
爬虫抓取实时数据
import asyncioimport loggingfrom datetime import datetimefrom aiowebsocket.converses import AioWebSocketasync def startup(uri): async with AioWebSocket(uri) as aws: converse = aws.ma...原创 2019-09-22 19:39:05 · 6765 阅读 · 0 评论 -
python3调用js的库之execjs
1.安装:pip install PyExecJS2.运行环境execjs会自动使用当前电脑上的运行时环境(建议用nodejs,与Phantomjs)execjs.get().name通过运行时环境运行js:default = execjs.get()default.eval("1 + 2")1.例子1:import execjsexecjs.eval("'red ...原创 2019-09-10 14:49:19 · 634 阅读 · 0 评论 -
爬取大众点评评论
在爬取大众点评之前,已经想到会遇到反爬,只是没想到反爬措施这么狠。爬取的关键问题主要是2点:ip被封 网页内容被加密关于ip被封可以使用代理个人代理解决,芝麻代理每天都有免费的代理领取,当然还有很多公开的代理平台免费试用,当然如果你是有钱人家的孩子,可以购买代理。下面开始开始写怎么爬取一、分析我们开始从url开始http://www.dianping.com/shop/1...原创 2019-09-08 09:32:48 · 4301 阅读 · 4 评论 -
爬虫文档
一、爬虫原理1、http协议超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。2、http请求[外链图片转存失败(img-4zvoifu2-1567686176832)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1565832939762...原创 2019-09-05 20:23:18 · 1494 阅读 · 0 评论 -
scrapy连接MongoDB
scrapy连接MongoDBimport pymongoclass TaochePipeline(object): def __init__(self, mongo_uri, mongo_db): self.mongo_uri = mongo_uri self.mongo_db = mongo_db #MongoPipeline(mong...原创 2019-09-05 20:22:36 · 418 阅读 · 0 评论 -
scrapy_redis配置
scrapy_redis配置一、配置spider文件注释start_urls start_urls = ['https://baidu.com']增加redis_keyredis_key = 'taoche:start_urls'spider继承from scrapy_redis.spiders import RedisSpiderclass TcSpider(RedisSpi...原创 2019-09-05 20:22:07 · 295 阅读 · 0 评论 -
scrapy的三种模拟登录
scrapy的三种模拟登录注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态**COOKIES_ENABLED = True 或 # COOKIES_ENABLED = False策略一:直接POST数据(比如需要登陆的账户信息)只要是需要提供post数据的,就可以用这种方法。下面示例里post的数据是账户密码:...原创 2019-09-05 20:21:29 · 307 阅读 · 0 评论 -
scrapy文件下载
scrapy文件下载一、图片下载1、配置settingsITEM_PIPELINES = { #可以是使用框架自带ImagesPipeline下载图片 # 'scrapy.pipelines.images.ImagesPipeline': 300, 'baiduimg.pipelines.PicsDownloadPipeline':300}#设置路劲IMAGES...原创 2019-09-05 20:20:35 · 722 阅读 · 0 评论 -
各种浏览器User-Agent大全,爬虫必备
**这里面有超过50个 user-agent ,包含PC和移动端, 并且可以直接复制粘贴到python代码里.**此方法,是随机其中一个user-agent:# -*-coding:utf-8 -*- import random # 返回一个随机的请求头 headersdef getheaders(): # 各种PC端 user_agent_list_2 = [...原创 2019-07-07 15:28:32 · 1424 阅读 · 0 评论
分享