
数据采集
文章平均质量分 87
阿泽财商会
作品主页https://mbd.pub/o/m/azcsh,高级人工智能算法训练工程师,人工智能应用工程师,高级工程师,高级信息系统项目管理师,软件设计师,CSM敏捷教练,csdn20周年直播嘉宾,高级健康管理师,会计师。
清华大学出版社《MongoDB游记》数据库教程书作者。专注于人工智能,数据挖掘技术与大数据,云计算与存储等技术的学习与研究。擅长人工智能算法训练,系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。常用开发语言:java、python、c#、perl、sql。
展开
-
python--爬虫--selenium的简介和使用
selenium简介什么是seleniumselenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;selenium爬虫称之为可视原创 2021-12-09 17:31:54 · 4973 阅读 · 0 评论 -
抓取app数据教程–fiddler抓包数据截取-薄荷app为例
转载请注明出处:抓取app数据教程–fiddler抓包数据截取-薄荷app为例准备工具1、手机(安装有想要抓取数据app的iphone或者android)2、fiddler抓包工具安装fiddler工具参考Fiddler介绍和安装以及基本使用3、同一个局域网网络也就是连接同一个wifi环境Fiddler不但能截获各种浏览器发出的HTTP请求, 也可以截获手机发出的HTTP/HTTP...原创 2019-01-13 16:10:47 · 11742 阅读 · 5 评论 -
遇到问题--python--爬虫--urllib的post参数类型错误--传输json格式
情况使用代码def fetch_raw_post_meitu(link, data): proxy_support = urllib.request.ProxyHandler({'https': '192.168.11.195:8888'}) opener = urllib.request.build_opener(proxy_support) urllib.requ...原创 2019-05-27 14:56:57 · 1386 阅读 · 0 评论 -
遇到问题--python--爬虫--urllib的使用协程没有并发的效果
情况方法代码如下:async def get_product_info(): pagelinks=findNoDealedGoodlookProductInfoLinkt(0, 150000) n = 0 for p in pagelinks: try: n=n+1 print("product_info"...原创 2019-05-27 15:25:24 · 711 阅读 · 0 评论 -
python--爬虫--爬虫学习路线指南
目标拥有爬去大规模数据的能力爬虫的作用利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如:知乎:爬取优质答案,为你筛选出各话题下最优质的内容。豆瓣: 优质的电影淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。安居客、链家:抓取房产买卖及租售信息,分析房价变化趋势、做不同区域的房价分析。拉勾网、智联:爬取各类职位信息,分析各行业人才需...原创 2019-07-05 14:50:02 · 9792 阅读 · 10 评论 -
爬虫---如何抓取app的思路和方案
背景2015年,谷歌开始对外部App的内部链接和内容进行抓取,目前已经累计抓取了300多亿个。搜索引擎是内容门户之后的互联网第二次重大技术革命。然而伴随着智能手机的普及,应用软件(APP)取代网页,成为主流的技术。由于APP的内容一度无法被搜索引擎抓取到,人们惊呼,移动互联网将带来一场搜索引擎的生存危机。不过,通过和应用软件开发商的合作,谷歌(微博)已经一定程度上化解了这场危机。日前,谷歌已...原创 2019-07-05 15:05:53 · 20533 阅读 · 6 评论 -
python--爬虫--积累--多图片网站抓取加速方案和调优记录
最近在处理多图片数据网站的抓取案例。对抓取的速度有一定的要求。短时间内需要获取大量的图片。在部署分布式抓取时有很多个因素是需要调优的。1、每次读取数据库mongodb需要处理的记录的条数2、协程的pool大小。同时处理的个数。3、代理ip如何使用4、代理可使用的请求数–部分代理ip有请求数的限制5、代理ip可用时间(60s)还是几分钟6、对方的封锁机制–同一ip密集访问会有被封锁的...原创 2019-07-16 14:27:54 · 2907 阅读 · 4 评论 -
遇到的问题--爬虫--fiddler监听返回304,无法拿到返回数据
现象使用fiddler进行监听时 想要获取的 请求 没有返回数据,状态为304[外链图片转存失败(img-ixg0tqX9-1566888679742)(http://image.525.life/Fs1Th4mH9C5OoKMe7AcC3Y6-ITjb)]原因首先理解一下304的状态,是说 当前客户端中有我们需要的数据的缓存,不再重新获取。如果客户端发送的是一个条件验证(Conditi...原创 2019-08-27 14:53:44 · 3718 阅读 · 0 评论 -
遇到问题--python--爬虫--使用代理ip第二次获取代理ip失败
情况获取代理ip的代码def ferch_proxy_ips(): try: api = "http://dynamic.goubanjia.com/dynamic/get/12323.html?sep=3" response = urllib.request.urlopen(api, timeout=8) the_page = resp...原创 2019-08-27 18:49:14 · 2042 阅读 · 0 评论