自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据抓取 --Beautiful Soup库的使用问题(6)使用多个属性寻找到对用的TAG,并提取数据

需求:根据TAG的多个属性,提取下面的 skuname 对应的stock 的数据。方法:'''第一步:识别出,要找的tag 是唯一的tag里面同时包含,属性 type='hidden',promotion_price,member_price。第二步:使用顶 find_all(属性1=某个字符串,属性2=re.compile(''),属性3=re.compi...

2019-08-14 17:08:10 629

原创 数据抓取 --Beautiful Soup库的使用问题(5) - 使用关键字 找到对应的 TAG

需求:根据关键之找到货号的TAG,并爬取数值方法如下:'''第一步:使用正则 :re.compile() 包含关键字 ‘货号’ ''''''第二步:公式 soup.find(tag类型,text =pattern) 备注:用两次,第一次 使用 class_= 定位 ''''''第三部:货号的数据是在下一个 span , 所以直接用 next_s...

2019-08-14 14:42:31 377

原创 数据抓取 --Beautiful Soup库的使用问题(4)使用 TRY EXCEPT 时的踩过的坑!

下面是try和except 的使用的基本逻辑图。(这边不多解释基础知识)这里有个注意点:使用try 和 except 的里面的 ‘’‘新 ’‘’ 定义的列表,元组,字符串 是不共享的。 新的变量在try 和except的语句里面是并列关系的。举例:最底下边是爬取一个网站商品的SKU的库存的部分代码,使用的逻辑是,如果是多尺码,那么选...

2019-08-12 11:30:35 538

原创 数据抓取 --requests库的使用问题 (1) 使用cookie 免密码账户登录

下面是一个需要登陆账户和密码后可以浏览的网站。 那么我们如何,在不需要登陆账户密码的情况下使用requests爬取网页信息呢?http://www.aanngg.com/index.php/Index/Index/category/kuanshi/2/clear/all/navPos/2步骤:STEP1: 使用CHROME登陆账户密码,找到COOKIE。STEP2: 在...

2019-08-07 11:22:34 616

原创 Python-爬虫Fiddler 模块:(2) Fiddler 状态码的含义

Fiddler 状态码的含义如下:

2019-08-05 11:38:14 448

原创 Python-爬虫Fiddler 模块:(1) Fiddler 常见标识符的意思

在使用fiddler的过程中,经常会有疑问,下面红色方框的标识符代表什么含义?下面是常见的标识符的解释

2019-08-05 10:19:56 1349

原创 数据抓取 --Beautiful Soup库的使用问题(3) - 使用find或者find_all的时候 非class 或者 id 的时候定位出现问题。

数据抓取 --Beautiful Soup库的使用问题(2) 使用 find_all,Tag 和 find 基本解决爬虫中的95%以上有难度的需求在爬取数据的时候我们会使用find或者find_all 来定位tag标签的位置。举例:通常使用 class_ 或者 id 都能找到对应的。 # 5.前台价格 retail_price = soup.find(id=...

2019-07-24 23:31:00 930

原创 用SQL语句,删除掉重复项只保留一条

URL的数据出现重复需要,希望之保留一条数据。delete from secoo_sku_info where url in (select * from(SELECT url FROM secoo_sku_info GROUP BY url HAVING COUNT(url)>1) a) and crawl_time not in (select * from(SEL...

2019-07-16 21:14:54 4156

原创 数据抓取 --Beautiful Soup库的使用问题(2) 使用 find_all,Tag 和 find 基本解决爬虫中的95%以上有难度的需求

介绍学习完爬虫后很多小朋友会发现,大部分单一的方法是爬不到想要的数据。必须要混合使用才能解决问题。就如同高考的难题如果只用一种公式和知识点的话,大部分是做不出来的。本人基本使用 find_all,Tag 和 find 基本解决爬虫中的95%以上的需求。剩下的需求,基本用正则也就能解决了。解释下面是爬取某个网站商品信息和库存的完整代码。(顺便说一下,这个网站可以给公司带来300多万的营...

2019-07-07 23:22:43 5284 1

原创 使用selenium+chrome 爬取数据时出现的版本不兼容导致网页打不开或者无法运行

代码如下:from selenium import webdriverimport timechromeOptions = webdriver.ChromeOptions()browser = webdriver.Chrome(options=chromeOptions)browser.get('http://httpbin.org/ip')print(browser.pa...

2019-05-28 15:20:30 11859 4

原创 Python-爬虫requests模块/beautisoup模块

1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text...

2019-05-15 11:40:14 7594

原创 数据抓取 -- 使用代理IP爬取数据:(2):使用timeout 时要注意,防止数据加载不完整 ,导致爬取丢失(举例)

问题:在使用代理IP爬取数据的时候,经常会出现爬取的网址信息不完整的现象。其中有个原因就是timeout设置问题。代码如下:import requestsfrom bs4 import BeautifulSoupimport chardetimport reimport randomimport getIPa_from_rdsfrom datetime import *...

2019-05-10 17:10:45 9387

原创 数据抓取 -- 使用代理IP爬取数据:(1):即便代理IP只有1%的无效的情况下如何保证100%把数据爬取下来/while循环使用即便只有1%成功率的代理IP,也能确保爬下数据

为了防止反爬虫,我们一定会用到代理IP,但是代理IP是不稳定的,经常无效。这样会导致数据爬去失败。这里可以通过while,try,except 语句,制作个循环,确保数据爬取成功。使用下面代码就可以完成:code = 0while code <200: proxies = {'https': random.choice(proxies_list), ...

2019-05-10 10:36:34 8809

原创 数据抓取 --Beautiful Soup库的使用问题(1)-find_all的使用

问题: 在使用正在表达式来定位tags的时候,能不能使用多条件的?答案是可以,而且使用起来很方便,会大大提高工作效率。举例:我现在要爬去寺库的包袋的网页链接数据,网址:http://list.secoo.com/bags/30-0-0-0-0-1-0-0-1-10-0-0.shtml#pageTitle代码如下:import requestsfrom bs4 import B...

2019-05-09 15:44:40 10215

原创 数据可视化 数据可视化看板项目一:(2)搭建组件套- (2)组件套标准化

前篇:数据可视化 数据可视化看板项目一:(2)搭建组件套- (1)基础说明为了方便后期的设计标准化,要对可视化的组件套进行一个设计的标准化。标准化内容:1.组件套的结构和外框结构2.背景和组件的效果3.推荐的看板布局组件套的结构和外框结构对于每个组件套,要进行统一的编号,如上图的SK-001,SK-002。 同时每个组件套的结构款式需要进行标准化,例如SK-...

2019-05-08 18:51:44 11831 1

原创 数据可视化 数据可视化看板项目一:(2)搭建组件套- (1)基础说明

对于一个完整的可视化看板而言,它是有一系列完整的组建套构成,组件又由一系列的组件和数据构成。阿里云DATAV的组件基础介绍对于上面这块看板而言,它实际上有大致9块组件套组成,超过40个组件构成。项目SOP的问题:SOP是一种标准的作业程序。所谓标准,在这里有最优化的概念,即不是随便写出来的操作程序都可以称作SOP,而一定是经过不断实践总结出来的在当前条件下可...

2019-05-06 17:16:07 14752

原创 数据可视化 数据可视化看板项目一:(1)模拟实时数据 -使用MYSQL的事件建立动态模拟数据,每秒更新一次 (3)

模拟实时数据 -使用MYSQL的事件建立动态模拟数据,每秒更新一次 (1)模拟实时数据 -使用MYSQL的事件建立动态模拟数据,每秒更新一次 (2)补充一下上次写的一个不足的地方。在第二篇文章更新中下面的数据动态生成,数据就会不断扩大,大概1个小时候后菜品的数据就会不符合常理。那么客户看到这个模拟数据,就会觉得我们很不专业,连常识数据都会弄错。​ ​​那么我们就需要...

2019-05-05 11:51:09 10977

原创 数据可视化 数据可视化看板项目一:(1)模拟实时数据 -使用MYSQL的事件建立动态模拟数据,每秒更新一次 (2)

接着上一篇博客 :数据可视化 数据可视化看板项目一:(1)模拟实时数据 -使用MYSQL的事件建立动态模拟数据,每秒更新一次 (1)继续往下写更新模拟数据使用数据库事件的方式不断产生新的数据,并在数据库内不断更新。begin/**event body**/update dish_sales set sale_count = sale_count + rand()...

2019-04-28 22:05:47 16422

原创 数据可视化 数据可视化看板项目一:(1)模拟实时数据 -使用MYSQL的事件建立动态模拟数据,每秒更新一次 (1)

需求:市场人员进行数据可视化产品销售公关时,一定会遇到一个问题,就是客户要求进行展示。 但是我们不可能透露其它客户目前的真实实时更新的数据。那么这里就要求,创建模拟的秒级别的数据。方法:1.使用MYSQL的事件方式不断的进行数据的迭代,更新。2.使用Python 不断更新数据库的数据。(这里就不描述了,以后有时间再写)效果如下:(真实的播放效果是不会卡的,比下面酷炫多...

2019-04-28 18:40:05 6958

原创 Python 内置函数 filter()

假设出现异常收到一个10万条类脏数据,类似底下:information = [158804023652,'evan','互联网行业','阿里巴巴',15625445635,15884236525.............]现在我们需要把电话号码提取出来,并且写入到数据库内(其它客户的其它信息可以通过日志和表的关系提取出来。。。此处略 过.....)。这里需要用到一个函数...

2019-04-27 23:13:34 12408

原创 数据库 用Python把数据写入到MySQL数据库/如何使用Python将数据写入到阿里云的RDS-MYSQL

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/weixin_42555401需要解决的问题:1.用Python把数据写入到MySQL数据库?2.用Python将数据写入到阿里云的RDS-MySQL数据库内?3.如何将爬取的数据写入到数据库?4.如何将爬起的代理IP写入到阿里云RDS或者本地Mysql数据库内?实际上这几个...

2019-04-26 23:38:02 16696

原创 商业智能-大数据-后端工作-DATAWORKS(2) 数据集成的步骤和操作/MYSQL 数据离线集成到dataworks(1)

背景:dataworks提供数据离线批量数据同步。在次离线(批量)的数据通道主要通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(称之为 Reader)、数据写入插件(称之为 Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的。数据集成的基本步骤如下:步骤一:点击左上角的LOGO,选择 ‘数据集成’...

2019-04-24 18:11:49 6890 1

原创 PYTHON - while True的用法/while True在账户登陆的应用。

while True 是python中经常会被应用到。下面通过个例子进行解释:下面是阿里云的子账户登陆界面,在输入账户时候会要求,账户名称内必须包含 ’ @ ‘,否者认为是无效账户,并提示要重新输入账户。#方法一:name = input("请输入您的用户名:")if '@'not in name: print('您输入的用户名格式不正确,请重新输入')...

2019-04-24 09:34:10 52559 1

原创 商业智能-大数据-后端工作-DATAWORKS(1)-基础介绍

背景:2018年5月份,刚来公司的时候要求写一份大型的数据报告,大概200多页。那时候公司的BI数据仓库还没搭建完善,而且数据ETL仍然使用的是KETTLE工具,只能支撑T+1的更新。更郁闷的是写个算法,结果跑了8个小时根本无法支撑整个每天产生的GB级别的数据计算量。还有更可怕的是,公司产品分为好几个版本,且放在不同的生产库内,早期的开发很多都离职了且经常是标注不明确,导致大量的脏数据。(还好...

2019-04-22 18:03:22 6123

原创 数据分析 - 哪些产品可以作为引流产品?/如何通过数据快速识别引流产品?(1)

数据分析 - 哪些产品可以作为引流产品?/如何通过数据快速识别引流产品?说明:前段时间,同市场人员和底下产品经理进行需求分析时,提出了一个需求,客户想快速的识别出目前在售的菜品中,哪些可以作为潜在的引流产品。希望能做个菜品分析小模块,帮助客户快速识别出潜在的引流产品。第一个问题:如何判断出哪些产品可以作为引流产品?首先我们先判断出引流具备的属性,一般而言引流产品的基本属性有四种:...

2019-04-21 11:17:10 8039

原创 大数据重新定义‘餐饮行业增长黑客’/怎么用数据驱动餐饮行业到店营销

说明:去年11月份被CEO叫到办公司,要求写一篇关于公司的数据报告,用于‘数据产品和会员产品和相关’的推广使用。得到的反馈是,大部分客户和业务人员看了该文章都觉得不错,而且获得了DT大数据产业创新研究院最佳大数据案例。希望能够和大家一起分享学习,并提出意见。注意:该报告是公司对外报告,数据进行了特殊处理。大数据重新定义‘餐饮行业增长黑客’对于传统的线下餐饮行业而言,除了线上外卖数...

2019-04-18 16:53:38 20952

转载 数据分析-流量分析:用户增长怎么做 - 我在 Uber 和摩拜的实战经验

个人很喜欢 ‘增长黑客‘ 这边书。刚好今天看了一篇思路类似不错的文章,推荐给大家。这篇文章里,我大致整理自己过去在 Uber 增长团队师从 Ed Baker, Andrew Chen 等高手,和在摩拜带业务的经历,尽量避免透露任何商业机密的前提下,讲一下现在行业内的思路。篇幅很长,分成以下四个小节:1. 用户增长(Growth)是什么?2. 爆发期公司怎么做的?(摩拜例子)...

2019-04-12 14:20:47 807

原创 数据库 使用PYCHARM连接到阿里云的RDS-MYSQL

背景介绍随着业务量的逐渐增加,公司的数据库压力也会逐渐增大,使用自己购买的esc创建的mysql的话,还得考虑相应的dba维护,也比较繁琐,说不定还做的并不完美,这时,RDS就派上用场了,事实上,一般稍大的公司都不会在自己的线上ecs上搭建mysql,而是使用RDS云数据库,毕竟这是由阿里云最顶尖的dba团队进行维护的,而且还有自动备份功能,既省去了线上ecs的io消耗,又省去了很多繁琐...

2019-04-10 13:59:03 26648 1

转载 PYTHON RANDOM库的介绍

random库是使用随机数的Python标准库从概率论角度来说,随机数是随机产生的数据(比如抛硬币),但时计算机是不可能产生随机值,真正的随机数也是在特定条件下产生的确定值,只不过这些条件我们没有理解,或者超出了我们的理解范围。计算机不能产生真正的随机数,那么伪随机数也就被称为随机数--伪随机数:计算机中通过采用梅森旋转算法生成的(伪)随机序列元素python中用于生成伪随机数的函数库...

2019-04-04 15:06:22 204

74.03.3729.10 的chromedriver和浏览器.zip

爬虫中会出现chromedriver和浏览器不兼容的问题,这是74版本的,分别覆盖原来的版本就可以解决这个问题了

2019-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除