evan心诺在-优快云博客

原创数据抓取 --Beautiful Soup库的使用问题（6）使用多个属性寻找到对用的TAG，并提取数据

需求：根据TAG的多个属性，提取下面的 skuname 对应的stock 的数据。方法：'''第一步：识别出，要找的tag 是唯一的tag里面同时包含，属性 type='hidden'，promotion_price，member_price。第二步：使用顶 find_all(属性1=某个字符串，属性2=re.compile('')，属性3=re.compi...

2019-08-14 17:08:10 629

原创数据抓取 --Beautiful Soup库的使用问题（5） - 使用关键字找到对应的 TAG

需求：根据关键之找到货号的TAG，并爬取数值方法如下：'''第一步：使用正则：re.compile() 包含关键字 ‘货号’ ''''''第二步：公式 soup.find(tag类型，text =pattern) 备注：用两次，第一次使用 class_= 定位 ''''''第三部：货号的数据是在下一个 span ，所以直接用 next_s...

2019-08-14 14:42:31 377

原创数据抓取 --Beautiful Soup库的使用问题（4）使用 TRY EXCEPT 时的踩过的坑！

下面是try和except 的使用的基本逻辑图。（这边不多解释基础知识）这里有个注意点：使用try 和 except 的里面的 ‘’‘新 ’‘’ 定义的列表，元组，字符串是不共享的。新的变量在try 和except的语句里面是并列关系的。举例：最底下边是爬取一个网站商品的SKU的库存的部分代码，使用的逻辑是，如果是多尺码，那么选...

2019-08-12 11:30:35 538

原创数据抓取 --requests库的使用问题 (1) 使用cookie 免密码账户登录

下面是一个需要登陆账户和密码后可以浏览的网站。那么我们如何，在不需要登陆账户密码的情况下使用requests爬取网页信息呢？http://www.aanngg.com/index.php/Index/Index/category/kuanshi/2/clear/all/navPos/2步骤：STEP1: 使用CHROME登陆账户密码，找到COOKIE。STEP2: 在...

2019-08-07 11:22:34 616

原创 Python-爬虫Fiddler 模块：（2） Fiddler 状态码的含义

Fiddler 状态码的含义如下：

2019-08-05 11:38:14 448

原创 Python-爬虫Fiddler 模块：（1） Fiddler 常见标识符的意思

在使用fiddler的过程中，经常会有疑问，下面红色方框的标识符代表什么含义？下面是常见的标识符的解释

2019-08-05 10:19:56 1349

原创数据抓取 --Beautiful Soup库的使用问题（3） - 使用find或者find_all的时候非class 或者 id 的时候定位出现问题。

数据抓取 --Beautiful Soup库的使用问题（2）使用 find_all，Tag 和 find 基本解决爬虫中的95%以上有难度的需求在爬取数据的时候我们会使用find或者find_all 来定位tag标签的位置。举例：通常使用 class_ 或者 id 都能找到对应的。 # 5.前台价格 retail_price = soup.find(id=...

2019-07-24 23:31:00 930

原创用SQL语句,删除掉重复项只保留一条

URL的数据出现重复需要，希望之保留一条数据。delete from secoo_sku_info where url in (select * from(SELECT url FROM secoo_sku_info GROUP BY url HAVING COUNT(url)>1) a) and crawl_time not in (select * from(SEL...

2019-07-16 21:14:54 4156

原创数据抓取 --Beautiful Soup库的使用问题（2）使用 find_all，Tag 和 find 基本解决爬虫中的95%以上有难度的需求

介绍学习完爬虫后很多小朋友会发现，大部分单一的方法是爬不到想要的数据。必须要混合使用才能解决问题。就如同高考的难题如果只用一种公式和知识点的话，大部分是做不出来的。本人基本使用 find_all，Tag 和 find 基本解决爬虫中的95%以上的需求。剩下的需求，基本用正则也就能解决了。解释下面是爬取某个网站商品信息和库存的完整代码。（顺便说一下，这个网站可以给公司带来300多万的营...

2019-07-07 23:22:43 5284 1

原创使用selenium+chrome 爬取数据时出现的版本不兼容导致网页打不开或者无法运行

代码如下：from selenium import webdriverimport timechromeOptions = webdriver.ChromeOptions()browser = webdriver.Chrome(options=chromeOptions)browser.get('http://httpbin.org/ip')print(browser.pa...

2019-05-28 15:20:30 11859 4

原创 Python-爬虫requests模块/beautisoup模块

1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text...

2019-05-15 11:40:14 7594

原创数据抓取 -- 使用代理IP爬取数据：（2）：使用timeout 时要注意，防止数据加载不完整，导致爬取丢失（举例）

问题:在使用代理IP爬取数据的时候，经常会出现爬取的网址信息不完整的现象。其中有个原因就是timeout设置问题。代码如下：import requestsfrom bs4 import BeautifulSoupimport chardetimport reimport randomimport getIPa_from_rdsfrom datetime import *...

2019-05-10 17:10:45 9387

原创数据抓取 -- 使用代理IP爬取数据：（1）：即便代理IP只有1%的无效的情况下如何保证100%把数据爬取下来/while循环使用即便只有1%成功率的代理IP，也能确保爬下数据

为了防止反爬虫，我们一定会用到代理IP，但是代理IP是不稳定的，经常无效。这样会导致数据爬去失败。这里可以通过while，try,except 语句，制作个循环，确保数据爬取成功。使用下面代码就可以完成:code = 0while code <200: proxies = {'https': random.choice(proxies_list), ...

2019-05-10 10:36:34 8809

原创数据抓取 --Beautiful Soup库的使用问题（1）-find_all的使用

问题：在使用正在表达式来定位tags的时候，能不能使用多条件的？答案是可以，而且使用起来很方便，会大大提高工作效率。举例：我现在要爬去寺库的包袋的网页链接数据，网址：http://list.secoo.com/bags/30-0-0-0-0-1-0-0-1-10-0-0.shtml#pageTitle代码如下：import requestsfrom bs4 import B...

2019-05-09 15:44:40 10215

原创数据可视化数据可视化看板项目一：（2）搭建组件套- （2）组件套标准化

前篇：数据可视化数据可视化看板项目一：（2）搭建组件套- （1）基础说明为了方便后期的设计标准化，要对可视化的组件套进行一个设计的标准化。标准化内容：1.组件套的结构和外框结构2.背景和组件的效果3.推荐的看板布局组件套的结构和外框结构对于每个组件套，要进行统一的编号，如上图的SK-001,SK-002。同时每个组件套的结构款式需要进行标准化，例如SK-...

2019-05-08 18:51:44 11831 1

原创数据可视化数据可视化看板项目一：（2）搭建组件套- （1）基础说明

对于一个完整的可视化看板而言，它是有一系列完整的组建套构成，组件又由一系列的组件和数据构成。阿里云DATAV的组件基础介绍对于上面这块看板而言，它实际上有大致9块组件套组成，超过40个组件构成。项目SOP的问题：SOP是一种标准的作业程序。所谓标准，在这里有最优化的概念，即不是随便写出来的操作程序都可以称作SOP，而一定是经过不断实践总结出来的在当前条件下可...

2019-05-06 17:16:07 14752

原创数据可视化数据可视化看板项目一：（1）模拟实时数据 -使用MYSQL的事件建立动态模拟数据，每秒更新一次 (3)

模拟实时数据 -使用MYSQL的事件建立动态模拟数据，每秒更新一次 (1)模拟实时数据 -使用MYSQL的事件建立动态模拟数据，每秒更新一次 (2)补充一下上次写的一个不足的地方。在第二篇文章更新中下面的数据动态生成，数据就会不断扩大，大概1个小时候后菜品的数据就会不符合常理。那么客户看到这个模拟数据，就会觉得我们很不专业，连常识数据都会弄错。那么我们就需要...

2019-05-05 11:51:09 10977

原创数据可视化数据可视化看板项目一：（1）模拟实时数据 -使用MYSQL的事件建立动态模拟数据，每秒更新一次 (2)

接着上一篇博客：数据可视化数据可视化看板项目一：（1）模拟实时数据 -使用MYSQL的事件建立动态模拟数据，每秒更新一次 (1)继续往下写更新模拟数据使用数据库事件的方式不断产生新的数据，并在数据库内不断更新。begin/**event body**/update dish_sales set sale_count = sale_count + rand()...

2019-04-28 22:05:47 16422

原创数据可视化数据可视化看板项目一：（1）模拟实时数据 -使用MYSQL的事件建立动态模拟数据，每秒更新一次 (1)

需求：市场人员进行数据可视化产品销售公关时，一定会遇到一个问题，就是客户要求进行展示。但是我们不可能透露其它客户目前的真实实时更新的数据。那么这里就要求，创建模拟的秒级别的数据。方法：1.使用MYSQL的事件方式不断的进行数据的迭代，更新。2.使用Python 不断更新数据库的数据。（这里就不描述了，以后有时间再写）效果如下：（真实的播放效果是不会卡的，比下面酷炫多...

2019-04-28 18:40:05 6958

原创 Python 内置函数 filter()

假设出现异常收到一个10万条类脏数据，类似底下：information = [158804023652,'evan','互联网行业','阿里巴巴'，15625445635,15884236525.............]现在我们需要把电话号码提取出来，并且写入到数据库内（其它客户的其它信息可以通过日志和表的关系提取出来。。。此处略过.....）。这里需要用到一个函数...

2019-04-27 23:13:34 12408

原创数据库用Python把数据写入到MySQL数据库/如何使用Python将数据写入到阿里云的RDS-MYSQL

2019-04-26 23:38:02 16696

原创商业智能-大数据-后端工作-DATAWORKS(2) 数据集成的步骤和操作/MYSQL 数据离线集成到dataworks(1)

背景：dataworks提供数据离线批量数据同步。在次离线（批量）的数据通道主要通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（称之为 Reader）、数据写入插件（称之为 Writer），并基于此框架设计一套简化版的中间数据传输格式，从而达到任意结构化、半结构化数据源之间数据传输的目的。数据集成的基本步骤如下：步骤一：点击左上角的LOGO，选择 ‘数据集成’...

2019-04-24 18:11:49 6890 1

原创 PYTHON - while True的用法/while True在账户登陆的应用。

while True 是python中经常会被应用到。下面通过个例子进行解释：下面是阿里云的子账户登陆界面，在输入账户时候会要求，账户名称内必须包含 ’ @ ‘，否者认为是无效账户，并提示要重新输入账户。#方法一：name = input("请输入您的用户名：")if '@'not in name: print('您输入的用户名格式不正确，请重新输入')...

2019-04-24 09:34:10 52559 1

原创商业智能-大数据-后端工作-DATAWORKS（1）-基础介绍

背景：2018年5月份，刚来公司的时候要求写一份大型的数据报告，大概200多页。那时候公司的BI数据仓库还没搭建完善，而且数据ETL仍然使用的是KETTLE工具，只能支撑T+1的更新。更郁闷的是写个算法，结果跑了8个小时根本无法支撑整个每天产生的GB级别的数据计算量。还有更可怕的是，公司产品分为好几个版本，且放在不同的生产库内，早期的开发很多都离职了且经常是标注不明确，导致大量的脏数据。（还好...

2019-04-22 18:03:22 6123

原创数据分析 - 哪些产品可以作为引流产品？/如何通过数据快速识别引流产品？（1）

数据分析 - 哪些产品可以作为引流产品？/如何通过数据快速识别引流产品？说明：前段时间，同市场人员和底下产品经理进行需求分析时，提出了一个需求，客户想快速的识别出目前在售的菜品中，哪些可以作为潜在的引流产品。希望能做个菜品分析小模块，帮助客户快速识别出潜在的引流产品。第一个问题：如何判断出哪些产品可以作为引流产品？首先我们先判断出引流具备的属性，一般而言引流产品的基本属性有四种：...

2019-04-21 11:17:10 8039

原创大数据重新定义‘餐饮行业增长黑客’/怎么用数据驱动餐饮行业到店营销

说明：去年11月份被CEO叫到办公司，要求写一篇关于公司的数据报告，用于‘数据产品和会员产品和相关’的推广使用。得到的反馈是，大部分客户和业务人员看了该文章都觉得不错，而且获得了DT大数据产业创新研究院最佳大数据案例。希望能够和大家一起分享学习，并提出意见。注意：该报告是公司对外报告，数据进行了特殊处理。大数据重新定义‘餐饮行业增长黑客’对于传统的线下餐饮行业而言，除了线上外卖数...

2019-04-18 16:53:38 20952

转载数据分析-流量分析：用户增长怎么做 - 我在 Uber 和摩拜的实战经验

个人很喜欢 ‘增长黑客‘ 这边书。刚好今天看了一篇思路类似不错的文章，推荐给大家。这篇文章里，我大致整理自己过去在 Uber 增长团队师从 Ed Baker, Andrew Chen 等高手，和在摩拜带业务的经历，尽量避免透露任何商业机密的前提下，讲一下现在行业内的思路。篇幅很长，分成以下四个小节：1. 用户增长（Growth）是什么？2. 爆发期公司怎么做的？（摩拜例子）...

2019-04-12 14:20:47 807

原创数据库使用PYCHARM连接到阿里云的RDS-MYSQL

背景介绍随着业务量的逐渐增加，公司的数据库压力也会逐渐增大，使用自己购买的esc创建的mysql的话，还得考虑相应的dba维护，也比较繁琐，说不定还做的并不完美，这时，RDS就派上用场了，事实上，一般稍大的公司都不会在自己的线上ecs上搭建mysql，而是使用RDS云数据库，毕竟这是由阿里云最顶尖的dba团队进行维护的，而且还有自动备份功能，既省去了线上ecs的io消耗，又省去了很多繁琐...

2019-04-10 13:59:03 26648 1

转载 PYTHON RANDOM库的介绍

random库是使用随机数的Python标准库从概率论角度来说，随机数是随机产生的数据（比如抛硬币），但时计算机是不可能产生随机值，真正的随机数也是在特定条件下产生的确定值，只不过这些条件我们没有理解，或者超出了我们的理解范围。计算机不能产生真正的随机数，那么伪随机数也就被称为随机数--伪随机数：计算机中通过采用梅森旋转算法生成的（伪）随机序列元素python中用于生成伪随机数的函数库...

2019-04-04 15:06:22 204

weixin_42555401的博客