
数据分析
文章平均质量分 60
1.数据分析资料
2.数据项目开发
开码牛
专注跨镜电商数据分析
展开
-
数据分析 - 跨境电商爬虫成长记 之 第一篇:python常用爬虫框架与工具
爬虫干货文章打造一个健壮高效的网络爬虫-崔庆才 python爬虫系列版 Python高级—从趟过的坑中聊聊爬虫、反爬、反反爬爬虫常用框架scrapy框架:目前较成熟与常用的爬虫框架 Crawley框架:可以比较高效地攫取互联网对应的内容 Portia框架: 可以可视化地爬取网页的框架 newspaper:用来提取新门卫新闻,文章及内容分析的Python爬虫框架,由第三方开发 pyspider爬虫框架: 能在浏览器界面上进行脚本的编写 Grab爬虫框架:用于构建Web刮板的Pyth原创 2021-07-25 10:07:47 · 1207 阅读 · 0 评论 -
数据分析 - 跨境电商爬虫成长记 之 第三篇:完整的爬虫工作环节有哪些
前言大神 崔庆才《健壮高效的网络爬虫》中爬虫分为 网页爬虫、APP爬虫,又根据网页渲染方式、APP接口又进行了细分,想了解更深入的伙伴们可去参考原著。由于工作的原因,本人搞得更多的是网页爬虫,其实在爬虫圈大多玩的也是网页爬虫;相对APP爬虫而言,网页爬虫的门槛更低,是大部分玩家的练手起点。单线式、扣链式定义根据采集动作不同分为单线式、扣链式爬虫。单线式爬虫,即一次request,其response就是目标数据;扣链式爬虫,特点是要从第1次request返回的response中得到第.原创 2021-07-24 12:12:12 · 1037 阅读 · 0 评论 -
数据分析 - 数据挖掘 之 第二章:数据预处理 - 第五节:数据标准化
若数据来源不同,量纲及量纲单位不同,数据之间则不具备可比性,不利于数据分析,因此需要采用标准化方法消除量纲。 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。数据标准化方法有如下几种:1.min-max标准化新数据=(原数据- min...原创 2021-07-19 22:42:37 · 1151 阅读 · 0 评论 -
数据分析 - 数据挖掘 之 第二章:数据预处理 - 第四节:数据归约
原创 2021-07-18 14:18:30 · 250 阅读 · 0 评论 -
数据分析 - 数据挖掘 之 第二章:数据预处理 - 第三节:数据集成与转换
1.数据集成2.数据转换规范化处理数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析。特别是基于距离的挖掘方法,聚类,KNN,SVM一定要做规范化处理。离散化处理a数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:模型需要:比如决策树、朴素贝叶斯等算...原创 2021-07-18 14:12:31 · 675 阅读 · 1 评论 -
数据分析 - 数据挖掘 之 第二章:数据预处理 - 第二节:数据清洗
原创 2021-07-18 14:06:59 · 261 阅读 · 0 评论 -
数据分析 - 数据挖掘 之 第二章:数据预处理 - 第一节:数据常见问题及处理方法
前言数据分析与数据挖掘都必须事先对原始数据进行清洗,因为原始数据不干净会严重地影响分析或挖掘的结果,所以数据预处理是不可避免的。1.原始数据常见问题2.常用数据预处理方法...原创 2021-07-18 11:27:10 · 1277 阅读 · 0 评论 -
数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第二节:数据挖掘算法
1.数据挖掘算法分类(1)按有无目标变量(2)按分析目的(3)算法汇总2.机器学习算法一览表原创 2021-07-18 10:56:44 · 203 阅读 · 0 评论 -
数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第二节:数据挖掘过程
1.SEMMA数据挖掘过程著名的SAS数据挖掘项目方法论中,将数据挖掘项目整体过程定义为:定义业务问题、系统环境评估、数据准备、挖掘数据SEMMA、模型实施、回顾与评价,其中挖掘数据SEMMA是核心过程,包括抽样Sample、探索Explore、修整Modify、建模Mode以及评估Assess几个阶段,如下图。(1)抽样从数据集中抽取有代表性的样本,样本应该大到不丢失重要的信息,小到能够便于操作。 创建三个数据子集:①训练数据,用于拟合各种模型;②验证数据,用于评估各模型并进行模型...原创 2021-07-18 10:30:49 · 1035 阅读 · 1 评论 -
数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第一节:数据挖掘任务
数据挖掘任务主要有很多种,常见的有分类、聚类、预测等,若按算法可分为两大类:无监督学习、有监督学习。1.分类学习 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有K最近邻居算法(K Nearest Neighbor Algorithm)、决策树算法、贝叶斯分类和支持向量机算法(Support Vector...原创 2021-07-18 09:33:32 · 2688 阅读 · 0 评论 -
数据分析 - 基础原理 之 第三章:数据质量管理 - 第五节:数据质量监控
前言数据质量监控 是容易被忽略的一个重要环节,我刚开始搞数据库时压根也没想到会有这档事,直到频繁出现几次数据“翻车”事故后,才感受到它的重要性与必要性;如果连数据源的状况都不能掌控,那么搞数据分析就像在“危楼”上建房;“凡有数据必有监控”,这是之前我被老板骂过的话,只想说骂的真对。1.数据质量监控流程数据质量监控流程大体有两个环节:监控 与 告警。监控,一般指核查表的数据量 或 表字段的统计值 是否合理;如果不合理就发出告警。2.数据质量监控对象一般是表与表字段,两者的监控点有:原创 2021-07-04 14:19:23 · 3401 阅读 · 2 评论 -
数据分析 - 基础原理 之 第三章:数据质量管理 - 第三节:影响数据质量的因素
待原创 2021-07-04 01:02:50 · 1633 阅读 · 3 评论 -
数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期
前言数据生命周期 网上有许多版本,各行各业的、各类应用场景的;下面是个人认为比较好的两篇介绍,望匆喷,若有推荐请留言,不胜感激。1.数据全生命周期管理模型请参考原创:https://www.zhihu.com/question/393978073特点是包含10多种数据生命周期模型,涉及多个行业或研究主题方向,以下给出其中一版 —一般科学模型。一般科学模型通用科学模型由科学机构提供,用于管理科学数字数据。此模型可用于管理用于存档或处理数据的数据收集方法。通用科学数据模型将...原创 2021-07-04 01:00:10 · 1737 阅读 · 3 评论 -
数据分析 - 基础原理 之 第三章:数据质量管理 - 第一节:数据质量评估
请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA前言数据资产的重要性数据资产是企业或组织拥有或控制,能带来未来经济利益的数据资源。越来越多的企业认识到自身的业务数据是一个有别于其他形式又很重要的企业资产。打理好企业数据资产,可以为企业带来准确及时的决策和有效的行动,为企业的业务分析预测和决策提供有力的支持,让企业在市场中用前瞻性的决策找到的新的盈利点和商业模式,利用数据资产来获取或增强市场竞争优势,给企业带来巨大的回报。数据原创 2021-07-03 23:23:52 · 2307 阅读 · 2 评论 -
数据分析 - 基础原理 之 第二章:数据架构与工具 - 第二节:数据工具体系
著名的数据观察家Matt Turck在他的BLOG(https://mattturck.com/) 里每年发出一张人工智能和大数据产业图,下面给出2019的。原创 2021-07-01 00:27:00 · 287 阅读 · 0 评论 -
数据分析 - 基础原理 之 第二章:数据架构与工具 - 第一节:数据平台逻辑架构
参考 《SAS-数据挖掘的意义与实践》原创 2021-06-30 01:10:29 · 267 阅读 · 0 评论 -
数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第五节:数据分析常见误区
1.数据分析师常犯错误(1)分析目的不明确,为了分析而分析;(2)缺乏行业、公司业务认知,分析结果偏离实际。数据必须和业务结合才有意义。摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解,再根据业务当前的需要,制定发展计划,归类出需要整理的数据。同时,熟悉业务才能看到数据背后隐藏的信息;(3)为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具;(4)数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反...原创 2021-06-30 00:59:01 · 598 阅读 · 0 评论 -
数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第二节:数据分析的目的与意义
目录1.数据分析目的2.数据分析的意义参考:https://zhuanlan.zhihu.com/p/148733240?from_voters_page=true1.数据分析目的(1)数据分析目的1:分类检查未知分类或暂时未知分类的数据,目的是预测数据属于哪个类别或属于哪个类别。使用具有已知分类的相似数据来研究分类规则,然后将这些规则应用于未知分类数据。(2)数据分析目的2:预测预测是指对数字连续变量而不是分类变量的预测。(3)数据分析目的3:关联规则和推荐系统关联原创 2021-06-30 00:33:18 · 893 阅读 · 0 评论 -
数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第四节:数据分析一般流程
数据分析流程较多,常见流程有以下几种:1.数据分析六步曲参考:https://blog.youkuaiyun.com/weixin_33856370/article/details/92220965(1)明确目的和思路梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑性。(2)数据收集一般数据来源于四种方式:数据库、第三方数据统计工具、专业的调研..原创 2021-06-30 00:12:11 · 517 阅读 · 1 评论 -
数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第六节:数据分析能力8个等级与数据分析师3类工作
1.数据分析能力的8个等级参考 《SAS-数据挖掘的意义与实践》2.数据分析师3类工作参考:https://www.zhihu.com/question/25949022/answer/308321005(1)第一类:纯操作类举例: 把本季度和上季度的销售数据做一个对比分析。这类问题是非常典型的60分工作。何为60分工作呢?就是目标、思路、方法和执行过程都已经非常明确,不需要数据分析师做什么分析过程。唯一需要数据分析师做的,只是把对应的数据做成图表,以更好的进行展示。..原创 2021-06-27 00:47:53 · 567 阅读 · 1 评论 -
数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第三节:数据分析基本方法
参考:https://blog.youkuaiyun.com/is_badboy/article/details/104520461数据分析方法论主要是从宏观角度介绍如何进行数据分析,它就像是一个数据分析的前期规划,搭建一个清晰的数据分析框架。那么对于具体的业务场景问题,就要靠具体的分析方法来支撑了,下面小编就介绍几种常用的数据分析思路。1、趋势分析最简单、最常见的数据分析方法,一般用于核心指标的长期跟踪,比如点击率、GMV、活跃用户数。可以看出数据有那些趋势上的变化,有没有周期性,有没有拐点等,继而分..原创 2021-06-26 23:55:06 · 741 阅读 · 0 评论 -
数据分析 - references 之 资源门户link market
1.资源门户2.干货文章知乎:数据分析方法论是什么? Stack OverflowIT技术问答网站原创 2021-06-26 23:22:57 · 162 阅读 · 0 评论 -
数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第一节:分析方法论(2)
参考:https://www.zhihu.com/question/25949022 上篇介绍了 基于营销管理理论 的分析方法,本篇将介绍 基于数理统计学 的分析方法,而该种方法又分成三类:描述性数据分析方法、数理统计分析方法、数据挖掘分析方法。1.描述性数据分析方法 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大...原创 2021-06-26 23:11:56 · 2487 阅读 · 0 评论 -
数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第一节:分析方法论(1)
参考:https://blog.youkuaiyun.com/weixin_42575020/article/details/89913740数据分析的方法论很多,可大致分成两大块:一是基于营销管理经验的方法论,二是基于统计学与机器学习的方法论。基于营销管理经验的方法论中,以下几种比较常见:SWOT、4P、PEST、SMART、5W2H等等1.SWOT分析法SWOT分析法也叫态势分析法,S (strengths)是优势、W (weaknesses)是劣势,O (opportunities)是机会、T原创 2021-06-26 22:03:02 · 758 阅读 · 1 评论 -
数据分析 - 基础原理 之 第三章:数据质量管理 - 第四节:数据核查方法
1.Data Cleaning Method(1)data file general clearning 基本信息:行数、列数 、各列数值类型、sheet页数 异常值:检查各列的值类型及范围,找出异常值,方法:按值排序、按值长度排序 特殊字符:非英语言、单双引号、其他标点符号、表情符号、乱码 处理缺失值:NULL/NAN/None/\N等都转换成空值 重复值:对关键字段/唯一值字段 检查重复值 (2)excel / csv clearning featu原创 2021-06-22 00:45:03 · 1271 阅读 · 0 评论 -
数据分析 - 数据项目 之 第一章:理念与经验 - 第一节:数据理念与规范
1.数据理念(1)没有100%完美的数据体系: 不完美往往是因 现实资源不足、实施方案难度 及 实现成本 等因素 造成的 (2)把数据做得尽善尽美:在有资源、有条件情况下,我们应把数据做得尽善尽美,有句话“做,就要把它做得最好” (3)没有“一招通吃”的方法,但有通用的处理方式,以及更应考虑“业务需求、实际使用场景”的case by case式处理方案 (4)要做好数据先弄懂业务:因不懂业务,数据仅仅只是一堆数字,没有意义,除此也要弄懂数据定义及生成逻辑等2.数据规范准则(1)数据...原创 2021-06-22 00:14:41 · 421 阅读 · 0 评论 -
数据分析 - 数据挖掘 之 第三章:统计学 - 第一节:统计学基础内容
1.数据分布特征(1)集中趋势度量指一组数据向某一中心值靠扰的程度,反映了一组数据中心点的位置。包括 平均数、中位数、(1/4、3/4)四分位数、十分位数、百分位数、众数。平均数、中位数和众数是描述数据集中趋势的 3 个主要统计量,各自优缺点:平均值:易理解较常用,但易受极端值影响,不利于分析严重偏态分布的数据,建议统计平均值前先清除极端值、异常值。 中位数、众数:不受极值影响,当数据为偏态分布且偏斜较大时,可考虑用中位数 或 众数(2)离散程度度量反映各变量值...原创 2021-05-30 16:35:48 · 1453 阅读 · 0 评论 -
数据分析 - 机器学习 之 机器学习python库速查表(待)
1.大神博客转载机器学习和深度学习库速查表https://blog.youkuaiyun.com/zhuguorong11/article/details/72831750/?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-5&spm=1001.2101.3001.42422.机器学习python库速查表待...原创 2021-03-28 00:22:10 · 111 阅读 · 0 评论 -
数据分析 - 机器学习 之 机器学习算法一览表(待)
1.大神博客转载收藏:机器学习27张速查表、13种算法和4种学习方法https://blog.youkuaiyun.com/tkkzc3E6s4Ou4/article/details/78987588?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-8.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFr...原创 2021-03-28 00:18:49 · 139 阅读 · 0 评论 -
数据分析 - 机器学习 之 如何学习及应用机器学习算法(private)
注:以下内容为个人感受 以及 自已为自己制定的学习方案 本人15年接触机器学习,花了一年时间把常用的机器学习算法扫盲了一遍,记得实现工具用的是SAS 及其案例 及相关书籍;后来很快忘记了,因为工作上用不到,16年末及17年初又“翻炒”了一次,至今又忘光得差不多了。这几年学习了不少东西,如oracle、linux、sas ,但都是“今天的学习为了明天的荒废” ,根本原因是没有学以致用,简单点说就是 工作中用不上;所以要学好机器学习算法,关键是工作中用得上。...原创 2021-03-27 22:41:32 · 190 阅读 · 0 评论 -
数据分析 - 数据项目 之 项目实践 - 守好项目输入输出两大关口 (交接物与交付物)
聊聊:程序员命太苦了,既要像牛那样辛勤拉码,又得像牧羊犬那样处处防狼这种锅我背过太多了,但怪我人好太易相信人,也怪自已笨,一直没形成这种“防狼”意识。陈年旧事: 那些年我还在做移动公司的数据支撑项目,大部分需求是由市场人员先提供“目标数据”,如一批手机号码、基站、小区地址等,然后再写代码执行。错就错在没有检查他们给过来的数据,心理上是“理所当然并带有侥幸,他们给过来的东西他们会有...原创 2019-06-22 11:55:23 · 344 阅读 · 0 评论 -
数据分析 - 数据项目 之 项目实践 - 多账号合并类项目总结
目录1.multiple account merge program总结(合并类项目)2.Juvo/Sparkle accounts merge program workflow1.multiple account merge program总结(合并类项目)多账号数据源合并项目,通用采用在表添加account_id字段来标识各账号数据,account_id通过account维表进行维护[1]这类项目涉及点表结构:各账号的数据字段是否一致或差别不大,即是否可合并成一张表 数据入..原创 2020-12-21 22:53:55 · 337 阅读 · 0 评论 -
数据分析 - 数据项目 之 项目实践 - 仿造类项目总结
metadata migration program 总结(仿做类项目)(1)项目描述:用UDS重做一份TW metadata数据,要求与旧数据一样,牢记一点,要求越简洁、水越深(2)项目分析:这种仿造类的数据项目 看似比 初创类的简单,但实则更难,理由有:验收标准非常明确、非常具体:就是旧数据,如果新旧数据哪怕只有一条对不上,可能会全盘被否 字段定义不明、生成逻辑不清楚,那就是个黑匣子,怎么做都是摸瞎 字段定义明确、生成逻辑清楚,也不一定是好事,旧数据是按定义与逻辑来做的吗?若不是,你即使原创 2020-12-21 22:53:33 · 212 阅读 · 0 评论 -
数据分析 - 数据项目 之 第一章:理念与经验 - 第二节:项目思维与经验
目录1.数据理念2.数据规范准则3.经验之谈4.数据项目思维1.数据理念(1)没有100%完美的数据体系: 不完美往往是因 现实资源不足、实施方案难度 及 实现成本 等因素 造成的(2)把数据做得尽善尽美:在有资源、有条件情况下,我们应把数据做得尽善尽美,有句话“做,就要把它做得最好”(3)没有“一招通吃”的方法,但有通用的处理方式,以及更应考虑“业务需求、实际使用场景”的case by case式处理方案(4)要做好数据先弄懂业务:因不懂业务,数据仅仅..原创 2020-12-21 21:54:17 · 325 阅读 · 0 评论 -
数据分析 - 数据项目 之 项目实践 - 数据清洗与ETL工具使用
目录1.Data Clearning Matter2.Null Value & Data Tool3.ETL Tool orders4.NULL在清洗过程的处理1.Data Clearning Matter(1)data file general clearning 基本信息:行数、列数 、各列数值类型、sheet页数 异常值:检查各列的值类型及范围,找出异常值,方法:按值排序、按值长度排序 特殊字符:非英语言、单双引号、其他标点符号、表情符号、乱原创 2020-12-19 23:10:48 · 663 阅读 · 1 评论