自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

转载 全栈技术详解1-个人贷款违约预测模型

全栈技术详解1-个人贷款违约预测模型1.1数据介绍1.2业务分析1.3数据理解1.4数据整理1.5建立分析模型教科书中一般提供了建模使用的宽表,我们学习的是建立一个逻辑回归模型作预测。但是当我们面临许多张原始客户或帐户数据表时,很可能手足无措。建模的人都知道构建建模宽表(属于特征工程最重要的部分,但是和机器学习中常提到的变量扩增、变量压缩算法是两码事)是商业数据分析最难、最耗时、最考验数据科学家...

2018-09-25 10:34:08 3427

转载 基于五种机器算法的信用风险评估

基于五种机器算法的信用风险评估(1)数据预处理数据准备数据处理缺失值分析和处理异常值分析和处理变量分析单变量分析变量之间相关性分析基于数据处理的一些简单特征分析基于五种机器算法的信用风险评估是一个系列文章,从互金数据出发,经过数据预处理,特征工程,建立机器学习模型,以及模型评估四个部分来分析建模。文章将按照一般的建模流程来组织:确定业务目标→数据获取→数据检验→变量选择(数据清洗)→变量转化→数...

2018-09-24 23:02:23 1872

转载 Python UDF

Python UDF1.受限环境2.第三方库3.参数与返回值类型4.UDF5.UDAF6.UDTFexplode.py7.引用资源MaxCompute UDF包括UDF、UDAF和UDTF三种函数,本文将重点介绍如何通过Python实现这三种函数。当前国际站版本的MaxCompute暂时不支持Python UDF。1.受限环境MaxCompute UDF的Python版本为2.7,并以沙箱...

2018-09-20 13:50:10 1642

转载 UDF概述

UDF概述UDF 全称为 User Defined Function,即用户自定义函数。MaxCompute 提供很多内建函数来满足您的计算需求,同时您还可以通过创建自定义函数来满足不同的计算需求。UDF 在使用上与普通的 内建函数 类似,Java 和 MaxCompute 的数据类型的对应关系,请参见 参数与返回值类型。如果您使用 Maven,可以从 Maven 库 中搜索 odps-sdk...

2018-09-20 11:46:07 8233

转载 Maxcompute 运行SQL

Maxcompute 运行SQL1.DDL语句2.Insert语句3.Join操作4.Union All5.其他6.SQL优化示例大多数用户对SQL的语法并不陌生,简单地说,MaxCompute SQL就是用于查询和分析MaxCompute中的大规模数据。目前SQL的主要功能如下所示:支持各类运算符。通过DDL语句对表、分区以及视图进行管理。通过Select语句查询表中的记录,通过Whe...

2018-09-18 15:05:15 2544

转载 MaxCompute数据导入导出

MaxCompute数据导入导出1.Tunnel命令导入数据2.MaxCompute Studio导入数据3.Tunnel SDK4.其他导入方式详细介绍请见MaxCompute提供多种数据导入导出方式,如下所示:直接在客户端使用Tunnel命令。通过MaxCompute Studio工具可视化方式实现本地数据文件导入导出,详情请参见导入导出数据。通过Tunnel提供的SDK自行编写Ja...

2018-09-18 11:47:09 5666

原创 MaxCompute创建/查看/删除表

MaxCompute创建/查看/删除表1.创建表2.创建分区3.查看表信息4.删除分区5.删除表6.以上创建/查看/删除表格式具体见网址:1.创建表创建表的场景如下:假设需要创建一张用户表user,包括如下信息:user_id bigint类型:用户标识,唯一标识一个用户。gender bigint类型:性别(0,未知;1,男;2,女)。age bigint:用户年龄。按照Regio...

2018-09-18 11:17:23 3676

转载 ODPS(Open Data Processing Service)简介

ODPS(Open Data Processing Service),是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案,现在已更名为MaxCompute,MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。 同时,大数据开发套件和 MaxCompute关系紧...

2018-09-16 22:57:26 614

转载 Sklearn 与 TensorFlow 机器学习实用指南 —— 第7章 集成学习和随机森林

假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的,如果你合并了一组分类器的预测(像分类或者回归),你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成;因此,这个技术就叫做集成学习,一个集成学习算法就叫做集成方法。例如,你可以训练一组决策树分类器,每一个都在一个随机的训练集上。为了去做预测...

2018-09-07 18:41:53 947

转载 计算机视觉系列-1-任务及标注

做工程第一步,确定任务,标注数据; 下图很好的展示了图像识别的四种任务:1. 图像分类(Image classification) 如图(a), 给定一张输入图像,图像分类的任务是判断该图像属于哪类, 如果是多任务分类, 可以用于分类该图像包含哪个类别。 所以该类任务的标注非常简单, 只需要标注图片的种类即可. 如果是多任务的, 只需要多标注几种图片是否包含某类物品即可;2. 目标检...

2018-09-07 13:44:03 622

转载 数据分析可以做这几件事

作为数据分析,我们可以做这几件事:战略上,推广ROI是否在下降,客户前30/90天LTV是否在减少,是否推广出现问题,我们可以用数据做判断,帮助他们把握整体方向。战术上,我们可以看哪些渠道出现问题,从什么时候出现问题,出现的问题是推广吸引的客户少了还是客户价值低了,客户价值低了低在那些产品的转化。这样一系列的分析,可以帮助运营聚焦问题,找到问题点,思考对策。战斗上,我们可以结合ABtest,分...

2018-09-07 11:14:52 310

转载 这一件月薪30K+的事,我们一起来撮合一下

今天我们来讨论一个,价值月薪30K且可以让人按时下班的美好事情:如何做成一个真正的数据分析项目。为什么做项目有这么美好的前景?因为手上拿一堆项目成果,是成为数据分析部门领导的必备条件。因为有独立项目经验,是在面试的时候脱颖而出重要保证。有项目与无项目的巨大差别在面试或者内部晋升考核的时候,一个同学A说: “这个XX数据产品就是我做的”“我帮助营销部节省成本6500万”“我建立个XX公司...

2018-09-07 11:02:51 187

转载 ## 促销到底行不行?评估双十一,你可参考这个分析思路

双十一是各大商家的狂欢,也是数据分析师们的负担。促销前,要设计报表统计销量库存,最好还是给弄成实时统计的,防止爆仓。促销中,要整实时滚动的数字大屏幕,销量破了X亿光出数据还不行,还得整个H5传播一下。促销后,又得分析效果,检讨得失。从头到尾,一点都不轻松。然而这三步里,最不轻松的就是促销后的分析。因为实时统计难在技术上。技术问题吗,只要堆人堆钱,总是有办法搞掂的。我们又不像阿里那么招摇过市的摆...

2018-09-07 10:26:54 622

转载 用数据分析找到销售成功背后的真正秘密

销售的本质是什么在公司内,各个部门是有分工的: 产品经理们创造富有价值的产品 供应链把产品生产出来,交给市场 市场部包装产品,选择合适渠道,配合广告昭告天下   产品定位、开发、设计、包装、推广都不是销售的职责。 产品到了销售手里就是一份明确的FAB文档,你要找到对应的顾客卖给他,仅此而已。正如同前线的战士不会去研究枪械原理、参数、功能,战士需要的是记忆参数以...

2018-09-07 09:36:02 910 1

转载 # 第一周数据分析师思维学习笔记

第一周数据分析师思维学习笔记一,前言思维缺失—造成“不知道,不确定“(问题发生没?问题在哪里?为什么?不确定对不对?不确定执行结果?不知道老板是否满意给不给加薪?。。。。)要拥有三种核心思维: 1.结构化 2.公式化 3.业务化 数据分析思维7大技巧: 1.象限法 2.多维法 3.假设法...

2018-09-06 22:01:13 296

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除