- 博客(27)
- 资源 (3)
- 收藏
- 关注
原创 数据分析师/数据产品经理养成记
如何提升数据分析师的修养互联网数据分析师是介于产品运营与数据工程师中间状态的职业,非常有上升价值的职业,普适且具备综合能力。本人工作4年,前2年做的偏技术的数据工程相关工作,近2年数据分析偏多,从技术RD转为偏产品的数据分析师,对于数据分析岗位有些新的认识。同时在互联网大厂里有很多实战项目,在项目中不断迭代自己认知和数据分析能力。不同公司对数据分析师的定义不同,主要负责方向也有差异,但是再怎么不同,一个合格的数据分析师一定是以业务输出为导向、致力于提升用户体验、或停留时长、或DAU、或GMV、或净收..
2021-05-14 10:22:59
419
原创 如何快速在mac上安装jupyter notebook以及Python包管理
1、Mac上安装python3a)、brew search python3b)、brew install python32)安装 anaconda进入官网下载,一路next:https://www.anaconda.com/products/individual#macos3)环境ipython kernelspec listpython3 /Users/liuxu18/opt/anaconda3/share/jupyter/k## 标题ernels/python3conda cre
2020-12-20 11:38:16
880
3
原创 SAS的win10 64位安装过程
win10系统,64位,SAS9.4 安装1、数据源链接: https://pan.baidu.com/s/1YUmWkt2RKsEqfj6P3bam4w 密码: 55i82、使用sid_file里面的sidfile文件SAS94_9B3HNT_70125321_Win_X64_Wrkstn.txt,注意有效时间,系统时间要在有效时间区间内,有效时间查看可以看下sid_file里面信息,比如起始时...
2018-06-10 22:34:36
31793
6
原创 各种激活函数比较
除了下述三种激活函数,还有softmax、elu、softplus、softsign、relu、tanh、sigmoid、hard_sigmoid、linear1、sigmod函数 y值在【0,1】之间;2、tanh函数,y值在【-1,1】之间3、ReLu校正线性单元函数...
2018-06-10 22:02:32
1095
原创 机器学习经验整理
1、开发集与测试集服从同一分布开发集效果好,测试集效果不好,证明算法在开发集上过拟合。2、开发集与测试集分布不同开发集上过拟合;测试集上的数据分布不同,测试集表现的性质更难预测3、确定数据集,建议开发集与测试集数据分布一致4、开发集的数据样本数量能大到区分不同算法性能的提高,一般数据样本数量大于10000;互联网公司开发集数量比较大,因为涉及到指标微小提高影响利润和绩效;开发集不是越大越好,所占总...
2018-06-10 21:33:27
836
转载 windows的tesseract 4安装
Windows环境安装tesseract-ocr 4.00并配置环境变量最近要做文字识别,不让直接用别人的接口,所以只能尝试去用开源的类库。tesseract-ocr是惠普公司开源的一个文字识别项目,通过它可以快速搭建图文识别系统,帮助我们开发出能识别图片的ocr系统。因为Windows环境开发,我也就必须在windows环境安装系统。第一步:下载安装包根据
2018-02-01 18:24:26
1253
原创 DOCKER安装两种方法
Docker利用Linux容器(LXC)虚拟化技术提供一份部署环境。Docker目的是创建可移植,可分发给任何的Docker环境中运行。Docker由于是OpenVZ的作品,对内核有一些要求,不要在14.04版本的Ubuntu仓库中已经可以查找到。 方法一:安装Docker使用apt-get命令:$ apt-get installdocker.io 启动服务和守护进程$
2017-07-30 17:14:35
1249
原创 跨数据库查询
1、若2个数据库在同一台机器上:insert intoDataBase_A..Table1(col1,col2,col3----)selectcol11,col22,col33-- from DataBase_B..Table11若不在同一台机器上,则是本文要讲的内容: ------------------------------------------------------
2017-07-30 17:05:39
874
原创 电商推荐算法应用
一、 电商推荐算法简述目前比较多的电商模式为B2B,B2C,O2O,在本文介绍和需要举例说明的地方都以B2B电商模式为主。电商推荐根据推荐内容不同分为物品推荐、商家推荐;流行的推荐应用主要有三个方面:1)针对用户的浏览、搜索等行为所做的相关推荐;2)根据购物车或物品收藏所做的相似物品推荐;3)根据历史会员购买行为记录,利用推荐机制做邮件推送或会员营销。其中推荐算法主要分
2017-07-30 16:48:22
19296
原创 sqoop将Mysql数据传入Hive中
1、HIve创建表CREATE TABLE`piwik_log_link_visit_action` ( `idlink_va` int(11) unsigned NOT NULLAUTO_INCREMENT, `idsite` int(10) unsigned NOT NULL, `idvisitor` binary(8) NOT NULL, `idvisit`
2017-07-30 16:08:57
555
转载 开源BI
jaspersoft,pentaho, spagoBI and Actuate 来自https://www.zhihu.com/question/21173462> 1. Jaspersoft 是一个基于商业智能的顶级开源软件供应商。包括可视化数据,报表分析一直到 4 月才被 Tibco Software 发布。BI软件套件现在被称作 T
2017-07-30 16:03:06
1459
原创 CRM的主要功能(全)
CRM产品除了占市场份额比较大的老牌CRM SAP、salesforce、微软和zoho,其它的移动CRM,基于saas平台的CRM也逐渐兴起。 在对市场主流CRM进行调研后,考虑了本身的业务需求和总结了CRM的主要功能块,集合了大中小CRM的主要功能和个性化功能。
2017-07-30 14:55:40
2436
原创 主流CRM比较
个人对当前主流CRM产品进行了调研,从地域、形式、功能、收费、适应行业、适用单位、适用用户范围等多个维度进行了比较,用Xmind描述的,在各种CRM产品上备注了主要特点。我本身是在ToB类电商平台工作,对CRM的需求主要考虑满足对渠道客户和最终用户的管理。
2017-07-30 14:15:50
3769
原创 Tableau联动筛选和全局筛选
1、对一个筛选器应用在全局,以及图上的功能块筛选应用在该仪板其它表模块 2、仪表图->添加操作-->选择筛选器 2、如下图所示,如果是所有的筛选都是,源工作表和目标工作表的是该仪板上所有的表,运行操作的方式选择选择,选定内容将会显示所有值。
2017-07-30 13:54:22
24927
转载 什么是数据挖掘 ?(DM 与DW 、OLAP、CRM 的区别)
什么是数据挖掘 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 数据挖掘相关的10个问题 NO.1 Data Min
2016-08-08 17:15:17
1272
原创 Unbuntu上安装R软件
在官网上下载的ubuntu Kylin版本的Linux系统“ubuntukylin-16.04.1-enhanced-amd64“打开Linux系统终端,输入R显示R软件并未安装,提示输入sudo apt-key adv如果在安装系统时有设置个人系统密码,在安装R软件时需要输入安全密码然后显示 Y/N 输入Y同意最后进入安装如果不确定是否安装成功,输入 R会显示安
2016-07-29 11:20:55
421
转载 Python和R语言的区别
数据挖掘技术日趋成熟和复杂,随着互联网发展以及大批海量数据的到来,之前传统的依靠spss、SAS等可视化工具实现数据挖掘建模已经越来越不能满足日常需求,依据美国对数据科学家(data scientist)的要求,想成为一名真正的数据科学家,编程实现算法以及编程实现建模已经是必要条件;目前很多从事数据挖掘工作的人,大多都是出身非计算机专业,本身对编程基础比较低,所以找到一门快速上手而又高效的编程语言
2016-07-27 14:15:36
23901
1
转载 常见聚类算法
将数据库中的对象进行聚类是聚类分析的基本操作,其准则是使属于同一类的个体间距离尽可能小,而不同类个体间距离尽可能大,为了找到效率高、通用性强的聚类方法人们从不同角度提出了近百种聚类方法,典型的有K-means方法、K-medoids方法、CLARANS方法,BIRCH方法等,这些算法适用于特定的问题及用户。本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类方法作了比较分
2016-07-11 16:22:40
669
翻译 SQL日期函数
SQLServer时间日期函数详解,SQLServer,时间日期,1. 当前系统日期、时间 select getdate() 2. dateadd 在向指定日期加上一段时间的基础上,返回新的 datetime 值 例如:向日期加上2天 select dateadd(day,2,'2004-10-15'
2016-05-06 10:16:36
1222
原创 sql查询
select datediff(d,convert(varchar,dateadd(d,-90,'20151001'),112),'20150601')select distinct datediff(MONTH,'1970-01-01',datenum) from #tpidselect month('20150801')select convert(varchar,da
2016-03-04 10:30:30
494
原创 HQL常用句型
HQL常用句型 HQL相比于SQL添加了面向对象思想,包括封装、继承、多态。Select/update/delete…… from …… where …… group by …… having …… order by …… asc/desc from User user where user.age=20; from User user where user.age between 20
2016-01-27 16:08:03
335
转载 Top K问题
在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载率最高的前10首歌等等。 2. 当前解决方案 针对top k类问题,通常比较好的方案是【分治+trie树/hash+小顶堆】,取最大的用小顶堆,取最小的用大顶堆,即先将数据集按照...
2015-12-22 13:38:17
680
转载 大数据面试
数据分析师常见的10道面试题解答_数据分析师 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及
2015-12-22 10:31:25
1454
原创 相关检验
正确性分析:(模型稳定性分析,稳健性分析,收敛性分析,变化趋势分析,极值分析等)有效性分析:误差分析,参数敏感性分析,模型对比检验 有用性分析:关键数据求解,极值点,拐点,变化趋势分析,用数据验证动态模拟。 高效性分析:时空复杂度分析与现有进行比较1、卡方检验 卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比
2015-12-15 10:59:53
1662
转载 神经网络与支持向量机的区别
神经网络与支持向量机的区别在统计学习理论中发展起来的支持向量机(Support Vector Machines, SVM)方法是一种新的通用学习方法,表现出理论和实践上的优势。SVM在非线性分类、函数逼近、模式识别等应用中有非常好的推广能力,摆脱了长期以来形成的从生物仿生学的角度构建学习机器的束缚。此外,基于SVM的快速迭代方法和相关的简化算法也得到发展。与神经网络相比,支持向量机方法具有更坚实的数
2015-12-15 10:36:45
10518
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人