
数据挖掘
文章平均质量分 58
O白马非马O
IT菜鸟级民工
展开
-
HIVE学习与实践(三):结合linux shell脚本按日期提取表,count,distinct,group by用法
例子下面的例子create_everyday.sh是在bash 脚本里面嵌入 hive的代码,实现在bash下 直接运行脚本 create_everyday.sh 20110101 20110302原创 2016-11-16 21:10:36 · 896 阅读 · 0 评论 -
SPARK必备概念
RDD (resilient distributed dataset)弹性分布式数据集One stack to rule them all(一个技术堆栈容纳各种数据处理技术) 包括的大数据计算模型:MapReduce、Streaming、SQL、Machine Learning、graph Processing对应的Spark四大子框架:Spark Streaming,Spark SQL,Mlli原创 2017-05-09 17:18:54 · 516 阅读 · 0 评论 -
Spark基本介绍和编译安装
Spark快如闪电的集群计算 是快速和通用的大规模数据处理技术【speed】 执行mr作业程序在内存比hadoop快100倍,磁盘上快10倍 spark有着DAG(有向无环图)执行引擎,支持离散数据流和内存计算【易于使用】 多种语言编写 Java scala python R【Generality】 合成SQL,流计算,复杂分析spark有自己的集群计算技术,扩展了hadoop mr模型原创 2017-05-14 12:12:55 · 439 阅读 · 0 评论 -
Spark SQL中DataFrame API 的解析
collect, collectAsListcountfirstheadshowtakecacheColumnsdtypesexplainisLocalprintSchemaregisterTempTableschematoDFaggapplyasdistinctexceptexplodefiltergroupByintersectjoinlimit原创 2017-05-18 10:58:15 · 878 阅读 · 0 评论 -
SPARK官方实例:两种方法实现随机森林模型(ML/MLlib)
SPARK官方实例,两种方法实现随机森林原创 2017-05-31 17:26:24 · 5611 阅读 · 0 评论 -
卢辉《数据挖掘与数据化运营实战:思路、方法、技巧和应用》第一遍 读书笔记
原书京东链接 [TOC]第一遍(3,4两个月)观后感也不知道我们家宝宝哪里找到这本书的,结果 让我先拿来学习了。 这本书是我转行一来,认认真真从头到尾读的第一本跟数据挖掘相关的书,坦白讲,实用价值要远远高于看《机器学习》、《数据挖掘导论》这种偏学术的书籍; 作者是30岁左右从一名机械专业相关的工作人员转行到数据行业;所以他的很多见解,往往能从高处落点,看行业由来和发展,分析业务需求与痛点,阐述原创 2017-05-01 16:39:18 · 3543 阅读 · 2 评论 -
2017年智能投顾调查报告
2017年 智能投顾原创 2017-03-26 15:52:47 · 1680 阅读 · 0 评论 -
HIVE学习与实践(四):linux shell 脚本 for in 的用法,join 用法,正则表达式函数regexp_extract
linux shell 中 for in#!/bin/sh for date in 20161025 20161027 20161028 20161102 20161103 20161104 20161105doecho "${date}"doneHive 的 join 用法假设有tableA和tableB 两张表,Table A是左边的表,Table B是右边的表。 其各有四条记录,其中原创 2016-12-06 18:06:57 · 1064 阅读 · 0 评论 -
HIVE学习与实践(一):基本命令
Hive学习笔记原创 2016-11-03 18:13:32 · 379 阅读 · 0 评论 -
HIVE学习与实践(二):根据partition建表,插表,where in 语法,concat用法
HIVE学习与实践原创 2016-11-14 21:05:55 · 1418 阅读 · 0 评论 -
SPARK模型实例:两种方法实现随机森林模型(MLlib和ML)
SPARK模型实例,基于HiveSQL,实现随机森林模型的训练和预测原创 2017-06-02 17:34:18 · 4492 阅读 · 1 评论