07H_JH
阿里云高级工程师,专注于大数据与数据库领域
展开
-
Spark-K-Means算法
机器学习算法大体分为三类:监督学习(supervised learning)、无监督学习(unsupervised learning)和半监督学习(semi-supervised learning)。监督学习是指我们利用带有类别属性标注的数据去训练、学习,用于预测未知数据的类别属性。例如,根据用户之前的购物行为去预测用户是否会购买某一商品。常用的算法有决策树,支持向量机SVM,朴素贝叶斯分类器,K-原创 2016-06-20 23:28:54 · 2755 阅读 · 0 评论 -
Spark-zeppelin-大数据可视化分析
官网介绍Multi-purpose NotebookThe Notebook is the place for all your needsData IngestionData DiscoveryData AnalyticsData Visualization & CollaborationMultiple language backend原创 2016-05-26 17:01:34 · 10676 阅读 · 3 评论 -
Kylin介绍
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin是什么? - 可扩展超快OLAP引擎: Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计- Hadoop ANS原创 2016-05-26 16:51:19 · 1528 阅读 · 0 评论 -
Kylin Cube Build and Job Monitoring
Kylin Cube Build and Job MonitoringCube BuildFirst of all, make sure that you have authority of the cube you want to build.In Models page, click the Action drop down button in the right of原创 2016-05-26 16:37:10 · 1259 阅读 · 0 评论 -
Kylin - 分析数据
I. Create a ProjectGo to Query page in top menu bar, then clickManage Projects.Click the + Project button to add a new project.Enter a project name, e.g, “Tutorial”, with a descrip原创 2016-05-26 16:34:48 · 4383 阅读 · 0 评论 -
安装Kylin
EnvironmentKylin requires a properly setup Hadoop environment to run. Following are the minimal request to run Kylin, for more detial, please checkHadoop Environment.It is most common to insta原创 2016-05-26 16:35:49 · 1765 阅读 · 0 评论 -
kylin-BI工具-tableau9
Tableau 9Tableau 9.x has been released a while, there are many users are asking about support this version with Apache Kylin. With updated Kylin ODBC Driver, now user could interactive with Kylin se原创 2016-05-26 16:42:39 · 3738 阅读 · 0 评论 -
Kylin-web上的数据分析
Kylin Web InterfaceSupported BrowsersWindows: Google Chrome, FireFoxMac: Google Chrome, FireFox, Safari1. Access & LoginHost to access: http://hostname:7070Login with username/password原创 2016-05-26 16:40:45 · 2520 阅读 · 0 评论 -
Kylin-百度地图的实践
百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。对于Apache Kylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。Apache Kylin在2014年11月开源,当时,我们团队正需要搭建一套完整的大数据OLAP分析计算平台,用来提供百亿行级数据转载 2016-05-26 16:44:21 · 1963 阅读 · 0 评论 -
Kylin-实践OLAP
OLAP的历史与基本概念 OLAP全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案。典型的OLAP应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等。最早的OLAP查询工具是发布于1970年的Express,然而完整的OLAP概念是在1993年由关系数据库之父EdgarF.Codd 提出,伴随而来的是著名的“twelvelaws of online analyt原创 2016-05-26 16:45:40 · 7284 阅读 · 0 评论 -
Kylin-基本知识
CUBETable - This is definition of hive tables as source of cubes, which must be synced before building cubes.Data Model - This describes a STAR SCHEMA data model, which defines fact/look原创 2016-05-26 16:46:51 · 4696 阅读 · 0 评论 -
Spark-构建基于Spark的推荐引擎
推荐引擎推荐引擎就是是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过 程。从这点上来说,它同样也做预测的搜索引擎互补。但与搜索引擎不同,推荐引擎试图向人 们呈现的相关内容并不一定就是人们所搜索的,其返回的某些结果甚至人们都没听说过。推荐引擎试图对用户与某类物品之间的联系建模。比如上一个博客案 例中,我们使用推荐引擎来告诉用户有哪些电影他们可能会喜欢。如果这点做得很好,就能吸引 用户持续使原创 2016-05-18 23:14:36 · 3523 阅读 · 0 评论 -
Spark-ML-数据获取/处理/准备
获取公开数据集UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类 和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/。 Amazon AWS公开数据集:包含的通常是大型数据集,可通过Amazon S3访问。这些数据 集包括人类 基因组项目 、 Common Crawl 网页语料 库、维基百 科数据和 Google Books原创 2016-05-18 23:04:04 · 5727 阅读 · 0 评论 -
Spark-ML-基于云平台和用户日志的推荐系统
架构:数据收集:spark stareming从Azure Queue收集数据,通过自定义的spark stareming receiver,源源不断的消费流式数据。 数据处理: spark stareming分析用户行为日志数据,通过实时的聚集,统计报表现有的应用的运营信息,,也可以通过离线的训练模型,对实现数据进行预测和标注。 结果输出:hdfs 数据收集用到了这个东西,miner是个j原创 2016-05-16 23:48:54 · 5550 阅读 · 0 评论 -
Spark-再接着上次的Lamda架构
日志分析单机日志分析,适用于小数据量的。(最大10G),awk/grep/sort/join等都是日志分析的利器。 例子: 1、shell得到Nginx日志中访问量最高的前十个IPcat access.log.10 | awk '(a[$1]++) END (for(b in a) print b"\t"a[b])' | sort -k2 -r | head -n 102、python 统计每个原创 2016-05-16 21:42:45 · 4003 阅读 · 6 评论 -
Spark-项目中分析日志的核心代码
代码LogRecord 类:case class LogRecord ( clientIpAddress: String, rfc1413ClientIdentity: String, remoteUser: String, ` dateTime: String, //[day/month/year:原创 2016-05-15 18:59:23 · 3304 阅读 · 0 评论 -
Spark-再次分析Apache访问日志
分析日志的包自己编译下:sbt compilesbt testsbt packageApacheLogParser.jar对于访问日志简单分析grep等利器比较好,但是更复杂的查询就需要Spark了。代码:import com.alvinalexander.accesslogparser._val p = new AccessLogParserval log = sc.textFile("原创 2016-05-15 01:11:58 · 4238 阅读 · 0 评论 -
Spark-Spark Streaming-广告点击的在线黑名单过滤
任务广告点击的在线黑名单过滤 使用 nc -lk 9999 在数据发送端口输入若干数据,比如:1375864674543 Tom1375864674553 Spy1375864674571 Andy1375864688436 Cheater1375864784240 Kelvin1375864853892 Steven1375864979347 John代码import org原创 2016-05-11 12:29:15 · 4109 阅读 · 5 评论 -
Spark-Caching /Checkpointing
功能:cacheing和checkpointing这2种操作是都是用来防止rdd(弹性分布式数据集)每次被引用时被重复计算带来的时间和空间上不必要的损失。区别:Caching cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。有多种级别的持久化策略让开发者选择,使开发者能够对空间和计算成本进行权衡,同时能指定out of memory时对rdd的操作(缓存在内原创 2016-05-11 11:37:45 · 971 阅读 · 0 评论 -
Spark-数据分析可视化Zeppelin
官网介绍Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括Spark, hive, tajo等,原生支持scala, Java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的。安装其他组件都是好安装的,直接mvn install是没问题的。 而且zepp原创 2016-04-26 12:21:21 · 9940 阅读 · 0 评论 -
大数据日志分析logstash\elasticsearch\kibana
elk是指logstash,elasticsearch,kibana三件套,这三件套可以组成日志分析和监控工具注意:关于安装文档,网络上有很多,可以参考,不可以全信,而且三件套各自的版本很多,差别也不一样,需要版本匹配上才能使用。推荐直接使用官网的这一套:elkdownloads。比如我这里下载的一套是logstash 1.4.2 + elasticsearch 1.4.2 + k原创 2016-05-03 10:19:26 · 1362 阅读 · 0 评论 -
Spark-ML-02-设计机器学习系统
机器学习在商业系统应该是用的最多了,和传统人工区分开,因为数据集量级太大和复杂度太高,机器可以发现人难以发现的模型,基于模型的方式处理可以避免人的情感偏见。人工也是不可以完全抛开的,比如监督式的学习,靠人工;来标记数据,训练模型。文本标记和文本的情感标识别,还有就是破解验证码时基于CNN大量的训练集要靠人来处理,也是醉了,那是很累啊。模型出来后,可以做成服务整合到其他系统中, 机器学习应用在:个原创 2016-05-10 23:41:58 · 1373 阅读 · 0 评论 -
Spark-ML-01-小试spark分析离线商品信息
任务一个在线商品购买记录数据集,约40M,格式如下:Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,99完成统计: 1.购买总次数 2.客户总个数 3.总收入 4.最畅销的商品代码import java.util.Collections;import java.原创 2016-05-10 22:32:18 · 1884 阅读 · 0 评论 -
Spark-SparkSql
SparkSql 允许spark执行sql语句,hivesql,scala的描述的基于关系的查询。其实是封装了新的RDD-SchemaRDD,由行对象组成,有一个模式描述每列的数据类型。SchemaRDD与关系型数据库的表很相似,可以通过存在的RDD/Parquet文件/Json文件/用Hive中的数据HiveSql创建。其中相关功能入口是SQLContext()及其子类。 如HiveCon原创 2016-05-09 22:30:05 · 3125 阅读 · 0 评论 -
Spark-RDD API
EnglishThe RDD API By ExampleaggregateThe aggregate function allows the user to apply two different reduce functions to the RDD. The first reduce function is applied within each partition to reduce the原创 2016-05-10 16:55:05 · 2452 阅读 · 0 评论 -
使用Spark框架中文分词统计
技术 Spark+中文分词算法 对爬取的网站文章的关键词进行统计,是进行主题分类,判断相似性的一个基础步骤。例如,一篇文章大量出现“风景”和“酒店”之类的词语,那么这篇文章归类为“旅游”类的概率就比较大。而在关于“美食”的文章中,“餐厅”和“美味”等词语出现的频率一般也会比较大。 分词使用语言云http://www.ltp-cloud.com实现对一段中文先进行分词,然后通过Spar原创 2016-03-25 18:22:07 · 4829 阅读 · 0 评论 -
Scala函数特性
通常情况下,函数的参数是传值参数;即参数的值在它被传递给函数之前被确定。但是,如果我们需要编写一个接收参数不希望马上计算,直到调用函数内的表达式才进行真正的计算的函数。对于这种情况,Scala提供按名称参数调用函数。示例代码如下: 结果: 在代码中,如果定义函数的时候,传入参数不是传入的值,而是传入的参数名称(如代码中使用t: =>原创 2016-04-01 13:51:56 · 1509 阅读 · 3 评论 -
spark-TopK算法
Case: 输入:文本文件 输出: (158,) (28,the) (19,to) (18,Spark) (17,and) (11,Hadoop) (10,##) (8,you) (8,with) (8,for)算法: 首先实现wordcount,topk实现是以wordcount为基础,在分词统计完成后交换key/value,然后调用sortByKey进行排序。jav原创 2016-04-01 13:30:45 · 2452 阅读 · 0 评论 -
spark1.6分布式集群环境搭建
1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMa原创 2016-04-01 13:25:06 · 3191 阅读 · 0 评论 -
Spark-继续RDD
接着上篇博客的rdd的transformation有这么多常用的API: 另一个action也有很多API:原创 2016-04-21 22:41:30 · 642 阅读 · 0 评论 -
Spark-快速上手
快速上手Spark 的交互式 shell( 用 Python 或Scala) 介 绍 它的 API 。当演示如何在 Java, Scala 和 Python 写独立的程序 时 ,看 编 程指南里完整的参考。依照 这 个指南,首先从 Spark 网站下 载 一个 Spark 发 行包。因 为 我 们 不会使用 HDFS ,你可以下 载 任何 Hadoop 版本的包。使用原创 2016-04-21 22:28:15 · 3270 阅读 · 0 评论 -
Spark-rdd的持久化
Spark 最重要的一个功能是它可以通 过 各种操作( operations )持久化(或者 缓 存)一个集合到内存中。当你持久化一个 RDD 的 时 候,每一个 节 点都将参与 计 算的所有分区数据存 储 到内存中,并且 这 些 数据可以被 这 个集合(以及 这 个集合衍生的其他集合)的 动 作( action )重复利用。 这 个能力使后 续 的 动 作速度更快(通常快 10 倍以上)。 对原创 2016-04-21 22:50:19 · 1780 阅读 · 0 评论 -
Spark-spark streaming
概念 关联 初始化streamingcontext 离散流 输入dstream dstream的转化 dstream的输出操作 缓存或者持久化 checkpointing 部署应用程序 监控应用程序性能调优 减少批数据的执行事件 设置正确的批容量 内存调优容错语义原创 2016-04-21 23:02:10 · 687 阅读 · 0 评论 -
Spark-神奇的共享变量
一般情况下,当一个 传递给 Spark 操作 ( 例如 map 和 reduce) 的函数在 远 程 节 点上面 运 行 时 ,Spark 操作 实际 上操作的是 这 个函数所用 变 量的一个独立副本。 这 些 变 量被复制到每台机器上,并且 这 些 变 量在 远 程机器上 的所有更新都不会 传递 回 驱动 程序。通常跨任 务 的 读 写 变 量是低效的,但是, Spark 还 是 为两原创 2016-04-21 22:59:48 · 4217 阅读 · 0 评论 -
Spark实践-日志查询
环境 win 7 jdk 1.7.0_79 (Oracle Corporation) scala version 2.10.5 spark 1.6.1 详细配置: Spark Propertiesspark.app.id local-1461891171126spark.app.name JavaLogQueryspark.driver.host 10.1原创 2016-04-29 18:25:05 · 8193 阅读 · 0 评论 -
Spark-理解RDD
问题 spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。 Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M < N),各自拿一块或原创 2016-04-23 23:40:29 · 3982 阅读 · 0 评论