
BigData
MarsXDM
专注于机器学习算法研究及应用!同样的数据使用不同的表达方式会极大地影响解决问题的难度,一旦解决了数据表达和特征提取,很多人工智能任务也就解决了90%!
对机器学习如何通过知识、经验以及学会学习、推理、决策感兴趣。
感兴趣的领域有:教育就业、智能供应链与制造研发。
希望技术能够切实的改善人机交互的效率和体验、组织运营效率以及创新技术在新领域落地。
展开
-
Kylin中的Cube构建
Kylin 中的CUBE构建Kylin 中的CUBE构建前言入口介绍BUILD步骤1 计算cuboid文件生成原始数据Create Intermediate Flat Hive Table创建事实表distinct column文件Extract Fact Table Distinct Columns创建维度词典Build Dimension Dictionary计算生成B原创 2018-01-21 22:12:59 · 1327 阅读 · 0 评论 -
PyCharm+PySpark远程调试的环境配置
@ 2018-03-031. 远程Spark集群环境2. 本地PyCharm配置 前言:前两天准备用 Python 在 Spark 上处理量几十G的数据,熟料在利用PyCharm进行PySpark远程调试时掉入深坑,特写此博文以帮助同样深处坑中的bigdata&machine learning fans早日出坑。 Version :Spark 1.5.0...原创 2018-03-03 14:48:02 · 10503 阅读 · 6 评论 -
Hive参数
hive.exec.max.created.files•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.speculative.execution原创 2013-10-18 17:23:06 · 950 阅读 · 0 评论 -
Hive权限控制和超级管理员的实现
Hive权限机制:Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。 先决条件:为了使用Hive的授权机制,有两个参数必须在hive-site.xml中设置: hive.security.authorization.enabled true enabl转载 2014-01-22 13:37:42 · 1292 阅读 · 0 评论 -
NodeManager启动失败--防火墙篇
Hadoop环境CDH4.4今天年后第一天上班(实习中),还过一个月,实习第一份实习合同就到期了~Hadoop集群的虚拟环境看上去太乱,所以就将3个节点(1master + 2Slaves)重启,结果NodeManager启动失败。查看日志,记录错误如下:2014-02-10 18:24:07,635 FATAL org.apache.hadoop.yarn.server.nodema原创 2014-02-10 11:03:15 · 5770 阅读 · 2 评论 -
Hive运行架构及配置部署
Hive 运行架构由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具; 构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库; 设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据: 使用HQL作为查询接口; 使用HDFS作为存储底层;原创 2014-08-12 17:28:27 · 2245 阅读 · 0 评论 -
【Spark1.3官方翻译】Spark集群模式概览
英文标题:Cluster Mode Overview 英文原址:http://spark.apache.org/docs/latest/cluster-overview.html Spark Version:1.3.1(2015-04-17)1, Spark核心组件 Spark应用程序作为一个独立的任务集运行在集群上,由主程序(driver program)中的SparkContext翻译 2015-04-23 15:09:18 · 1088 阅读 · 0 评论 -
【Spark1.3官方翻译】 Spark Submit提交应用程序
英文标题:Submitting Applications英文原址:http://spark.apache.org/docs/latest/submitting-applications.htmlSpark Version:1.3.0 Spark根目录的bin目录下spark-submit脚本用于在集群上启动应用程序,它通过统一接口使用Spark所支持的所有集群管理器,因翻译 2015-04-07 17:30:26 · 4041 阅读 · 0 评论 -
【Spark1.6官方翻译】Spark快速入门
英文标题:Quick Start 英文原址:http://spark.apache.org/docs/latest/quick-start.html Spark Version:1.6.0使用Spark Shell进行交互分析基础使用复杂的RDD操作缓存CachingSpark应用程序深入Spark1. 使用Spark Shell进行交互分析1翻译 2016-01-28 19:45:48 · 2082 阅读 · 0 评论 -
多个 Kylin 服务
多个 Kylin 服务多个 Kylin 服务Kylin Server modes设置多Kylin REST服务1. Kylin Server modesKylin实例是可以无处不在的,其运行时状态保存在$KYLIN_HOME/conf/kylin.properties中所设置的kylin.metadata.url元数据存储当中。出于对负载均衡的考虑,可运行多原创 2016-03-08 17:04:46 · 2475 阅读 · 1 评论 -
Hive与HBase集成实践
@ 2016-05-30具体步骤拷贝jar包在Hive的类路径中添加一些这些jar包Hive集成HBase的原理Storage Handler使用字段映射示例多列和列族Hive的Map字段与HBase列族问题汇总向集成表中插入数据时报错 环境说明 CentOS 6.7 Hadoop 2.7.2 Hive原创 2018-01-24 08:53:38 · 1104 阅读 · 0 评论 -
Hive on Spark配置
@ 2016-05-30修改HIVE_HOMEconfhive-sitexml添加spark-assembly包额外添加几个jar包附 编译spark-assembly包Hive on Spark,基于Spark的Hive,实质上是将Hive默认的计算引擎MapReduce替换成Spark。Hive on Spark的设置相当简单,但是其中也是各种坑~原创 2018-01-22 19:36:21 · 4178 阅读 · 0 评论 -
Apache CarbonData 1.0.0 编译部署 on Mac OS
@ 2017-02-04安装Apache Thrift1 安装Boost2 安装libevent3 编译Apache Thrift编译CarbonData1 Clone CarbonData2 maven源切换3 Build CarbonData在Standalone Spark集群安装和配置CarbonData通过Spark Shell 调用carbondat原创 2018-01-22 19:33:07 · 496 阅读 · 0 评论 -
Hive分区表实战
@2018-03-131. Hive分区表2. 静态分区应用场景1应用场景2应用场景32. 动态分区应用场景1应用场景2应用场景33. 修改分区1. 添加分区2. 重命名3. 交换分区4. 恢复分区5. 删除分区1. Hive分区表Partition和Bucket,为了提升查询效率,前者是粗粒度的划分,后者是细粒度的划分。建表...原创 2018-03-13 12:25:50 · 2115 阅读 · 0 评论