大数据
亚信联创大数据平台li
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Running Shark Locally 及可能出现的问题
Shark本地安装 1.下载scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz 2.下载shark and hive压缩包 wget http://spark-project.org/download/s转载 2014-02-25 14:48:44 · 1604 阅读 · 0 评论 -
欢迎使用优快云-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2016-05-02 21:51:35 · 1069 阅读 · 0 评论 -
SQL之函数
一:函数 函数可以理解为一种工具,用于完成定义明确的任务,如平方根、大小字母转换等。 有些函数需要输入参数,有些函数不需要输入参数,但是函数必须具有返回值。 函数分为确定性函数和非确定性函数,确定性函数只需要输入相同的参数,则返回值总是相同的,如abs函数,非确定性函数调用相同的参数,会出现返回值不同的情况,如SQL Serve转载 2014-12-12 22:15:01 · 1217 阅读 · 0 评论 -
Social Network 社交网络分析
一:什么是SNA-社交网络分析社交网络分析的威力何在?我想几个案例来说明。案例1:对一个毫无了解的组织(这个组织可以是一个公司,亦或是一个组织),如果能够拿到这个组织成员之间的信息流动记录(例如通话记录/或邮件记录),那么通过SNA可以分析出谁是这个组织的实际控制者(要知道有必要加上实际二字),谁是这些成员中有影响力的人,那些成员更倾向于聚集在一起。对上述问题的回答可以用来做公关-转载 2014-12-01 13:17:49 · 3514 阅读 · 0 评论 -
阿里云关系型数据库服务RDS
关系型数据库服务(Relational Database Service,简称RDS)是一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。具有多重安全防护措施和完善的性能监控体系,并提供专业的数据库备份、恢复及优化方案,使您能专注于应用开发和业务发展。原创 2014-11-21 15:12:49 · 2260 阅读 · 0 评论 -
apache kafka性能测试命令使用和构建kafka-perf
昨天在公司时,本来想用kafka官方提供的工具做性能测试的。但事与愿违,当我执行官方提供的kafka测试脚本,却报错没有找到ProducerPerformance,后来浏览一些代码文件,才发现没有把perf性能测试程序打包到kafka_2.x.0-0.8.x.x.jar发行版本中。现在来教您如何打包做测试。1.准备工作:安装gradle2.下载kafka源代码kafka转载 2014-11-11 18:29:53 · 6544 阅读 · 0 评论 -
腾讯TDW千台Spark千亿节点对相似度计算
本文将介绍腾讯TDW使用千台规模的Spark集群来对千亿量级的节点对进行相似度计算这个案例,通过实验对比,我们优化后的性能是MapReduce的6倍以上,是GraphX的2倍以上。转载 2014-11-10 09:01:46 · 1668 阅读 · 0 评论 -
TDW开源:腾讯的分布式数据仓库
腾讯分布式数据仓库 ( Tencent distributed Data Warehouse,简称TDW) 是腾讯基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,历经4年多的研发和运营。目前,TDW已经开源。腾讯分布式数据仓库(Tencent distributed Data Warehouse,简称 TDW),是腾讯工程技术事业群数据平台转载 2014-05-23 10:03:11 · 10996 阅读 · 0 评论 -
国外医疗行业大数据应用解决之道
国外医疗行业大数据应用解决之道医疗保健不乏大数据分析应用案例,其中包括减少再住院、更好的药物治疗管理、提高战略规划和防欺诈行为。这些意愿都很好,但关键在于从何开始?大多数医疗数据仍然非结构化的专有的和孤立的——为此创建一个临床数据仓库是一件非常复杂的事情,这让医疗行业CIO常常不能自圆其说。幸运的是,可以从医疗行业大数据实践中来吸取教转载 2014-06-04 18:29:32 · 3516 阅读 · 1 评论 -
DPark安装及相关资料整理
最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。这篇文章主要记录DPark的一些资料及我在安装时的一些问题转载 2014-03-23 21:23:08 · 5135 阅读 · 0 评论 -
Partition深度解析&一致性hash
Hadoop中Partition深度解析 http://www.tuicool.com/articles/uaQVjqm旧版 API 的 Partitioner 解析 Partitioner 的作用是对 Mapper 产生的中间结果进行分片,以便将同一分组的数据交给同一个 Reducer 处理,它直接影响 Reduce 阶段的负载均衡。旧版 API 中 Partitioner 的类图如图所示。它转载 2016-05-02 23:05:07 · 1281 阅读 · 0 评论
分享