经验类
sun_com1984
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
工作经历[2006-2013]
·项目经验 时 间 2010年7月至今 项目名称 中国联通APPSTORE应用商店项目运营结算系统 开发工具 iReport报表制作工具及数据库PL/SQL开发 硬件环境 HP-Unix系统 软件环境 项目描述原创 2014-05-08 09:47:37 · 554 阅读 · 0 评论 -
Spark及其生态系统概述
Spark及其生态系统概述 BDAS软件栈示意图:https://amplab.cs.berkeley.edu/software/ 优快云的Spark技术社区:http://spark.youkuaiyun.com/?ref=toolbar_logo原创 2015-06-17 17:21:40 · 1682 阅读 · 0 评论 -
Spark的配置、管理与调优
监控Spark Ganglia监控Spark:http://blog.sina.cn/dpool/blog/s/blog_653889b50101eg4o.html 调优指南 性能调优的参考资料:http://spark-config.readthedocs.org/en/latest/。 淘宝对性能调优官方文档的中文翻译: http://rdc.taobao.org/?p=2034原创 2015-06-17 17:26:04 · 336 阅读 · 0 评论 -
Spark多语言编程
Spark MLlib MLlib依赖的底层组件(第三方库) ☆☆☆ MLlib依赖于BLAS/LAPACK、netlib-java、Breeze、NumPy等。 MLlib数据类型 ☆☆☆ 基本统计 ☆☆☆ 分类与回归 ☆☆☆ "MLlib线性回归源码分析参考资料:http://blog.youkuaiyun.com/yangguo_2011/article/details/33859337原创 2015-06-17 17:30:55 · 405 阅读 · 0 评论 -
Storm知识地图
Storm简介 ☆☆☆☆☆ http://www.cnblogs.com/fxjwind/archive/2013/05/03/3057037.html Storm基本概念 ☆☆☆☆☆ "Topologies,Streams,Spouts,Bolts,Stream groupings,Reliability,Workers,Tasks,Tuples http://storm.apache.or原创 2015-06-17 17:36:20 · 327 阅读 · 0 评论 -
Flume知识地图
概述 https://flume.apache.org/FlumeUserGuide.html RPC客户端及API https://flume.apache.org/FlumeDeveloperGuide.html 客户端API(Thrift、API) 客户端故障转移处理(failover) 客户端负载均衡(LoadBalancing) 嵌入式Flume API(embe原创 2015-06-17 17:51:00 · 336 阅读 · 0 评论 -
Spark Core
Spark的架构概述 Spark内核学习资料: https://github.com/JerryLead/SparkInternals/tree/master/markdown Spark core源码分析: http://www.cnblogs.com/hseagle/category/569175.html http://blog.youkuaiyun.com/pelick/article/原创 2015-06-17 17:23:52 · 356 阅读 · 0 评论 -
Spark SQL与DataFrame
DataFrame 1.3之前版本中的SchemaRDD被更名为DataFrame。DataFrame API本质上是1.3之前版本中的Language-Integrated Relational Queries(领域定义语言DSL)的增强版。 一个用于大规模数据科学的API——DataFrame: http://www.youkuaiyun.com/article/2015-02-17/2823997原创 2015-06-17 17:27:47 · 309 阅读 · 0 评论 -
Facebook推荐系统采用的是流行的协同过滤2
对大规模数据而言,求解过程将会十分耗时。为了降低时间和空间复杂度,一些从随机特征向量开始的迭代式算法被提出。这些迭代式算法渐渐收敛,可以在合理的时间内找到一个最优解。随机梯度下降(Stochastic Gradient Descent, SGD)算法就是其中之一,其已经成功的用于多个问题的求解。SGD基本思路是以随机方式遍历训练集中的数据,并给出每个已知评分的预测评分值。用户和物品特征向量的调整就原创 2015-06-23 10:43:49 · 434 阅读 · 0 评论 -
Spark Streaming
Spark Streaming概述 ☆☆☆ Spark Streaming入门参考资料:http://www.youkuaiyun.com/article/2014-01-27/2818282-Spark-Streaming-big-data 数据源 ☆☆☆ DStream ☆☆☆ Spark Streaming源码分析参考资料:http://blog.youkuaiyun.com/lantian0802/arti原创 2015-06-17 17:29:56 · 410 阅读 · 0 评论 -
Greenplum在Linux系统级的参数配置项
要调整的Linux操作系统能够级参数并不很多,主要是可能影响到Greenplum的打开文件、网络传输性能的参数,主要集中在两个配置文件中。 这些参数调整完成后,需要重新启动系统(建议全部调整完成后启动一次)。 l Greenplum每台Master和Segment主机/etc/sysctl.conf中的下列参数 kernel.shmmax = 500000000 kernel.原创 2014-11-16 16:27:51 · 796 阅读 · 0 评论 -
Linux环境下操作常用技巧
1. 记录Linux系统原创 2014-09-30 10:07:45 · 642 阅读 · 0 评论 -
HIVE入门操作
1 HIVE入门操作 1.1 连接环境 登陆成功显示如下: 输入 quit; 可退出hive环境 1.2 查看数据库 show databases; 1.3 创建数据库 create database mng; 1.4 链接数据库 use mng; 成功显示如下:原创 2014-05-17 17:11:00 · 978 阅读 · 0 评论 -
HDFS写入文件
HDFS提供了hadoop fs命令来管理HDFS上的文件包括cat、cp、df、du、get、ls、rm、mv、chmod等,上传文件的命令如下: ./ hadoop fs –put ~/test.txt/test.txt原创 2014-05-27 09:47:21 · 607 阅读 · 0 评论 -
HADOOP问题收集
一、 当前组网的优势?这样的组网方式出于什么考虑? 1)Zookeeper 问题:为什么组网中是3个节点,不是1、2、4? 原因:zookeeper集群必须是2n+1构成的集群,有n+1台机器即可选主,也就是可以正常对外提供服务。2n+1=3,那么就是2台可以选主。 提供服务2n+1=5,那么就是3台可以选主,提供服务。这里有一个需要注意的地方,三台机器的集群,2台即可选主提供服务;五原创 2014-05-27 10:24:40 · 599 阅读 · 0 评论 -
shell脚本备份案例
#!/bin/sh ###Backup monthly partitioned tables### ########### Environment Delare #################### BACKUP_HOME=. export BACKUP_HOME if [ ${#1} -ne 8 ];then echo "please input backup date,原创 2014-05-27 21:02:37 · 628 阅读 · 0 评论 -
Hadoop及HIVE学习宝典收集
Hive常用命令 https://cwiki.apache.org/confluence/display/Hive/GettingStarted http://richardxu.com/hiveql-common-operations/ http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843448.html hadoop m原创 2014-05-23 17:08:52 · 1009 阅读 · 0 评论 -
清除系统垃圾批处理
@echo off echo 正在清除系统垃圾文件,请稍等...... del /f /s /q %systemdrive%\*.tmp del /f /s /q %systemdrive%\*._mp del /f /s /q %systemdrive%\*.log del /f /s /q %systemdrive%\*.gid del /f /s /q %systemdrive%原创 2014-08-22 08:57:28 · 483 阅读 · 0 评论 -
Facebook推荐系统采用的是流行的协同过滤1
在工作原理方面,Facebook推荐系统采用的是流行的协同过滤(Collaborative filtering,CF)技术。CF技术的基本思路就是根据相同人群所关注事物的评分来预测某个人对该事物的评分或喜爱程度。从数学角度而言,该问题就是根据用户-物品的评分矩阵中已知的值来预测未知的值。其求解过程通常采用矩阵分解(Matrix Factorization, MF)方法。MF方法把用户评分矩阵表达为原创 2015-06-23 10:42:35 · 498 阅读 · 0 评论
分享