- 博客(39)
- 收藏
- 关注
原创 欢迎使用优快云-markdown编辑器
python与redis的事1. redis安装1.1 windows下安装下载地址:https://github.com/MSOpenTech/redis/releases。Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘,解压后,将文件夹重新命名为 redis。打开一个 cmd 窗口 使用cd命令切换目
2017-02-21 17:50:45
312
转载 各种距离的实现
1 /* 2 特征向量相似度和距离的计算 3 4 相似度: 5 ·夹角余弦 6 ·相关系数 7 ·Dice 8 ·Jaccard 9 10 距离 11 ·明氏距离 12 ·欧氏距离 13 ·马氏距离 14 ·Jffreys & Matusita 距离 15 ·Mahalanobis 距离,未实现,协方差矩阵 16 ·C
2015-12-31 17:10:34
845
原创 Tez安装整体过程以及各节点的配置
在/etc/profile中修改环境变量如下export JAVA_HOME=/usr/java/jdk1.7.0_55-clouderaexport MAVEN_HOME=/usr/local/apache-maven-3.0.3export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$MAVEN_HOME/bin:$PATHexport CL
2015-12-31 17:06:30
5609
原创 事务的隔离级别
数据库事务的隔离级别有4个,由低到高依次为Read uncommitted、Read committed、Repeatable read、Serializable,这四个级别可以逐个解决脏读、不可重复读、幻读这几类问题。√: 可能出现 ×: 不会出现脏读不可重复读幻读Read uncommitted
2015-12-31 17:04:48
381
转载 Hive优化以及参数配置
Hive优化hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务
2015-04-22 11:43:37
3641
转载 MySQL命令大全
1、连接Mysql格式: mysql -h主机地址 -u用户名 -p用户密码1、连接到本机上的MYSQL。首先打开DOS窗口,然后进入目录mysql\bin,再键入命令mysql -u root -p,回车后提示你输密码.注意用户名前可以有空格也可以没有空格,但是密码前必须没有空格,否则让你重新输入密码。如果刚安装好MYSQL,超级用户root是没有密码的,故直接回车即可进
2015-04-21 16:32:20
357
转载 Hbase 与Oracle比较
Hbase与Oracle比较(列式数据库与行式数据库)分类: Oracle 数据库 Hadoop 2014-10-26 21:17 433人阅读 评论(0)收藏 举报1 主要区别1.1、Hbase适合大量插入同时又有读的情况1.2、 Hbase的瓶颈是硬盘传输速度,Oracle的瓶颈是硬盘寻道时间。 Hbase本质上只有一种操作,就是插入,
2015-03-05 16:25:07
977
转载 SQL ON HADOOP
系统架构Runtime Framework v.s. MPP在SQL on Hadoop系统中,有两种架构,一种是基于某个运行时框架来构建查询引擎,典型案例是Hive;另一种是仿照过去关系数据库的MPP架构。前者现有运行时框架,然后套上SQL层,后者则是从头打造一个一体化的查询引擎。有时我们能听到一种声音,说后者的架构优于前者,至少在性能上。那么是否果真如此?一般来说,对于SQL on
2015-01-29 16:54:23
841
转载 机器学习-协同过滤
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么
2015-01-29 16:27:43
365
转载 Hive数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的
2015-01-27 17:22:50
451
转载 hive优化
一、join优化 Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。 Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个ma
2015-01-21 11:48:09
338
原创 京东金融笔试
1.merge.mapfiles=true;2.merge.mapredfile=false;3.左右外连接的问题left outerright outerfull outerleft4.技术 管理 5.两张表join的时候大表在后小表在前 •hive 0.6 的时候默认认为写在select 后面的是大表,前面的是小表, 或者使用 /*+mapjoin(
2015-01-21 11:47:22
2026
转载 hive函数参考手册
1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。A 所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。
2015-01-21 10:40:46
337
转载 hive 的运算
关系运算 (1)等值比较: = 语法:A = B 操作类型: 所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive> select 1 from dual where 1=1; 1 (2)不等值比较: 语法: A 操作类型: 所有基本类型
2015-01-21 10:08:58
473
原创 Kettle使用
1.新建转换 如图所示2.双击(运行SSH命令)3.Setting中进行如下设置命令为:hadoop fs -rm -r -skipTrash ${oss_hadoop_root_dir}/hive/cm_sector_info_tbl/upload_date=${oss_date_hdfs_rm_seven_days_ago}其中${}为变量名变量名的定义在参数获取七天前
2014-12-17 15:47:19
718
原创 hive权限问题
1.给某个用户授权grant select on database ffcs_cheny to user ffcs_cheny;2.ddlStatement : ( createDatabaseStatement | switchDatabaseStatement | dropDatabaseStatement | createTableStatement | dropTableSta
2014-12-17 15:43:42
1322
转载 学习网站
1.web jsphttp://blog.youkuaiyun.com/chinacsharper/article/details/39855287
2014-12-11 17:29:25
388
原创 数据仓库与BI面试常见题目
一、 数据库1、 Oracle数据库,视图与表的区别?普通视图与物化视图的区别?物化视图的作用?2、 Oracle数据库,有哪几类索引,分别有什么特点?3、 Union与Union All的区别?4、 对游标的理解?游标的分类?使用方法?5、 如何查找和删除表中的重复数据?给出方法或SQL。6、 不借助第三方工具,怎么查看SQL的执行计划?7、 创建索引有哪些需要注意的
2014-11-23 17:01:45
28695
转载 阿里巴巴java研发成功笔面试总结
没想到这么快就拿到了一个offer了,放佛做梦一般。谢师兄经常教育我们要学会分享,所以我决定写点什么给大家,也为自己攒点rp吧。【实习碰壁】上个学期末我就开始投简历了,那时候是为了找一份暑期实习做做。我投了4家公司,但是都被鄙视了,不是面试挂了,就是至少要求实习6个月,有的甚至连笔试机会都不给我。当时心里相当得失落。实验室的博士gg安慰我,说还是利用暑假好好看看书,好好巩固下基
2014-11-07 23:34:15
645
转载 hadoop 执行Wordcount详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;
2014-11-04 15:48:41
1477
转载 INFO ipc.Client: Retrying connect to server: dn79/10.10.10.79:18080
Connection RefusedYou get a ConnectionRefused Exception when there is a machine at the address specified, but there is no program listening on the specific TCP port the client is using -and th
2014-11-04 15:45:29
715
转载 三方协议
1、 三方协议是由毕业生、用人单位和学校三方之间就学生就业方向签订的一种协议,由三方共同签署后生效。对签约的三方都有约束力。毕业生与用人单位经过双向选 择达成就业意向后,必须签订学校统一发放的《高校毕业生、毕业研究生就业协议书》,毕业生与用人单位签订的其它就业协议书无效。2、就业协议在毕业生到单位报到、用人单位正式接收后自行终止。就业协议是明确毕业生、用人单位、学校三方在毕业生就业工作中的权利
2014-10-28 15:53:00
655
转载 毕业证、报到证、档案、户口、三方协议
千万不要以为毕业领了证书就万事大吉了。你还有很多事情要做。千万不要因为自己的疏忽,给以后带来不必要的麻烦。一生也许就毕业这么一回,大家还是认真点好。一、毕业证、学位证要复印两份收好了,那可是你四年青春换来的两个证书(最好是能扫描个电子版存在网络上备份)。先不说含金量如何,要是真弄丢了还真补办不了,只能给你开个证明,所以你还是不要大意。师范生还有一个教师资格证,全国通用的。二、报到证
2014-10-28 15:09:32
1120
转载 Linux权限问题
第一位表示文件类型。d是目录文件,l是链接文件,-是普通文件,p是管道 第2-4位表示这个文件的属主拥有的权限,r是读,w是写,x是执行。第5-7位表示和这个文件属主所在同一个组的用户所具有的权限。第8-10位表示其他用户所具有的权限。 如: drwxr-xr-x user1 group1 filename 表示filename是个目录,user1拥有读写执行的权限,和user
2014-10-23 09:40:30
361
转载 Hadoop+Mysql+hive安装步骤
Hadoop+Hive+Mysql安装文档 软件版本redhat enterprise server5.564Hadoop1.0.0Hive0.8.1Mysql5Jdk1.6整体构架
2014-10-23 09:31:35
1003
原创 错误(28,9): PLS-00201: 必须声明标识符 'PKG_IFACE_FOR_FLOW'
出错原因是没有权限给该用户进行授权grant execute on PKG_IFACE_FOR_FLOW to XMOMS_MAIN;
2014-10-17 16:02:32
1396
原创 Oracle 触发器调用包中的存储过程
create or replace TRIGGER GPM_NODEINSTANCE_TRG AFTER INSERT OR UPDATE OF STATUS ON GPM_NODEINSTANCE_TBL FOR EACH ROW DECLARE P_STATUS NUMBER; P_BUST_ID NUMBER;BEGIN --新增 IF i
2014-10-17 15:54:03
976
原创 Hadoop shell 命令
1.查看目录hadoop fs -ls 查看目录(/等效于hdfs://hadoop0:9000/)hadoop fs -lsr 递归查看目录2创建文件夹hadoop fs mkdir /sfx3.上传文件,本地到hdfshadoop fs -put /root/data.log /d1本地目录 hdfs目录(当hdfs的目录不存在,则默认为上传的文件名)如果没
2014-10-16 09:56:58
403
转载 Hive函数大全
目录一、关系运算: 41. 等值比较: = 42. 不等值比较: 43. 小于比较: 44. 小于等于比较: 45. 大于比较: > 56. 大于等于比较: >= 57. 空值判断: IS NULL 58. 非空判断: IS NOT NULL 69. LIKE比较: LIKE 610. JAVA的LIKE操作: RLIKE 611. REG
2014-10-16 09:54:54
483
原创 Hbase 创建,插入,查询
1.gang创建表create ‘user’,’info’表名为user,有一个列族为info2.查看表describe user3.插入数据put ‘user’,’1’,’info:age’,’20’put ‘user’,’1’,’info:name’,’zhangsan’4.浏览表scan ‘user’5.查看所有表List6.修改表查看状态
2014-10-16 09:54:25
960
转载 Hive函数大全(二)
字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7字符串反转函数:reverse语法: reverse(string A)返回值: string说明:
2014-10-16 09:52:55
3718
转载 Hive自定义函数
第一部分:产生背景 产生背景 •为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括: •文件格式:Text File,Sequence File •内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text •用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdo
2014-10-16 09:45:28
598
原创 Hive编程指南
第一二章、基本操作1.set命令会打印出命名空间,hivevar、hiveconf、system、env所有的变量。还可以给变量附新的值。2.Hive中‘一次使用命令’将结果保存起来[ffcs@nn71 bin]$ hive -S -e "select * from emp" > /home/ffcs/hive-0.13.0-bin/examples/files/mydat
2014-10-16 09:43:38
965
原创 Hive的数据导入导出,插入,加载
简介用户接口,包括 CLI,JDBC/ODBC,WebUI元数据存储,通常是存储在关系数据库如 mysql, derby 中解释器、编译器、优化器、执行器Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算 l 用户接口主要有三个:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用
2014-10-16 09:40:42
1249
转载 删除表中重复记录
方法一、delete from 表名 a where a.rowid != ( select max(b.rowid) from 表名 b where a.字段1 = b.字段1 and a.字段2 = b.字段2 )方法二、delete from 表名 a where 字段1,字段2 in (select 字段1,字段2,count(*) from 表名 group by 字段1,字段
2014-10-16 09:25:09
364
原创 网易2015校园招聘笔试题
15道单选 5道多选 11道简答单选做的不错,多选错的比较多,简答做的不错一、单选数据库的基本查询,概念以及MYSQL的一些概念二、多选1.http://blog.youkuaiyun.com/ocean1010/article/details/6548771 事务的详解(笔试中多项选择 可以消除覆盖更新的隔离级别)2.http://blog.youkuaiyun.com/jojo52013
2014-10-15 16:05:15
962
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人