wulicode-优快云博客

原创欢迎使用优快云-markdown编辑器

python与redis的事1. redis安装1.1 windows下安装下载地址：https://github.com/MSOpenTech/redis/releases。Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择，这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘，解压后，将文件夹重新命名为 redis。打开一个 cmd 窗口使用cd命令切换目

2017-02-21 17:50:45 341

转载各种距离的实现

1 /* 2 特征向量相似度和距离的计算 3 4 相似度： 5 ·夹角余弦 6 ·相关系数 7 ·Dice 8 ·Jaccard 9 10 距离 11 ·明氏距离 12 ·欧氏距离 13 ·马氏距离 14 ·Jffreys & Matusita 距离 15 ·Mahalanobis 距离，未实现，协方差矩阵 16 ·C

2015-12-31 17:10:34 882

原创 Tez安装整体过程以及各节点的配置

在/etc/profile中修改环境变量如下export JAVA_HOME=/usr/java/jdk1.7.0_55-clouderaexport MAVEN_HOME=/usr/local/apache-maven-3.0.3export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$MAVEN_HOME/bin:$PATHexport CL

2015-12-31 17:06:30 5720

原创事务的隔离级别

数据库事务的隔离级别有4个，由低到高依次为Read uncommitted、Read committed、Repeatable read、Serializable，这四个级别可以逐个解决脏读、不可重复读、幻读这几类问题。√: 可能出现 ×: 不会出现脏读不可重复读幻读Read uncommitted

2015-12-31 17:04:48 404

转载 Hive优化以及参数配置

Hive优化hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMIT n语句hive.limit.row.max.size=1000000：hive.limit.optimize.limit.file=10：最大文件数1. 本地模式(小任务

2015-04-22 11:43:37 3669

转载 MySQL命令大全

1、连接Mysql格式： mysql -h主机地址 -u用户名－p用户密码1、连接到本机上的MYSQL。首先打开DOS窗口，然后进入目录mysql\bin，再键入命令mysql -u root -p，回车后提示你输密码.注意用户名前可以有空格也可以没有空格，但是密码前必须没有空格，否则让你重新输入密码。如果刚安装好MYSQL，超级用户root是没有密码的，故直接回车即可进

2015-04-21 16:32:20 388

转载 Hbase 与Oracle比较

Hbase与Oracle比较（列式数据库与行式数据库）分类： Oracle 数据库 Hadoop 2014-10-26 21:17 433人阅读评论(0)收藏举报1 主要区别1.1、Hbase适合大量插入同时又有读的情况1.2、 Hbase的瓶颈是硬盘传输速度，Oracle的瓶颈是硬盘寻道时间。 Hbase本质上只有一种操作，就是插入，

2015-03-05 16:25:07 1003

转载 SQL ON HADOOP

系统架构Runtime Framework v.s. MPP在SQL on Hadoop系统中，有两种架构，一种是基于某个运行时框架来构建查询引擎，典型案例是Hive；另一种是仿照过去关系数据库的MPP架构。前者现有运行时框架，然后套上SQL层，后者则是从头打造一个一体化的查询引擎。有时我们能听到一种声音，说后者的架构优于前者，至少在性能上。那么是否果真如此？一般来说，对于SQL on

2015-01-29 16:54:23 869

转载机器学习-协同过滤

在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看最近有什么

2015-01-29 16:27:43 389

转载 Hive数据倾斜

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2015-01-27 17:22:50 482

转载 hive优化

一、join优化　　Join查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。　　Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个ma

2015-01-21 11:48:09 367

原创京东金融笔试

1.merge.mapfiles=true;2.merge.mapredfile=false;3.左右外连接的问题left outerright outerfull outerleft4.技术管理 5.两张表join的时候大表在后小表在前 •hive 0.6 的时候默认认为写在select 后面的是大表，前面的是小表，或者使用 /*+mapjoin(

2015-01-21 11:47:22 2067

转载 hive函数参考手册

1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败，因为无效的语法。 SQL使用”=”，不使用”==”。A 所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”，结果返回”NULL”。

2015-01-21 10:40:46 362

转载 hive 的运算

关系运算（1）等值比较: = 语法:A = B 操作类型: 所有基本类型描述: 如果表达式A与表达式B相等，则为TRUE；否则为FALSE 举例： hive> select 1 from dual where 1=1; 1 （2）不等值比较: 语法: A 操作类型: 所有基本类型

2015-01-21 10:08:58 505

原创 Kettle使用

1.新建转换如图所示2.双击(运行SSH命令)3.Setting中进行如下设置命令为:hadoop fs -rm -r -skipTrash ${oss_hadoop_root_dir}/hive/cm_sector_info_tbl/upload_date=${oss_date_hdfs_rm_seven_days_ago}其中${}为变量名变量名的定义在参数获取七天前

2014-12-17 15:47:19 761

原创 hive权限问题

1.给某个用户授权grant select on database ffcs_cheny to user ffcs_cheny;2.ddlStatement : ( createDatabaseStatement | switchDatabaseStatement | dropDatabaseStatement | createTableStatement | dropTableSta

2014-12-17 15:43:42 1377

转载学习网站

1.web jsphttp://blog.youkuaiyun.com/chinacsharper/article/details/39855287

2014-12-11 17:29:25 424

原创数据仓库与BI面试常见题目

一、数据库1、 Oracle数据库，视图与表的区别？普通视图与物化视图的区别？物化视图的作用？2、 Oracle数据库，有哪几类索引，分别有什么特点？3、 Union与Union All的区别？4、对游标的理解？游标的分类？使用方法？5、如何查找和删除表中的重复数据？给出方法或SQL。6、不借助第三方工具，怎么查看SQL的执行计划？7、创建索引有哪些需要注意的

2014-11-23 17:01:45 29160

转载阿里巴巴java研发成功笔面试总结

没想到这么快就拿到了一个offer了，放佛做梦一般。谢师兄经常教育我们要学会分享，所以我决定写点什么给大家，也为自己攒点rp吧。【实习碰壁】上个学期末我就开始投简历了，那时候是为了找一份暑期实习做做。我投了4家公司，但是都被鄙视了，不是面试挂了，就是至少要求实习6个月，有的甚至连笔试机会都不给我。当时心里相当得失落。实验室的博士gg安慰我，说还是利用暑假好好看看书，好好巩固下基

2014-11-07 23:34:15 669

转载 hadoop 执行Wordcount详解

1、MapReduce理论简介 1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker；

2014-11-04 15:48:41 1500

转载 INFO ipc.Client: Retrying connect to server: dn79/10.10.10.79:18080

Connection RefusedYou get a ConnectionRefused Exception when there is a machine at the address specified, but there is no program listening on the specific TCP port the client is using -and th

2014-11-04 15:45:29 813

转载三方协议

1、三方协议是由毕业生、用人单位和学校三方之间就学生就业方向签订的一种协议，由三方共同签署后生效。对签约的三方都有约束力。毕业生与用人单位经过双向选择达成就业意向后，必须签订学校统一发放的《高校毕业生、毕业研究生就业协议书》，毕业生与用人单位签订的其它就业协议书无效。2、就业协议在毕业生到单位报到、用人单位正式接收后自行终止。就业协议是明确毕业生、用人单位、学校三方在毕业生就业工作中的权利

2014-10-28 15:53:00 744

转载毕业证、报到证、档案、户口、三方协议

千万不要以为毕业领了证书就万事大吉了。你还有很多事情要做。千万不要因为自己的疏忽，给以后带来不必要的麻烦。一生也许就毕业这么一回，大家还是认真点好。一、毕业证、学位证要复印两份收好了，那可是你四年青春换来的两个证书（最好是能扫描个电子版存在网络上备份）。先不说含金量如何，要是真弄丢了还真补办不了，只能给你开个证明，所以你还是不要大意。师范生还有一个教师资格证，全国通用的。二、报到证

2014-10-28 15:09:32 1167

原创厦门巨龙笔试题目逻辑题

有100个硬币，其中一个较轻，

2014-10-28 10:08:22 1359 1

转载 Linux权限问题

第一位表示文件类型。d是目录文件，l是链接文件，-是普通文件，p是管道第2-4位表示这个文件的属主拥有的权限，r是读，w是写，x是执行。第5-7位表示和这个文件属主所在同一个组的用户所具有的权限。第8-10位表示其他用户所具有的权限。如: drwxr-xr-x user1 group1 filename 表示filename是个目录，user1拥有读写执行的权限，和user

2014-10-23 09:40:30 380

转载 Hadoop+Mysql+hive安装步骤

Hadoop+Hive+Mysql安装文档软件版本redhat enterprise server5.564Hadoop1.0.0Hive0.8.1Mysql5Jdk1.6整体构架

2014-10-23 09:31:35 1064

原创错误(28,9): PLS-00201: 必须声明标识符 'PKG_IFACE_FOR_FLOW'

出错原因是没有权限给该用户进行授权grant execute on PKG_IFACE_FOR_FLOW to XMOMS_MAIN;

2014-10-17 16:02:32 1423

原创 Oracle 触发器调用包中的存储过程

create or replace TRIGGER GPM_NODEINSTANCE_TRG AFTER INSERT OR UPDATE OF STATUS ON GPM_NODEINSTANCE_TBL FOR EACH ROW DECLARE P_STATUS NUMBER; P_BUST_ID NUMBER;BEGIN --新增 IF i

2014-10-17 15:54:03 999

原创 2015网易校园招聘一面二面

1.事务的隔离级别有哪几种？各隔离级别之间的

2014-10-16 10:26:30 1301

原创 Hadoop shell 命令

1.查看目录hadoop fs -ls 查看目录（/等效于hdfs://hadoop0:9000/)hadoop fs -lsr 递归查看目录2创建文件夹hadoop fs mkdir /sfx3.上传文件，本地到hdfshadoop fs -put /root/data.log /d1本地目录 hdfs目录（当hdfs的目录不存在，则默认为上传的文件名）如果没

2014-10-16 09:56:58 433

转载 Hive函数大全

目录一、关系运算： 41. 等值比较: = 42. 不等值比较: 43. 小于比较: 44. 小于等于比较: 45. 大于比较: > 56. 大于等于比较: >= 57. 空值判断: IS NULL 58. 非空判断: IS NOT NULL 69. LIKE比较: LIKE 610. JAVA的LIKE操作: RLIKE 611. REG

2014-10-16 09:54:54 520

原创 Hbase 创建，插入，查询

1.gang创建表create ‘user’,’info’表名为user，有一个列族为info2.查看表describe user3.插入数据put ‘user’,’1’,’info:age’,’20’put ‘user’,’1’,’info:name’,’zhangsan’4.浏览表scan ‘user’5.查看所有表List6.修改表查看状态

2014-10-16 09:54:25 990

转载 Hive函数大全（二）

字符串函数字符串长度函数：length语法: length(string A)返回值: int说明：返回字符串A的长度举例：hive> select length(‘abcedfg’) from dual;7字符串反转函数：reverse语法: reverse(string A)返回值: string说明：

2014-10-16 09:52:55 3784

转载 Hive自定义函数

第一部分：产生背景产生背景 •为了满足客户个性化的需求，Hive被设计成一个很开放的系统，很多内容都支持用户定制，包括： •文件格式：Text File，Sequence File •内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text •用户提供的 map/reduce 脚本：不管什么语言，利用 stdin/stdo

2014-10-16 09:45:28 625

原创 Hive编程指南

第一二章、基本操作1.set命令会打印出命名空间，hivevar、hiveconf、system、env所有的变量。还可以给变量附新的值。2.Hive中‘一次使用命令’将结果保存起来[ffcs@nn71 bin]$ hive -S -e "select * from emp" > /home/ffcs/hive-0.13.0-bin/examples/files/mydat

2014-10-16 09:43:38 1018

原创 Hive的数据导入导出，插入，加载

简介用户接口，包括 CLI，JDBC/ODBC，WebUI元数据存储，通常是存储在关系数据库如 mysql, derby 中解释器、编译器、优化器、执行器Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算 l 用户接口主要有三个：CLI，JDBC/ODBC和 WebUICLI，即Shell命令行JDBC/ODBC 是 Hive 的Java，与使用

2014-10-16 09:40:42 1292

转载删除表中重复记录

方法一、delete from 表名 a where a.rowid != ( select max(b.rowid) from 表名 b where a.字段1 = b.字段1 and a.字段2 = b.字段2 )方法二、delete from 表名 a where 字段1,字段2 in　　(select 字段1,字段2,count(*) from 表名 group by 字段1,字段

2014-10-16 09:25:09 387

原创 Oracle 存储过程覆盖

如果新写的存储过程覆盖了原来的存储过程，这个时候可以这样子查询之前

2014-10-16 09:24:59 895

原创网易2015校园招聘笔试题

15道单选 5道多选 11道简答单选做的不错，多选错的比较多，简答做的不错一、单选数据库的基本查询，概念以及MYSQL的一些概念二、多选1.http://blog.youkuaiyun.com/ocean1010/article/details/6548771 事务的详解(笔试中多项选择可以消除覆盖更新的隔离级别)2.http://blog.youkuaiyun.com/jojo52013

2014-10-15 16:05:15 984

空空如也

空空如也