- 博客(48)
- 资源 (16)
- 收藏
- 关注
原创 Scala实现Pearson皮尔逊相似度计算
皮尔逊相似度是推荐算法中常见的 计算相似度的方法,其公式如下:从公式可以看出 该算法有几个缺点:1,如果用户A对所有item的评分都一样,那么将无法计算别人跟A的相似度(分母为0);所以该算法不适用于 boolean preference类型的推荐2,如果用户A只对1个item进行了评分,那么也无法计算别人跟A的相似度(分母为0);所以对于数据量较小,或者矩阵非常之稀疏的数据都
2018-01-10 15:13:56
2552
原创 大数据SQL执行工具调研总结
下面是这几天来我对于hive on mr/hive on spark /impala / presto/ spark-sql 做的调研之后做的总结,见以下矩阵:武器库优点缺点Hive Sql支持度UDF支持hive on mr~慢全部支持
2016-06-08 14:14:18
777
原创 2015年度总结
问题:运维环境对于用户画像团队资源利用的矛盾。时间仓促,对新技术的调研没有预留时间,以至于从上手到开发会遇到很多坑。团队中沟通中出现问题,也有可能是我自己的问题,比如工作方式和沟通方式。成果/产出:0.zhe800/楚楚街商品采集爬虫和piwik.js埋点查验/优化工作统计标签。大概100多个用户统计标签。如:用户连续访问天数,用户最喜欢的三级类目等等。 基
2016-01-13 11:22:03
705
1
原创 Hadoop平台优化
Hadoop 平台优化1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoo
2015-01-24 13:16:10
1962
原创 hive压缩之小文件合并
Hive压缩之二 小文件合并 调研背景当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并。当然,在我们向一个表写数据时,也需要注意输出文件大小。输入合并合并输入小文
2015-01-24 12:07:06
6036
原创 同步/异步,阻塞/非阻塞的个人小总结
同步/异步,阻塞/非阻塞的个人小总结最近一直在用scrapy写编写爬虫程序,在阅读其源码和开源项目的时候,常常会接触到一些网络编程相关的东东。首先,Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架, 它使用的是非堵塞的异步处理。 在网络编程中有 阻塞/非阻塞 和 同步/异步的概念,这里我做了一个总结:因为中文语意的问题,很多时候确实会导致混用,而且
2015-01-19 17:25:18
1613
原创 Kafka使用及开发概要
1.命令=========zookepper==========(kafka自带)单点启动zookeeperzookeeper-server-start.sh $KAFKA_HOME/config/zookeeper.propertieszookeeper集群启动zkServer.sh start /home/hadoop/hadoop_workspace/zook
2015-01-05 22:53:54
2058
原创 2014半年小总结
已经毕业工作快满两年了,从一家垄断国字号企业跳到某电商平台,应该是我的职业生涯第一跳了,也很荣幸地投身入互联网浪潮之中。没过多久就融入了这家朝气蓬勃的大家庭。回汉后,起初打算做机器学习、数据挖掘的相关工作,以能延续研究生的课题。不过作为新东家BI组第一位员工,不得不着手搭建基础数据平台。工作成果与心得基础数据平台和报表系统,爬虫五个月,小半年,我们三兄弟的工作成果也是比较显著,在被
2015-01-05 22:16:36
2385
转载 Linux下调整根目录的空间大小
一、目的在使用CentOS6.3版本linux系统的时候,发现根目录(/)的空间不是很充足,而其他目录空间有很大的空闲,所以本文主要是针对现在已有的空间进行调整。首先,先来查看一下系统的空间分配情况:[plain] view plaincopyprint?[root@CentOS-78 /]# df -h Filesystem
2014-03-21 15:20:34
2466
转载 Linux下建立和管理逻辑卷
目录(?)[+]目录:---------------------------------------------------1,概述 12,基本原理 13,建立逻辑卷 1建立物理卷 1建立卷组 2建立逻辑卷 34,动态增加和减小逻辑卷大小 4动态增
2014-03-21 15:14:40
1491
转载 Centos上手动编译OpenJDK7源码
本文包括4部分内容:1.基本流程(阅读README和README-builds.html)2.安装基础软件包3.配置变量4.检查环境是否配置ok与编译jdk源码下载源码openjdk-7u6-fcs-src-b24-28_aug_2012.zip,解压1.基本流程阅读解压出来的 README和README-builds.html
2014-03-20 14:53:05
2269
转载 装饰者模式与java IO包
1. 装饰者模式的详解 装饰者模式动态地将责任附加到对象上。若要扩展功能,装饰者提供了比继承更有弹性 的替代方案。 装饰者模式设计类之间的关系: 其中Component是一个超类,ConcreteComponen是被装饰者,Decorator是装饰者,装饰者和被装饰者有共同的超类Component,但是此时我们发现Decorator和Component还有另外一条线,这条线表示
2014-03-16 22:54:09
1437
原创 eclipse集成SVN同步忽略target
eclipse集成SVN同步忽略target方法一:在eclipse中,右键点击项目根目录 Team -> Set Property ... 然后在弹出的对话框中,Property name 选 “svn:ignore”,Property Content 输入:target.project.classpath.settings但貌似不好使方法二:好用
2014-03-12 14:40:50
4722
原创 为什么会出现 java.util.ConcurrentModificationException 异常?
在遍历List或者Map时,执行了remove方法之后,会出现 java.util.ConcurrentModificationException 异常,原因是:Iterator 是工作在一个独立的线程中,并且拥有一个 mutex 锁。 Iterator 被创建之后会建立一个指向原来对象的单链索引表,当原来的对象数量发生变化时,这个索引表的内容不会同步改变,所以当索引指针往后移
2014-02-26 09:37:43
1990
原创 github总结
github总结github真是个好东西,我一般安装客户端后,再用eclipse从local库中git from出为一个工程...这样不用在后期同步时发生一系列错误。
2014-02-18 19:29:58
1502
原创 几个比较好的countdown js
1.基于bootstrap的sco.js(个人觉得不好用)(推荐)2.(推荐)http://blog.smalldo.gs/2013/12/create-simple-countdown/flipclockjs(美观)3.http://flipclockjs.com/
2014-02-18 16:57:36
4347
原创 MyBatis中对List<Object> 对象List的批处理插入操作
MyBatis中对List 对象List的批处理插入操作:首先需要定义对象的然后: insert into ordersdish(id,ordersId,dishId) values <foreach collection="list" item="item" index="index" separator=","> (#{item.id,jdb
2014-02-18 10:38:11
4969
1
原创 VisualSVN---You don't have permission to access on this server/Access ...forbidden
今天配置VisualSVN 给repos加权限,加用户,还是会报You don't have permission to access on this server,或者是:Access ...forbidden的错误。原因是为了想 让360云盘配合VisualSVN 在做一个云端的SVN 服务器,将原来的VisualSVN 的默认repos目录给转移了。 解决方法:在仓库右键属性中S
2014-01-15 16:32:10
9231
原创 bean转换成json中遇到的一些问题~
1.选用哪种框架好?2.当需求json串中的key值首写字母为大写字母时,貌似只有fastjson有对应的解决方案!问题一,是在写bean的时候,并不能按照elipse默认生成的get/set方法的方式,需要手写调整:问题二,问最关键一步,网上也有人碰见这样的问题。这时需要将 该属性置为public ,这样fastjson能读取bean的属性名称,而不会通过反射机制来自动拼装属性对应key值
2013-11-23 15:21:22
3399
转载 Spring 使new方法创建的对象可以引用spring管理的bean.
当为遗留系统加入spring时,经典问题就是遗留系统需要引用spring管理的bean。幸好spring有机制可以处理这些。建一个类实现ApplicationContextAware接口,有一个引用ApplicationContext的静态成员,然后,遗留系统需要引用spring管理的bean的地方,使用这个类。1.比如:我这里建一个SpringContext类pa
2013-11-05 13:40:35
5641
原创 执行executeBatch批处理遇到的问题
执行Batch批处理遇到的问题1.务必关掉自动提交增强执行效率conn.setAutoCommit(false);2.executeBatch失效问题务必将语句pstmt = conn.prepareStatement(sql);放到循环体外,否则只能插入一条语句 int size = ipAdressList.size(); try {
2013-10-18 11:36:34
11726
原创 最近遇到的线程同步问题
1.对资源加锁给List和map加锁例如:List listA = Collections.synchronizedList(new ArrayList());2.设置同步块:有互斥资源:objectfunA(){ synchronized(object){ }}funB(){ synchronized(ob
2013-10-17 18:47:25
1647
原创 Json串杂谈
Json串杂谈记录一下Json串务必是以‘{'开始,以 ‘}’结尾。 例如,var remote_ip_info = {"ret":1,"start":"60.220.0.0","end":"60.220.255.255","country":"\u4e2d\u56fd","province":"\u5c71\u897f","city":"\u957f\u6cbb","dist
2013-10-15 15:33:45
1461
转载 CentOS-6.3安装Mysql-5.5.29
安装方式分为rpm和源码编译安装两种,本文是采用mysql源码编译方式,编译器使用Cmake。软件需要mysql-5.5.29.tar.gz和cmake-2.8.10.2.tar.gz,请自行下载。下载地址:http://mysql.mirror.kangaroot.net/Downloads/http://www.cmake.org/files/v2.8/cmake-2.8.10.2
2013-10-12 10:44:24
1523
转载 maven联通网络下中央仓库不能访问的解决办法
在setting.xml中配置镜像服务器 mirrorId repositoryId Human Readable Name for this Mirror. http://my.repository.com/repo/path ibiblio.org
2013-08-31 11:45:19
2231
转载 struts.xml配置详解
struts.xml是我们在开发中利用率最高的文件,也是Struts2中最重要的配置文件。一下分别介绍一下几个struts.xml中常用到的标签1、利用include标签,可以将一个struts.xml配置文件分割成多个配置文件,然后在struts.xml中使用标签引入其他配置文件。比如一个网上购物程序,可以把用户配置、商品配置、订单配置分别放在3个配置文件user
2013-08-22 10:08:55
1433
转载 浏览:550 .bash_profile和.bashrc说明(转)
/etc/profile: 此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行。并从/etc/profile.d目录的配置文件中搜集shell的设置./etc/bashrc: 为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的shell信息,
2012-04-28 14:51:21
1171
原创 java环境变量设置
选择“高级”选项卡,点击“环境变量”;在“系统变量”中,设置3项属性,JAVA_HOME,PATH,CLASSPATH(大小写无所谓),若已存在则点击“编辑”,不存在则点击“新建”;JAVA_HOME指明JDK安装路径,就是刚才安装时所选择的路径D:/java/jdk1.5.0_08,此路径下包括lib,bin,jre等文件夹(此变量最好设置,因为以后运行tomcat,eclipse等都需要依
2011-12-28 19:09:02
1199
原创 jquery的不同写法可能造成浏览器的不兼容问题!
$(function() { $("#btn").click(function() { //一下是比较通用的写法 $.ajax({ type: "GET", url: "GetImageServlet", dateType: "h
2011-10-17 21:24:19
1849
原创 处理 HttpURLConnection的字符流中文乱码
当时利用谷歌提供的接口做了个从谷歌图片中的批量下载功能,用到jquery、json编码、java网络编程、IO流、多线程。遇到了个困扰我好长时间的问题就是从URL获取流的时候,遇到中文就好再json串中形成乱码,造成json无法准确解析会报错:org.json.JSONE
2011-10-17 20:37:02
4873
1
原创 jquery中选择checkbox拼接成字符串,然后到后台拆分取值
jquery中选择checkbox拼接成字符串,然后到后台拆分取值js中的代码$("#btn").click(function(){ var chenked=$("input[type='checkbox']:checked").val([]);//此为重点
2011-10-15 09:16:01
7114
转载 Oracle中的面向对象OOP
关系数据库在不断地发展时,许多数据库引入了面向对象的思想,这其中以Oracle为代表,Oracle9i就号称面向对象数据库。 自Oracle9i以来,Oracle就不再是单纯的关系数据库管理系统,它在关系数据库模型的基础上,添加了一系列面向对象的特性。Oracle的对象体系遵从面
2011-09-22 21:30:52
1538
转载 HTML页面跳转的5种方法
下面列了五个例子来详细说明,这几个例子的主要功能是:在5秒后,自动跳转到同目录下的hello.html(根据自己需要自行修改)文件。1) html的实现 1head>2
2011-09-15 18:28:12
4945
原创 java.util.中的那些事
1.Collection是List和Set两个接口的基接口List在Collection之上增加了"有序"Set在Collection之上增加了"唯一"而ArrayList是实现List的类...所以他是有序的. 它里边存放的元素在排列上存在一定的先后
2011-08-12 16:25:59
1153
原创 《编程之美》读书笔记之[小飞电梯调度算法]
在高峰时间,实习生小飞常常会被电梯每层楼都停弄得很不耐烦,于是他想出了这样一个办法:由于楼层并不高,那么在繁忙的时间,每次电梯从一层往上走时,我们只允许电梯停在其中的某一层。所有乘客都从一楼上电梯,到达某层楼后,电梯听下来,所有乘客再从这里爬楼梯到自己的目的层。在一楼时,每个乘客
2011-08-05 11:14:15
1786
原创 一些面试题
1.第一题,判断输出结果:public class Demo1 { /** * @param args * 和String的对象池一样,几种整数基本类型的包装类型也有对象池机制。 也就是说用Integer int1 = 30;这种方式声明一个Integ
2011-08-02 10:31:27
1290
原创 算法,设计模式,数据结构,多线程以及研究领域的深入是我研究生阶段要完成的任务
算法,设计模式,数据结构,多线程以及研究领域的深入是我研究生阶段要完成的任务 至此,勉励自己!
2011-08-01 16:20:21
1292
原创 东软实习生之一
好不容易有点空间的时间,拿来写点东西吧。这段时间在东软实习,很充实。当然能学习到很多东西。 运气比较好吧,刚来就能进入一个刚立项的项目。前期的需求分析,功能模块分析与设计都能部分的参与,也会时不时的插几句话。这样的感觉的很好。 在进入前期的编码阶段,更注重的是团队
2011-08-01 10:36:22
2789
1
OPENCL异构并行计算原理机制与优化实践
2016-05-13
经典设计模式以及源码下载
2010-05-13
酒店管理系统DOC 测试计划 需求分析 概要设计 详细设计
2009-09-05
酒店管理系统需求分析
2009-09-05
linux基础与实验指导
2009-06-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人