- 博客(123)
- 资源 (82)
- 收藏
- 关注
原创 hive 异常原因
错误如下:Error: Could not open client transport with JDBC Uri: jdbc:hive2://big-data-3:10000: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): Unau.
2022-03-09 16:49:03
2354
原创 Flik SQL 自定义SQL SELECT并行度
FlinkHintStrategies 增加 hint task(完整代码)/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright owner.
2022-02-14 12:45:41
1200
原创 Flink kafka source定义并行度
/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * to y.
2022-02-14 11:44:58
1542
转载 让Elasticsearch飞起来——性能优化实践干货
0、题记Elasticsearch性能优化的最终目的:用户体验爽。关于爽的定义——著名产品人梁宁曾经说过“人在满足时候的状态叫做愉悦,人不被满足就会难受,就会开始寻求。如果这个人在寻求中,能立刻得到即时满足,这种感觉就是爽!”。Elasticsearch的爽点就是:快、准、全!关于Elasticsearch性能优化,阿里、腾讯、京东、携程、滴滴、58等都有过很多深入的实践总结,都是...
2019-03-28 11:14:14
260
原创 深圳入户体检报告查询
登录官网https://sz12333.gov.cn/rcyj/ 体检合并标准http://www.szhrss.gov.cn/xxgk/qtxx/tzgg/201007/t20100721_1554228.htm查询见下图红色地方
2018-12-10 18:28:52
17502
1
原创 转深户流程
今天去弄了下转深户,发现转深户自己弄一点都不麻烦,其过程就是1准备资料 2预约!!!,就算交给代理机构,该准备的资料你一件都不能少,难道代理机构能有你的资料,可能开始觉得自己办理难得到处跑路,其实该跑路的还得跑,什么只需要去现场2次都是废话,去服务中心办理本来就只需要2次【办理规定只能是本人去】,代理机构只是做一个咨询,不懂的他能给你讲下【几千块的咨询费哦】,其实服务中心的人员也很耐心。所以最好还...
2018-11-29 12:22:21
754
转载 spark 常用命令
转载 http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html#aggregate Zhen HeAssociate ProfessorDepartment of Computer Science and Computer Engineering
2016-07-15 08:32:40
2130
转载 hadoop能用到的系统端口
hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。1.系统8080,80 用于tomcat和apache的端口。22 ssh的端口2.Web UI用于访问和监控Hadoop系统运行状态
2016-02-18 08:48:02
598
原创 python UserBasedCF
UserBasedCF是基于用户协同过滤算法,是用户对项目的历史偏好,发掘用户之间的相关性步骤: 1、找到和目标用户兴趣相似的用户集合 2、找到这个集合中的用户喜欢的,且目标用户没有的物品推荐给目标用户
2015-12-30 09:27:26
1372
原创 python Item_CF
Item_CF基于物品的协同过滤算法,该算法给用户推荐那些和他们之前喜欢物品相似的物品。比如:该算法会因为你购买过《JAVA编程思想》而给你推荐《JAVA核心技术》。物品A和物品B具有很大的相似度是因为喜欢物品A的用户大都也喜欢物品B
2015-12-30 09:25:39
1068
原创 python Slope one
slope one算法是基于 ”同物品“ 之间的 ”评分差“ 的线性算法,预测用户对物品评分的个性化算法适用商品的更新不频繁,数量相对稳定且物品数明显小于用户数的场景,依赖用户的行为日志和物品偏好的相关内容优点:1算法简单,2可以发现用户潜在的兴趣爱好缺点:依赖用户行为,存在冷启动问题和稀疏性问题
2015-12-28 17:22:08
1496
转载 WingIDE注册破解方法
WingIDE是Python程序语言设计的集成开发环境,具有语法标签高亮显示,命令自动完成和函数跳转列表等非常强大的功能。本文主要介绍WingIDE 5安装及注册破解方法。1. WingIDE 5下载可以从官方网站下载最新版本,或从这里下载http://pan.baidu.com/s/1c07rRXm,版本为5.0.0-1 (rev 30231)2. 注册破解破
2015-12-28 10:15:16
1078
原创 Python logRegres
from numpy import *#数据处理函数,读取文件testSet.txt的内容#前两列分别为x1和x2值,第3列为数据的类别def loadDataSet(): #存放训练数据 dataMat = []; #每条数据的类别 labelMat = [] #打开文件读取训练样本 fr = open('testSet.txt')
2015-12-24 17:14:00
2027
1
原创 Python ID3 DecisionTree
#coding=UTF-8from math import logimport operator#from DecisionTree import treePlotter#from DecisionTree.treePlotter import createPlotdef createDataSet(): #训练数据集 dataSet = [[1, 1, 'yes'
2015-12-23 09:43:19
708
转载 R Bayes
安装package:导入e1071:找一个数据集:训练并查看训练结果:下面看一下,这个库如何处理标称型特征:补充一下,如果某个数据缺少某些特征:参考:安装package:?1>install.packages("e1071")导入e10
2015-12-21 14:34:09
1006
原创 Python Bayes
from numpy import * def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid']
2015-12-21 11:08:32
618
转载 python socket编程详细介绍
Python 提供了两个基本的 socket 模块。 第一个是 Socket,它提供了标准的 BSD Sockets API。 第二个是 SocketServer, 它提供了服务器中心类,可以简化网络服务器的开发。下面讲的是Socket模块功能1、Socket 类型套接字格式:socket(family,type[,protocal]) 使用
2015-12-17 09:27:21
380
转载 scala读取hbase
import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor}import org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.spark.rdd.NewHadoopRDDobject HbaseTest { def main(
2015-12-15 09:48:33
2671
原创 linx时间加减操作
获取某天内的所有小时s1=`date --date="$1" +%s`s2=`date +%s`s3=$((($s2-$s1)/3600/24))for ((i=$s3; i>0; i--))do daytmp=`date --date="$i days ago" +%Y-%m-%d` for ((j=0; j<24; j++)) do s4=`date --date=
2015-09-09 10:06:49
434
转载 Kafka+Spark Streaming+Redis实时计算整合实践
原文地址 http://shiyanjun.cn/archives/1097.html基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于
2015-09-02 10:52:13
2602
原创 jquery实现菜单栏选择效果
js/jquery-1.8.3.min.js">$(function(){ //获取url中的参数 $(".down_nav a").each(function(){ try{ var menuurl=$(this).attr('href'); if(window.location.toStr
2015-08-31 11:05:15
699
原创 集合数据分批处理
List list=Arrays.asList(new String[]{"1","1"},new String[]{"2","1"},new String[]{"3","1"}, new String[]{"4","1"},new String[]{"5","1"},new String[]{"6","1"},new String[]{"7","1"}); int totalC
2015-07-30 16:08:13
1548
原创 脚本判断hdfs上的文件是否存在
hadoop fs -test -e /user/hive/INSTALL/_SUCCESSif [ $? -eq 0 ]thenhive -e "load data inpath '/user/hive/CS_INSTALL' overwrite into table userinstall_nor_f partition (etl_date=$prex) "exit fi
2015-07-02 17:13:41
1784
翻译 hive修改 表/分区语句
参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterTable%2FPartitionStatements这里主要列一些常用操作。 添加分区ALTER TABLE table_name ADD PARTITION (partCol
2015-07-02 16:04:44
443
原创 java实现屏幕监控
package com.xue.screen;import java.awt.Dimension;import java.awt.Frame;import java.awt.Rectangle;import java.awt.Robot;import java.awt.Toolkit;import java.awt.image.BufferedImage;import javax
2015-05-17 19:23:13
3424
原创 hadoop参数优化
shuffle:map的输出到reduced的消化输入的过程就是shufflecombine:写到本地磁盘和传到reduce端的数据更少mapred-default.xml配置参数说明map端 默认值 mapred.submit.replication10提交作业jar的副本,供tasktracke
2015-04-23 16:01:10
582
转载 HttpClient 学习整理
HttpClient 是我最近想研究的东西,以前想过的一些应用没能有很好的实现,发现这个开源项目之后就有点眉目了,令人头痛的cookie问题还是有办法解决滴。在网上整理了一些东西,写得很好,寄放在这里。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java.net 包中
2015-03-27 10:48:40
340
转载 Hbase高并发读写优化
淘宝搜索的个性化离线实时分析系统Pora已升级至Pora2,Pora2是在基于Yarn的流式计算框架IStream基础上开发的,同时为保证数据和消息的实时处理系统中较多地使用了HBase,是一个典型的高并发读写HBase的分布式应用。系统在发布之初遇到了比较严重的性能问题,表现为处理速度跟不上实时日志,并且整个Hadoop/HBase集群压力大,连带其它应用受影响。经过排查发现问题主要都出
2015-03-24 19:41:04
16795
转载 Hbase集群升级与优化
战争从来都是拼后勤拼平台支撑的,天猫双十一这一天对于我们搜索事业部来说,就是一场高强度的数字化战争。为了这一天,各兄弟业务线的战友们已经摩拳擦掌,纷纷亮出各种新式武器,而我们原有的离线系统平台却渐渐显出疲态,慢慢被来自各业务线的不断提升的压力需求搞得捉襟见肘了。个性化搜索实时数据处理平台(Pora)在双十一将正式亮相,当时我们预计会有数以十亿计的新增HBase读写请求,如果不进行升级优化,原有的离
2015-03-24 19:39:08
1896
原创 Hadoop Job优化
Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发,针对Hadoop Job优化提出了一些观点,不包含HDFS的优化。Job Tracker Related严格来说,
2015-03-24 19:35:27
364
原创 使用JobControl管理mapreduce多job依赖
/** * job2 依赖于 job1 * @param job1 * @param job2 * @param chainName * @return * @throws IOException */ public static int handleJobChain(Job job1 ,Job job2, String chainName) throws IOExc
2015-03-24 14:39:24
829
转载 hadoop 性能调优 重要参数设置技巧
这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以帮后人~这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.
2015-03-24 13:53:10
1204
转载 Fiddler 教程
Fiddler 教程Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和服务器的http和https请求,允许你监视,设置断点,甚至修改输入输出数据. 使用Fiddler无论对开发还是测试来说,都有很大的帮助。阅读目录Fiddler的基本介绍Fiddler的工作原理同类的其它工具Fiddler如何捕获Firefox的会话Firefox 中使用Fiddl
2015-03-19 09:36:11
369
转载 [curator] Netflix Curator 使用
curator简介Netflix curator 是Netflix公司开源的一个Zookeeper client library,用于简化zookeeper客户端编程,包含一下几个模块:curator-client - zookeeper client封装,用于取代原生的zookeeper客户端,提供一些非常有用的客户端特性curator-framework - zookeep
2015-02-12 15:11:18
504
转载 利用curator实现的zookeeper分布式锁服务
import java.util.concurrent.CountDownLatch;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.TimeUnit;import com.netflix.curator.R
2015-02-12 15:02:33
546
转载 Zookeeper开源客户端框架Curator简介
Curator是Netflix开源的一套ZooKeeper客户端框架. Netflix在使用ZooKeeper的过程中发现ZooKeeper自带的客户端太底层, 应用方在使用的时候需要自己处理很多事情, 于是在它的基础上包装了一下, 提供了一套更好用的客户端框架. Netflix在用ZooKeeper的过程中遇到的问题, 我们也遇到了, 所以开始研究一下, 首先从他在github上的源码, w
2015-02-12 14:44:10
503
转载 storm kafka集成
前言在前面Storm系列之——基本概念一文中,提到过Storm的Spout应该是源源不断的取数据,不能间断。那么,很显然,消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择。本文就如何集成Kafka进行介绍。Kafka的基本介绍: http://blog.youkuaiyun.com/xeseo/article/details/18311955准
2015-02-11 18:06:09
1506
转载 Kafka介绍
什么是Kafka?引用官方原文: “Kafka is a distributed, partitioned, replicated commit log service.”它提供了一个非常特殊的消息机制,不同于传统的mq。官网:https://kafka.apache.org它与传统的mq区别?更快!单机上万TPS传统的MQ,消息被消化掉后会被mq删除,而kaf
2015-02-11 18:03:46
530
hadoop-common-2.2.0-winutils
2019-01-26
hadoop.dll包括winutils.exe
2015-07-02
fatjar eclipse
2015-06-30
java Decompiler java反编译工具
2014-01-23
重写log4j流记录日志到指定文件
2013-07-19
PLSQL基础教程必看
2013-05-31
PLSQL基础教程
2013-05-29
数据结构与算法分析_Java语言描述(第2版)]
2013-04-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人