- 博客(105)
- 收藏
- 关注
转载 Spark SQL是如何选择join策略的?
前言我们都知道,Spark SQL主要有三种实现join的策略,分别是Broadcast hash join、Shuffle hash join、Sort merge join,在之前写的这篇文章里已经做过了简要的介绍。不过笔者还没说过Catalyst是依据什么样的规则来选择join策略的,本文来简单补个漏。Catalyst在由优化的逻辑计划生成物理计划的过程中,会根据org.apache.spark.sql.execution.SparkStrategies类中JoinSelection对象提供的规
2022-05-26 14:08:14
340
转载 HBase入门:查询中常用的Filter总结
简介: 根据技术调研的过程可以明显的体会到hbase的存储方式和数据库的存储有着明显的区别,查询的方式也有着很大不同,HBase主要是通过这种filter来对数据进行筛选。同时对于数据的体量较大(10亿级别以上的数据数据量),检索和修改的场景较多时是比较适合使用hbase。 HBase过滤器可以根据分为:列簇与列类型过滤器,行键过滤器,其他过滤器HBase Filter 概览查询hbase支持的filter 列表hbase(main):015:0> show_fil...
2022-05-17 16:27:42
1407
转载 MySQL的存储过程
概念MySQL5.0版本开始支持存储过程,存储过程就是一组SQL语句集,功能强大,可以实现一些比较复杂的逻辑功能,类似于JAVA语言中的方法,存储过就是数据库SQL与层层面的代码封装与重用特性1.有输入输出参数,可以声明变量,有if/else/case/while等控制语句,通过编写存储过程,可以实现复杂的逻辑功能2.函数的普通特性:模块化,封装,代码复用3.速度快,只有首次执行需要经过编译和优化步骤,后续被调用可以直接执行,省去以上步骤格式创建存储过程-- 创建存储过程del
2022-05-12 13:33:28
218
转载 hive 动态分区参数设置
使用Hive动态分区需要注意设定以下参数:1.是否开启动态分区功能,默认false关闭。默认值:falsehive.exec.dynamic.partition =false使用动态分区时候,该参数必须设置成true;hive.exec.dynamic.partition =true2.动态分区的模式:默认值:stricthive.exec.dynamic.partition.mode = strict1动态分区的模式为strict,表示必须指定至少一个分区为静态分区,n...
2022-04-18 11:07:15
4852
原创 Spark本地测试要点
1.hive元数据访问地址,一般走thrift协议System.setProperty("hive.metastore.uris","thrift://ip:9083")2.hive数据访问目录,HDFS协议路径System.setProperty("spark.sql.warehouse.dir","hdfs://ip:8020/user/hive/warehouse")3.本地模式,流处理必须是2个及以上线程System.setProperty("spark.master","loc
2022-04-15 14:03:21
1795
转载 SpringMVC 类内部的RequestMapping注解能否被继承?
首先注意标题,说的是类内部的注解结论是:不能,但是子类却可以享有父类中该注解带来的效果。看了一下这个:http://elf8848.iteye.com/blog/1621392自己也试了一下,发现子类如果覆盖父类的方法,确实不能继承被覆盖方法的注解。但是试了一下spring的注解,即便该注解没有被继承到子类上,子类同样能享有这个注解带来的效果,这可能和spring的注解扫描和bean加载机制有关,有时间看看源码吧,这里先记一下。以下是实验时写的代码:父类:p
2022-04-13 15:00:32
1060
转载 MySQL下bin-log的三种模式(ROW、Statement、Mixed)
MySQL的bin-log日志备份有三种模式,分别是:ROW、Statement、Mixed一、Row基于行的复制(row-based replication,RBR)日志中会记录成每一行数据被修改成的形式,然后在slave端再对相同的数据进行修改,只记录要修改的数据,只有value,不会有sql多表关联的情况。优点:在row模式下,bin-log中可以不记录执行的sql语句的上下文相关信息,仅仅需要记录哪一条记录被修改了,修改成什么信样了,所以row的日志内容会非常清楚的记录下每一行数据修改
2022-04-07 16:28:08
2966
转载 进程和线程、协程的区别
现在多进程多线程已经是老生常谈了,协程也在最近几年流行起来。python中有协程库gevent,py web框架tornado中也用了gevent封装好的协程。本文主要介绍进程、线程和协程三者之间的区别。一、概念 1、进程进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位。每个进程都有自己的独立内存空间,不同进程通过进程间通信来通信。由于进程比较重量,占据独立的内存,所以上下文进程间的切换开销(栈、寄存器、虚拟内存、文件句柄等)比较大,但相
2022-03-30 17:17:18
193
转载 深入理解spark-两种调度模式FIFO,FAIR模式
前面我们应知道了一个任务提交会由DAG拆分为job,stage,task,最后提交给TaskScheduler,在提交taskscheduler中会根据master初始化taskscheduler和schedulerbackend两个类,并且初始化一个调度池;1.调度池比较#根据mode初始化调度池pooldef initialize(backend: SchedulerBackend) { this.backend = backend // temporarily se.
2022-03-29 09:38:07
1214
转载 Hive教程之metastore的三种模式
Hive中metastore(元数据存储)的三种方式:内嵌Derby方式 Local方式 Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库。hive-site.xml中jdbc URL、驱动、用户名、密码等的配置信息如下:XHTML 1 2 3 4 5 6 7 8 9 10.
2022-03-24 08:53:33
1555
原创 SAP数据量大分批处理
“打开游标OPEN CURSOR WITH HOLD gv_cursor for select * from (table_name) where ...“分批Do FETCH NEXT CURSOR gv_cursor INTO TABLE (gt_table) PACKAGE SIZE 100. IF sy-subrc <> 0. EXIT.ENDIF.“do some thing….Enddo.“关闭close gv_cursor...
2022-03-23 09:30:48
671
原创 如何突破Z表4030长度限制
1.尽可能精准定义表字段长度,不要过多冗余长度。2.字段多可以分表存储,主键保持相同,然后把表关联起来组成一个视图,提供查询3.创建附加结构以扩大表长度4.列转行方式解决,一个大字段分多行存储在另一张表里...
2022-03-23 09:28:47
311
原创 scala实现word count
val strList = List( "java scala", "hello java", "hello scala from java", "hello spark from scala", "hello world"); implicit val ord = Ordering[Int].reverse val resultMap = strList.flatMap(words => words.sp...
2022-03-23 09:18:29
2919
原创 java socket编程样例
第一步:建立服务端处理线程public class ServerThread extends Thread { Socket sk = null; public ServerThread(Socket sk) { this.sk = sk; } public void run() { try { PrintWriter wtr = new PrintWriter(this.sk.getOutputStream()); BufferedRead...
2022-03-23 09:09:13
260
原创 停止websphere进程的脚本
ps -ef|grep java|grep WebSphere > /tmp/was.tmpps -ef|grep java|grep WebSphere|awk {print $2} > /tmp/was.killfor i in `cat /tmp/was.kill`dokill -9 $idone
2022-03-23 08:51:20
379
原创 websphere全局安全性LDAP用户和群组节点分离
WebSphere Application Server启用LDAP全局安全性后,用户和群组默认的搜索起始节点都是baseDN。可以通过设置LDAP自定义属性来为群组指定别的起始节点,这个属性是com.ibm.websphere.security.ldap.groupBase
2011-08-17 16:47:59
882
转载 加速 lucene 的搜索速度 ImproveSearchingSpeed
* Be sure you really need to speed things up.Many of the ideas here are simple to try, but others will necessarily add some complexity to your application. So be sure your searching speed is indeed
2009-08-13 10:17:00
1232
转载 DB2 常用命令
DB2 系统命令 dasauto - 自动启动 DB2 管理服务器 dascrt - 创建 DB2 管理服务器 dasdrop - 除去 DB2 管理服务器 dasmigr - 迁移 DB2 管理服务器 dasupdt - 更新 DB2 管理服务器 db2_deinstall - 卸载 DB2
2009-04-22 17:24:00
872
原创 静默安装was6.0网络部署版,同时创建一个dmgr概要
执行安装命令./install -options "响应文件" -silent & 响应文件内容详解如下: #接受许可协议 -W silentInstallLicenseAcceptance.value="true" #设定安装路径 -P wasProductBean.installLocation=
2009-04-21 15:36:00
1295
转载 AIX 上建 WAS 7.0 虚拟分区
本文描述创建和使用WebSphere® Application Server(Application Server)虚拟工具的步骤,以实现 AIX® 逻辑分区(LPAR)虚拟化技术。本文描述了一个用于构建 Application Server 虚拟工具的源 LPAR环境,并指出准备该环境所需的步骤,包括安装 Application Server 并定制配置,以确保安装的 Application S
2009-04-17 13:41:00
689
原创 Solaris下安装配置httpd server与tomcat负载均衡
一。下载所需软件 apache-tomcat-6.0.18.tar.gz mod_jk-1.2.27-httpd-2.2.6.so httpd-2.2.6.tar.gz jdk-1_5_0_16-solaris-sparc.sh jdk-1_5_0_16-solaris-sparcv9.sh
2008-12-30 09:39:00
999
原创 免装oracle客户端使用PLSQL连上oracle服务器
1。从oracle网站下载Instant Client(绿色)http://www.oracle.com/technology/software/tech/oci/instantclient/index.html 2。下载后释放到某个目录,比如c:/oracle_client,在其目录新建目录network/admin,同时在network/admin新建一个文件tnsnames.or
2008-12-23 16:31:00
2344
1
原创 IBM TIM4.6的Service包简述
比如创建一个服务包SunPortalService.jar,那么里面的内容有 --META-INF --SunPortalService --resource.def --schema.dsml
2008-11-10 11:00:00
2193
1
原创 自定义开发IDI连接器,实现POST数据到HTTP URL
IDI6.1.1提供的连接器HTTPClientConnector和OldHTTPClientConnector都是把输出映射数据放到http头部。而有时需要把输出映射数据类似于FORM数据提交到后台。因此,开发自定义IDI连接器是必要的。 1。所需jar包commons-httpclient-3.1.jar,commons-codec-1.3.jar,commons-logging-1.
2008-11-10 10:30:00
1017
原创 使用IBM TDI中的httpclient连接器
IBM TDI中的连接器httpclient是一个访问http url的客户端,它的输出映射是通过写入http头部而传送到http url的,但输出映射的属性前必须加http.这个前缀。若访问的http url是在domino服务器上,那么domino获得这些属性时,其头部属性有一个前缀http_。例如在输出映射定义为http.uid用户id属性,那么domino得到的头部是htt
2008-11-03 14:39:00
1729
转载 Directory Server 6 HA with Sun Cluster
Before You StartThis cookbook describes how to install Directory Server as a data service for Sun Cluster 3.1 (or higher) on Solaris 9 or 10 systems, for SPARC, x86, and x64 platforms. You instal
2008-09-17 15:53:00
803
原创 ITDS HA安装概要
由于IBM Tivoli Directory Server实例的数据是存储在DB2数据库中,所以它的HA安装要领跟DB2 HA安装要领是一样的,只有些许差别。 详细步骤: 1.创建用户。在两台主机ldap01和ldap02上分别创建如下用户idsldap,ldapinst 2.安装ITDS程序。以root用户在两台主机上分别安装。 3
2008-09-17 15:30:00
711
转载 Highly Available LDAP
LDAP BackgroundWe are using the OpenLDAP package (www.openldap.org), which is part of several Linux distributions, including Red Hat 7.1. Version 2.0.9 ships with Red Hat 7.1, and the current d
2008-09-16 15:17:00
1274
原创 DB2在Cluster环境中安装成HA
环境描述:两台主机db201和db202,操作系统solaris9,集群管理软件是suncluster3.2,安装的db2版本是v8.1.11,共享的存储目录为/db2data。目标:实现db2高可用性,一台online,另一台offline,数据存放在/db2data,自由切换数据不丢。安装步骤: 1。创建用户。在两台主机上分别创建用户db2inst1,db2fenc
2008-09-16 14:30:00
1470
转载 WINDOWS自带的无敌kill进程命令
问:怎么才能关掉一个用任务管理器关不了的进程?我前段时间发现我的机子里多了一个进程,只要开机就在,我用任务管理器却怎么关也关不了答1:杀进程很容易,随便找个工具都行。比如IceSword。关键是找到这个进程的启动方式,不然下次重启它又出来了。顺便教大家一招狠的。其实用Windows自带的工具就能杀大部分进程: c:>ntsd -c q -p PID 只有System
2008-06-06 15:19:00
1182
原创 证书管理工具ikeyman的命令版本gsk7cmd常用命令
//查看证书库命令#gsk7cmd -cert -list all -db /var/pdweb/www-default/certs/pdsrv.kdb -pw pdsrv -type cmsCertificates in database: /var/pdweb/www-default/certs/pdsrv.kdb server client Thawte Personal P
2008-05-13 16:12:00
4232
原创 IBM WebSeal实例配置文件webseald-实例名.conf
## FILENAME# webseald.conf## DESCRIPTION# Configuration file for the Access Manager WebSEAL server (webseald)#[server]################################ WEBSEAL GENERAL###############################
2008-05-13 15:12:00
18700
原创 阐述webseal junction选项的意义
查看junction的定义,server task instance-webseald-host show /portal Junction point: /portal #junction名称 Type: TCP
2008-05-09 15:53:00
4092
原创 通过urlconnection发送cookie,跟用户代理类型有什么关系呢
一。RPT-HTTPClient包api服务端打印出connection=closecontent-length=122content-type=text/xml;charset=UTF-8user-agent=RPT-HTTPClient/0.3-2Shost=*.*.*:8081 via=HTTP/1.1 *.*.*:80却看不到发送过来的cookie信息二。Jakarta C
2008-05-08 17:49:00
2150
原创 samba实现unix与window文件共享(类似windows之间的网上邻居)
配置文件在/etc/samba目录下smb.conf,smbusers,smbshared.conf,lmhosts,smbpasswd若没有smbpasswd文件,可用命令cat /etc/passwd | mksmbpasswd.sh > /etc/samba/smbpasswd生成。smb.conf内容如下# This is the main Samba configuratio
2008-05-08 17:23:00
1167
转载 AIX中同步系统时间
xntpd 是一个关于网络时间协议的守护进程,它遵循了因特网时间服务器的通用标准。在启动 xntpd 时, xntpd 会读取 /etc/ntp.conf 配置文件来确定网络中系统时钟服务器,以 ntp 服务器的系统时间为标准,来调整本机的系统时间。 可以用 ntpq 命令来显示 xntpd 进程的内部变量。使用 ntp 时应注意,xntpd 服务器和 xntpd 客户端的时钟不能相差超过1000
2008-05-07 10:43:00
2328
转载 IBM POWER5 POWER5+ QCM DCM MCM讨论
大家在平时的工作中会看到类似P550、P550+、P550Q、P55A的字样他们的区别如下:首先是POWER5和POWER5+ CPU的区别P550使用POWER5 CPU--1.5G、1.65G、1.9G...P550+、P550Q使用POWER5+ CPU--1.5G、1.65G、1.9G、2.1G...550Q和550+是55A的两种不同CPU配置情况:因此在econfig里,将不会出现P5
2008-05-07 10:42:00
2457
1
转载 Squid反向代理的缓存(加速)服务器配置笔记
根据参考文章配置反向代理服务器,在配置的过程中要注意以下几点1、服务器port设置本机转别机和本机转本机(squid和web server在一台机器上)的设置不同前者squid和web可以都用80端口,后者squid用80,web服务器得换端口2、dst和dstdomain的区别前者是对ip定义别名,后者是对domain定义别名如果采用ip定义别名,httpd_accel_host不能采用“vir
2008-04-25 11:45:00
1743
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人