- 博客(249)
- 资源 (19)
- 收藏
- 关注
原创 【Kafka】Kafka的数据可靠性和一致性
在大数据领域的,Kafka作为消息发布订阅系统,为同学们所熟悉,它有非常好的扩展性。能够在大数据环境下实现高吞吐量和高可用。那么Kafka是如何保证数据的可靠性和...
2019-07-16 22:52:26
637
原创 Scala循环表达式
今天我们来看看Scala的循环表达式。在很多场景中我们需要将同样的操作执行多次,而一般的顺序执行语句只能执行一次,这就需要使用循环结构来完成,大部分编程语言中都提供了三种...
2019-07-14 21:22:20
447
原创 【Java】使用jstack、jstat、jmap线上问题排查一例
现象前阵子线上发布了一些功能,主要是针对客户群做的社群网络,大数据这边针对用户的通讯录、通话记录、设备等信息,计算其对应的社群网络,然后根据社群对应的指标来判断用户的风险...
2018-09-05 17:30:00
1034
原创 【Kafka】Leader丢失导致的Consumer挂起故障解决
现象最近发现线上的Kafka Consumer Client频繁出现无法消费的情况,导致offset积压。但是在重启Kafka Broker之后又正常了。 而Cloude...
2018-08-29 17:03:53
1659
原创 【Kafka】Kafka 1.0.1案例详解之Kafka Connect
Kafka Connect是一个用于Kafka与外部系统之间高可靠的、可扩展的流数据传输工具。它使得我们能够简单快速的定义数据集合在Kafka与外部系统之间输入输出。Ka...
2018-06-15 17:15:24
356
原创 【Kafka】Kafka 1.0.1案例详解之Kafka Streams
首先,要研究一样新东西,我们需要知道它是做什么的:Kafka Streams is a client library for processing and analyzi...
2018-06-06 17:26:25
415
原创 【Spark】使用DataFrame读取复杂JSON中的嵌套数组
所周知,在早期Spark版本中就已经支持读取Json格式的数据文件,并能够直接转换为数据库表,以方便我们进行处理数据,在本篇文章中我们将介绍如何通过Spark API很简...
2018-06-01 16:52:47
3742
原创 【Hadoop】在Idea环境中编译Hadoop 2.7.6源码(Linux)
本次内容,我们来演示如何在Linux Idea环境中编译Hadoop 2.7.6 源码安装mavenwget http://mirror.bit.edu.cn/apach...
2018-05-30 14:25:56
1392
原创 【Kafka】Kafka 1.0.1案例详解之消息发布订阅
在本章内容中我们主要讲解大家在生产系统中最常见,最基础的发布订阅功能,也就是Producer API和Consumer API,然后在下一章节中我们将深入讲解Kafka的Stre...
2018-05-14 17:02:48
324
原创 【Kafka 1.x】快速入门
本博客文章如无特别说明,均为原创!转载请注明出处:Big data enthusiast(http://www.lubinsu.com/)本文链接地址:【Kafka 1.x】快速入门(h...
2018-05-09 07:15:00
224
原创 【Kafka】Kafka分布式流式处理平台
本博客文章如无特别说明,均为原创!转载请注明出处:Big data enthusiast(http://www.lubinsu.com/)本文链接地址:【Kafka】Kafka分布式流式...
2018-05-08 07:15:00
450
原创 【Hadoop】解决Hadoop 2.7.1无法加载本地库问题
本博客文章如无特别说明,均为原创!转载请注明出处:Big data enthusiast(http://www.lubinsu.com/)本文链接地址:【Hadoop】解决Hadoop ...
2018-05-06 07:00:00
557
原创 【Oracle】 Oracle中用户(User)和模式(Schema)的概念
本博客文章如无特别说明,均为原创!转载请注明出处:Big data enthusiast(http://www.lubinsu.com/)本文链接地址:【Oracle】 Oracle中用...
2018-05-05 08:46:05
385
原创 【Scala】基于akka的多线程应用程序日志收集服务
Akka is a toolkit and runtime for building highly concurrent,distributed, and resilient m...
2018-05-04 07:55:00
297
原创 【ELK】ELK安装部署
●摘要:ELK是当前很流行的日志分析系统,Elasticsearch是一款基于Apache Lucene的开源分布式引擎。Logstash是用于日志的收集、转换、并输出到ES,其中有丰...
2018-03-09 15:24:46
361
原创 【Bug】Spark sql jdbc fails for Oracle NUMBER type columns
report url:https://issues.apache.org/jira/browse/SPARK-10909When using spark sql to connect to Oracle and run a spark sql query i get the following exception "requirement failed: Overflowed precision"
2016-03-08 22:33:07
1156
原创 【Linux】修改IP
修改IP永久生效按以下方法 vi /etc/sysconfig/network-scripts/ifcfg-eth0(eth0,第一块网卡,如果是第二块则为eth1) 按如下修改ip DEVICE=eth0(如果是第二块刚为eth1) BOOTPROTO=static IPADDR=192.168.0.11(改成要设置的IP) NETMASK=255.255.255.0 (子网掩码)
2016-03-08 22:19:20
668
原创 Spark Streaming+IntelliJ Idea+Maven开发环境搭建
国内关于Spark流处理方面的资料实在是少之又少,开发环境搭建上一些细节上的说明就更少了,本文主要介绍在Windows下通过IntelliJ Idea连接远程服务器的Spark节点,接收FlumeNG收集的日志数据实现实时的数据处理。
2016-03-06 11:50:55
6325
3
原创 Spark培训之计算员工薪资
方法一、Scala:val salaryRDD = sc.textFile("hdfs://192.168.1.171:9999/user/root/input/salaries/Salaries.csv").filter(!_.contains("Id"))def max(a: Double, b: Double): Double = {if (a > b) {return a } else
2016-02-20 21:28:07
2040
原创 【年终总结】畅途网
入职以来也将近四个月了,每接触到一个新事物的时候,都是我们学习成长的时候。从亚信到畅途网,是传统行业和互联网行业的一个比较大的转变,在思维、工作模式都需要做好适应并以最快的速度投身其中。或者往大一点说,公司的商业模式是不一样的。数据分析中心的工作是为公司提供数据分析的结果以做好对之前,对当前和对未来的把控。当然还包括后续为网站用户提供精确化营销指导。这也正是我们的价值所在。 时至今日,根
2016-01-13 22:04:00
679
原创 【MySql】ERROR 1045 (28000): Access denied for user 'ambari'@'localhost' (using password: YES)
授权mysql> grant all privileges on *.* to ambari@'localhost' identified by 'bigdata';Query OK, 0 rows affected (0.00 sec)刷新mysql> flush privileges;Query OK, 0 rows affected (0.00 sec)
2016-01-13 21:55:40
4858
原创 【MYSQL】修改密码
方法一mysqladmin -u root password "mysql"方法二SET PASSWORD FOR 'sqoop'@'%' = PASSWORD('sqoop');
2016-01-13 21:54:00
444
转载 【Git】免密码PULL配置方式
参考:https://git-scm.com/docs/git-credential-store/1.7.12.1git-credential-store(1) Manual PageNAMEgit-credential-store - Helper to store credentials on diskSYNOPSIS
2016-01-13 21:52:30
1441
原创 【Hadoop】小文件合并方案一
HDFS中数据块大小一般在64M或者128M,也就是说每一次分配的数据块就是这么大,我们所谓的小文件就是比文件系统中定义的数据块还小的文件,小文件经常会导致namenode内存消耗和降低hadoop读取速度,影响整体的性能。所以遇到这种情况的时候,我们需要定期对小文件进行清理或者合并。小文件合并的方案有多种,我这里通过将数据down到本地文件系统中再进行合并上传达到目的。这种方法会占用磁盘空间
2015-11-16 21:51:59
4038
原创 【MapReduce】学习一
在Hadoop集群中编译并运行《权威指南》中的例3.2Java文件代码如下package com.changtu;import java.io.InputStream;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hadoop.io.IOU
2015-11-16 21:10:28
538
原创 Hadoop 1.x安装
硬件环境3台虚机的硬件配置:处理器:1P、1C;硬盘:20GB;内存1G软件配置Vmware 10.0CentOS 6.7Jdk 7.80Hadoop 1.2.1 1. 设置SSH互信[hadoop@centos2 .ssh]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Ent
2015-11-16 20:57:53
734
原创 解决Hadoop 2.7.1无法加载本地库问题
我安装的Hadoop版本是2.7.1,这个版本已经解决了64位的本地库问题,但是运行的时候还是提示:WARN util.NativeCodeLoader: Unable to load native-hadooplibrary for your platform… using builtin-java classes where applicable这是因为我的Centos
2015-10-31 22:23:54
2857
翻译 Oracle中用户(User)和模式(Schema)的概念
数据库理论中数据库用户和数据库模式并没有必然的联系,详细的数据库模式解释可以在这里找到:http://stackoverflow.com/questions/2674222/what-is-purpose-of-database-schemaA database schema is a way to logically group objects such as tables,
2015-07-21 21:46:05
1117
原创 Oracle快速导出数据文件
数据文件生成方式有多种,但是大多效率低下,对于大型数据仓库来说,高效导出文件是迫切需求:这里通过shell+java的方式集成老熊写的数据文件生成工具,效率比普通的导出方法高70%:shell文件生成脚本:#!/usr/bin/bash#created by lubinsu#2015.07.13source ~/.bash_profilesrcDbNm=$1sr
2015-07-19 10:47:47
2540
原创 效率较高的Oracle数据库之间数据同步(非dblink)
在Oracle数据库之间不能建立数据链路情况下,该代码用于数据库之间数据同步。 操作系统环境:AIX#!/usr/bin/bash#created by lubinsu#2015source ~/.bash_profileecho "读取配置信息"connectstr=`cat ${etl_dispatch}/db_constr.txt`proc_id=$1l_d
2015-07-12 12:09:20
2520
原创 高水位线引起的查询变慢解决方法
众所周知,随着不断地进行表记录的DML操作,会不断提高表的高水位线(HWM),DELETE操作之后虽然表的数据删除了,但是并没有降低表的高水位,除非你使用TRUNCATE操作,进行表查询的时候,Oracle会扫表高水位以下的数据块,也就是说,扫描的时间并不会有所减少。所以DELETE删除数据以后并不会提高表的查询效率。下面通过这个例子,用来解决高水位引起的查询变慢问题:--例子中测试表占用
2014-11-20 22:52:12
2034
原创 INTERVAL的使用
INTERVAL可以用来做时间的加减法:SELECT INTERVAL '300' MONTH "25年", INTERVAL '54-2' YEAR TO MONTH "54年2个月", INTERVAL '11:12:10.1234567' hour TO SECOND "小时到秒"FROM dual;语法:INTERVAL '{ i
2014-11-20 20:30:33
3211
原创 数值精度展示问题
SQL> SELECT to_char(1890.55, '$0G000D00') FROM dual;TO_CHAR(1890.55,'$0G000D00')---------------------------- $1,890.55SQL> SELECT to_char(1890.55, '$9,999V99') FROM dual;TO_CHAR(1890.55,'$9,999V9
2014-11-01 17:56:28
1659
原创 手工创建数据库
Step 1: Specify an Instance Identifier (SID) :[oracle@200-168-1-4 ~]$ ORACLE_SID=lubinsu [oracle@200-168-1-4 ~]$ export ORACLE_SID[oracle@200-168-1-4 ~]$ env HOSTNAME=200-168-1-4.speedyter
2014-09-26 13:14:15
918
原创 Oracle客户端连接慢,SSH连接数据库主机也慢的原因
最近通过客户端连接数据库:sqlplus system/11111@lubinsu或者通过SSH方式连接主机的时候,都非常慢,但是ping却是正常的:原因为:DNS服务器配置不正确,在主机上并不需要配置DNS服务器:[root@200-168-1-4 ~]# cat /etc/resolv.conf; generated by /sbin/dhclient-script sea
2014-09-26 13:11:53
1674
原创 ORA-39700: database must be opened with UPGRADE option
数据库启动的时候报错:SQL> startupORACLE instance started.Total System Global Area 534462464 bytesFixed Size 2215064 bytesVariable Size 360711016 bytesDatabase Buffers 163577856 bytesRedo Buffe
2014-09-23 13:25:07
1233
转载 Oracle sys_context()函数
网上搜集的关于Oracle上下文信息获取方式:--用户的认证类型select sys_context('USERENV','AUTHENTICATION_TYPE') from dual;--未知select sys_context('USERENV','AUTHENTICATION_DATA') from dual;--当前指定id的会话是否为oracle后台程序建立,不是则返回nu
2014-09-23 13:13:27
840
原创 设置数据库自启脚本
设置数据库自启脚本:cd /usr/u01/app/product/11.2.0/dbhome_1/bin[oracle@200-168-1-4 bin]$ vi dbstart添加:ORACLE_HOME="/usr/u01/app/product/11.2.0/dbhome_1"修改:ORACLE_HOME_LISTNER=$ORACLE_HOME
2014-09-15 23:22:14
872
原创 ETL调度开发(5)——连接数据库执行数据库命令子程序
ETL调度中读写数据信息,都需要连接数据库,下面的子程序通过传入的数据库连接字符串和数据库命令(或SQL)执行所需要的操作:#!/usr/bin/bash#created by lubinsu#2014source ~/.bash_profilevalues=`sqlplus -S $1 << EOF set heading off feedback off pagesize 0
2014-08-14 23:28:47
1396
ext-3.2.1相关的源码
2011-08-18
Java6.0_API文档英文版part4
2011-04-05
Java6.0_API文档英文版part3
2011-04-05
Java6.0_API文档英文版part2
2011-04-05
Java6.0_API文档英文版part1
2011-04-05
MyEclipse8.5汉化 (最新的汉化包)
2010-06-19
汇编查找匹配字符串(含实验报告)
2010-06-05
MPlayer_all_setup
2009-10-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人