- 博客(79)
- 资源 (8)
- 收藏
- 关注
原创 使用python 获取mysql数据 并生成hive建表语句
使用python 获取mysql数据 并生成hive建表语句# -*- coding: utf-8 -*-import sysreload(sys) sys.setdefaultencoding('utf-8')import refrom collections import defaultdictimport MySQLdbimport pandas as pdengine=...
2019-07-09 09:40:52
1708
原创 storm安装记录
安装:要使用storm首先要安装以下工具:python、zookeeper、zeromq、jzmq、stormpython安装3以上的版本,具体参照https://www.cnblogs.com/windinsky/archive/2012/09/25/2701851.html安装zookeeper,安装单机版即可,具体百度,会出现的问题比较少,测试安装成功一般启动没问题即可,也可以重新开...
2019-01-29 10:03:27
273
原创 Apache NiFi学习及使用的记录
Apache NiFi是什么?一个易用、强大、可靠的数据处理与分发系统传统的数据流解决方案往往会遇到以下的挑战:系统错误,包括网络错误、硬盘错误、软件崩溃,甚至是人为错误,造成了数据流处理的不稳定性;数据访问超过处理能力,当数据处理模块有某一瓶颈时,往往不能够及时处理到达的数据;系统之间的发展进度不一致,从而经常需要在生产系统中进行新数据流的添加与已有数据流的修改,并且这些改动需要更加迅...
2019-01-25 17:32:35
1389
转载 抄一些大数据技术总结
作者:夏然链接:https://www.zhihu.com/question/41541395/answer/172981131来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。使用Mysql,PostgreSQL等关系型数据库,不仅用于业务查询(OLTP),也做统计分析,一般是在现有业务数据库上直接做一些分析需求。这种方式在数据量增长之后就会遇到性能问题,特别...
2019-01-25 11:38:31
322
原创 druid学习
druid是什么?Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式时序的面向olap的数据库系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,Druid仍能够保持100%正常运行。创建Druid的最初意图主要是为了解决查询延迟问题,当时试图使用Hadoop来实现交互式查询分析,但是很难满足实时分析的需要。而...
2019-01-25 11:19:23
331
原创 impala学习
impala的主要组成部分:组成部分:1、Impala Daemon(守护进程impalad,核心的进程) 它负责读写数据文件,接收从impala-shell、Hue、JDBC、ODBC等接口发送的查询语句,并行化查询语句和分发工作任务到Impala集群的各个节点上,同时负责将本地计算好的查询结果发送给协调器节点(coordinator node)2、Statestore (状态商店) 负责和...
2019-01-23 15:38:02
1057
原创 python 报错 'gbk' codec can't encode character '\xb5' in position 7431: illegal multib
将代码放在cmd中执行时,报错 ‘gbk’ codec can’t encode character ‘\xb5’ in position 7431: illegal multib原因:在windows下面,新文件的默认编码是gbk,这样的话,python解释器会用gbk编码去解析我们的网络数据流txt,然而txt此时已经是decode过的unicode编码,这样的话就会导致解析不了erro...
2019-01-23 14:13:24
3807
转载 oracle 大数据量更新
批量更新,MERGE语句性能最好,因为它可以多块读,并且可以并行执行,但是缺点就是消耗比较多的UNDO,一旦down机死事物恢复较慢。ORDER BY ROWID 在 buffer cache 不够大的情况下性能较好好(没Merge快,因为Merge可以多块读,走ROWID只能单块读)。优点就是可以批量提交。缺点就是不能并行更新。不 ORDER BY ROWID 在 buffer cache...
2019-01-23 09:35:01
4193
原创 数据分析一些思路:
1、当一个指标出现变动,如何找到是什么因素导致指标变动?思路:1、横向对比(例如:指标的同级别的部门间,公司间等类似的)2、纵向对比(例如:时间线的对比,同比,环比等)3、指标的拆分(例如:指标=客户数*订单数,客户分为老客户,新客户,客户分为各个来源等,)个人认为拆分可以找到较为深层次的原因。...
2019-01-22 16:36:08
233
原创 统计学 学习
最近看的东西多而杂,越学习,越是觉得自己不会的太多了,今天开始学习统计学的相关知识吧。。。电子书资源:大数据的统计学基础 https://pan.baidu.com/s/1AwT9gav5pK0xcjhgc6YchQ统计学基本概念、统计学(第三版) https://pan.baidu.com/s/1BRhZgcGuDMelSuFWx4eLLA...
2019-01-22 15:13:35
170
原创 kylin学习
kylin的概念:kylin重要的术语kylin架构:kylin制作cube的步骤kylin中cube的设置:cube几种优化方式:kylin的count distinct的调优方式(步骤)参考:http://lxw1234.com/archives/2016/08/714.htm,http://lxw1234.com/archives/2016/08/712.htm答:Coun...
2019-01-18 20:32:35
386
原创 hive学习
学习日志1https://www.cnblogs.com/qingyunzong/p/8707885.html#_label0_01、什么hive?1、Hive 由 Facebook 实现并开源2、是基于 Hadoop 的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供 HQL(Hive SQL)查询功能5、底层数据是存储在 HDFS 上6、Hive的本质是将 S...
2019-01-15 16:46:25
522
原创 scala学习
阅读了python和scala的优缺点的文章后,发现编程语言scala在学习spark上还是绕不过去的,不求很精通,但是熟悉基本的编写和使用是必须的。
2019-01-15 15:10:41
325
原创 spark 学习
参考资料http://lxw1234.com/archives/category/spark/page/4https://www.cnblogs.com/shishanyuan/p/4699644.html
2019-01-14 17:12:38
118
原创 yarn学习
yarn 前期了解即可,只需要知道yarn是一个资源调度平台,主要负责给任务分配资源即可,yarn不仅可以给mapreduce任务调度资源,还可以为spark任务调度资源…yarn是一个公共的资源调度平台,所有满足条件的框架都可以使用yarn来进行资源调度...
2019-01-11 09:29:19
214
原创 mapreduce学习-设计思想和原理
学习思路参考学习思路按照上面文章学习,并在每个提出的问题下面做相应的备注,太多的添加链接,每天学习一点点第一章:初识Hadoop1.1 学会百度与Google不论遇到什么问题,先试试搜索并自己解决。Google首选,翻不过去的,就用百度吧。1.2 参考资料首选官方文档特别是对于入门来说,官方文档永远是首选文档。相信搞这块的大多是文化人,英文凑合就行,实在看不下去的,请参考第一步。1....
2019-01-11 09:26:04
565
转载 hadoop入门学习
学习思路参考学习思路按照上面文章学习,并在每个提出的问题下面做相应的备注,太多的添加链接,每天学习一点点第一章:初识Hadoop1.1 学会百度与Google不论遇到什么问题,先试试搜索并自己解决。Google首选,翻不过去的,就用百度吧。1.2 参考资料首选官方文档特别是对于入门来说,官方文档永远是首选文档。相信搞这块的大多是文化人,英文凑合就行,实在看不下去的,请参考第一步。1....
2019-01-11 09:24:09
142
转载 strom和spark比较
转载https://www.cnblogs.com/yaohaitao/p/5703288.htmlSpark Streaming与Storm的应用场景对于Storm来说:1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析2、此外,如果对于实时计算的功能中,要求可靠的事务机制和可靠性机制,即数据的处理完全精准,一条也不能多,一条也不...
2019-01-10 15:45:16
169
原创 django学习
1、创建projectpython django-admin.py startproject DjangoDemo如果这个不可以的话,执行python C:\Python35\Scripts\django-admin.py startproject DjangoDemo 将python的scripts目录加上执行创建project任务2、切换到project任务的目录中,执行python ma...
2019-01-07 15:05:26
179
原创 kafka学习
kafka的主要特征是什么?总共有五点1、kafka有近乎实时性的消息处理能力,即使是面对海量数据也能够高效的存储和查询,kafka将消息存储在磁盘中,在其设计理念中并不惧怕磁盘的操作,因为它是顺序读写磁盘,所以避免了随机读写磁盘带来的性能瓶颈。2、kakfa支持批量读写消息,并且对消息进行批量压缩,这样既提高了网络的效率,也提高了压缩效率3、kafka支持消息分区,每个分区中的消息保证顺序...
2019-01-07 15:02:48
121
原创 数据仓库的设计想法
这个blog用来积累设计数据仓库需要考虑的一些问题:1、 源系统数据调研也就是所谓的源系统数据,需要怎么调研,调研一些什么呢?目前认为需要确认业务的流程(其实就是业务流程对应的后台表的关系), 因为应用系统流程变更,最好设置业务流程的文档维护业务知识,作为知识积累2、在第三范式建模和维度建模之间的选择目前主流的建模方式是维度建模,三范式建模,实体建模等,这里建议在ods层上添加第三范式...
2019-01-07 13:52:02
182
原创 新建Docker Container
新建continer并assign IP地址docker run -itd -v /mnt/dba/dev-usscm-db-docker-110:/usr/local/mysql --net none --hostname dev-usscm-db-docker-110 --name dev-usscm-db-docker-110 10.168.3.58:5000/mysql_thin:20...
2019-01-04 13:15:07
415
原创 Canal + Kafka经验
canal中写入kafka的BUGkafka的默认最大消息大小是1M, canal作者也知道这个事, 所以往canal扔消息的时候, 会先做一个判断, 如果消息大小>1M, 会报错但关键是他报错说的要把kafka的配置改大, 实际上是自己做了阉割, 怨不得kafka, 我横来竖去改了n遍kafka的配置也没用目前我做的是修改了canal的源码:(GITHUB上最新版源码已经加上了这个配...
2019-01-04 13:14:09
2790
原创 Canal + Kafka安装
搭建zookeeper + kafka server参考https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart搭建containerdocker run -itd --net none --hostname dev-kafka-145 --name dev-kafka-145 spagobi /bin/bas...
2019-01-04 12:38:17
1548
原创 zookeeper学习
基本的术语:1、Architecture(架构)2、Hierarchical namespace(层次命名空间)3、Session(会话)4、Watches(监视)5、zookeeper CLI 命令行界面,要执行ZooKeeper CLI操作,首先打开ZooKeeper服务器(“bin/zkServer.sh start”),然后打开ZooKeeper客户端(“bin/zkCli.sh...
2019-01-04 10:31:56
118
原创 分布式的一些概念
分布式系统的特性:CAPConsistency(all nodes see the same data at the same time)一致性(所有的节点同一时间数据相同)Availability (a guarantee that every request receives a response about whether it was successful or failed)可用性(...
2019-01-03 11:32:20
94
原创 greenplum查出表涉及到的view和创建语句
selecta.table_schema,a.table_name,a.drop_sql,a.create_sql,string_agg(‘grant ’ || rtg.privilege_type || ’ on "’ || a.table_schema || ‘"."’ || a.table_name || '" to ’ || rtg.grantee, ‘;’ ) || ‘;’ a...
2019-01-02 09:01:45
1244
原创 python3 从kafka获取数据,并解析为json格式,写入到mysql中
项目需求:将kafka解析来的日志获取到数据库的变更记录,按照订单的级别和订单明细级别写入数据库,一条订单的所有信息包括各种维度信息均保存在一条json中,写入mysql5.7中。配置信息:[Global]kafka_server=xxxxxxxxxxx:9092kafka_topic=mesconsumer_group=test100passwd = trackingport = ...
2018-12-29 08:56:44
6096
原创 linux 常用命令
1、*.tar 用 tar -xvf 解压2、*.gz 用 gzip -d或者gunzip 解压3、.tar.gz和.tgz 用 tar -xzvf 解压4、*.bz2 用 bzip2 -d或者用bunzip2 解压5、*.tar.bz2用tar -xjf 解压6、*.Z 用 uncompress 解压7、*.tar.Z 用tar -xZf 解压8、*.rar 用 unrar e解压...
2018-12-28 14:45:11
133
原创 正则表达式积累
pythonresult = re.sub(’."\S*?"’,r’*’,’$.order."\32423".order."\32423"’)#替换字符串中指定开头和结尾中见的字符
2018-12-14 12:10:17
156
原创 mysql5.7 json的一些用法
配置表添加主键json里面每个表多加一层以主键作为key值insert:order_no存在追加-----json数组update tracking_orderset order_info=json_array_append(order_info, ‘$.data’, cast(’{“size”: “5”, “type”: “m”, “so_no”: “345”}’ as json)...
2018-12-04 09:02:11
408
原创 PYTHON 写日志的分割方案
import loggingimport osimport datetime#写日志logging.basicConfig(filename=os.path.join(os.getcwd(), ‘log.txt’), level=logging.WARN, filemode=‘w’,format=’%(asctime)s - %(levelname)s: %(message)s’)d...
2018-12-04 08:46:22
713
原创 linux到windows传输文件的方案
使用cwRsyncServer4工具,使用命令行将linux上文件传输到windows上1、下载工具,具体可见我上传的工具,安装2、配置工具文件rsyncd.conf [test] path = /cygdrive/c/work #传输目标文件路径(这里可能需要绝对路径,其他的没有测试,最后的目录需要在目标主机上建立起来) read only = ...
2018-11-23 09:08:42
512
转载 azkaban控制flow数量
转载https://blog.youkuaiyun.com/Mark__cao/article/details/81238255近期需求,想对Azkaban当前运行的最大flow数有所控制。flow中可以包含多个job。(默认读者熟悉azkaban)查到官网配置文件:https://azkaban.github.io/azkaban/docs/latest/#azkaban-execserver在Az...
2018-11-22 09:02:39
2471
原创 通过api 获取eloqua的数据(完整版)
有一个注意点,就是代码放在服务器上时,会出现频繁请求数据时,eloqua会重定向url([Errno 104] Connection reset by peer)),这里处理的方法是,添加循环,重新请求,当然请求的次数限制在10次内,如果十次都没有通过,则停止请求(在windows系统上没发现这个问题)import json import base64 import reque...
2018-11-15 09:49:09
1040
原创 python3(十位时间戳)时间戳获取昨天,前天等
import timeimport datetime# 今天日期today = datetime.date.today()print(today)# 昨天时间yesterday = today - datetime.timedelta(days=1)print(yesterday)# 明天时间tomorrow = today + datetime.timedelta(days=1...
2018-11-08 11:14:13
3246
原创 python3获取oracle REST API for Oracle Eloqua Marketing Cloud Service 数据
这个代码是自定义,获取客户自定义的数据import jsonimport base64import requestsimport timeurl = 'https://login.eloqua.com/id'str_encrypt= 'GenScript\manzu.shu:Shusu891002'base64_encrypt = str(base64.b64encode(str_...
2018-11-02 17:31:46
219
原创 python3 通过api获取oracle REST API for Oracle Eloqua Marketing Cloud Service 数据
通过REST API for Oracle Eloqua Marketing Cloud Service 获取数据,验证方式是Authenticate using HTTP Basic Authentication验证方式import base64import requestsimport jsonimport psycopg2# 用来操作数据库的类class GPCommand(...
2018-11-01 15:19:15
630
greenplum常用命令
2018-10-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人