- 博客(54)
- 收藏
- 关注
原创 python-numpy
#!/usr/bin/python# -*- coding:utf-8 -*-# 导入NumPy函数库,一般都是用这样的形式(包括别名np,几乎是约定俗成的)import numpy as npimport matplotlib as mplfrom mpl_toolkits.mplot3d import Axes3Dfrom matplotlib import cmimport...
2019-07-03 22:08:08
488
转载 python 常用匹配
1.身份证解析匹配--》分组匹配例:身份证1102231990xxxxxxxximport res = '1102231990xxxxxxxx'res = re.search('(?P<province>\d{3})(?P<city>\d{3})(?P<born_year>\d{4})',s)print(res.groupdict())此分...
2019-06-01 16:33:30
843
原创 python 正则匹配
在python 中,正则匹配用到的还是挺多的,下面总结一下常用的一些正则匹配:精确匹配:\d可以匹配一个数字,\w可以匹配一个字母或数字,. 匹配任意的单个字符\s可以匹配一个空格(也包括Tab等空白符)变长匹配:{N} 重复前面的单个字符N次出现{a,b} 重复前面的单个字符出现次数的范围在a-b次,例如:\d{3,8} 表示任意个字符(包括0个)*表...
2019-06-01 16:15:13
11039
原创 python 类的getter&setter
在编写java或者scala的时候,对一个类的变量等经常用到getter setter方法,在python里面同样也有对应的实例:可以直接用类.变量的方式获取数据实现getter,类.变量(值)的方式实现setter方法:定义方法如下:使用@property 和@xx.setter 标注的变量名的同名定义方法前即可实现class Student(object): ...
2019-05-22 23:02:06
4786
1
原创 python 获取对象信息
文章参考:这里判断对象类型,使用type()函数,>>> type(123)<class 'int'>>>> type('str')<class 'str'>>>> type(None)<type(None) 'NoneType'>>>> type(abs)==type...
2019-05-21 23:42:04
212
原创 python 默认规范
一个模块的常见形式如下:#!/usr/bin/env python3# -*- coding: utf-8 -*-'''我的一个测试python模块(这是模块的第一个字符串,默认为模块的文档注释)'''__author__='test' #指定作者,也可不写def prt(): print("测试输出")if __name__ == '__main__':...
2019-05-21 23:14:13
314
原创 python 高阶函数
Higher-order function高阶函数定义:一个函数接受 另一个函数作为参数,这种函数就称之为高阶函数比如:def add(x, y, f): return f(x) + f(y)当我们调用add(-5, 6, abs)时,参数x,y和f分别接收-5,6和abs,根据函数定义,我们可以推导计算过程为:x = -5y = 6f = absf(x) + ...
2019-05-21 23:02:14
129
原创 python 匿名函数
有些时候,不需要显式地定义函数,直接传入匿名函数更方便,匿名函数常用的是lambda表达式,格式是:lambda x : x*xlamda是匿名函数的标识,冒号前面的x为参数,冒号后面的是算法表达:例如:lambda x :x+5lambda 是一个表达式,是一个对象,也可以赋给变量,以及作为返回值返回(返回一个lambda函数),>>> f = lam...
2019-05-21 22:28:16
420
原创 python 生成器
先说一下列表生成式:它还是比较常用的,生成一个简单的数组:list_a=list(range (1,11))>>>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]在复杂的场景下,我们不可能一个一个的append方式插入数据,可以利用列表生成式很简单的生成:print([x*5+2 for x in list(range(1 ,10)) if ...
2019-05-16 14:59:42
178
原创 ES 的基本操作(rest)
ES版本:6.4.1创建索引REST方式如下:(添加 pretty 到调用命令的末尾,目的是打印成格式化的 JSON 响应)curl -XPUT 'IP:9200/index_name?pretty&pretty'ES索引增加数据curl -XPUT 'localhost:9200/customer/external/1?pretty&pretty' -d'...
2019-05-10 14:15:28
1566
原创 python 字典操作
详细操作参考:官方文档info={'name':'zhangsan','age':34,'address':'beijing','101':'ceshi'}print(info)#python3.7版本后,键值对会按 LIFO 的顺序被返回,字典会保留插入时的顺序。键的更新不会影响顺序。 删除并再次添加的键将被插入到末尾info['101']='new101' #修改数据info.po...
2019-05-09 23:41:29
1375
原创 python -字符的操作
字符的常见操作可见:官方文档strLine = 'test line line2'print(strLine.capitalize())#首字母大写print(strLine.count('i'))#统计出现次数print(strLine.center(5,'-'))#不足字符按照后面的补齐print(strLine.startswith('t'))print(strLine.e...
2019-05-09 22:45:45
290
原创 python 列表的操作
# 数组,同java数组list1 = ['zhangsan', 'lisi', 'wangwu', 'idea','new','new']list1.append('dama') # 增list1.insert(1, 'insert') # 插list1[1] = 'new' # 改list1.remove('lisi') # 删 或者 del list1[1] 或者...
2019-05-08 23:09:25
250
原创 python string互转bytes
在python3中,数据的网络传输只能传输二进制数据,所以bytes和str转化需要清楚:a = '你好'b =a.encode('utf-8')print(b)c=b.decode('utf-8')print(c)结果:
2019-05-08 22:06:56
4251
原创 python-模块初识
模块:别人已经封装好的库,可以直接拿来直接调用,可一般分为标准库和第三方库标准库:不需要安装,可以直接导入,比较常用,标准库可见 官方文档第三方:需要安装并导入os模块:目录文件等操作,详情见官方文档import osos.system("dir")#执行命令,不保存结果tmp=os.popen("dir").read()print(tmp)os.mkdir("newD...
2019-05-07 23:39:22
271
原创 python-循环
python 循环 : if else while forcount = 0while count < 3: yourIn = int(input("请输入你的存款:")) if yourIn > 100: print("有钱") break else: print("穷") coun...
2019-05-07 22:58:15
170
原创 python交互-用户输入
python交互-用户输入,使用input作为输入: 实例代码如下:#密文模块import getpassa= input("name:")b=int(input('age:'))# password = getpass.getpass("password:") 在shell 端才有效果print(str(type(a))+ '-------'+str(type(b)))#...
2019-05-07 22:56:38
1027
原创 Spark DataFrame 相关函数汇总
DataFrame 的函数Action 操作1、collect() ,返回值是一个数组,返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、count() 返回一个number类型的,返回dataframe集合的行数4、describe(cols: String*) 返回一个通过数学计算的类表...
2019-04-30 14:28:14
2422
原创 正则表达式
表达式全集字符 描述 \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。 ^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。 $ 匹配输入字符串的结束位置...
2019-04-30 11:37:42
441
原创 dokuwiki安装&插件&主题设置
最近部门考虑搭建一个集成人员权限管理,媒体文件共享,版本可追朔,修改等记录等功能的知识&文件共享平台,最开始考虑用svn,但是文件的每次提交和更新太过繁琐,并且每次更新需要下载到本地才能看,所以考虑搭建wiki系统,最终通过了解,选择了dokuwiki,他是一个开源系统,搭载快捷方便,插件满足日常基本需求,主题也比较清晰简单。下面便是所有的搭建&使用:详细的操作安装等,可参考:ht...
2019-04-26 00:40:13
8472
原创 kafka API操作topic
kafka 版本:2.1.0具体更多的明细API用法见官网:kafka官网APIpom信息:<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <vers...
2019-01-05 20:27:08
3325
2
原创 kafka-shell操作
创建topic:bin/kafka-topics.sh --create --zookeeper zk1:2181,zk2:2181 --replication-factor 2 --partitions 1 --topic testreplication:数据保存副本数量,分布式文件容错partitions:kafka主题的分区数量,对应消费者的消费并发读取数据数量查看topic:...
2018-12-06 20:01:03
319
原创 java scala混合编程
需要在pom里面加入:依赖包: <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.12</version> <scope&
2018-12-04 21:18:07
908
原创 Spark-Streaming 整合 Kafka Integration Guide设置说明
创建streaming+kafka数据源:官方链接public static void main(String[] args) { jssc = SparkUtil.initContext(); //kafka参数设置 Map<String, Object> kafkaParams = new HashMap<>();...
2018-12-02 14:51:07
404
原创 ES6.4.1环境搭建
ES的概述就不说实时了,他的功能强大,做检索,数据查询,日志分析,文件信息存储,实时数据存取等。。。。。 A.准备工作:1.java环境 1.8 版本 2.elasticSearch6.4.1安装包 B.先单台解压完后,修改配置文件:vim config/elasticsearch.yml 文件C.设置完成后,将ES目录分发各个节点,并...
2018-11-06 20:28:39
543
转载 SQL常用函数集锦
转载自:http://www.cnblogs.com/dreamof/archive/2009/02/02/1382487.html一、字符转换函数1、ASCII()返回字符表达式最左端字符的ASCII 码值。在ASCII()函数中,纯数字的字符串可不用‘’括起来,但含其它字符的字符串必须用‘’括起来使用,否则会出错。2、CHAR()将ASCII 码转换为字符。如果没有输入0 ~ 25...
2018-10-09 09:12:36
1206
转载 Spark中cache和persist的作用以及存储级别
Spark有几种持久化级别如下(参考自博客):1.MEMORY_ONLY使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执行算子操作时,那些没有被持久化的数据,需要从源头处重新计算一遍。这是默认的持久化策略,使用cache()方法时,实际就是使用的这种持久化策略。2.MEMORY_AND_DISK使用未...
2018-08-31 11:00:45
470
原创 Hive使用常见问题&&优化
1)内存溢出map阶段解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。shuffle阶段解决:减少每个reduce处理的数据量,调整参数:hive.exec.reducers.bytes.per.reducer,默认300000000。或调整放在内存里的最大片段所占百分比(set mapr...
2018-08-27 22:24:30
18762
转载 SPARK 学习资源汇总(1)
1. 书籍,在线文档Learning Spark Advanced.Analytics.with.Spark Mastering Apache Spark Official Guide Spark Guide by Cloudera2. 网站official site user mailing list spark channel on youtube spark summ...
2018-08-14 10:22:03
723
转载 hive较为全面总结
转载自:https://blog.youkuaiyun.com/haojun186/article/details/79775651. HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟...
2018-08-11 17:08:55
5236
原创 Spark shuffle性能优化
详细参见官方文档:http://spark.apache.org/docs/2.1.0/configuration.html1.spark.shuffle.consolidateFiles:是否开启shuffle block file的合并,默认为false (2.x废弃)---->数据在进行shuffle的时候,如果没有开启这个参数,那么就会从每个节点上的每个task上取拉去数据...
2018-08-07 23:10:59
486
原创 Hive使用常见问题
1)内存溢出map阶段解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。shuffle阶段解决:增加reduce数(set mapreduce.job.reduces=xxx)或调整放在内存里的最大片段所占百分比(set mapreduce.reduce.shuffle.memory.limit.p...
2018-07-11 17:57:25
3683
1
原创 HIVE基础表操作
一,建表&修改表(DDL)CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name ...
2018-07-11 16:41:54
1258
原创 HIVE使用优化总结
Hive使用注意点(1)尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表加上分区判断过滤不需要处理的数据。(2)分区表关联在on条件上加上分区判断,否则会扫全表。(3)避免一个SQL包含复杂逻辑,可以借助中间表来完成复杂的逻辑。(4)建议使用外部表,防止误删表时删除数据;对于中间表可使用内部表的方式。splitsize大小--切片大小( mapred.max.split.size 和mapre...
2018-07-11 16:21:40
275
原创 SCALA 基础操作篇7
12.函数式编程之集合操作1、Scala的集合体系结构2、List3、LinkedList4、Set5、集合的函数式编程6、函数式编程综合案例:统计多个文本内的单词总数 Scala的集合体系结构 Scala中的集合体系主要包括:Iterable、Seq、Set、Map。其中Iterable是所有集合trait的根trai。这个结构与Java的集合体系非常相似。 Scala中的集合是分成可变和不可变...
2018-07-10 23:55:25
480
转载 SCALA 基础操作篇6
11.Scala编程详解:函数式编程1、将函数赋值给变量2、匿名函数3、高阶函数4、高阶函数的类型推断5、Scala的常用高阶函数6、闭包7、SAM转换8、Currying函数9、return将函数赋值给变量 Scala中的函数是一等公民,可以独立定义,独立存在,而且可以直接将函数作为值赋值给变量 Scala的语法规定,将函数赋值给变量时,必须在函数后面加上空格和下划线def sayHello(n...
2018-07-10 01:11:48
398
转载 SCALA 基础操作篇5
10.面向对象编程之Trait1、trait基础知识 1-1 将trait作为接口使用 1-2 在trait中定义具体方法 1-3 在trait中定义具体字段 1-4 在trait中定义抽象字段2、trait高级知识 2-1 为实例对象混入trait 2-2 trait调用链 2-3 在trait中覆盖抽象方法 2-4 混合使用trait的具体方法和抽象方法 2-5 trait的...
2018-07-07 16:27:20
271
转载 SCALA 基础操作篇4
8.面向对象编程之继承extends Scala中,让子类继承父类,与Java一样,也是使用extends关键字 继承就代表,子类可以从父类继承父类的field和method;然后子类可以在自己内部放入父类所没有,子类特有的field和method;使用继承可以有效复用代码 子类可以覆盖父类的field和method;但是如果父类用final修饰,field和method用final修饰,则该类是...
2018-07-07 16:06:49
622
转载 SCALA 基础操作篇3
8.面向对象编程之对象object object,相当于class的单个实例,通常在里面放一些静态的field或者method 第一次调用object的方法时,就会执行object的constructor,也就是object内部不在method中的代码;但是object不能定义接受参数的constructor 注意,object的constructor只会在其第一次被调用时执行一次,以后再次调用就...
2018-07-07 15:18:41
258
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人