- 博客(133)
- 资源 (12)
- 收藏
- 关注
原创 IntelliJ IDEA配置scala开发环境
1.下载IntelliJ IDEA 。官方地址:https://www.jetbrains.com/idea/download/#section=windows2.安装3.
2019-10-12 14:43:51
325
原创 flink笔记
Minby/min的区别?Min-》对于不是key的字段,只会显示第一条记录的值Minby-》对于不是key的字段,显示真实的值ConnectKeyselectorSession 判断间隔时间Interval join 上下限异步操作,因为IO占用时间比较长异步I/O实现用于分发异步I/O请求的asyncfunction用于获取operator结果并将之传递...
2019-10-06 13:53:47
279
原创 python编码问题
ASCII码,原有英文编码,一共128个字符,如A是65,01000001 非ASCII码 Unicode编码: 新的一种编码方式,现在可以容纳100多万个字符,每个字符编码不一致,比如U+0639标识阿拉伯字母Ain,U+4E25代表中文严 UTF-8:互联网的普及,强烈要求出现一种统一的编码方式,UTF-8是其中的一种Unicode的实现方式。Python编码# -*- codi...
2019-05-08 16:42:07
688
转载 linux定时任务
https://www.cnblogs.com/intval/p/5763929.htmlhttps://www.cnblogs.com/mingforyou/p/3930636.html
2019-01-12 16:04:22
211
转载 dataframe的一些操作
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表...
2019-01-08 11:11:57
358
转载 spark广播变量
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。累机器相当于统筹大变量,常用于计数,统计。二、具体原理1、广播变量广播变量理解图 注意事项1、能不能将一个RDD使用广播变量广播出去? 不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。2、 ...
2019-01-02 19:25:52
1177
转载 python中read,readline和readlines的区别
一、read([size])方法read([size])方法从文件当前位置起读取size个字节,若无参数size,则表示读取至文件结束为止,它范围为字符串对象f = open("a.txt")lines = f.read()print linesprint(type(lines))f.close()输出结果:HelloWelcomeWhat is the fuck....
2019-01-02 19:07:51
231
转载 python 结巴分词(转)
python结巴(jieba)分词一、特点1、支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。 (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2、支持繁体分词3、支持自定义词典二、实现结巴分词的实现原理主要有一下三...
2018-12-25 10:18:51
528
转载 hive表insert,update,delete
https://blog.youkuaiyun.com/wzy0623/article/details/51483674
2018-12-22 18:01:02
574
转载 多进程和多线程
对比维度 多进程 多线程 总结 数据共享、同步 数据共享复杂,需要用IPC;数据是分开的,同步简单 因为共享进程数据,数据共享简单,但也是因为这个原因导致同步复杂 各有优势 内存、CPU 占用内存多...
2018-12-22 11:49:34
207
转载 hbase rowkey设置
从读的方面考虑: family越多,那么获取每一个cell数据的优势越明显,因为io和网络都减少了。 如果只有一个family,那么每一次读都会读取当前rowkey的所有数据,网络和io上会有一些损失。 当然如果要获取的是固定的几列数据,那么把这几列写到一个family中比分别设置family要更好,因为只需一次请求就能拿回所有数据。 从写的角度考虑: 首先,内存方面来说,对...
2018-12-19 15:29:40
897
转载 scala中sorted,sortby,sortwith的用法(转)
scala中sorted,sortWith,sortBy用法详解2017年07月23日 23:07:51 bitcarmanlee 阅读数:9249版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/bitcarmanlee/article/details/75949268scala的集合中提供了三种排序的方式:sorted,sortWit...
2018-12-17 00:15:41
1752
转载 SPARK CONF,SPARK CONTEXT和SPARK SESSION的区别
https://www.cnblogs.com/Forever-Road/p/7351245.html
2018-12-16 23:30:38
978
转载 安装centos 最小版
点击虚拟机一、准备:# yum install gcc kernel-headers kernel-devel ///因为编译需要,要装这几个包二、安装:挂载光驱:# mkdir /mnt/cdrom ///创建挂载目录# mount /dev/cdrom /mnt/cdrom ///将光驱挂载到/mnt/cdrom目录# cd /mut/cdr...
2018-09-01 16:50:34
810
转载 O2O优惠券使用(转---先记录下来作为参考)
正式开始做是从十月底开始的,我之前参加了新手赛,而这一次正式赛可以说是真正认真做的一次,中间和队友一起学习了很多,也有小小的收获,不管这次成绩如何,以后还有机会。数据与评价方式赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内的使用情况。 使用优惠券核销预测的平均AUC(ROC曲线下面积)作为评价标准。 即对每...
2018-08-24 15:13:55
2334
转载 scipy做层级聚类(转)
#!/usr/bin/python3# -*- coding: utf-8 -*-###cluster.py#导入相应的包import scipyimport scipy.cluster.hierarchy as schfrom scipy.cluster.vq import vq,kmeans,whitenimport numpy as npimport matplotlib...
2018-08-17 16:19:12
339
原创 时间序列实现-上海宝山气温分析
先把代码写上#!/usr/bin/python3# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport osimport statsmodelsfrom matplotlib.pylab import rcParamsfrom ...
2018-08-08 17:10:11
1021
原创 统计学中各种检验以及python实现
1. T检验T检验是假设检验的一种,又叫student t检验(Student’s t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。 T检验用于检验两个总体的均值差异是否显著。 计算公式: t统计量: 自由度:v=n - 1 适用条件: (1) 已知一个总体均数; (2) 可得到一个样本均数及该样本标准误;...
2018-08-08 17:08:34
42463
5
原创 python连接hana数据库
跟连普通的数据库差别不大 import pyhdbdef get_connection(): conn_obj = pyhdb.connect( host = "10.16.29.131", #HANA地址 port = 30015, #HANA端口号 user = "20140006", #用户号 passwor...
2018-08-07 10:39:12
2058
原创 tensorflow安装
1. 安装anaconda,直接官网下载2,CPU版本 pip3 install --upgrade tensorflow,GPU版本 pip3 install --upgrade tensorflow-gpu。安装需要一段时间。3.做个简单的测试#!/usr/bin/python3# -*- coding: utf-8 -*-import tensorflow as tfse...
2018-08-06 19:00:40
192
转载 方差分析公式
方差分析(analysis of variance,简写为ANOV或ANOVA)可用于两个或两个以上样本均数的比较。应用时要求各样本是相互独立的随机样本;各样本来自正态分布总体且各总体方差相等。方差分析的基本思想是按实验设计和分析目的把全部观察值之间的总变异分为两部分或更多部分,然后再作分析。常用的设计有完全随机设计和随机区组设计的多个样本均数的比较。一、完全随机设计的多个样本均数的比较
2014-11-08 15:58:50
35225
转载 R语言进行方差分析
一、单因子方差分析(one-wayANOVA)1)建模:我们采用multcomp包中的cholesterol数据集作为例子,其中response为响应变量,trt为预测变量,这个处理中有五种水平。从下面的箱形图中可观察到处理的不同水平对于响应变量的影响。再用aov函数建立单因子方差模型,从结果的P值可看到各组均值有显著不同。查看源代码打印帮助
2014-11-08 15:55:03
16836
转载 方差分析
方差分析中的MS,SS,F,DF分别是什么意思方差分析只能判别该因素是否存在显著影响,而不能通过之间的F值来判断影响效果的大小关系,F值的大小和对应的概率值大小说明的是一个意义,而且对于不同的F值大小,存在不同的自由度,而不同的自由度之间是不能相互比较F值的。 “*”对应的是显著性水平。如果我没有记错的话,“**”代表在0.01显著性水平下显著;“*”代表在0.5显著性水平下
2014-11-08 15:54:35
3886
转载 R中的各种假设检验
1、W检验(Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验) 检验数据是否符合正态分布,R函数:shapiro.test(). 结果含义:当p值小于某个显著性水平α(比如0.05)时,则认为 样本不是来自正态分布的总体,否则则承认样本来自正态分布的总体。2、K检验(经验分布的Kolmogorov-Smirnov检验) R函数:ks.
2014-11-04 11:44:33
7183
转载 about change run
Why Attribute Change Run ?A change run refers to the:Activate master data changes to attributes and hierarchiesRealign aggregates containing navigational attributesRealign aggregates def
2014-10-29 17:31:52
1014
转载 BW:处理链报错自动邮件通知(方法2:Alert)
上次研究通过Monitor来监控处理链报错的方法时,查到了不少关于Alert的东西,今天来探讨怎么用这种方法来达到想要的结果。 Step 1:SU01,配置上用户的Email地址,同上次 Step 2:ALRTCATDEF选Process Chain,在右边找到BWAC_PROCESS_CHAIN_ERROR,双击在下面Dyn
2014-07-31 17:31:30
1671
转载 RSA1相关的函数
在CRM7.0 EHP1的IDES中,拷贝新的客户端100后,在新客户端执行RSA1,提示只能在客户端111使用。解决方法:执行Function:RS_MANDT_UNIQUE_SET 参数中输入新的客户端即可。执行后RSA1仍然不可用提示逻辑系统已经更改解决办法: 执行Function:RSAP_BIW_DISCONNECT具有参数参照table RSBASIDOC中11
2012-11-14 11:15:49
1510
转载 关于汇率采用处理链抽取中的注意问题
我们知道,手工抽取R3汇率,是执行“源系统——传输汇率”后运行的ABAP程序,此时源系统会自动带出。这支程序实际为RSIMPCURR。如果想通过处理链自动抽取汇率,其做法是在处理链中建立一个节点,类型为ABAP程序。该节点的设计界面中,程序选择RSIMPCURR;变式需要新建(假设变式名为ZCURR),注意,该变式不能通过直接运行RSIMPCURR新建(因为直接运行改程序源系统为空),而要通过
2012-09-24 16:27:52
928
转载 [转]hana的slt配置指导
13Sep/12SAP最新模块HANA的SLT安装配置指导总结by tiger under 分类:SAP HANA 尽管SAP HANA 在SP03的官方文档中,已经给用户提供了一个非常详细完整的SLT配置文档和安装文档,但是还是有很多同学没有弄清楚这个安装和配置的步骤,其实文档中说的很清楚的,但是有得很关键的地方,就是一句“请参考什么什么Note”就
2012-09-19 16:01:52
6413
1
转载 WEBI中乱码问题
修改Business Objects的安装目录/BusinessObjects Enterprise 12.0/win32_x86/fonts中的fontalias.xml文件找到[xhtml] view plaincopyprint?FONTNAME="SimSun"> FONTFAMILYPLATFORM="ttf"NAME="SimSu
2012-07-09 16:19:31
1803
转载 建立BW开发环境
建立BW开发环境1. SCC4: 在000上Create BW client(BW Client = 100)2. 使用账号SAP*和密码PASS登陆1003. SCCL: Copy client(000->100)4. SE37: RS_MANDT_UNIQUE_SET5. SE16: 修改表RSADMINA字段BWMANDT = 1006. RZ11: 修改login/
2012-05-31 16:37:12
1545
原创 ABAP程序调用job
form sub_bgdjob_process using i_damiid type char18 changing e_rc type i. data l_jobname type tbtcjob-jobname. data l_jobcount type tbtcjob-jobcount. concatena
2012-05-31 15:48:59
1711
转载 ABAP触发处理链函数
比来须要用ABAP触发处理惩罚链,并且还要把握处理惩罚链的履行次数,找了很多材料,终于成功实现了。我目前知道的办法有两种。一种是直接经由过程SAP供给的API函数去触发处理惩罚链,别的一种就是经由过程事务触发处理链。下面分别对两种触发处理惩罚链的办法做大致申明。Method1:API在BW中,找到Function group : RSPC_API里面有如下函
2012-05-16 17:06:25
2874
转载 SAP中如何寻找增强
方法一、利用TCODE寻找增强(第二代的增强) 执行一个程序(源代码后附),在选择屏幕处输入你所需要增强的程序TCODE,执行後,就会出现一个列表,那里就有关于如何增强这个的绝大部分SMOD增强。 点击进去,自己手动寻找需要的增强。 这是第二代增强 方法二、利用系统函数寻找 MODX_FUNCTION_ACTIVE_CHECK
2012-05-16 16:30:24
800
Tensorflow学习:Python虚拟环境
2017-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人