- 博客(128)
- 收藏
- 关注

原创 大数据全家桶安装及启动JDK,mysql,canal,Zookeeper,Hadoop,Hive,Hbase,Datax,kylin,kafka,spark,flink,redis,zeppelin等
准备虚拟机用户名:root密码:123456IP: 192.168.100.100主机名: node01修改虚拟机IP地址:vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0HWADDR=00:0C:29:61:02:ECTYPE=EthernetUUID=78ce60bd-12ff-4f76-9783-c1ddba997090ONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=static
2020-05-18 18:29:31
1043
原创 scala中去除字符串前后空格API---trim,自定义hashset用来存储元素作为查找是否存在
import scala.collection.mutable.ListBuffer val test_hash = new collection.mutable.HashSet[String]() test_hash.add("123") test_hash.add("126") test_hash.add("125") test_hash.add("124") val list_test = new ListBuffer[String]() if(t.
2021-05-11 14:00:21
2352
原创 shell脚本执行mysql命令
#!/bin/bashfor i in 0 $(seq 1 127)do sql_str="ALTER TABLE $'i'_user_dw MODIFY COLUMN 字段名TEXT NOT NULL;" mysql -u root -h 168.192.000.000 -P 3306-D 数据库 -p 密码 -e "${sql_str}"done
2021-05-10 18:06:38
583
原创 spark存mysql多线程插入oom问题优化---采用HikariCP链接
all_data.repartition(10) .foreachPartition(tmp => { //获取数据库连接池 val dsPool = DataSourceSingleton.getDataSourceInstance //获取数据库连接池 val connection = dsPool.getConnection while (tmp.hasNext) { val row.
2021-04-26 21:31:15
511
原创 从0学python-------函数模块
if __name__ == '__main__': """ python可以通过help(abs)查看abs函数的帮助信息 在函数中,pass关键字,也是空函数的重要点,主要是用来占位,这样子就不会让代码报错,相当于try一样 >>>def nop() >>> pass 这个函数就成为空函数,目前还没有想到里面的逻辑怎么写,但是可以先写出来占位就行 =======自己定义函数时,可以考虑增加验证参...
2021-04-23 23:43:34
126
1
原创 从0开始学python----基础篇(list,dict,set,tuple)
if __name__ == '__main__': """ python中的tuple为另一种有序列表:也称元组,但是tuple一旦初始化就不能被修改, 所以,tuple没有list的append(),insert()的方法,其他获取元素的方法和list是一样的, 但不能复制成另外的元素 ---正因为tuple不可变,所以才使代码更安全,如果可能,能用tuple代替list就尽量用tuple ---tuple的陷阱,当你定义一个tuple时,在定义...
2021-04-22 23:24:18
128
原创 JAVA中MessageDigest加密算法----MD5
package json_class;import org.apache.commons.lang.StringUtils;import java.nio.charset.StandardCharsets;import java.security.MessageDigest;public class test_md { public static int classForTable(String key) { if (StringUtils.isEmpty(key))
2021-04-22 20:10:23
205
原创 决策树---实现泰坦尼克号预测(记录细节API)
import pandas as pdfrom sklearn.tree import DecisionTreeClassifierimport matplotlib.pyplot as pltfrom sklearn.model_selection import GridSearchCV, train_test_split, cross_val_scoreimport numpy as np# 使用分类树模型预测那些人可能称为幸存者,主要是分类树data = pd.read_csv(r"D:
2021-03-15 00:11:16
135
原创 Embedding中word2vec原理和细节
关于word2vec原理和结构总结为2+2+1的关系。2—>两种模式,COBW和Skip-gramCOBW:已知中间词向量求周围词向量COBW的运行原理流程:Skip-gram:已知周围词求中间词向量2—>两种优化方案,层次softMax和负采样由上图两个模型的流程可知,最后都是softmax求出词的概率最大时的参数,所以在实际情况下V的维数时很高的,所以在计算时复杂度很高,要求softmax要输出V个概率。层次softmax:原理是把softmax多分类换为多个sigm
2021-02-27 12:49:31
367
原创 机器学习-----集成学习
问题1,集成学习风哪几种,他们都有何种异同????第一种:BootingBoosting方法训练基分类器时采用串行的方式,各分类器之间有依赖,基本思路是将基分类器层层叠加,每一次在训练的时候,对前一层基分类器分错样本,给与更高的权重,测试时,根据各层分类器的结果的加权得到最终结果第二种:BaggingBagging方法训练过程中,各基分类器之间无强依赖,可以进行并行训练,其中很著名的算法之一是基于决策树基分类器的随机森林,为了让基分类器之间相互独立,将训练集分为若干个子集,Bagging方法
2021-02-23 22:50:15
154
原创 机器学习中的超参数调优(网络搜素,随机搜索,贝叶斯优化算法)
在机器学习中,我们通常把样本分为训练集和测试集,训练集用于训练模型,测试集用于评估模型,在样本划分和模型验证的过程中,存在着不同的抽样方法和验证方法,问题1,在模型评估过程中,有那些主要的验证方法,他们的优缺点是什么????Holdout检验:是最简单也是最直接的验证方法,它将原始的样本集合随即划分训练集和测试即两部分,但是缺点很明显,即在验证集上计算出来的最后评估指标与原始分组有很大关系,为了消除随机性,研究者们引入了交叉检验的思想。交叉检验:k-fold交叉检验:首先将全部样本划分成k个大小相
2021-02-20 23:03:45
834
原创 AB测试相关问题
在对模型进行过充分的离线评估之后,为什么还要进行在线 A/B测试????1、离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法替代线上评估结果2、离线评估无法完全还原线上的工程环境,一般来讲,离线评估往往不会考虑线上环境的延迟,数据丢失,标签数据缺失等情况,因此,离线评估的结果是理想工程环境下的结果3、线上系统的某些商业指标在离线评估中无法计算。离线评估往往关注的是ROC曲线,P-R曲线等的改进,而线上评估可以全面了解该推荐算法带来的用户点击率,留存时长,PV访问量等的变化,如
2021-02-20 20:00:08
215
原创 余弦相似度,余弦距离,欧氏距离,距离定义
在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,宠用余弦相似度来表示。余弦相似度的取值范围时[-1,1],相同的两个向量之间的相似度为1,如果希望得到类似的距离的表示,将1减去余弦相似度即为余弦距离,因此,宇轩距离的取值范围为[0,2],相同两个向量余弦相似度为0.为什么在一些场景中要使用余弦相似度而不是欧氏距离呢???对于两个向量A和B,其余弦相似度定义为:即两个向量的夹角的余弦,关注的是向量之间的角度关系,并不关心他们的绝对大小,其取值范围是[-1,1]。.
2021-02-20 13:09:32
1339
原创 推荐系统中评估指标的精准率,准确率,召回率,P-R曲线,ROC曲线,AUC曲线
准确率:指分类正确的总样本个数的比例精准率:指分类正确的正样本个数占分类器判定为正样本的样本个数的比例召回率:分类正确的正样本个数占真正的正样本个数的比例为了综合评估一个排序模型的好坏,不仅要看模型在不同TopN下的精准率和召回率,而且最好的绘制出模型的P-R曲线。P-R曲线的横轴为召回率,纵轴为精准率。在用P-R曲线评估模型时,只用某个点对应的精准率和召回率时不能全面的衡量模型的性能,只有通过P-R曲线的整体表现,才能够对模型进行更为全面的评估均方根误差:一般情况下,RMES能够很好的反映
2021-02-20 11:24:16
968
原创 推荐系统在深度学习方向的模型演变(DeepCrossing,NeuraCF,PNN,wide&Deep,DeepFM,Deep&Cross,NFM,DIN,DIEN,DRN)---未完待续
1、改变神经网络复杂程度:Deep Crossing(深度特征交叉)Deep&Crossing模型--------源于2014年-------微软模型在其内部网络中解决的问题:1、离散型特征编码过于稀疏,不利于网络的训练2、特征自动交叉组合的问题3、输出层中达到问题设定的优化目标模型的网络结构图:模型结构共计四层,**Embedding层:**作用使其将稀疏的类别特征转换为稠密的Embedding向量Stacking层:作用是把不同的Embedding特征和数值型特征拼接在
2021-02-19 15:50:25
703
原创 Embedding篇--word2vec,Item2vec,Graph Embedding,DeepWalk,Node2vec,EGES详解纯手稿
2021-02-15 19:40:13
463
原创 数据结构与算法------------顺序查找和无序查找python实现
# 顺序查找:无序表查找代码def sequentialSearch(alist,item): pos = 0 found = False while pos < len(alist) and not found: if alist[pos] == item: found = True else: pos += 1 return foundtestlist = [1,2,34,56,54
2021-02-05 00:44:54
349
原创 深度学习推荐系统-----AutoRec单隐层神经网络推荐模型--未完待续
单隐层神经网络模型是2015年又澳大利亚国立大学提出来的AutoRec,它是将自编码器的思想和协同过滤结合,提出了一种单隐层神经网络推荐模型,因其简约的网络结构和清晰易懂的模型原理,AutiRec非常适合作为深入学习推荐模型的入门模型来学习AutoRec模型是一个标准版的自编码器,它的基本原理是利用协同过滤重的共现矩阵,完成物品向量或者用户向量的自编码,在利用自编码的结果得到用户对物品的预估评分,进而进行推荐排序什么是自编码器?????自编码器是指能够完成数据“自编码”的模型,无论是图像,音频,还是文
2021-02-02 22:45:50
231
原创 推荐系统----协同过滤,矩阵分解,逻辑回归,FM,FMM,GBDT+LR,LS-PLM之间的优缺点
协同过滤:源于1992年直到2003年才被Amazon发表论文使用了基本原理:根据用户的行为历史生成用户-物品共现矩阵,利用用户相似性和物品相似性进行推荐特点:原理简单,直接,应用广泛局限性:泛化能力差,处理稀疏矩阵的能力差,推荐结果的头部效应较为明显矩阵分解:源于2006年Netflix举办推荐算法竞赛使推出的基本原理:将协同过滤算法中的共现矩阵分解为用户矩阵和物品矩阵,利用用户因向量和物品因向量的内积进行排序并推荐特点:相较协同过滤,泛化能力有所加强,对稀疏矩
2021-02-01 18:34:22
1040
原创 wide&deep模型的认知(未完结)
wide&deep模型:深度加宽度的模型范式,本身并不是一个具体的模型,wide和deep部分可以用任意结构框架,wide的baseline是LR模型,deep的baseline是MLP模型(MLP指多层感知器,是一种签祥结构的人工沉静网络,映射一组输入向量到一组输出向量)面试时会问这种不起眼的问题:1、wide&deep模型是谁提出来的?那一年提出来的?你在哪知道这个模型的?回答:wide&deep是由谷歌16年6月左右提出来的,2、wide&deep中感觉wide
2021-01-20 15:20:47
268
原创 API------------python中的pow(x,y)函数解析
在python中用到pow函数,一般都是求数值的三次方,pow(x,y)----->其意思是数字x的y次方例如:pow(5,3)------>表示5的三次方,其结果为:555
2021-01-20 11:52:38
1705
原创 kaggle注册时人机验证插件安装包----免费资源
免费提取码:链接:https://pan.baidu.com/s/11jNsagGTYgDotzM2eVU0vA 提取码:j7dr 复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V3的分享解压后,打开谷歌刷新即可,
2021-01-13 19:05:29
2343
2
原创 API解析------------在逻辑回归中predict()与score()的用法
# LogisticRegression是导sklearn包from sklearn.linear_model import LogisticRegression# 在逻辑回归中,先创建LR模型对象,之后再给模型对象传入数据进行分类estimator = LogisticRegression(solver='liblinear', penalty='l2', C =0.5)# 传入的参数是测试的样本数据,返回结果概率,是1或者是0,属于二分类问题y_predict=estimator.pred
2021-01-13 12:55:13
2567
原创 API解析------------特征工程标准化StandardScaler()函数
StandardScaler()函数是sklearn包下的,所以每次使用要调用sklearn包。StandardScaler类是处理数据归一化和标准化。在处理数据时经常会出现这中代码:transfer = StandardScaler()x_train=transfer.fit_transform(x_train)x_test = transfer.transform(x_test)先解释下调用fit_transform()与调用transform()的区别fit_trainfrom方法
2021-01-13 11:25:16
16993
3
原创 API解析----------sklearn中的train_test_split()用法
在机器学习中,得到样本数据后需要分为训练数据和测试数据,这时就会用到train_test_split()函数,train_test_split():用于样本切分为训练集和测试集两个数据集,例如:x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.3,random_state = 42)其中参数:x:样本中的特征数据y:样本中的结果数据test_size:训练集和测试集数据量的占比,如果是0.3则表示训练为70,
2021-01-13 10:50:57
926
原创 API解析------------pandas中的replace用法
replace(原来内容,更改新内容,inplace=True)inplace:默认为false意思指不在源数据上修改内容,反之为True意思在源数据集上修改import numpy as npimport pandas as pd# 创建数据集df = pd.DataFrame(np.random.randn(6,6),columns=['a','b','c','d','e','f'])""" a b c d
2021-01-13 08:42:17
494
原创 API解析------------pandas中的iloc与loc用法详解
loc:适合于列名索引import numpy as npimport pandas as pd# 建立数据集,dfdf = pd.DataFrame(np.random.randn(6,6),columns=['a','b','c','d','e','f'])# 查看数据集print(df)""" a b c d e f0 -0.630324 1.066089 -1.914506 -0.
2021-01-13 07:58:24
237
原创 NLP----------henlp词性对照表
【Proper Noun——NR,专有名词】【Temporal Noun——NT,时间名词】【Localizer——LC,定位词】如“内”,“左右”【Pronoun——PN,代词】【Determiner——DT,限定词】如“这”,“全体”【Cardinal Number——CD,量词】【Ordinal Number——OD,次序词】如“第三十一”【Measure word——M,单位词】如“杯”【Verb:VA,VC,VE,VV,动词】【Adverb:AD,副词】如“近”
2021-01-04 09:58:29
385
1
原创 NLP----------结巴词性对照表
- a 形容词 - ad 副形词 - ag 形容词性语素 - an 名形词 - b 区别词 - c 连词 - d 副词 - df - dg 副语素 - e 叹词 - f 方位词 - g 语素 - h 前接成分 - i 成语 - j 简称略称 - k 后接成分 - l 习用语 - m 数词 - mg - mq 数量词 - n 名词 - ng 名词性语素
2021-01-04 09:57:46
675
原创 NLP----------one-hot编码
在python中需要那个包,用pip就可以直接导,但是用官网提供的pip导包格式下载比较慢,所以建议在pip后面加上镜像例如:pip install 包名 -i https://pypi.tuna.tsinghua.edu.cn/simple/ --trusted-host pypi.tuna.tsinghua.edu.cn我在提供国内几个镜像链接:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/p
2021-01-03 20:51:32
313
原创 NLP------------结巴分词各种类型代码实操
import jieba"""精准模式分词: 试图及那个句子最精准的切开,适合文本分析 """strp = "科学家"content = "我是谁我在那美丽你好这个东西是什么东西我怎么不知道这俄格东西是哪里的东西呢"jieba.cut(strp,cut_all=False)# 若需要直接返回列表内容,使用jieba.lcut即可str_list = jieba.lcut(strp,cut_all = False)print(str_list)"""全模式分词:
2021-01-03 09:30:43
315
1
原创 pytorch------------基本介绍与操作
from __future__ import print_functionimport torch"""什么是PyTorch: pytorch是一个基于numpy的科学计算包,向它的使用者提供了两大功能 1、作为numpy的代替者,向用户提供使用GPU强大的功能的能力 2、作为一款深度学习的平台,向用户提供最大的灵活性和速度""""""pytorch的基本元素操作: Tensors张量:张量的概念类似于nunmpy中的ndarray数据结构,
2021-01-03 09:27:15
247
原创 数据结构与算法(python)----------队列相关的操作
队列的基本操作from pythonds.basic.queue import Queue# 创建一个空队列queue = Queue()# 判断此队列是否为空print(queue.isEmpty())# 给队列中插入数值queue.enqueue('我是谁')queue.enqueue('2021年')queue.enqueue('新年快乐')# 返回队列的长度print(queue.size())# 此时一定要明白在队列中前后是怎么定义的# 例如:上面queue队列,我先插入
2021-01-01 18:15:33
245
原创 数据结构与算法(python)-------------栈的操作
栈-------基本操作class Stack(object): """栈""" def __init__(self): self.items = [] def is_empty(self): return self.items == [] def push(self, item): self.items.append(item) def pop(self): return self.items
2020-12-31 17:40:37
137
原创 ERROR: Could not find a version that satisfies the requirement pythonds (from versions: none)
再pycharm中导包报着中错误,建议更换镜像链接,我原来用阿里云镜像报错然后更换清华镜像就成功了清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.com/山东理工大学:http://pypi.sdutlinux.org/豆
2020-12-31 12:44:54
272
原创 推荐系统--------------决策树算法(ID3与C4.5)
决策树算法-属于分类算法是利用训练样本集获得分类函数即分类模型(分类器)。从而实际讲数据集中的样本划分倒各个类中。分类模型通过学习训练样本中的属性集与类别之间的潜在关系,并一次为依据对新样本属于哪一类进行预测决策树通过把数据样本分配倒某个叶子节点确定数据集中样本所属的分类中,决策树有决策点,分支和叶子节点组成决策树节点表示在样本的一个属性上进行的划分分支表示对于决策节点进行划分的输出叶节点代表经过分支到达的类从决策树根节点出发,自顶向下移动,在每个决策节点都会进行次划分,通过划分的结果讲样
2020-12-28 21:10:23
768
原创 推荐系统-------------隐语义模型(LFM)之梯度下降代码实现
import numpy as npimport pandas as pd# 准备数据# 评分矩阵R = np.array([[4, 0, 2, 0, 1], [0, 2, 3, 0, 0], [1, 0, 2, 4, 0], [5, 0, 0, 3, 1], [0, 0, 1, 5, 1], [0, 3, 2, 4, 1]])print(len(R))# 算法实现"""@输入参数:R: M*N的评分矩阵K: 隐特征向量维度max_iter:最大迭代次数alpha:步长lamd
2020-12-27 16:35:57
197
原创 推荐系统--------------交替最小二乘法(ALS)
引入:LFM(隐语义模型):协同过滤算法非常依赖于历史数据,而一般的推荐系统中,偏好数据又往往使稀疏的,这就需要对原始数据做降维处理,分解之后的矩阵,就代表了用户和物品的隐藏特征。LFM降维方法就用 ----> 矩阵因子分解矩阵因子分解的问题已经转化成一个标准的优化问题,需要求解P,Q使目标损失函数取最小值最小化过程的求解,一般采取随机梯度下降算法或者交替最小二乘法来实现说白了就是求矩阵因子分解的最优解,我们先用交替最小二乘法(ALS)求解。正文:ALS的思想是,由于两个矩阵P和Q都是
2020-12-25 21:02:19
1383
原创 推荐系统------------矩阵因子分解
引入:假设用户物品评分矩阵位R,现在有m个用户,n个物品我们想要发现K个引雷,我们的任务就是找到两个矩阵P和Q,使这两个矩阵的乘积近似等于R,即将用户物品评分矩阵R分解称为两个低维矩阵相乘:进一步理解LFM我们可以认为,用户之所以给电影打出这样的分数,是由内在原因的,我们可以挖掘出影响用户打分的隐藏因素,进而根据未评分电影与这些隐藏因素的关联度,决定此未评分电影的预测评分。应该有一些隐藏的因素,影响用户的打分,比如电影,演员,题材,年代,,,甚至不一定是人,直接可以理解的隐藏因子。找到隐
2020-12-24 19:42:12
681
原创 推荐系统------------隐语义模型(LFM)
引入基于模型的协同过滤思想基本思想:用户具有一定的特征,决定着他的偏好选择物品具有一定的特征,影响着用户需是否选择它用户之所以选择某一个商品,是因为用户特征与物品特征相互匹配基于这种思想,模型的建立相当于从行为数据中提取特征,给用户和物品同时打上标签,这和基于人口统计学的用户标签,基于内容方法的物品标签本质是一样的,都是特征的提取和匹配有显性特征时(比如用户标签,物品分类标签)我们可以直接匹配做出推荐,没有时,可以根据已有的偏好数据贸区发掘出隐藏的特征,这需要用到隐语以模型(LFM)训练模型
2020-12-24 11:19:25
597
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人