
机器学习
文章平均质量分 58
数道难
这个作者很懒,什么都没留下…
展开
-
10分钟掌握推荐算法从古至今
前言:就2016-2022最近几年来看,很多做算法的岗位招聘信息都要求硕士学历起步,但有的也非必要条件;所以劝退第一学历非重点本科的童鞋,有些公司、岗位卡学历,其实其他研发岗也挺好的,不少公司算法跟其他研发岗是同薪的,没有必要在自己不占优的方向上死磕。以下原创皆本人自身理解以及推荐看过的部分好文,若有疏漏,不吝赐教。传统机器学习篇入门阶段还是建议从传统机器学习开始,一来因为传统机器学习相对简单,方便工程上实现并快速部署,二来是不少深度学习中的算法都是在传统机器学习的基础上改进而来的。这里着重掌原创 2022-02-27 18:13:58 · 1198 阅读 · 0 评论 -
spark2调用TensorFlow2模型
问题一:com.google.protobuf.Parser.parseFrom方法找不到。因cdh默认的spark依赖jar中protobuf-java-[version].jar版本太低,需要手动升级替换;问题二:序列化org.tensorflow.SavedModelBundle后广播各种空指针,建议直接改道addFile(modelPath,true)于executor加载模型;sparkConf.set("spark.serializer", "org.apache.spark.seri原创 2021-04-28 16:35:28 · 461 阅读 · 0 评论 -
基于spark相关的DeepLearning选择
背景:TensorFlow性能差强人意,但DeepLearning领域优势,spark则反之。TensorFlow训练好的模型在spark中调用各种小问题不断。基于spark相关的DeepLearning大致看了下面这些,各有优缺点:elephas:参考:https://github.com/maxpumperla/elephasdist-keras:参考:https://github.com/cerndb/dist-kerassparknet:低活跃,https://github.com/原创 2021-03-31 17:21:40 · 490 阅读 · 0 评论 -
TensorFlow on spark笔记
spark-shell --master local[10] --driver-memory 10G --jars s3://boomplay-noversion/EMR/jars/tensorflow-1.14.0.jar,s3://boomplay-noversion/EMR/jars/libtensorflow-1.14.0.jar,s3://boomplay-noversion/EMR/jars/libtensorflow_jni-1.14.0.jarspark-shell --jars s3:/原创 2020-12-25 17:04:26 · 845 阅读 · 3 评论 -
lightgbm on spark笔记
背景:自2017年微软开源lightgbm以来,各大算法相关赛事前排队伍当中都不乏lightgbm的身影:https://github.com/microsoft/LightGBM/blob/master/examples/README.md#machine-learning-challenge-winning-solutions但大部分参赛者都是纯Python写的单机脚本而已。为了借助当前流行的spark处理大量数据,我开始了lightgbm on spark之旅。遇到的问题:问.原创 2020-09-05 17:35:34 · 1915 阅读 · 6 评论 -
spark FPGrowth笔记
问题1:树深度无限制问题这频繁项 子集深度不加限制,感觉不合理,,,好比词袋模型词袋任意长了;若不在前面手动限制 频繁项 最大长度,我的笔记本直接运行不出来,我的笔记本必须限制到30以内size(ids)<30。问题2:参数含义setMinSupport(0.001) // 频繁项(热门商品)在总体的最小(出现)比例追溯从fit到genericFit就发现minCount= math.ceil(minSupport * count),再到genFreqItems发现解释为“m..原创 2020-06-04 20:12:45 · 423 阅读 · 0 评论 -
deepFM详解之FM
主体转自:https://blog.youkuaiyun.com/baymax_007/article/details/83931698,豆沙绿部分为个人认为需注意修改的。背景:相关的文章网上一传十十传百且质量良莠不齐,对于初学者晦涩难懂;我在前人的总结上加入了自己的理解稍作增删修改,以作为学习记录,如有疏漏,敬请指正。因子分解机(Factorization Machine, FM)是由Steff...原创 2020-01-05 20:22:06 · 1333 阅读 · 2 评论 -
DL4J hello world
背景:之前尝试TensorFlow训练保存pb模型给到spark用,感觉还是性能太慢了;开始寻求在spark上跑深度学习的方法,权衡sparkNet和DL4J后选择。参考官网 https://deeplearning4j.org/cn/quickstart 先弄了个例子:步骤1:克隆到本地F:\spark project\dl4j-examples>git clone https:...原创 2019-10-30 09:41:40 · 474 阅读 · 0 评论 -
GPU 版 TensorFlow 资源不足问题笔记
问题1:同时多个程序训练、测试模型报错如下Caused by op 'MatMul', defined at: File "F:/python/DeepFM/test/cs.py", line 214, in <module> y_deep = tf.add(tf.matmul(y_deep, weights["layer_%d" % i]), weights["bia...原创 2019-10-08 11:08:27 · 865 阅读 · 0 评论 -
TensorFlow实现deepFM笔记
问题1:TensorFlow中pb二进制模型复用时变量(偏置项等)覆盖;如feature_embeddings = tf.Variable( tf.random_normal([3, 2], 0.0, 0.01), name='feature_embeddings')这样的变量。这是因为运行sess.run(tf.global_variables_initializer())之类的问题。...原创 2019-09-26 18:27:44 · 642 阅读 · 1 评论 -
SVM实例
数据源:R自带的iris三种花数据(R的e1071包没装下来,so用Scala写了);spark mlib代码: def svmTest(sc:SparkContext,sqlContext:SQLContext): Unit ={ import org.apache.spark.mllib.classification.SVMWithSGD import org.apache.s...原创 2018-05-11 16:25:29 · 738 阅读 · 0 评论 -
R语言kmeans实例
说明:根据table(iris$Species, kmeans$cluster);可以看出setosa花成功聚为1类(图中绿o),但是versicolor花和virginica有所交叉,但主体部分还是分的较明显的> df<-iris[,c(1:4)]> set.seed(252964) # 设置随机值,为了得到一致结果> (kmeans <- kmeans(na.om...转载 2018-05-23 13:40:28 · 2047 阅读 · 0 评论 -
spark als推荐算法笔记
转自: https://www.cnblogs.com/mstk/p/7208674.html ——上面的测试集实际用的训练集参考: https://blog.youkuaiyun.com/delltower/article/details/82219676参考: http://www.cnblogs.com/mooba/p/6539142.html参考: https://www.cnblogs....原创 2019-03-13 16:47:12 · 1012 阅读 · 2 评论 -
spark ALS源码余弦向量问题分析
训练迭代求解部分暂未研究,本次只分析推荐计算得分排序部分,即主要的推荐函数recommendForAll,先看代码(红色是源码计算得分,蓝色是我改的计算得分方式,注BLAS.f2jBLAS是private的用不了,退一步用了blas.sdot):def recommendForAll( srcFactors: DataFrame, ...原创 2019-05-01 17:24:37 · 376 阅读 · 0 评论 -
spark2.4 ML聚类数据源结构问题
问题:ML使用的数据源要求向量features格式必须是nullable=false,比如这样:StructType(StructField(id,IntegerType,false), StructField(features,ArrayType(DoubleType,false),true))[id: int, features: array<double>]然而,我们大...原创 2019-05-01 16:51:42 · 370 阅读 · 0 评论 -
ALS推荐算法在Spark上的优化--从50分钟到3分钟
转自:https://blog.youkuaiyun.com/butterluo/article/details/48271361/从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G,...转载 2019-05-20 13:59:42 · 713 阅读 · 0 评论 -
Win10+pycharm+Python3.7+Tensorflow安装
步骤:一. Python环境搭建:Python官网下载Python3.7.2压缩包ZIP(注意我们一般用embeddable免安装压缩包)解压安装Python3;再安装pip:curl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypython get-pip.py然后进到pycharm中使用刚下载的Python3无法pip添...原创 2019-05-18 12:59:25 · 6393 阅读 · 2 评论 -
SVM推导
先看 https://blog.youkuaiyun.com/TaiJi1985/article/details/75087742到二次规划了再看 https://blog.youkuaiyun.com/american199062/article/details/51322852 拉格朗日往后或者 https://blog.youkuaiyun.com/on2way/article/details/47729827 也好...转载 2018-05-09 11:01:26 · 267 阅读 · 0 评论