- 博客(80)
- 资源 (7)
- 收藏
- 关注

原创 推荐系统系列(二):从零开始搭建基于向量的推荐策略
从零开始搭建向量化推荐策略背景架构离线Pipeline搭建用户行为日志上报日志存储到数据仓库数据预处理模型训练参考背景向量化召回/语义向量召回是现在流行的一种推荐策略,简单来说就是训练一个DNN双塔模型,模型分为用户侧和项目侧,可以分别得到用户的embedding向量和项目的embedding向量,然后以用户向量和项目向量之间的距离作为作为推荐的衡量标准,通过最近邻查询,找到用户最近的项目作为...
2020-04-24 21:36:23
1010

原创 推荐系统系列(一):不到百行代码实现基于Spark的ItemCF计算
推荐系统系列(一):不到百行代码实现基于Spark的ItemCF计算引言数据准备相似度计算总结引言信息大爆炸的互联网时代,推荐系统是帮助人们更高效获取信息的手段之一。从淘宝天猫的商品推荐,到头条的信息流推荐,再到短视频推荐,推荐系统已经渗透到我们生活的方方面面。作为公众号的开篇系列,我们将分享关于推荐系统的各种技术,从传统的协同过滤,到深度学习在推荐领域的应用。总结多年工作实践所得,帮助读者更...
2020-04-18 00:37:56
1082

原创 LightGBM处理imbalanced数据集
在用LightGBM做分类器时如何处理样本类别分布不均衡的问题?一个简单的方法是设置is_unbalance参数为True或者设置scale_pos_weight,二者只能选一个。 设置is_unbalance参数为True时会把负样本的权重设为:正样本数/负样本数。这个参数只能用于二分类。参考: 1. LightGBM官方文档:https://github.com/Microsoft...
2018-08-11 14:22:56
16716
4

原创 回归预测评估指标
回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标MAE(Mean Absolute Error) 平均绝对误差 MAE=1n∑i=1n|fi−yi|MAE = \frac{1}{n}\sum_{i=1}^n|f_i-y_i|MSE(Mean Square Error) 平均平方差/均方误差是回归任务最常用的性能度量。 MSE=1n∑i=1n(fi−yi)2MSE=\frac{1
2017-08-26 18:04:16
30883
2

原创 SecureCRT开启高亮
SecureCRT默认设置是没有语法高亮的 更改设置如下: Options -> Session Options -> Emulation (Terminal) 其中Terminal选择 【ANSI】,勾选【ANSI Color】和【Use color schema】 就可以了
2016-12-15 23:02:44
10485

原创 Sublime Text 高级替换功能 Demo - 利用正则表达式修改内容
目标:在这些大写缩写(用([A-Z]+:)正则表达式选出)前加一个换行符, 实现每个缩写都独立在一行。 实现方法:使用 Sublime Text的替换功能。在 Replace With 一栏填入\n$1, 点击 Replace All按钮就可以了。$1表示上面那个正则表达式第一个括号内的内容。效果如下。
2016-12-15 13:46:40
12124

原创 Windows下通过CMD脚本更改环境变量并马上生效
以JAVA_HOME的设置为例. 开发中可能遇到手头开发的两个项目使用的JDK版本不一样的情况, 这个时候需要更换JAVA_HOME的路径. 而Windows修改环境变量出奇的麻烦(系统->…),使用cmd调用下面的脚本,可以自动修改,并马上生效.@echo onecho Setting JAVA_HOMEset JAVA_HOME=D://dev/tools/Java/jdk1.7.0_07
2016-08-05 16:09:15
15173
5

原创 R语言中实现笛卡尔积的一个方法
x <- 1:3y <- c('a','b')怎么得到一个data.frame等于x,y的笛卡尔积,也就是 1,a; 1,b; 2,a; 2,b; 3,a; 3,b 下面是一个实现方法:as.data.frame(cbind(rep(x, each=2),rep(y,3)))
2016-08-01 16:41:49
6233

原创 Spark系列:Spark学习笔记
Spark阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode重要的概念:resilient distributed dataset (RDD), a collection
2016-07-15 15:51:33
3322

原创 推荐系统系列:商品关联分析
商品关联分析关联 relevance: 主要用在互联网的内容和文档上,比如搜索引擎算法文档中之间的关联性。association: 用在实际的事物之上,比如电子商务网站上的商品之间的关联度。支持度(support):数据集中包含某几个特定项的概率。 比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。置信度(Confidence):在数据集中已经出现A时,B
2016-07-15 15:47:45
14243

原创 python 读文件 写文件 字符串操作 LIBSVM格式数据转换
利用python脚本将数据转换成符合LIBSVM格式的数据#coding=utf-8from sys import argvscript, input, output = argvtxt = open(input,'r')svm_data = open(output,'w')for line in txt.readlines(): features = line.split(',')
2016-07-13 15:14:04
5479

原创 商品关联分析
商品关联分析关联 relevance: 主要用在互联网的内容和文档上,比如搜索引擎算法文档中之间的关联性。association: 用在实际的事物之上,比如电子商务网站上的商品之间的关联度。支持度(support):数据集中包含某几个特定项的概率。 比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。置信度(Confidence):在数据集中已经出现A时,B
2016-07-12 17:21:45
7537

原创 Java系列:Cannot load JDBC driver class 'com.mysql.jdbc.Driver '
今天在搭建springmvc+spring+mybatis时遇到下面这个错误,感觉很诡异。后来才发现是因为我通过网页复制粘贴代码时'com.mysql.jdbc.Driver '后面多了空格。HTTP Status 500 - Request processing failed; nested exception is org.mybatis.spring.MyBatisSyst
2015-06-30 22:19:08
8813
1

转载 maven dependency中scope=compile 和 provided区别
转自:http://supercharles888.blog.51cto.com/609344/981316问题再现:上次这边朋友问我一个问题,就是他们在pom.xml中的dependency中,看到有一些是provided的情况,比如如下:dependency> groupId>com.liferay.portalgroupId> artifactId>porta
2015-06-11 19:00:46
47290

原创 程序包javax.servlet.annotation不存在 webapp+maven
错误:程序包javax.servlet.annotation不存在解决方法:添加依赖 org.apache.tomcat tomcat-servlet-api 7.0.62
2015-06-08 14:17:04
12588
1

原创 操作系统实验 修改系统调用
监测给定PID值的进程调用NtCreateFile次数在EPROCESS中增加一项数据: NtCreateFileCnt来记录当前进程调用NtCreateFile的次数 ! 注意NtCreateFileCnt的初始化问题(NtCreateProcess)! 增加一个新系统调用,可以将指定Pid号的进程的NtCreateFileCnt显示出来 ! 1)在内核中DbgPr
2014-04-20 16:17:51
1627

原创 使用EmguCV库时出现"Emgu.CV.CvInvoke的类型初始值设定项引发异常"
问题:如题,使用EmguCV库时出现"Emgu.CV.CvInvoke的类型初始值设定项引发异常"开发环境:Visual Studio 2013,Windows 8.1原因:文件导入不正确,或者平台设置错误解决方案:查看错误的详细信息,如果是找不到OpenCV的dll文件,则找到该文件,将其拷贝至项目的Debug目录下。在VS的解决方案资源管理器下添加对该文件的引用。如果运行时
2014-03-26 20:56:29
1880
原创 TensorFlow系列:添加正确率(accuracy)统计算子
我们在训练分类模型时,需要输出模型预测的正确率用以评估,下面的代码片段可以实现这个功能。# y_pred是模型的输出值,取值在[0,1]# label是真实值,0或1one = tf.ones_like(y_pred)zero = tf.zeros_like(y_pred)label_pred = tf.where(y_pred < 0.5, x=zero, y=one)acc_op = tf.metrics.accuracy( labels=label, predictions=
2020-05-12 22:27:07
2441
原创 Spark抛出异常java.lang.ClassNotFoundException: scala.Any
背景在写一个ETL流程,先通过SQL读取Hive数据,然后RDD进行转换(map),再转成DataFrame。提交任务后抛出以下异常。20/04/20 12:14:08 ERROR ApplicationMaster: User class threw exception: java.lang.ClassNotFoundException: scala.Anyjava.lang.ClassN...
2020-04-20 15:15:49
5796
1
原创 Java工程师的C++之路
struct 成员初识化struct Position { double x; double y;}Position pos; // 成员未初始化Position pos1 = {}; // 成员初始化为默认值。
2019-04-16 15:53:16
433
原创 SMOTE
SMOTE是处理样本类别分布不均衡的数据集的一种算法,它的全称是Synthetic Minority Over-sampling TEchnique。顾名思义就是合成少数类别样本的一种算法。它的灵感来自于做数字识别是对图片进行翻转等操作生成新样本的方法。 下面是它的伪代码: ...
2018-08-11 15:24:53
4068
原创 git status中文显示问题
git status 中文显示问题参考:https://stackoverflow.com/questions/22827239/how-to-make-git-properly-display-utf-8-encoded-pathnames-in-the-console-window
2018-05-06 09:57:48
1030
原创 理解Maven Resource的过滤功能
背景问题的背景是这样:我的maven工程的resources目录下包含一个子目录,里面存着几个压缩包文件。当我用maven打包后发现打完的包的包含的压缩包文件大小变了,而且无法解压。原因原来我的pom文件是这么配置的:<resource> <directory>src/main/resources</directory> &l...
2018-03-21 18:02:03
14761
3
原创 Ubuntu的那些事儿
软件mysql workbenchsudo apt-get install mysql-workbenchPDF阅读器 福昕提供了Linux版本
2017-09-02 14:59:10
294
原创 Spark 线性回归模型异常
java.lang.AssertionError: assertion failed: lapack.dppsv returned 9. at scala.Predef$.assert(Predef.scala:179) at org.apache.spark.mllib.linalg.CholeskyDecomposition$.solve(CholeskyDecompositio
2017-08-30 10:15:44
1077
原创 Hive 窗口函数(Windowing Functions)
窗口函数对点击流处理,和类似的时间序列/滑动窗分析很有用。最近在做时间序列分析,希望趁这个机会对窗口函数有进一步深入的了解。参考https://issues.apache.org/jira/browse/HIVE-896LanguageManual WindowingAndAnalytics
2017-08-28 21:17:36
3113
原创 R 镜像加速
参考:https://mirror.tuna.tsinghua.edu.cn/help/CRAN/ 国内的网络条件真的不能忍!!CRAN 镜像使用帮助 CRAN (The Comprehensive R Archive Network) 镜像源配置文件之一是 .Rprofile (linux 下位于 ~/.Rprofile )。如果没有这个文件,创建一个即可。在文末添加如下语句: option
2017-08-17 16:46:24
658
原创 XGBoost探索
XGBoost可以用来分类,回归,排序。 支持多种语言:C++, Python, R, Java, Scala, Julia。安装参考https://xgboost.readthedocs.io/en/latest/build.html。 注意clone时加--recursive参数。参考官方文档
2017-08-17 15:06:46
234
原创 聊天机器人/对话生成
在这里记录一下聊天机器人方面的了解。算是一个Survey吧。阅读列表基于对抗学习的生成式对话模型的坚实第一步 ——始于直观思维的曲折探索
2017-08-16 16:53:27
4777
原创 常用的评测指标
NDCG(Normalized Discounted Cumulative Gain): 维基百科写的很清楚。 注意理解这四个词。 Discounted:顺序影响指标。 Normalized:消除文档个数对指标的影响。 Cumulative:累积。
2017-08-16 16:16:41
394
原创 准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure
基础知识,一定要记清楚。 参考https://blog.argcv.com/articles/1036.c
2017-08-16 15:34:08
6349
原创 mac Java多版本配置
修改.bash_profile文件# 设置 JDK 6 export JAVA_6_HOME=`/usr/libexec/java_home -v 1.6` # 设置 JDK 7 export JAVA_7_HOME=`/usr/libexec/java_home -v 1.7` # 设置 JDK 8 export JAVA_8_HOME=`/usr/libexec/java_ho
2017-08-16 14:12:45
400
原创 anaconda多环境配置
创建一个Python2.7环境 conda create -n py27 python=2.7 anaconda 切换环境 source activate py27参考https://conda.io/docs/py2or3.html#create-a-python-2-7-environment
2017-08-16 13:16:18
697
原创 深度学习-攒机小记
预算1w以内吧。下面是英伟达DevBox的配置,可以作为参考。 The DIGITS DevBox includes the following hardware and software: Four TITAN X GPUs with 12GB of memory per GPU 64GB DDR4 Asus X99-E WS workstation class motherboard w
2017-08-11 19:56:44
2549
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人