路越-优快云博客

原创推荐系统系列（二）：从零开始搭建基于向量的推荐策略

从零开始搭建向量化推荐策略背景架构离线Pipeline搭建用户行为日志上报日志存储到数据仓库数据预处理模型训练参考背景向量化召回/语义向量召回是现在流行的一种推荐策略，简单来说就是训练一个DNN双塔模型，模型分为用户侧和项目侧，可以分别得到用户的embedding向量和项目的embedding向量，然后以用户向量和项目向量之间的距离作为作为推荐的衡量标准，通过最近邻查询，找到用户最近的项目作为...

2020-04-24 21:36:23 1139

原创推荐系统系列（一）：不到百行代码实现基于Spark的ItemCF计算

推荐系统系列（一）：不到百行代码实现基于Spark的ItemCF计算引言数据准备相似度计算总结引言信息大爆炸的互联网时代，推荐系统是帮助人们更高效获取信息的手段之一。从淘宝天猫的商品推荐，到头条的信息流推荐，再到短视频推荐，推荐系统已经渗透到我们生活的方方面面。作为公众号的开篇系列，我们将分享关于推荐系统的各种技术，从传统的协同过滤，到深度学习在推荐领域的应用。总结多年工作实践所得，帮助读者更...

2020-04-18 00:37:56 1157

原创 LightGBM处理imbalanced数据集

在用LightGBM做分类器时如何处理样本类别分布不均衡的问题？一个简单的方法是设置is_unbalance参数为True或者设置scale_pos_weight,二者只能选一个。设置is_unbalance参数为True时会把负样本的权重设为：正样本数/负样本数。这个参数只能用于二分类。参考： 1. LightGBM官方文档：https://github.com/Microsoft...

2018-08-11 14:22:56 17000 4

原创回归预测评估指标

回归预测评估指标标注说明ff表示预测值，yy表示实际值评价指标MAE(Mean Absolute Error) 平均绝对误差 MAE=1n∑i=1n|fi−yi|MAE = \frac{1}{n}\sum_{i=1}^n|f_i-y_i|MSE(Mean Square Error) 平均平方差/均方误差是回归任务最常用的性能度量。 MSE=1n∑i=1n(fi−yi)2MSE=\frac{1

2017-08-26 18:04:16 31337 2

原创 Holt-Winters-季节性预测算法

参考Holt-Winters seasonal methodHolt Winter 指数平滑模型

2017-08-17 15:57:11 15237

原创 SecureCRT开启高亮

SecureCRT默认设置是没有语法高亮的更改设置如下： Options -> Session Options -> Emulation (Terminal) 其中Terminal选择【ANSI】，勾选【ANSI Color】和【Use color schema】就可以了

2016-12-15 23:02:44 10848

原创 Sublime Text 高级替换功能 Demo - 利用正则表达式修改内容

目标：在这些大写缩写（用([A-Z]+:)正则表达式选出）前加一个换行符, 实现每个缩写都独立在一行。实现方法：使用 Sublime Text的替换功能。在 Replace With 一栏填入\n$1，点击 Replace All按钮就可以了。$1表示上面那个正则表达式第一个括号内的内容。效果如下。

2016-12-15 13:46:40 12196

原创 Windows下通过CMD脚本更改环境变量并马上生效

以JAVA_HOME的设置为例. 开发中可能遇到手头开发的两个项目使用的JDK版本不一样的情况, 这个时候需要更换JAVA_HOME的路径. 而Windows修改环境变量出奇的麻烦(系统->…),使用cmd调用下面的脚本,可以自动修改,并马上生效.@echo onecho Setting JAVA_HOMEset JAVA_HOME=D://dev/tools/Java/jdk1.7.0_07

2016-08-05 16:09:15 15309 5

原创 R语言中实现笛卡尔积的一个方法

x <- 1:3y <- c('a','b')怎么得到一个data.frame等于x,y的笛卡尔积,也就是 1,a; 1,b; 2,a; 2,b; 3,a; 3,b 下面是一个实现方法:as.data.frame(cbind(rep(x, each=2),rep(y,3)))

2016-08-01 16:41:49 6311

原创 Spark系列：Spark学习笔记

Spark阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode重要的概念：resilient distributed dataset (RDD), a collection

2016-07-15 15:51:33 3366

原创推荐系统系列：商品关联分析

商品关联分析关联 relevance: 主要用在互联网的内容和文档上，比如搜索引擎算法文档中之间的关联性。association: 用在实际的事物之上，比如电子商务网站上的商品之间的关联度。支持度（support）：数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次，那么此关联的支持度为5%。置信度（Confidence）：在数据集中已经出现A时，B

2016-07-15 15:47:45 14378

原创 python 读文件写文件字符串操作 LIBSVM格式数据转换

利用python脚本将数据转换成符合LIBSVM格式的数据#coding=utf-8from sys import argvscript, input, output = argvtxt = open(input,'r')svm_data = open(output,'w')for line in txt.readlines(): features = line.split(',')

2016-07-13 15:14:04 5524

原创商品关联分析

商品关联分析关联 relevance: 主要用在互联网的内容和文档上，比如搜索引擎算法文档中之间的关联性。association: 用在实际的事物之上，比如电子商务网站上的商品之间的关联度。支持度（support）：数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次，那么此关联的支持度为5%。置信度（Confidence）：在数据集中已经出现A时，B

2016-07-12 17:21:45 7656

原创 Java系列：Cannot load JDBC driver class 'com.mysql.jdbc.Driver '

今天在搭建springmvc+spring+mybatis时遇到下面这个错误，感觉很诡异。后来才发现是因为我通过网页复制粘贴代码时'com.mysql.jdbc.Driver '后面多了空格。HTTP Status 500 - Request processing failed; nested exception is org.mybatis.spring.MyBatisSyst

2015-06-30 22:19:08 8892 1

转载 maven dependency中scope=compile 和 provided区别

转自：http://supercharles888.blog.51cto.com/609344/981316问题再现：上次这边朋友问我一个问题，就是他们在pom.xml中的dependency中，看到有一些是provided的情况，比如如下：dependency> groupId>com.liferay.portalgroupId> artifactId>porta

2015-06-11 19:00:46 47402

原创程序包javax.servlet.annotation不存在 webapp+maven

错误：程序包javax.servlet.annotation不存在解决方法：添加依赖 org.apache.tomcat tomcat-servlet-api 7.0.62

2015-06-08 14:17:04 12648 1

原创操作系统实验修改系统调用

监测给定PID值的进程调用NtCreateFile次数在EPROCESS中增加一项数据: NtCreateFileCnt来记录当前进程调用NtCreateFile的次数 !  注意NtCreateFileCnt的初始化问题(NtCreateProcess)!  增加一个新系统调用，可以将指定Pid号的进程的NtCreateFileCnt显示出来 !  1）在内核中DbgPr

2014-04-20 16:17:51 1663

原创使用EmguCV库时出现"Emgu.CV.CvInvoke的类型初始值设定项引发异常"

问题：如题，使用EmguCV库时出现"Emgu.CV.CvInvoke的类型初始值设定项引发异常"开发环境：Visual Studio 2013，Windows 8.1原因：文件导入不正确，或者平台设置错误解决方案：查看错误的详细信息，如果是找不到OpenCV的dll文件，则找到该文件，将其拷贝至项目的Debug目录下。在VS的解决方案资源管理器下添加对该文件的引用。如果运行时

2014-03-26 20:56:29 1969

原创 TensorFlow系列：添加正确率（accuracy）统计算子

我们在训练分类模型时，需要输出模型预测的正确率用以评估，下面的代码片段可以实现这个功能。# y_pred是模型的输出值，取值在[0,1]# label是真实值，0或1one = tf.ones_like(y_pred)zero = tf.zeros_like(y_pred)label_pred = tf.where(y_pred < 0.5, x=zero, y=one)acc_op = tf.metrics.accuracy( labels=label, predictions=

2020-05-12 22:27:07 2512

原创 Spark抛出异常java.lang.ClassNotFoundException: scala.Any

背景在写一个ETL流程，先通过SQL读取Hive数据，然后RDD进行转换（map）,再转成DataFrame。提交任务后抛出以下异常。20/04/20 12:14:08 ERROR ApplicationMaster: User class threw exception: java.lang.ClassNotFoundException: scala.Anyjava.lang.ClassN...

2020-04-20 15:15:49 5877 1

原创 Java工程师的C++之路

struct 成员初识化struct Position { double x; double y;}Position pos; // 成员未初始化Position pos1 = {}; // 成员初始化为默认值。

2019-04-16 15:53:16 462

原创 SMOTE

SMOTE是处理样本类别分布不均衡的数据集的一种算法，它的全称是Synthetic Minority Over-sampling TEchnique。顾名思义就是合成少数类别样本的一种算法。它的灵感来自于做数字识别是对图片进行翻转等操作生成新样本的方法。下面是它的伪代码： ...

2018-08-11 15:24:53 4288

原创 grep使用技巧

筛选不包含关键字的行grep -v 关键字

2018-05-31 15:24:16 1253

原创 git status中文显示问题

git status 中文显示问题参考：https://stackoverflow.com/questions/22827239/how-to-make-git-properly-display-utf-8-encoded-pathnames-in-the-console-window

2018-05-06 09:57:48 1087

原创理解Maven Resource的过滤功能

背景问题的背景是这样：我的maven工程的resources目录下包含一个子目录，里面存着几个压缩包文件。当我用maven打包后发现打完的包的包含的压缩包文件大小变了，而且无法解压。原因原来我的pom文件是这么配置的：<resource> <directory>src/main/resources</directory> &l...

2018-03-21 18:02:03 14845 3

原创 Ubuntu的那些事儿

软件mysql workbenchsudo apt-get install mysql-workbenchPDF阅读器福昕提供了Linux版本

2017-09-02 14:59:10 322

原创 Spark 线性回归模型异常

java.lang.AssertionError: assertion failed: lapack.dppsv returned 9. at scala.Predef$.assert(Predef.scala:179) at org.apache.spark.mllib.linalg.CholeskyDecomposition$.solve(CholeskyDecompositio

2017-08-30 10:15:44 1164

原创 Hive 窗口函数（Windowing Functions）

窗口函数对点击流处理，和类似的时间序列/滑动窗分析很有用。最近在做时间序列分析，希望趁这个机会对窗口函数有进一步深入的了解。参考https://issues.apache.org/jira/browse/HIVE-896LanguageManual WindowingAndAnalytics

2017-08-28 21:17:36 3180

转载 YAML

ref: http://www.ruanyifeng.com/blog/2016/07/yaml.html?f=tt

2017-08-26 17:42:17 516

原创 R 镜像加速

参考：https://mirror.tuna.tsinghua.edu.cn/help/CRAN/ 国内的网络条件真的不能忍！！CRAN 镜像使用帮助 CRAN (The Comprehensive R Archive Network) 镜像源配置文件之一是 .Rprofile (linux 下位于 ~/.Rprofile )。如果没有这个文件，创建一个即可。在文末添加如下语句: option

2017-08-17 16:46:24 811

原创 XGBoost探索

XGBoost可以用来分类，回归，排序。支持多种语言：C++, Python, R, Java, Scala, Julia。安装参考https://xgboost.readthedocs.io/en/latest/build.html。注意clone时加--recursive参数。参考官方文档

2017-08-17 15:06:46 267

原创聊天机器人/对话生成

在这里记录一下聊天机器人方面的了解。算是一个Survey吧。阅读列表基于对抗学习的生成式对话模型的坚实第一步 ——始于直观思维的曲折探索

2017-08-16 16:53:27 4832

原创推荐排序

在这里记录一下推荐排序方面的了解。阅读列表深度学习在美团点评推荐平台排序中的运用

2017-08-16 16:49:36 382

原创常用的评测指标

NDCG（Normalized Discounted Cumulative Gain）: 维基百科写的很清楚。注意理解这四个词。 Discounted：顺序影响指标。 Normalized：消除文档个数对指标的影响。 Cumulative：累积。

2017-08-16 16:16:41 427

原创准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

基础知识，一定要记清楚。参考https://blog.argcv.com/articles/1036.c

2017-08-16 15:34:08 6791

原创 mac Java多版本配置

修改.bash_profile文件# 设置 JDK 6 export JAVA_6_HOME=`/usr/libexec/java_home -v 1.6` # 设置 JDK 7 export JAVA_7_HOME=`/usr/libexec/java_home -v 1.7` # 设置 JDK 8 export JAVA_8_HOME=`/usr/libexec/java_ho

2017-08-16 14:12:45 441

原创 anaconda多环境配置

创建一个Python2.7环境 conda create -n py27 python=2.7 anaconda 切换环境 source activate py27参考https://conda.io/docs/py2or3.html#create-a-python-2-7-environment

2017-08-16 13:16:18 723

原创 Vim配置

Vim 配置修改~/.vimrc - 显示行号set nu - 语法高亮 syntax on

2017-08-15 16:34:16 235

原创深度学习-攒机小记

预算1w以内吧。下面是英伟达DevBox的配置，可以作为参考。 The DIGITS DevBox includes the following hardware and software: Four TITAN X GPUs with 12GB of memory per GPU 64GB DDR4 Asus X99-E WS workstation class motherboard w

2017-08-11 19:56:44 2672 1

原创有趣的问题

将一段英文的空格全部去掉，那么该如何分词？

2017-08-08 14:21:14 247

数学建模算法全收录799页

The Little SAS Book-5th edition

Maven 实战

2015年美国大学生数学建模竞赛MCM_ICM参赛帮助中文翻译

即时通讯软件源代码用于学习

空空如也