- 博客(173)
- 资源 (7)
- 收藏
- 关注

原创 SVD、Word2Vec、神经网络计算Embedding的区别
SVD、Word2Vec和神经网络的嵌入层都可以用来计算Embedding,这其中有什么区别,个人谈谈对它们的理解,欢迎拍砖。如果采用Negative Sampling方式计算Word2Vec和SVD,其实三者本质上没有任何区别,都是用N个1*K的向量去乘K*N的矩阵(N可以简单理解为物品数/用户数,K为Embedding维数),然后根据算得的1*N的结果来计算损失函数。当然SVD可以用最小...
2020-03-10 22:57:00
191

原创 梯度下降优化方法 与 自动控制 的关系
梯度下降的各种优化算法下面参考文献表述都很全面了,不在赘述,主要谈谈个人理解其实对SGD的优化,跟自动控制中的PID思路其实是一样的P(Propotion)比例项即当前偏差I(Intergration)积分项即偏差的累积D(differentiation)微分项即偏差的变化SGD加入微分项,即对梯度中与此前优化的方向相同的方向进行加权,相反的方向进行降权,即Monentum,可以防...
2020-01-27 18:30:00
343

原创 Adaboost 原理推导 学习笔记
Adaboost的基本思路如下:给每个样本一个权重,初始化所有样本权重相同使用当前样本权重,训练一个(简单)模型根据模型结果,给判断正确的样本降权,给判断错误的样本加权使用新的样本权重,重新训练(简单)模型,重复若干轮将若干轮的(简单)模型线性合并为复合模型,作为最终模型现有包含N个样本的数据集T\[T = \{ ({x_1},{y_1}),({x_2},{y_2}),...,...
2019-12-17 19:15:00
90

原创 FM(Factorization Machine)因式分解机 与 TensorFlow实现 详解
1,线性回归(Linear Regression)线性回归,即使用多维空间中的一条直线拟合样本数据,如果样本特征为:\[x = ({x_1},{x_2},...,{x_n})\]模型假设函数如下:\[\hat y = h(w,b) = {w^T}x + b,w = ({w_1},{w_2},...,{w_n})\]以均方误差为模型损失,模型输入样本为(x(1),y(1)),(x(2),...
2019-02-18 17:21:00
256

原创 信息熵与TF-IDF 学习笔记
自信息量评价一个事件发生所包含的信息量大小,设独立事件x、y发生概率为p(x)、p(y),包含信息量为I(x)、I(y)预设信息量的大小一定大于0,并且事件发生的概率越大,所包含的信息量越小,可知\[I\left( x \right) > = 0,I\left( y \right) > = 0\]\[如果{\rm{ }}p\left( x \right) > p...
2018-12-06 16:07:00
269

原创 Latent Dirichlet Allocation(LDA)学习笔记
1,Gamma函数Gamma函数\[\Gamma (x) = \int_0^\infty {{e^{ - t}}{t^{x - 1}}dt} \]是阶乘的从整数域到实数域的扩展\[\Gamma (n) = (n - 1)!,n \in \{ 0,1,2,3...\} \]函数递推推导如下,根据分布积分公式\[uv = \int {(uv} )'dt = \int {uv'dt + ...
2018-11-23 14:28:00
136

原创 先验概率、后验概率、似然函数与机器学习中概率模型(如逻辑回归、朴素贝叶斯)的关系理解...
看了好多书籍和博客,讲先验后验、贝叶斯公式、两大学派、概率模型、或是逻辑回归,讲的一个比一个清楚 ,但是联系起来却理解不能基本概念如下先验概率:一个事件发生的概率\[P(y)\]后验概率:一个事件在另一个事件发生条件下的条件概率 \[P(y|x)\]贝叶斯公式:联合概率公式直接能推导出来的,代表什么意义?不放在具体问题中代表不了任何意义 \[P(y|x) = \frac{{P(x|y...
2018-10-20 00:07:00
529

原创 监督学习模型分类 生成模型vs判别模型 概率模型vs非概率模型 参数模型vs非参数模型...
判别模型(discriminative model)和生成模型(generative model):预测后验概率还是联合概率判别模型: 直接对输入空间到输出空间的映射h(x)做预测,或者直接对条件概率分布P(y|x)做预测 PM,SVM,NN,KNN,LR,DT 模型一般更准确 不需要预设条件 鲁棒性更高生成模型: 先对概率分布P(x,y)做预测,根据贝叶斯公...
2018-08-26 13:09:00
175
原创 Linux 循环递归创建文件
参考文献:https://www.youkuaiyun.com/tags/MtzakgzsNTU5MTUtYmxvZwO0O0OO0O0O.html
2022-07-14 17:11:03
1050
原创 Python获取batch数据通用模板
assert SAMPLE_X_LST.shape[0] == SAMPLE_Y_LST.shape[0]assert type(SAMPLE_X_LST) == type(SAMPLE_Y_LST)assert type(SAMPLE_X_LST) == np.ndarraySAMPLE_NUM = SAMPLE_X_LST.shape[0]SAMPLE_TRAIN_NUM = int(SAMPLE_NUM*0.8)def GET_SAMPLE(batch_num): idx_lst .
2022-05-25 14:26:49
457
原创 Sklearn CART绘图
from sklearn.datasets import load_irisfrom sklearn import treefrom six import StringIOimport pydotplusdot_data = StringIO()iris = load_iris()clf = tree.DecisionTreeClassifier()clf = clf.fit(iris.data, iris.target)tree.export_graphviz(clf, out_file.
2022-03-31 16:06:16
1961
原创 Mac 风扇猛转
试试:sudo mdutil -a -i off参考文献:mds、mds_stores、mdworker 占用大量 cpu 和内存_IT老男孩-优快云博客
2022-03-09 14:29:28
328
原创 Vim 替换 0xa0
%s/\%ua0//参考文献:substitute - Replace nbsp with none string in utf-8 encoding in vim - Vi and Vim Stack ExchangeHow to replace string with register content? - Vi and Vim Stack Exchange
2021-12-02 19:52:18
313
原创 Git关闭乱七八糟的日志打印
unset GIT_TRACE_PACKET GIT_TRACE参考文献:https://stackoverflow.com/questions/21487190/how-do-i-turn-off-git-trace
2021-10-26 15:55:36
603
原创 Python3 报错unknown encoding: string_escape
Python3s.encode('latin1').decode('unicode-escape').encode('latin1')Python2s.decode("string_escape")
2021-08-20 14:45:18
1164
原创 SQL join时哪个表在前面效率更高
关联键重复较少的表放在前面效率更高,如果没有重复,则效率一定是一样的。参考资料https://www.cnblogs.com/bgh408/p/11646286.html
2021-07-01 11:24:43
403
原创 Git删除暂存区(add)但不删除本地文件
git rm --cached ***参考文献:https://www.cnblogs.com/toward-the-sun/p/6599656.html
2021-05-25 15:11:35
397
原创 Jupyter中展示图片
前者只能竖版展示,后者支持横版展示import IPython.display as displaydef show_img(urls): for url in urls d = display.Image(width = 100, height = 100, url=url) display.display(d)from matplotlib import pyplot as pltfrom PIL import Imageimport url...
2021-05-18 20:51:27
677
原创 Python计算排列组合
itertools.productitertools.permutationsitertools.combinationsitertools.combinations_with_replacement参考文献:https://www.cnblogs.com/dwithy/p/11653164.html
2021-05-12 19:52:00
106
原创 C++生成Beta分布随机数
#include "cpp3rdlib/boost/include/boost/math/distributions.hpp"#include "cpp3rdlib/boost/include/boost/random/mersenne_twister.hpp"float rand_beta_dist(float alpha, float beta) { static thread...
2021-05-07 10:47:00
1392
原创 MacOs 初始设置(冷门)
程序坞跳动取消defaults write com.apple.dock no-bouncing -bool TRUEkillall Dock显示隐藏文件defaults write com.apple.finder AppleShowAllFiles -bool truekillall Finder参考文献:https://www.macworld.com/art...
2021-02-25 11:10:00
92
原创 Shell任务并发及并发数控制
参考文献:https://blog.youkuaiyun.com/qq_34409701/article/details/52488964
2021-01-20 10:49:00
116
原创 手动AB实验显著性统计
代码如下import numpy as npfrom scipy import stats#先将对照组与实验组的数据放入use_time_base与use_time_expa = []b = []count = 1000for i in range(count): r = random.random() if r < 0.9: a.append(...
2021-01-06 16:08:00
437
原创 Pip 临时换源 永久换源
临时换源:pip2 install setuptools==44.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple永久换源:vim ~/.pip/pip.conf[global]index-url=http://pypi.douban.com/simple[install]trusted-host=pypi.douban.com参...
2020-07-09 11:20:00
157
原创 Python 调用 C++ 代码
C++extern "C" {float test_func (char *a, float b, int c); }float test_func (char *a, float b, int c) { float d = 3.14; return d;}编译动态库g++ pyclib.cpp -fPIC -shared -o libpyc.soPyth...
2020-02-28 18:31:00
78
原创 网页保存PDF 保留文字 删除页面 裁剪页面 删除不需要的内容
Chrome浏览器打开网页下拉使得所有内容得到加载打印->另存为PDF如果内容较多较长,可以选择更大的纸张,比如A0Adobe Acrobat打开下载的pdf文档->删除页面->指定删除范围->确定文档->裁剪页面->调整左、右裁剪->选择所有页面->确定视图->导览面板->内容选择需要删除的内容模块(有时会遮住文...
2020-01-28 22:23:00
237
原创 Jupyter 同时配置多个环境 Python2 Python3
查看现有jupyter kerneljupyter kernelspec list在jupyter中新加入kernel(例如在python2下加入python3)python3 -m ipykernel install --user参考文献:https://www.jianshu.com/p/6a9f2082e9e7...
2020-01-04 22:06:00
124
原创 TF-IDF BIM BM25
参考文献:https://www.jianshu.com/p/b4f06594d32fhttps://my.oschina.net/stanleysun/blog/1617727
2019-12-16 20:44:00
119
原创 搜索相关性评价指标 NDCG Normalized Discounted Cumulative Gain
参考文献:https://www.cnblogs.com/by-dream/p/9403984.html
2019-12-16 15:23:00
268
原创 多标签分类任务评价指数 MAP Mean Average Precision
参考文献:http://blog.sina.com.cn/s/blog_9db078090102whzw.html
2019-12-16 15:10:00
232
原创 TREC的ad hoc、routing、filtering、topic等术语的解释
参考文献:https://blog.youkuaiyun.com/Forlogen/article/details/90898441
2019-12-13 18:09:00
202
原创 Hive 子查询结果复用 with as 创建临时中间表
查询到的用法如下with tmp0 as ( select a, b, c from test0),tmp1 as( select a, b, c from test1)select db0.a, db1.a, db2.afrom tmp0 db0left join tmp0 db1on db0.b = db1.bleft jo...
2019-11-29 18:33:00
814
原创 Linux C计时
#include <sys/time.h>long gettime() { timeval t; gettimeofday(&t, NULL); return 1000*t.tv_sec + t.tv_usec/1000;}
2019-11-11 15:40:00
132
原创 快速矩阵乘法 文献收藏
参考文献:https://www.jb51.net/article/36422.htmhttps://blog.youkuaiyun.com/jxt1234and2010/article/details/88588208https://blog.youkuaiyun.com/jxt1234and2010/article/details/88599629https://blog.youkuaiyun.com/jxt1234a...
2019-11-11 15:39:00
82
原创 Tensorflow 错误 Cannot create a tensor proto whose content is larger than 2GB
出错位置是初始化constant(或者隐含初始化constant,然后再用constant初始化其他tensor)过程中,则将constant切成多份,然后concat到一起
2019-10-16 15:57:00
302
原创 Numpy 实现 One-hot
x=(np.arange(np.max(x)+1)==x[:,None]).astype(np.integer)参考文献:https://blog.youkuaiyun.com/fu_shuwu/article/details/78964462
2019-10-09 14:08:00
165
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人