- 博客(31)
- 资源 (5)
- 收藏
- 关注
原创 gensim之word2vec用法总结
初始化模型>>> from gensim.test.utils import common_texts, get_tmpfile>>> from gensim.models import Word2Vec>>>>>> path = get_tmpfile("word2vec.model")>>>&...
2019-08-08 20:37:41
504
原创 word2ve的python源码解析
#!/usr/bin/env python# -*- coding: utf-8 -*-## Author: Shiva Manne <manneshiva@gmail.com># Copyright (C) 2018 RaRe Technologies s.r.o.# Licensed under the GNU LGPL v2.1 - http://www.gnu.org...
2019-08-08 20:37:32
1684
1
原创 LINE 方法部分
本文有很多问题,LINE方法暂时略过1. 一阶相似性联合概率:一阶相似性实质上是一个sigmoid function函数,向量越接近,点积越大,联合概率越大(有点硬扯)经验概率:两点之间边的权值越大,经验概率越大为了保持一阶相似性,一个简单的办法是最小化两者之间的相对熵因此一阶相似度只能用于无向图,不能用于有向图2. 二阶相似性二阶相似度假设共享邻居的顶点彼此相似。每个顶点扮演两...
2019-07-09 20:50:55
602
原创 机器学习典型算法包含的步骤
训练过程:已知输入,根据输出,运用梯度下降等方法调整参数。验证过程(使用过程):最后的效果是根据输入和中间参数,得到输出,使输出最接近现实情况词向量:训练过程的中间参数,即中间产物,类似的词其词向量也应该类似。一般方法:...
2019-07-04 21:00:18
345
原创 Word2Vec模型精简和本质
1. 模型框架CBOW模型,上下文预测中心词,目标函数为Skip-gram模型,中心词预测上下文,目标函数为2. Hierarchical SoftmaxCBOW模型
2019-07-04 20:11:40
149
原创 Graph embedding techniques, applications, and performance: A survey 论文阅读和理解
1. 图嵌入的分类:1.1基于矩阵分解1.2基于随机游走1.2.1 DeepWalk:通过随机游走保留了高阶属性https://blog.youkuaiyun.com/qq_32294855/article/details/890060781.2.2 Node2Vec:深度优先和宽度优先1.2.3暂缓1.2.4暂缓1.3基于深度学习2. 图嵌入的应用网络压缩、可视化、节点聚类、链路预测、节...
2019-05-21 09:40:48
336
原创 图论的一些基本概念
图论的一些基本概念Edge betweenness: 具体而言,首先对每一对节点寻找最短路径,得到一个n * (n-1)/2的最短路径集合S,然后看这个集合中有多少最短路径需要通过某个具体的节点。一个边的edge betweenness就是S集合里的最短路径包含该边的个数。定义了边的betweenness后,就可以通过迭代算法来进行社区划分了。具体做法是先计算所有边的betweenness,然...
2019-05-17 21:05:56
994
转载 最小生成树算法
最小生成树1. 图的几个概念定义连通图: 在无向图中,若任意两个顶点viv_ivi和vjv_jvj都有路径相通,则称该无向图为连通图。强连通图: 在有向图中,若任意两个顶点viv_ivi和vjv_jvj都有路径相通,则称该有向图为强连通图。连通网: 在连通图中,若图的边具有一定的意义,每一条边都对应着一个数,称为权;权代表着连接两个顶点的代价,称这种连通图叫做连通网。...
2019-05-17 19:44:34
278
原创 矩阵及矩阵运算
1. 矩阵的转置把矩阵A的行和列互相交换所产生的矩阵称为A的转置矩阵,这一过程称为矩阵的转置。矩阵的转置满足以下运算律:2. 单位矩阵单位矩阵是方阵,对角线值为1,其余值为0单位阵的性质是任何矩阵乘上它都等于原矩阵,即AI=A,IA=A。3. 逆矩阵设有一个方阵A,若存在一个方阵B,使得AB=I或BA=I,则称B是A的逆矩阵,用A-1表示(事实上若AB=I,则必有BA=I)。...
2019-05-11 21:41:11
1214
转载 奇异值分解(SVD)原理与在降维中的应用
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量我们首先回顾下特征值和特征向量的定义如下:Ax=λxAx=\l...
2019-05-11 21:32:22
140
转载 特征值和特征向量的几何意义
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量我们首先回顾下特征值和特征向量的定义如下:Ax=λxAx=\l...
2019-05-11 20:54:15
17218
6
转载 社区检测算法一二三
用一句话来概括马尔科夫链的话,那就是某一时刻状态转移的概率只依赖于它的前一个状态。举个简单的例子,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气,而和前天的天气没有任何关系。这么说可能有些不严谨,但是这样做可以大大简化模型的复杂度,因此马尔科夫链在很多时间序列模型中得到广泛的应用,比如循环神经网络RNN,隐式马尔科夫模型HMM等。假设状态序列为⋯...xt−2,xt−1,xt...
2019-05-09 12:38:02
1848
转载 聚类算法之层次聚类
一. 层次聚类层次聚类(hierarchical clustering)是一种基于原型的聚类算法,试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用"自底向上"的聚合策略,也可以采用"自顶向下"的分拆策略。层次聚类算法的优势在于,可以通过绘制树状图(dendrogram),帮助我们使用可视化的方式来解释聚类结果。层次聚类的另一个优点就是,它不需要事先指定簇的数量。二. ...
2019-05-02 21:41:54
2403
原创 metapath2vec:异构网络的可扩展表示学习
1. metapath2vec++算法输入:一个异构信息网络G=(V,E,T),一个元路径模式P,每个节点随机游走w次,每次随机游走的步长为l,嵌入向量维度d,领域大小k输出:嵌入向量X∈R∣V∣×dX\in\R^{|V|\times d}X∈R∣V∣×d初始化向量空间X...
2019-04-08 16:08:07
3216
原创 基于异构网络节点表示的推荐系统(HERec)
论文链接:https://arxiv.org/abs/1711.10730本文中,我们提出一种新奇的基于异构网络节点表示学习的异构网络推荐方法:HERec。为了学习网络节点的表示,我们设计了一种基于Meta-Path的随机游走方法来生成许多有意义的节点序列。1. 基于元路径的随机游走采样方法如图3所示,为了学习用户和项目的有效表示,我们只考虑起始类型为用户类型或项目类型的元路径。这样,我们就...
2019-04-07 19:14:35
5865
3
原创 逻辑回归
1. 线性回归和逻辑回归线性回归模型可用于回归学习,但若要做的是分类任务该怎么办?答案很简单,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来,这是最理想的是“单位阶跃函数”。单调阶跃函数但是,阶跃函数不连续,在数学上不好处理,于是我们希望找到能在一定程度上近似单位阶跃函数的“替代函数”,并希望它单调可微,sigmoid函数就是这样的一个函数。单调阶跃函数与...
2019-04-06 23:00:22
114
原创 模型评估与选择
1. 欠拟合和过拟合2. 回归模型的评估3. 分类模型的评估分类结果混淆矩阵混淆举证表中,T和F代表预测结果的真假,P和N代表预测成正例还是反例,根据这张表可以求出很多性能评估指标准确率(Accuracy):分类正确的样本数占样本总数的比例错误率(Error rate):分类错误的样本数占样本总数的比例精确率、查准率(Precision):被预测为正例的样本中实际为正例的比例...
2019-04-06 22:30:28
163
原创 归一化数值
K-近邻算法样本数据处理不同取值范围的特征值时,我们通常采用的方法是将数值归一化,如将取值范围处理为0到1或者-1到1之间,处理的公式如下:newValue=(oldValue-min)/(max-min)...
2019-04-06 17:03:23
1324
原创 K-近邻算法(KNN)
K-近邻算法的一般流程计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个值(k-近邻);确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类别作为当前点的预测分类。...
2019-04-02 12:18:28
151
中文维基百科语料库(截止2019年2月20日)
2019-02-24
基于Three.js的3D书店(带书店后台,有商品查询,销售,购物车等功能,有完整开发文档)
2018-12-28
Three.js做的一个3D书店项目
2018-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人