- 博客(27)
- 收藏
- 关注
原创 spark学习
1、windows下安装sparkhttps://www.cnblogs.com/cuiocean/p/7630529.html其中需要安装Scala、JDK、Spark、hadoop;2、在Intellij中配置sparkhttps://www.cnblogs.com/lemonqin/p/4186782.html安装scala插件,导入jdk、scala sdk、spark jar包...
2019-07-24 14:22:51
272
原创 tensorflow中crf模块函数解析
这篇博客主要想解释一下tensorflow中crf模块的几个函数的输入输出是什么意思。作为预备知识,建议英文好的同学先看下这篇博客,这篇博客有8个小节,前5个小节比较通俗易懂,后3个小节感觉不太理解。当然我也会先讲一下bilstm+crf的基本原理,主要讲一下模型的损失函数。一、预备知识 ...
2019-06-28 17:47:02
5079
原创 Find First and Last Position of Element in Sorted Array
leetcode34Given an array of integers nums sorted in ascending order, find the starting and ending position of a given target value.Your algorithm’s runtime complexity must be in the order of O(log n...
2019-06-24 21:29:32
162
原创 中序遍历二叉树,将树结构转为双向链表结构
示例:中序遍历上图中的二叉树,转换后的双向链表为:4⇆6⇆8⇆10⇆12⇆14⇆16。代码:class Solution {public: TreeNode* inorderTraversal(TreeNode* root) { stack<TreeNode*> s; //p为当前遍历结点,prev为当前结点的前一个结点 ...
2019-06-20 15:14:43
653
原创 中序遍历二叉树,统计遍历的每个节点的层次
代码是在中序遍历二叉树的非递归算法上修改的。class Solution {public: vector<vector<int>> inorderTraversal(TreeNode* root) { vector<vector<int>> res; //存储结果 stack<TreeNode*>...
2019-06-20 14:32:56
683
原创 文本聚类demo
由于工作需要,使用了聚类方法在文本语料中挖掘类别信息,下面是一个demo,供大家参考。实验数据由于公司原因不便公开。实验步骤:1、 排序去重,经过排序去重后数据从10万条变为3万条。2、 结巴分词。3、 特征提取,使用平滑后的tf-idf作为特征,为每个用户问题构建特征向量,采用了scikit-learn 中的类 TfidfVectorizer。4、 采用了两种聚类方法K-means 。...
2019-05-14 15:44:21
613
原创 由word2vec、ELMo、OpenAI GPT、BERT 得到预训练词向量
前言 最近预训练模型大火,ELMo、OpenAI GPT、BERT等等。我们对于这些模型的应用大概有两种:1、 直接使用它们输出的词向量或者叫context vector;2、 在这些模型后面接一个简单浅层模型进行fine-tuning; ...
2019-04-12 18:33:08
3326
4
原创 Quality-Estimation1 (翻译质量评价-复现 WMT2018 阿里论文结果)
简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...
2019-03-12 16:28:50
1910
原创 Quality-Estimation2 (翻译质量评价-在BERT模型后面加上Bi-LSTM进行fine-tuning)
简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...
2019-03-12 16:18:46
2644
原创 Quality-Estimation0 (翻译质量评价-使用 BERT 特征训练 QE 模型)
简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...
2019-02-01 10:38:44
2304
8
原创 端到端任务中目标词表过大问题
前言在端到端任务(如机器翻译、对话、摘要抽取等)中存在一个有待解决但没有引起研究者足够重视的问题:目标词表过大问题。这个问题不仅影响 training 和 decoding 的速度,也会影响生成句子的质量(引入不必要的噪声)。下面介绍两篇解决这个问题的论文,第一篇着眼于对话任务,第二篇着眼于机器翻译任务。Neural Response Generation with Dynamic Vocab...
2018-12-12 18:39:40
592
原创 python 实现倒排索引
代码如下:#encoding:utf-8fin = open('1.txt', 'r')'''建立正向索引: “文档1”的ID > 单词1:出现位置列表;单词2:出现位置列表;………… “文档2”的ID > 此文档出现的关键词列表。'''forward_index = {}for line in fin: line = line.strip().spli...
2018-05-08 17:29:40
9296
原创 scikit-learn之降维之LDA
线性判别分析LDA原理总结LDA 既可以用于分类又可以用于降维,应用场景最多的还是降维。和 PCA 类似,LDA 降维基本也不用调参,只需要指定降维到的维数即可。class sklearn.discriminant_analysis.LinearDiscriminantAnalysissolver=’svd’:即求LDA超平面特征矩阵使用的方法。可以选择的方法有奇异值分解”svd”,最...
2018-04-28 15:39:23
1341
原创 scikit-learn之分类算法
1、逻辑回归class sklearn.linear_model.LogisticRegressionpenalty=’l2’:‘l1’ or ‘l2’,正则项,‘newton-cg’, ‘sag’ and ‘lbfgs’ 只支持 ‘l2’;dual=False: bool,默认值就可以;tol=0.0001:停止准则容忍度;C=1.0: positive float,正则化强...
2018-04-27 17:22:30
619
原创 scikit-learn之聚类性能度量
1、调整兰德系数sklearn.metrics.adjusted_rand_score数学公式Rand index(兰德系数):RI=a+bCnsamples2RI=a+bC2nsamplesRI=\frac{a+b}{C_{2}^{n_{samples}}} 1、a:应该在一类,最后聚到一类的数量; 2、b:不应该在一类 ,最后聚类结果也没把他们聚在一起的数量; 3、数量是...
2018-04-24 09:08:57
2879
1
转载 scikit-learn之聚类算法之Birch
算法流程BIRCH聚类算法原理sklearn中的参数用scikit-learn学习BIRCH聚类
2018-04-23 15:10:33
1032
原创 scikit-learn之聚类算法之DBSCAN
算法流程DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)算法将聚类视为被低密度区域分隔的高密度区域。 核心样本:数据集中的一个样本,至少存在 min_samples 个其他样本在 eps 距离范围内,这些样本被定为核心样本的邻居 neighbors; 1、计算出所有的核心样...
2018-04-23 12:42:35
2537
原创 scikit-learn之聚类算法之Hierarchical clustering(层次聚类)
算法流程层次聚类分为分裂法和凝聚法,分裂法由上向下把大的类别(cluster)分割,凝聚法由下向上对小的类别进行聚合,但是一般用的比较多的是由下向上的凝聚法。 下面只介绍凝聚法,分裂法和凝聚法类似: 1、将样本集中的所有的样本点都当做一个独立的类簇; 2、计算两两类簇之间的距离(对应下面的 linkage 和 affinity 参数),找到距离最小的两个类簇 c1 和 c2; 3、合并...
2018-04-22 17:53:25
4517
转载 scikit-learn之聚类算法之Spectral clustering(谱聚类)
下面链接中的文章总结的太好了,就偷懒不自己写了。算法流程谱聚类原理总结sklearn中的参数scikit-learn学习谱聚类
2018-04-21 11:24:17
1688
原创 scikit-learn之聚类算法之Mean Shift
Mean Shift 算法通过更新质心的候选位置为 所选定区域 的偏移均值。 然后,这些候选者在后处理阶段被过滤以消除近似重复,从而形成最终质心集合。算法流程1、在指定的区域内计算偏移均值(如下图的黄色的圈); 2、移动该点到偏移均值点处; 重复上述的过程(计算新的偏移均值,移动),直到满足了最终的条件,退出;均值偏移向量 其中,SkSkS_{k} 为上面图中的蓝...
2018-04-20 16:10:12
3448
2
原创 scikit-learn之聚类算法之Affinity Propagation
基本概念exemplar:聚类的中心点; s(i,k):样本 i 和样本 k 之间的相似度,初始化时会有一个相似度矩阵; preference:偏好参数,相似度矩阵中横轴纵轴索引相同的点,如s(i,i),表示数据点 i 作为聚类中心的程度。迭代开始前假设所有点成为聚类中心的能力相同,因此参考度一般设为相似度矩阵中所有值得最小值或者中位数,但是参考度越大则说明各数据点成为聚类中心的能力越强,...
2018-04-19 16:52:01
5520
1
原创 scikit-learn之聚类算法之K-Means
K-means算法步骤: 1、给定类别个数 k,在数据集 X 中选择 k 个点作为初始的图心; 重复进行2、3步骤直到更新前后的图心之间的距离小于设定的阈值; 2、将数据集 X 中的点分配给离它最近的图心; 3、根据属于每个图心的所有点,重新计算新的图心; 上面的算法涉及两个问题: 1、输入问题;将输入的文本、图像向量化,这属于特征选择问题; 2、初始图心选择问题:可以使用k-m...
2018-04-18 11:22:08
1321
原创 结巴分词和哈工大ltp词性标注结合使用
根据自己的语料,发现使用结巴分词的粒度更适合,并且在使用外部词典进行分词时,哈工大的分词模块对于外部词典中的词会有不识别的现象。 对于词性标注而言,经过调研,各种分词工具都专注于做分词,词性标注做的都不是太好,结合语料比较之后决定使用哈工大ltp的词性标注模块。代码如下:import jiebafrom pyltp import Postaggerimport osMODEL...
2018-04-04 11:29:08
3072
1
原创 基于HMM的拼音转汉字程序
本文将讲述怎样利用HMM进行拼音转汉字。准备阶段 python 2.7; 安装 python 工具包 ChineseTone,直接使用 pip install 安装; 运行程序的过程中,可能还会用到其他工具包,自行使用 pip install 安装即可; 下载拼音转汉字程序,https://github.com/letiantian/Pinyin2Hanzi;原理讲述 HMM涉及...
2018-04-02 15:44:36
4619
转载 ROUGE评价指标
1、Ubuntu安装ROUGE教程2、在Ubuntu下配置pyrouge3、学习笔记———《自动文档摘要评价方法---Edmundson和ROUGE》4、pyrouge0.1.3官方教程5、pyrouge在Ubuntu下的使用
2018-03-28 21:18:03
5669
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人