自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 [Text_Mining]notes_4

Semantic Text Similarity Applications of semantic similarity-Grouping similar words into semantic concept-As a building block in natural language understanding tasks -Textual entailment -P

2017-12-08 14:43:52 502

原创 [Text_Mining]notes_3

ClassificationGiven a set of classesClassification:Assign the correct class label to the given inputExamples of Text Classification:Topic identificationSpam DectectionSentiment analysisS

2017-12-08 14:41:50 608

原创 [Text_Mining]notes_2

An introduction to NLTKNLTK:Natural Language ToolkitOpen sourse library in Python >>>import nltk Frequency of words>>>dist = FreDist(text7)>>>len(dist)Freqwords = [w for w in vocab1

2017-12-08 14:40:03 350

原创 [Text_Mining]notes_1

Text2 = text1.split(‘  ‘ )[w for w in text2 if w.endswith(‘s’)]Find unique words :  set(text4)  set([w.lower() for w in text4])S.startswith(t)S.endswith(t)T in sS.isupper(); s.islower(); s

2017-12-08 14:38:40 244

转载 tensorflow 关于张量 shape 数组

张量的阶、形状、数据类型TensorFlow用张量这种数据结构来表示所有的数据.你可以把一个张量想象成一个n维的数组或列表.一个张量有一个静态类型和动态类型的维数.张量可以在图中的节点之间流通.阶在TensorFlow系统中,张量的维数来被描述为阶.但是张量的阶和矩阵的阶并不是同一个概念.张量的阶(有时是关于如顺序或度数或者是n维)是张量维数的一个数量描述.比如,下

2017-12-05 11:11:09 836

转载 文本情感分类—深度学习模型基本概念

语言的表达建模环节中最重要的一步是特征提取,在自然语言处理中也不例外。在自然语言处理中,最核心的一个问题是,如何把一个句子用数字的形式有效地表达出来?如果能够完成这一步,句子的分类就不成问题了。显然,一个最初等的思路是:给每个词语赋予唯一的编号1,2,3,4...,然后把句子看成是编号的集合,比如假设1,2,3,4分别代表“我”、“你”、“爱”、“恨”,那么“我爱你”就是[1, 3, 2]

2017-12-05 09:56:43 2663

转载 cross_val_score交叉验证及其用于参数选择、模型选择、特征选择

内容概要¶训练集/测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数、选择模型、选择特征改善交叉验证1. 模型验证回顾¶进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度

2017-12-03 17:07:24 43882 8

原创 Lasso Regression

先引入岭回归的概念:岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。岭回归的原理:对于有些矩阵,矩阵中某个元

2017-12-03 13:52:49 1530

转载 k-means+python︱scikit-learn中的KMeans聚类实现( + MiniBatchKMeans)

之前一直用R,现在开始学python之后就来尝试用Python来实现Kmeans。 之前用R来实现kmeans的博客:笔记︱多种常见聚类模型以及分群质量评估(聚类注意事项、使用技巧)聚类分析在客户细分中极为重要。有三类比较常见的聚类模型,K-mean聚类、层次(系统)聚类、最大期望EM算法。在聚类模型建立过程中,一个比较关键的问题是如何评价聚类结果如何,会用一些指标来评价。 .

2017-11-18 13:40:41 1282

转载 拉格朗日对偶

2 拉格朗日对偶(Lagrange duality)     先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题:            目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为            L是等式约束的个数。    然后分别对w和求偏导,使得偏

2017-11-07 10:28:46 696

原创 大二秋季学期学习计划

书单:1.计算机英语2.数学之美3.线性代数及其应用(搭配MIT线性代数公开课)4.Mind on statistics尽量看5.head first java6.算法(第四版)7.程序员的数学(三册)8.linux鸟哥私房菜9.beginning python 尽量看

2017-08-28 16:12:03 734

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除