
机器学习实战
erinapple
这个作者很懒,什么都没留下…
展开
-
KNN算法实现问题记录
执行排序操作会使用到operator运算符模块,因此需要在开始的时候导入1import kNN。报错:only 2 non-keyword arguments accepted。问题所在:貌似是粗心少写了两个中括号 本来是array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]),结果少写了最外面的两个中括号2,shape函数是numpy.co原创 2017-08-17 11:10:06 · 563 阅读 · 0 评论 -
5
# -*- coding: utf-8 -*-"""Created on Fri Jun 8 19:21:48 2018@author: lixingxing"""# -*- coding: UTF-8 -*-import sys, timeclass ShowProcess(): """ 显示处理进度的类 调用该类相关函数即可实现处理进度的显示 ...原创 2018-06-13 19:58:16 · 612 阅读 · 0 评论 -
sklearn中的特征提取(important)
http://d0evi1.com/sklearn/feature_extraction/1.介绍sklearn.feature_extraction模块,可以用于从包含文本和图片的数据集中提取特征,以便支持机器学习算法使用。注意:Feature extraction与Feature Selection是完全不同的:前者将专有数据(文本或图片)转换成机器学习中可用的数值型特征;后者则是用在这些特征...原创 2018-06-06 20:59:46 · 6378 阅读 · 0 评论 -
tf-idf:sklearn中TfidfVectorizer使用
tf-idf:sklearn中TfidfVectorizer使用import jiebafrom sklearn.feature_extraction.text import TfidfVectorizercorpus = []data_file="./tfidf-data.txt"with open(data_file, 'r') as f: for line in f:...原创 2018-06-06 21:34:54 · 2033 阅读 · 0 评论 -
倒排索引的实现
https://blog.youkuaiyun.com/xn4545945/article/details/8791484倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。倒排索引分析:以英文为例,下面是要被索引的文本:T0 = "it is wha...原创 2018-06-06 21:46:45 · 4875 阅读 · 0 评论 -
结巴分词较好,可借鉴
import osimport jiebaimport jieba.posseg as psegimport sysimport stringfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_ext...转载 2018-06-06 21:59:52 · 1174 阅读 · 0 评论 -
重要的链接
https://blog.youkuaiyun.com/u010105243/article/details/53352155https://radimrehurek.com/gensim/apiref.htmlhttps://radimrehurek.com/gensim/apiref.htmlhttps://radimrehurek.com/gensim/apiref.htmlhttps://radimr...原创 2018-06-06 22:06:27 · 178 阅读 · 0 评论 -
Linux系统上传下载命令rz和sz
(一)安装方法汇总1、安装方法(推荐)yum install lrzsz -y2、在安装Linux系统时选中“DialupNetworking Support”组包3、安装系统联网启动后执行yum直接安装组包yum groupinstall "Dialup Networking Support" -y(二)上传下载文件测试1、条件:需要使用SecureCRT或者Xshell等客户端工具连接Linu...转载 2018-06-07 10:58:39 · 387 阅读 · 0 评论 -
关键词提取
关键词提取的方法:1TF-IDF2Topic-model:使用主题模型提取关键词的关键思想是认为文章是由主题组成的,而文章中的词是以一定概率从主题中选取的,即文章与词之间存在一个主题集合。不同的主题下,词出现的概率分布是不同的。根据LDA主题模型的学习可以获取文档的主题词集合。3RAKE关键词提取:RAKE(Rapid Automatic Keyword Extraction)算法的原作者是Aly...原创 2018-06-07 18:12:13 · 504 阅读 · 0 评论 -
jieba(结巴)分词种词性简介
https://blog.youkuaiyun.com/suibianshen2012/article/details/53487157jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起...原创 2018-06-08 19:06:33 · 1144 阅读 · 0 评论 -
结巴 词性
另附词性标注表如下:1. 名词 (1个一类,7个二类,5个三类)名词分为以下子类:n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素2. 时间词(1个一类,1个二类)t 时间词tg 时间词性语素3. 处所词(1个一类)s 处所词4. 方...原创 2018-06-08 19:11:19 · 1599 阅读 · 0 评论 -
Linux ps 命令查看进程启动及运行时间
ps -eo lstart 启动时间ps -eo etime 运行多长时间. ps -eo pid,lstart,etime | grep 5176原创 2018-06-08 19:18:03 · 13365 阅读 · 0 评论 -
linux 查看当前文件大小
Linux查看文件夹大小du -sh 查看当前文件夹大小du -sh * | sort -n 统计当前文件夹(目录)大小,并按文件大小排序附送:du -sk filename 查看指定文件大小 Linux:ls以K、M、G为单位查看文件大小Linux:ls以K、M、G为单位查看文件大小。#man ls……-h, --human-readableprint sizes in human readab...转载 2018-06-08 19:20:20 · 2543 阅读 · 0 评论 -
python 进度条
Python显示进度条,实时显示处理进度2017年06月26日 09:51:24阅读数:16602前言在大多数时候,我们的程序会一直进行循环处理。这时候,我们非常希望能够知道程序的处理进度,由此来决定接下来该做些什么。接下来告诉大家如何简单又漂亮的实现这一功能。如何使用这个类使用这个类很简单,只需要两步即可完成,如下:process_bar = ShowProcess(max_steps, inf...原创 2018-06-08 19:24:55 · 1202 阅读 · 0 评论 -
2
#-*-encoding:utf-8-*-import sysimport urllibimport jsonimport numpy as npimport mathimport jiebaimport codecsimport jsonimport osimport reimport timeimport utilsfrom gensim.corpora import...原创 2018-06-13 19:57:17 · 194 阅读 · 0 评论 -
python 机器学习实战KNN
#K近邻的实现from numpy import *import operatordef createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group ,labelsdef classify0(inX, data原创 2017-08-17 19:52:01 · 253 阅读 · 0 评论 -
实现KNN中的排序sorted
sorted函数Python内置的排序函数sorted可以对list或者iterator进行排序,官网文档见:该函数原型为:sorted(iterable[, cmp[, key[, reverse]]])参数解释:(1)iterable指定要排序的list或者iterable,不用多说;(2)cmp为函数,指定排序时进行比较的函数,可以指定一个函数或者lambda函数,如原创 2017-08-17 20:05:24 · 459 阅读 · 0 评论 -
python KNN中使用到的函数表达式
readline() 方法用于从文件读取整行,包括 "\n" 字符。如果指定了一个非负数的参数,则返回指定大小的字节数,包括 "\n" 字符。.readline() 和 .readlines() 之间的差异是后者一次读取整个文件,象 .read() 一样。.readlines() 自动将文件内容分析成一个行的列表,该列表可以由 Python 的 for ... in ... 结构进行处理。另一原创 2017-08-17 22:02:43 · 578 阅读 · 0 评论 -
No such file or directory: 'datingTestSet.txt'
要将KNN与数据文件放在同一级数据文件之下原创 2017-08-17 23:11:17 · 3286 阅读 · 0 评论 -
KNN
http://blog.youkuaiyun.com/niuwei22007/article/details/49703719转载 2017-08-17 23:35:25 · 236 阅读 · 0 评论 -
欢迎使用优快云-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: 前言 对于喜欢逛优快云的人来说,看别人的博客确实能够对自己有不小的提高,有时候看到特别好的博客想转载下载,但是不能一个字一个字的敲了,这时候我们就想快速转载别人的博客,把别人的博客移到自己的空间里面,当然有人会说我们可以收藏博客啊,就不需要转载,(⊙o⊙原创 2017-09-15 17:17:01 · 179 阅读 · 0 评论 -
EM 算法
EM:主要用于含有隐变量的概率模型参数的极大似然估计或者是后验概率估计而我需要的是后验概率估计完全数据:观测样本 X = (X1, · · · , Xn)T 连同隐性数据或缺失数据等不可观测数据 Y ∈ Y 扩充而得的数据 Z ∈ Z 称为完全数据 (complete data) 或扩充数据,引入 Y 的目的或者为了简化了似然函数,或者为了在缺失数据的情况之下使得最大似然估计得原创 2017-10-24 16:29:44 · 174 阅读 · 0 评论 -
Python自定义函数的创建、调用和函数的参数详解 .argmax
定义函数需要注意的几个事项:1、def开头,代表定义函数2、def和函数名中间要敲一个空格3、之后是函数名,这个名字用户自己起的,方便自己使用就好4、函数名后跟圆括号(),代表定义的是函数,里边可加参数5、圆括号()后一定要加冒号: 这个很重要,不要忘记了6、代码块部分,是由语句组成,要有缩进7、函数要有返回值returnnumpy.argmax(a,原创 2017-11-05 10:15:51 · 877 阅读 · 0 评论 -
python 学习实战 LR
理论很简单但是自己编写的过程也遇到了很多问题python语法中的缩进很重要当加一个循环或者是条件状语从句的时候就要好好考虑一下矩阵的运算,行和列要分清楚,特别是需要矩阵运算的时候,凡是涉及到矩阵的地方,都需要好好推到;在这个实现的过程中,梯度下降的方法比较简单,但是err的值一定要设置的足够小才可以,正常的梯度下降方法要求导,使用adam的下降方法比较好。原创 2017-12-17 15:12:28 · 492 阅读 · 0 评论 -
机器学习实战 LR
2 data files -- horse-colic.data: 300 training instances -- horse-colic.test: 68 test instances1、Logistic回归的优缺点优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低。缺点:容易欠拟合,分类精度可能不高。2、原创 2017-12-17 19:42:16 · 594 阅读 · 0 评论 -
一个利用h5py保存hdf文件的例子,留存!
import numpy as np import h5py as h5 trans_detail_type = np.dtype([ ('stk_code','S8'), ('trans_time','i4'), ('price','i8'), ('volumn','i8'), ('buy_order_id', '翻译 2018-01-19 17:23:08 · 725 阅读 · 0 评论 -
机器学习实战 adaboost学习
建立决策树首先得建立树桩,单层决策树(仅基于单个特征来做决策)transpose转置可以对数组进行重置,返回的是源数据的视图(不会进行任何复制操作)。def plotimage(dataMat, labelMat): matplus = [] matmini = [] for i in range(len(dataMat)): if labelMat[i] ...原创 2018-03-16 15:25:48 · 242 阅读 · 0 评论 -
python
del:它是根据索引(元素所在位置)来删除举例说明:>>> str=[1,2,3,4,5,2,6]>>> del str[1]>>> str[1, 3, 4, 5, 2, 6]>>> str2=['abc','bcd','dce']>>> del str2[1]>>&原创 2018-03-13 14:41:33 · 160 阅读 · 0 评论 -
PYTHON将list或/dict对象写入txt/json文件
for循环需要的时间太长,简化时间的一种策略,字典不能直接将list或dict对象进行写入,会出现typeError。一、写list到txt文件:[python] view plain copyipTable = ['158.59.194.213', '18.9.14.13', '58.59.14.21'] fileObject = open('sampleList.txt', 'w') fo...原创 2018-06-11 17:19:24 · 29542 阅读 · 1 评论