- 博客(20)
- 收藏
- 关注
原创 HMM模型和Viterbi算法
https://www.cnblogs.com/Denise-hzf/p/6612212.html隐含马尔可夫模型(Hidden Markov Model)1.马尔可夫假设。随机过程中各个状态的概率分布,只与它的前一个状态有关。2.马尔可夫链...
2018-12-03 00:19:13
199
原创 分词
https://blog.youkuaiyun.com/haishu_zheng/article/details/80430106jieba分词的算法介绍(1)Tree树,有向无环图(DAG)(2)动态规划,最大概率路径(3)HMM模型,Viterbi算法jieba功能点1.3种分词模式2.新词识别3.自定义词典4.关键词提取5.去除停用词...
2018-12-02 23:24:37
165
原创 在嵌套字典里添加字典
# 从 a_dict 变成 aa_dict = {'key': {'inner_key': 'va'}, 'key2': {'inner_key2': 'va2'}} a_list = ['v1', 'v2'] a = {'key': {'inner_key': 'va', 'key2': 'v1'}, 'key2': {'inner_key2': 'va2', 'key2': 'v2'}}...
2018-11-16 16:12:30
1220
原创 使用 Hyperopt 进行参数调优
https://www.jianshu.com/p/35eed1567463网格搜索,随机搜索,贝叶斯优化 通常机器学习工程师或数据科学家将为少数模型(如决策树,支持向量机和 K近邻)执行某种形式(网格搜索或随机搜索)的手动调参,然后比较准确率并选择最佳的一个来使用。该方法可能比较的是次优模型。也许数据科学家找到了决策树的最优参数,但却错过了SVM 的最优参数。这意味着他们的模型比较是有缺...
2018-11-16 15:51:27
731
原创 json_load
with open('/Users/ronald/Downloads/Archive/resume.json','r') as f: cvResult = f.readlines()import jsonfor c in cvResult: if (json.loads(c)['job_id']['$oid']) == '5bd30948f7bf070001464815':...
2018-11-12 14:08:13
539
原创 逻辑回归
https://blog.youkuaiyun.com/u013019431/article/details/79982258?在逻辑回归中,由于做了一次压缩所以没办法做正态分布的似然估计,这里采用的是做二项分布的假设。sklearn.linear_model.LogisticRegression参数penalty. ‘l1’ or ‘l2’, default:‘l2’solver. {‘newt...
2018-11-05 14:48:30
139
原创 将数据保存为pickle文件
#保存为pickle文件pipe_path='pipe_feature_nb_all.pkl'with open(pipe_path,'wb') as fw: pickle.dump(Pipe,fw)#加载pickle文件pipe=pickle.load(open('pipe_feature_dt_all.pkl','rb'))
2018-11-03 16:12:51
2069
原创 总结一下我写过的读文件的方式
读取excel# 读取excelworksheet = xlrd.open_workbook(filepath)table = worksheet.sheet_by_index(1)#读取第一个sheet里面的类容datas=[]# 第一行和第二行的内容不读入for i in range(table.nrows): if i == 0: continue ...
2018-10-31 10:47:59
89
原创 机器学习-分类3
今天,输出了cross validation 在每个类别里面的 模型评估值。主要有下面2步:#这是将输出变成pandas矩阵的函数from sklearn.metrics import classification_reportfrom collections import defaultdictdef report2dict(cr): # Parse rows tmp ...
2018-10-29 19:29:29
134
原创 集成学习
https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/stacking:堆;blending:混合物;bagging:装袋;boosting:助推meta-estimator:元估计2.1 Max VotingIn this technique, multiple mode...
2018-10-29 16:03:32
175
原创 SVM3
核函数线性分类器只能解决线性可分的情况,那对于线性不可分的情况,可以用非线性函数作为分类器。下面新建一个向量y和a于是,g(x)可以写为:f(y)可以表示为四维空间里的函数。是因为f(y)里面的y是一个三维的变量。这样,在二维空间里线性不可分的问题,在四维空间里变得线性可分。在这里引入核函数的概念。核函数的基本概念就是接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里...
2018-10-28 20:45:22
147
原创 SVM2
线性分类器的求解上节说到线性分类函数,也有了判断解优劣的标准–即有了优化的目标,这个目标就是最大化几何间隔。1.SVM优化的目标有最小化||w||,我们常常使用另一个完全等价的目标函数来代替,那就是:2.对于目标函数,要考虑如下的约束条件:其中l是样本数。3.在上面的求解过程中,可以看到自变量是w,而目标函数是w的二次函数,这种规划问题叫做二次规划,可以更进一步的说,它的可行域是一个...
2018-10-28 16:56:19
113
原创 SVM1
https://blog.youkuaiyun.com/DP323/article/details/80535863SVM简介SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势。SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的。VC维是对函数类的一种度量,可以简单的理解为问题的复杂程度。正因为SVM关注的是VC维,它在解决分类问题的时候,和样本的维数是无关的。泛化误差界的...
2018-10-28 15:45:13
219
原创 正则表达式
import rer加在字符串前面;[]取中括号内任意的一个,a[0-9]b,a[-+*/]bre.findall 代表输出所有匹配到的字符re.search().group() 有结果就输出,只匹配成功一次就返回re.match().group()输出匹配的第一个re.split() 可以对字符串切分,可以加入 maxsplit参数re.sub() 可以对字符串进行替换;第一个字...
2018-10-27 01:36:01
97
原创 机器学习-分类2
今天,在分类模型上又添加了如下代码。#单个预测,对输出的类别进行排序Class = list(pipe.classes_)print(Class)X=['感冒 咳嗽 恶心 头晕 头痛']Pipe = pipe.predict(X)print(Pipe)prob = pipe.predict_proba(X)Prob = sum(prob.tolist(),[])dict1=dic...
2018-10-26 19:48:40
183
原创 爬虫程序2
from bs4 import BeautifulSoupimport requestsfrom lxml import etreeimport redef get_url(url): r = requests.get(url) text = r.text #使用etree.HTML处理源代码,然后使用Xpath提取内容 html = etree.HTML(...
2018-10-25 23:54:52
142
原创 爬虫程序
from bs4 import BeautifulSoupimport requestsdef one(url): r = requests.get(url, allow_redirects = False) fin = r.text soup = BeautifulSoup(fin,'html.parser') comments = soup.find('d...
2018-10-25 23:49:47
2505
原创 元组转换为字典
今天实现了元祖转换为字典from collections import defaultdictdict = defaultdict(list)a=[(1,3),(1,4),(1,5),(2,6),(2,7),(2,8)]for i in range(len(a)): dict[a[i][0]].append(a[i][1])print(dict)输出结果如下defaultd...
2018-10-24 23:29:30
9266
原创 data-understan
这篇文章是做数据处理时输出的数据from collections import defaultdictdef get_count(fPath): invertedIndex = defaultdict(list) docNumber = 0 text=[] with open(fPath, 'r',encoding='utf-8') as f: ...
2018-10-23 00:38:20
125
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人