weixin_43473864-优快云博客

原创 HMM模型和Viterbi算法

https://www.cnblogs.com/Denise-hzf/p/6612212.html 隐含马尔可夫模型（Hidden Markov Model） 1.马尔可夫假设。随机过程中各个状态的概率分布，只与它的前一个状态有关。 2.马尔可夫链 ...

2018-12-03 00:19:13 221

原创分词

https://blog.youkuaiyun.com/haishu_zheng/article/details/80430106 jieba分词的算法介绍 (1)Tree树，有向无环图(DAG) (2)动态规划，最大概率路径 (3)HMM模型，Viterbi算法 jieba功能点 1.3种分词模式 2.新词识别 3.自定义词典 4.关键词提取 5.去除停用词 ...

2018-12-02 23:24:37 184

# 从 a_dict 变成 a a_dict = {'key': {'inner_key': 'va'}, 'key2': {'inner_key2': 'va2'}} a_list = ['v1', 'v2'] a = {'key': {'inner_key': 'va', 'key2': 'v1'}, 'key2': {'inner_key2': 'va2', 'key2': 'v2'}}...

2018-11-16 16:12:30 1253

原创使用 Hyperopt 进行参数调优

https://www.jianshu.com/p/35eed1567463 网格搜索，随机搜索，贝叶斯优化通常机器学习工程师或数据科学家将为少数模型（如决策树，支持向量机和 K 近邻）执行某种形式（网格搜索或随机搜索）的手动调参，然后比较准确率并选择最佳的一个来使用。该方法可能比较的是次优模型。也许数据科学家找到了决策树的最优参数，但却错过了 SVM 的最优参数。这意味着他们的模型比较是有缺...

2018-11-16 15:51:27 763

原创 json_load

with open('/Users/ronald/Downloads/Archive/resume.json','r') as f: cvResult = f.readlines() import json for c in cvResult: if (json.loads(c)['job_id']['$oid']) == '5bd30948f7bf070001464815':...

2018-11-12 14:08:13 564

原创逻辑回归

https://blog.youkuaiyun.com/u013019431/article/details/79982258 ？在逻辑回归中，由于做了一次压缩所以没办法做正态分布的似然估计，这里采用的是做二项分布的假设。 sklearn.linear_model.LogisticRegression 参数 penalty. ‘l1’ or ‘l2’, default:‘l2’ solver. {‘newt...

2018-11-05 14:48:30 162

原创将数据保存为pickle文件

#保存为pickle文件 pipe_path='pipe_feature_nb_all.pkl' with open(pipe_path,'wb') as fw: pickle.dump(Pipe,fw) #加载pickle文件 pipe=pickle.load(open('pipe_feature_dt_all.pkl','rb'))

2018-11-03 16:12:51 2110

原创总结一下我写过的读文件的方式

读取excel # 读取excel worksheet = xlrd.open_workbook(filepath) table = worksheet.sheet_by_index(1)#读取第一个sheet里面的类容 datas=[] # 第一行和第二行的内容不读入 for i in range(table.nrows): if i == 0: continue ...

2018-10-31 10:47:59 105

原创机器学习-分类3

今天，输出了cross validation 在每个类别里面的模型评估值。主要有下面2步： #这是将输出变成pandas矩阵的函数 from sklearn.metrics import classification_report from collections import defaultdict def report2dict(cr): # Parse rows tmp ...

2018-10-29 19:29:29 160

原创集成学习

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/ stacking:堆；blending:混合物；bagging:装袋；boosting：助推 meta-estimator:元估计 2.1 Max Voting In this technique, multiple mode...

2018-10-29 16:03:32 231

原创 SVM3

核函数线性分类器只能解决线性可分的情况，那对于线性不可分的情况，可以用非线性函数作为分类器。下面新建一个向量y和a 于是，g(x)可以写为： f(y)可以表示为四维空间里的函数。是因为f(y)里面的y是一个三维的变量。这样，在二维空间里线性不可分的问题，在四维空间里变得线性可分。在这里引入核函数的概念。核函数的基本概念就是接受两个低维空间里的向量，能够计算出经过某个变换后在高维空间里...

2018-10-28 20:45:22 165

原创 SVM2

线性分类器的求解上节说到线性分类函数，也有了判断解优劣的标准–即有了优化的目标，这个目标就是最大化几何间隔。 1.SVM优化的目标有最小化||w||，我们常常使用另一个完全等价的目标函数来代替，那就是： 2.对于目标函数，要考虑如下的约束条件：其中l是样本数。 3.在上面的求解过程中，可以看到自变量是w，而目标函数是w的二次函数，这种规划问题叫做二次规划，可以更进一步的说，它的可行域是一个...

2018-10-28 16:56:19 135

原创 SVM1

https://blog.youkuaiyun.com/DP323/article/details/80535863 SVM简介 SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势。 SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的。 VC维是对函数类的一种度量，可以简单的理解为问题的复杂程度。正因为SVM关注的是VC维，它在解决分类问题的时候，和样本的维数是无关的。泛化误差界的...

2018-10-28 15:45:13 241

原创正则表达式

import re r加在字符串前面；[]取中括号内任意的一个，a[0-9]b,a[-+*/]b re.findall 代表输出所有匹配到的字符 re.search().group() 有结果就输出,只匹配成功一次就返回 re.match().group() 输出匹配的第一个 re.split() 可以对字符串切分，可以加入 maxsplit参数 re.sub() 可以对字符串进行替换；第一个字...

2018-10-27 01:36:01 120

原创机器学习-分类2

今天，在分类模型上又添加了如下代码。 #单个预测，对输出的类别进行排序 Class = list(pipe.classes_) print(Class) X=['感冒咳嗽恶心头晕头痛'] Pipe = pipe.predict(X) print(Pipe) prob = pipe.predict_proba(X) Prob = sum(prob.tolist(),[]) dict1=dic...

2018-10-26 19:48:40 203

原创爬虫程序2

from bs4 import BeautifulSoup import requests from lxml import etree import re def get_url(url): r = requests.get(url) text = r.text #使用etree.HTML处理源代码，然后使用Xpath提取内容 html = etree.HTML(...

2018-10-25 23:54:52 174

原创爬虫程序

from bs4 import BeautifulSoup import requests def one(url): r = requests.get(url, allow_redirects = False) fin = r.text soup = BeautifulSoup(fin,'html.parser') comments = soup.find('d...

2018-10-25 23:49:47 2536

原创元组转换为字典

今天实现了元祖转换为字典 from collections import defaultdict dict = defaultdict(list) a=[(1,3),(1,4),(1,5),(2,6),(2,7),(2,8)] for i in range(len(a)): dict[a[i][0]].append(a[i][1]) print(dict) 输出结果如下 defaultd...

2018-10-24 23:29:30 9297

原创 data-understan

这篇文章是做数据处理时输出的数据 from collections import defaultdict def get_count(fPath): invertedIndex = defaultdict(list) docNumber = 0 text=[] with open(fPath, 'r',encoding='utf-8') as f: ...

2018-10-23 00:38:20 138

原创机器学习-分类

print(1)

2018-10-20 18:38:15 252

weixin_43473864的博客