- 博客(12)
- 收藏
- 关注
原创 解决Error loading MySQLdb module. Did you install mysqlclient
解决django.core.exceptions.ImproperlyConfigured: Error loading MySQLdb module.Did you install mysqlclient?问题一、 前言:1、本人使用的Mac系统2、本人将完成好的Django项目移到到另外一个环境中遇到的问题⬇️二、问题的关键点与解决问题的过程后经过查资料,发现解决问题的关键:1、...
2019-04-10 17:12:58
17200
1
原创 07特征选择与降维
一、特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。 根据特征选择...
2019-03-03 14:24:42
357
原创 06词特征表示实践
读取数据import pandas as pdcorpus=list(pd.read_table('words.txt').iloc[:,0])#提取语料中的十个句子进行演示corpus=corpus[10:20]词特征表示方法Common Vectorizer usagesklearnfrom sklearn.feature_extraction.text import Coun...
2019-01-22 16:56:21
390
原创 05词向量表示理论篇
一、离散表示1、词离散表示:One-hot 表示语料库:李杏 喜欢 喝 奶茶 诗雅 也 喜欢 喝 奶茶李杏 同样 喜欢 喝 果汁 词典:{“李杏”:1,”喜欢”:2,”喝”:3,”奶茶”:4,”诗雅”:5,”也”:6,”同样”:7,”果汁”:8}One-hot 表示:李杏:[1,0,0,0,0,0,0,0] 喜欢:[0,1,0,0,0,0,0,0] … 果汁:[0,0...
2019-01-14 16:38:36
437
原创 03数据清洗与自定义函数
前言1)本节课学习正则表达式的用法,为数据清洗打下基础2)学习函数相关知识,提高代码的重用性以及可读性python知识的补充1、字符替换与正则表达式简单的字符替换str.replace()print(help(str.replace))Help on method_descriptor:replace(...) S.replace(old, new[, coun...
2018-12-29 11:21:20
402
原创 02结巴分词和打标任务代码设计
前言1)处理的数据越大,对性能的要求越高,我们需要逐步学习python代码编写的性能方面的知识2)学习程序设计,可以将一些机械化的人工操作让代码代劳python知识补充1、时间查看当前时间:datetime.datetime.now()import datetime#查看当前时间now_time = datetime.datetime.now()print(now_time)...
2018-12-24 09:07:33
1466
原创 01文本文件读取和CSV文件的读取
前言1、为了进行下一步的分词操作,我们需要读取停用词表(分词中需去除的无用词)、评论数据。2、停用词表的文件格式为txt,评论数据的文件格式为csv。我们通常使用open()函数读取txt,使用pandas库的read_csv方法读取csv文件。文本文件的输入输出文本文件的读写主要通过**open()**所构建的文件对象来实现。help(open)重点掌握参数file : 一个包含了...
2018-12-14 15:55:38
1112
原创 网络基础之网络协议篇
1、物理层2、数据链路层功能:定义了电信号的分组方式以太网协议、mac地址、广播3、网络层IP协议、子网掩码(知道”子网掩码”,我们就能判断,任意两个IP地址是否处在同一个子网络。)arp协议功能:广播的方式发送数据包,获取目标主机的mac地址4、传输层我们通过ip和mac找到了一台特定的主机,如何标识这台主机上的应用程序,答案就是端口,端口即应用程序与网卡关联的编号。tcp协议:可靠传输, ud...
2018-04-28 18:25:23
153
原创 GBDT原理
GBDT主要由三个概念组成:Regression Decistion Tree(即DT),Gradient Boosting(即GB),Shrinkage (算法的一个重要演进分枝,目前大部分源码都按该版本实现)。一、 DT:回归树 Regression Decision TreeGBDT的核心在于累加所有树的结果作为最终结果GBDT中的树都是回归树,不是分类树,这点对理解GBDT相当
2017-08-21 19:29:10
264
原创 特征选择之python实战(一)
前言:实际应用中特征作用远大于模型。声明:本文为读书笔记,原文地址:http://www.tuicool.com/articles/ieUvaq特征选择主要有两个功能:1.减少特征数量、降维,使模型泛化能力更强,减少过拟合2.增强对特征和特征值之间的理解特征选择方法总览1 去掉取值变化小的特征 Removing features with
2017-08-13 16:29:03
4986
原创 如何选择合适的机器算法解决问题
step 1:对问题进行分类 法一: 法二: step 2:寻找可用的算法根据分类结果,寻找对应合适的算法2.1 分类 2.1.1 SVM (1)可用于找到尽可能宽的分类的边界:当两个分类不能被清楚地分开时,该算法会找到其所能找到的最
2017-08-02 17:19:32
398
原创 学习路径之机器学习(1)
1.大概学习路径图2.数学基础2.1 微积分:知识:微积分的计算及物理意义,凸优化和条件最优化运用:梯度下降法、牛顿法等。能理解“梯度下降是用平面来逼近局部,牛顿法是用曲面逼近局部”.2.2 线性代数知识:矩阵乘法,向量的内积运算运用:矩阵乘法与分解主要运用在主成分分析(PCA)和奇异值分解(SVD)2.3 概率与统计知识:极
2017-08-02 10:17:43
300
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人