- 博客(34)
- 资源 (9)
- 收藏
- 关注
原创 30个Python实用代码片段
1.检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了 set() 属性,该属性将会从列表中删除重复的元素。def all_unique(lst): return len(lst) == len(set(lst))x = [1,1,2,2,3,2,3,4,5,6] y = [1,2,3,4,5] all_unique(x) # False all_unique(y) # True2.变位词检测两个字符串是否互为变位词(即互相颠倒字符...
2021-03-03 15:38:29
413
2
转载 python之subprocess模块讲解
subprocess模块subprocess是Python 2.4中新增的一个模块,它允许你生成新的进程,连接到它们的 input/output/error 管道,并获取它们的返回(状态)码。这个模块的目的在于替换几个旧的模块和方法,如:os.system os.spawn*1. subprocess模块中的常用函数函数 描述 subprocess.run() Python 3.5中新增的函数。执行指定的命令,等待命令执行完成后返回一个包含执行结果的CompletedProc
2021-02-25 15:56:04
1028
原创 python导入其他文件夹下的.py文件
想在globalpararm中导入read_config中的类import syssys.path.append('..')from common.read_config import Read_Config
2020-10-09 10:06:39
3053
1
原创 Python 生成项目的 requirements.txt 文件
Python 生成项目的 requirements.txt 文件1、freeze说明: 它生成的 requirements.txt 文件包含当前环境的完全列表,不相关的依赖包也会包含进来,**注意这个库生成的requirements.txt会包含整个当前环境下的所有库。**但是呢,如果我们想要的是生成一个项目环境下的库,所以这个freeze就不太合适了。安装:pip install freeze使用-生成rrequirements.txt:#注意先cd到项目所在的目录下哈pip freeze
2020-06-22 10:06:26
1886
转载 深度学习做股票预测靠谱吗?
给你讲个段子!真实的! 我去一家量化交易公司实习,一次meeting中,我和老总还有一个资深大佬谈机器学习在股票和期货里面的应用。 我:LSTM在时间序列上应用的效果比较好,我们可以尝试把LSTM应用在股票预测上。 此时,大佬在阴笑,老总默不作声... 我:你为啥笑 大佬: 不work啊! 我:为什么不work?! 这时老总也在旁边强掩笑容,大佬终于忍不住说了...
2018-07-17 15:58:16
2021
1
原创 在windows安装部署spark(python版)
在部署spark之前你得先确定你已经成功部署了Hadoop,如果没有的话,请看我上一篇文章:https://blog.youkuaiyun.com/zhongjunlang/article/details/808126691.首先下载Spark http://spark.apache.org/downloads.html 选择合适的版本,这里我下载了最近的版本 下载完解压包之后对解压包进行解压,注意存放的路径...
2018-06-26 16:10:45
5231
原创 Hadoop2.7.6在Windows7单机部署
在win7中部署hadoop有好多坑,费了我好大功夫才部署好的,赶紧写一下,万一以后用到少走弯路。 我的渣渣win7环境:windows7-64位hadoop2.7.6python-2.7.3部署Hadoop2.7.6需要以下步骤:1.配置jdk1.8 不要安装在空格的目录中,你会发现hadoop和spark不支持有空格的目录配置(敲黑板!!)所以我自己新建了一个文件夹安装jdkjdk下载地址:h...
2018-06-26 11:22:37
4197
2
转载 mysql 1136错误 Column count doesn't match value count at row 1
网上说是列的数量不批配,我数了很多遍都是一样的,最后发现是用了中文输入法,逗号和占位符?后是中文输入法状态下输入的,记录一下不再犯同样的错误。mysql错误:Column count doesn't match value count at row 1 mysql错误:Column count doesn't match value count at row 1是由于类似INSERT INTO t...
2018-06-06 08:46:09
41424
2
原创 常用公式及定理
重要公式:切比雪夫不等式:\[P\{ \left| {X - \mu } \right| < \varepsilon \} = 1 - P\{ \left| {X - \mu } \right| \ge \varepsilon \} \ge 1 - \frac{{{\sigma ^2}}}{{{\varepsilon ^2}}}\]...
2018-04-18 11:32:31
253
转载 PANDAS 数据合并与重塑(join/merge篇)
转载自:链接在上一篇文章中,我整理了pandas在数据合并和重塑中常用到的concat方法的使用说明。在这里,将接着介绍pandas中也常常用到的join 和merge方法mergepandas的merge方法提供了一种类似于SQL的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如R)要高效。和SQL语句的对比可以看这里merge的参数on:列名,join用来对齐的那一列的名字,...
2018-03-18 21:24:38
460
转载 pandas数据合并与重塑(concat篇)
转载自:链接pandas作者Wes McKinney 在【python for data anlysis】中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作,一般用到的方法有concat、join、merge。但这三种方法对于很多新手来说,都不太好分清使用的场合与用途。今天就pandas官网中关...
2018-03-18 21:12:49
11175
转载 如何解决分类问题中样本不均衡问题
本文转载自:http://blog.youkuaiyun.com/login_sonata/article/details/54290402建议同时跟类间样本数量不平衡对分类模型性能的影响问题一块阅读什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子:①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结...
2018-03-15 15:49:08
16080
1
转载 机器学习中的判别模式和生成模式
判别式模型与生成式模型参考资料:https://www.zhihu.com/question/20446337 http://blog.163.com/huai_jing@126/blog/static/1718619832011227757554/ 生成式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念...
2018-03-15 13:57:48
2152
原创 正则化L1和L2
参考文章:机器学习中的范数规则化 牛客题目L1范数是指向量中各个元素绝对值之和,用于特征选择。使用L1可以得到稀疏的权值。L2范数是指向量各元素的平方和然后求平方根,用于防止过拟合,提升模型的泛化能力。使用L2可以得到平滑的权值。L1范数具有系数解的特性,但是要注意的是,L1没有选到的特征不代表不重要,原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重...
2018-03-15 13:32:03
214
原创 神经网络中关于卷积池化的计算
输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为:97解析:一层卷积 :注意:这里卷积是向下取整的池化:二层卷积:计算尺寸不被整除只在G...
2018-03-15 13:14:56
4377
转载 为什么一些机器学习模型需要对数据进行归一化?
转自:https://www.cnblogs.com/LBSer/p/4440590.html为什么一些机器学习模型需要对数据进行归一化知乎中对数据进行归一化的理解1 归一化为什么能提高梯度下降法求解最优解的速度?斯坦福机器学习视频做了很好的解释:https://class.coursera.org/ml-003/lecture/21 如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其...
2018-03-13 20:11:14
1391
原创 随机森林(Random forest,RF)的生成方法以及优缺点
随机森林(Random Forest)是属于集成学习的一种组合分类算法(确切说是属于bagging),集成学习的核心思想就是将若干个弱(基)分类器组合起来,得到一个分类性能显著优越的强分类器。如果各弱分类器之前没有强依赖关系、可并行生成,就可以使用随机森林算法。 随机森林利用自主抽样法(bootstrap)从原数据集中有放回地抽取多个样本,对抽取的样本先用弱分类器—决策树进行训练...
2018-03-08 21:18:10
38975
13
原创 多元回归分析(multiple regression)及其应用
1. 与简单线性回归区别(simple linear regression) 多个自变量(x)2. 多元回归模型 y=β0+β1x1+β2x2+ … +βpxp+ε 其中:β0,β1,β2… βp是参数 ε是误差值3. 多元回归方程 E(y)=β0+β1x1+β2x2+ … +βpxp4. 估计
2017-10-06 22:14:25
63221
原创 简单线性回归及实现
0. 前提介绍:为什么需要统计量? 统计量:描述数据特征0.1 集中趋势衡量 0.1.1均值(平均数,平均值)(mean) graphic {6, 2, 9, 1, 2} (6 + 2 + 9 + 1 + 2) / 5 = 20 / 5 = 4 0.1.2中位数 (median): 将数据中的各个数值按照大小顺序排列,居
2017-10-06 22:01:43
683
转载 标签二值化LabelBinarizer
转载自:http://blog.sina.com.cn/s/blog_a6c646330102vx6y.html 对于标称型数据来说,preprocessing.LabelBinarizer是一个很好用的工具。比如可以把yes和no转化为0和1,或是把incident和normal转化为0和1。当然,对于两类以上的标签也是适用的。这里举一个简单的例子,说明将标签二值化以及其逆过程。# -*- c
2017-10-06 20:44:51
939
原创 神经网络算法(Nerual Networks)应用
1. 关于非线性转化方程(non-linear transformation function)sigmoid函数(S 曲线)用来作为activation function: 1.1 双曲函数(tanh) 1.2 逻辑函数(logistic function)2. 实现一个简单的神经网络算法# -*- coding:utf-8 -*-import numpy as np
2017-10-06 20:40:05
2767
原创 神经网络算法(Nerual Networks)
1. 背景: 1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本 1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network) 2.1 Backpropagation被使用在多层向前神经网络上 2.2 多层向前神经网络由以下部分组成:
2017-10-06 16:24:58
810
原创 支持向量机(SVM)算法应用
第一个简单的小例子:# -*-coding:utf-8 -*-from sklearn import svmx = [[2, 0], [1, 1], [2, 3]]y = [0, 0, 1]clf = svm.SVC(kernel = 'linear')# kernel :核函数,默认是rbf,可以是‘linear’, ‘poly’, ‘rbf’, #‘sigmoid’, ‘precomput
2017-10-05 22:12:09
1665
原创 支持向量机(SVM)算法
1. 背景: 1.1 最早是由 Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出 1.2 目前的版本(soft margin)是由Corinna Cortes 和 Vapnik在1993年提出,并在1995年发表 1.3 深度学习(2012)出现之前,SVM被认为机器学习中近十几年来最成功,表现最好的算法.是最好的现成的分类器,‘现成’指
2017-10-05 16:00:53
2052
转载 python中的sort方法和sorted使用详解
Python中的sort()方法使用基础一、基本形式sorted(iterable[, cmp[, key[, reverse]]])iterable.sort(cmp[, key[, reverse]])参数解释: (1)iterable指定要排序的list或者iterable; (2)cmp为函数,指定排序时进行比较的函数,也就是用来排序的函数,可以指定一个函数或者lambda函数,如
2017-10-03 16:11:34
3954
原创 最邻近规则分类(K-Nearest Neighbor)KNN算法应用
最邻近规则分类(K-Nearest Neighbor)KNN算法应用1.Iris数据集介绍调用ython的机器学习库sklearn实现虹膜分类 Iris数据包含150条样本记录,分剐取自三种不同的鸢尾属植物setosa、versic010r和virginica的花朵样本,每一 类各50条记录,其中每条记录有4个属性:萼片长度(sepal length)、萼片宽度sepalwidth)、花瓣长
2017-10-03 15:13:14
790
1
原创 最邻近规则分类(K-Nearest Neighbor)KNN算法
最邻近规则分类(K-Nearest Neighbor)KNN算法1. 综述 1.1 Cover和Hart在1968年提出了最初的邻近算法 1.2 KNN是一种分类(classification)算法 1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)(因为KNN就是一种属于随大流的思想,我离那个部落近我就属于哪里的人)2. 例
2017-10-03 12:41:59
600
原创 scikit-learn实现决策树
Python机器学习的库:scikit-learn1.1: 特性: 简单高效的数据挖掘和机器学习分析 对所有用户开放,根据不同需求高度可重用性 基于Numpy, SciPy和matplotlib 开源,商用级别:获得 BSD许可1.2 覆盖问题领域: 分类(classification), 回归(regression), 聚类(clustering), 降维(dimension
2017-10-02 23:16:33
992
转载 python获取当前路径
转自:http://www.cnblogs.com/wind-wang/p/5822192.html import os,sys 使用sys.path[0]、sys.argv[0]、os.getcwd()/os.path.abspath(__file__)、os.path.realpath(__file__) sys.path是Python会去寻找模块的搜索路径列表,sys.path[0]和s
2017-10-02 18:41:48
2158
原创 numpy 基础学习笔记(2)
一维数组的索引与切片>>> import numpy as np>>> a = np.arange(8)>>> print a[0 1 2 3 4 5 6 7]>>> myslice = slice(3,7,2)>>> print a[myslice][3 5]>>> a = np.arange(9)>>> print a[3:7][3 4 5 6]>>> print[:7:2
2017-09-30 16:03:30
368
原创 numpy 基础学习笔记(1)
NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在NumPy中维度(dimensions)叫做轴(axes),轴的个数叫做秩(rank)。 例如,在3D空间一个点的坐标 [1, 2, 3] 是一个秩为1的数组,因为它只有一个轴。那个轴长度为3.又例如,在以下例子中,数组的秩为2(它有两个维度).第一个维度长度为2,第二
2017-09-30 11:26:05
450
原创 Python中的向量相加和numpy中的向量相加效率比较
直接使用Python来实现向量的相加# -*-coding:utf-8-*-#向量相加def pythonsum(n): a = range(n) b = range(n) c = [] for i in range(len(a)): a[i] = i**2 b[i] = i**3 c.append(a[i]+b[i
2017-09-29 22:01:41
12370
1
原创 Python随笔1
1 当Python出现路径错误时候,某一个模块不在Python默认的安装目录,导包的时候出现错误 例如: >import demo3Traceback (most recent call last): File "<pyshell#0>", line 1, in <module> import demo3ImportError: No module named demo3当出现这种
2017-09-29 21:00:30
1097
转载 对机器学习的理解
机器学习(MachineLearning),在我看来就是让机器学习人思维的过程。机器学习的宗旨就是让机器学会“人识别事物的方法”,我们希望人从事物中了解到的东西和机器从事物中了解到的东西一样,这就是机器学习的过程。在机器学习中有一个很经典的问题:“假设有一张色彩丰富的油画,画中画了一片茂密的森林,在森林远处的一棵歪脖树上,有一只猴子坐在树上吃东西。如果我们让一个人找出猴子的位置,正常情况下不到
2017-09-26 20:55:31
468
hadoop2.7.6-binaries.rar
2018-06-26
机器学习:实用案例解析(中文版,带完整书签)
2017-10-29
Python科学计算
2017-10-29
深度学习 DLbook_cn_public AI圣经 中文版电子书【完整版】
2017-10-29
android手机游戏源码
2013-06-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人