
My_Python_Dynasty
文章平均质量分 63
稚枭天卓
manu
展开
-
Python 之 LIBSVM 使用小结(三)
准备数据:一种方法是通过svm_read_problem方法直接读取libsvm格式的文件,返回分类标签([])和数据([[]])。如:labels, datas =svm_read_problem(‘filename’) ,还有一种方法是直接python格式的,这种方法适用于在程序执行过程中动态产生的data,我要用到的就是这种,没必要把大量的数据都写入文件(这两天搞infominer算法挖原创 2015-08-07 22:28:16 · 9024 阅读 · 6 评论 -
Python 之 Python与MATLAB 矩阵操作小结
一、线形代数理论基础 线形代数(linear algebra)是数学的一个分支,研究矩阵理论、向量空间、线性变换和有限维线形方程组等内容。 比较重要的思想有:1.线性代数的核心内容是研究有限维线性空间的结构和线性空间的线性变换;2.向量的线性相关性是研究线性空间结构与线性变换理论的基础;3.矩阵是有限维线性空间的线性变换的表示形式;4.线性方程组的求解问题是n维空间到m原创 2015-08-05 19:07:37 · 6236 阅读 · 0 评论 -
Python 之 Python与MATLAB 作图小结
一、一般概念图形系统就是用来实现所谓的可视化的。在学习具体的命令之前,先了解一个可视化的图形具有哪些特征,以及这些特征具有什么关系。有了一个宏观的了解之后,记住几个核心的命令,等遇到具体问题时候查询相关文档或者查看类似图形别人的代码即可。就以我们在纸上作图作为比拟:首先,我们需要一张白纸。这张白纸,就是一个所谓的figure。我们可以给这个figure取一个名字,写在这张纸的正中间原创 2015-08-05 22:04:55 · 5934 阅读 · 0 评论 -
Python 之 向上取整、向下取整以及四舍五入函数
python 向上取整ceil 向下取整floor 四舍五入round,相面给出源码示例.import math#向上取整print "math.ceil---"print "math.ceil(2.3) => ", math.ceil(2.3)print "math.ceil(2.6) => ", math.ceil(2.6)#向下取整print "\nmath.floor-原创 2015-08-05 16:11:33 · 46216 阅读 · 3 评论 -
Python 之 ImportError: No module named ***
如果想使用非当前模块中的代码,需要使用Import,这个大家都知道。 如果你要使用的模块(py文件)和当前模块在同一目录,只要import相应的文件名就好,比如在a.py中使用b.py: import b 但是如果要import一个不同目录的文件(例如b.py)该怎么做呢? 首先需要使用sys.path.append方法将b.py所在目录加入到搜素目录中。然后进原创 2015-08-06 20:38:36 · 8321 阅读 · 0 评论 -
Python 之 LIBSVM 使用小结(二)
网上许多libsvm的python教程中经常会有这样的例子,但是运行会出现 ImportError: No module named svmutil 的报错。import osimport sysos.chdir('C:\libsvm-3.17\python')from svmutil import *y, x = svm_read_problem('../lkagain.原创 2015-08-06 20:30:20 · 4292 阅读 · 0 评论 -
Python 之 安装模块的多种方法
1、自己写的模块,可以直接添加到路径下。这样就可以直接调用。import syssys.path.append("/home/username/")2、单文件模块直接把文件拷贝到$python_dir/lib3、网上下载的第三方库,一般解压后,找setup.py文件 运行python setup.py install4、 egg文件 1) 下原创 2015-08-06 20:36:32 · 1562 阅读 · 0 评论 -
Python 之 LIBSVM 使用小结(一)
1)从python官网上下载windows下的安装包python-2.7.3.msi并安装2)打开IDLE(python GUI),输入>>>import sys>>>sys.version如果你的python是32位,将出现如下字符:‘2.7.3 (default, Apr 10 2012, 23:31:26) [MSC v.1500 32 bit (Intel)]’原创 2015-08-05 22:40:18 · 1978 阅读 · 0 评论 -
Spider 之 URL与urllib2
网络爬虫的基本操作是抓取网页。抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入 www.baidu.com 这个地址。打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。HTML是一种标记语言,用标签标记内容并加以解析和区原创 2015-11-26 21:51:24 · 936 阅读 · 2 评论 -
python 之 解决输出中文字符乱码
Python在执行过程中,常常出现不能读取中文路径名,表现为读取的路径是空或者直接报错(WindowsError: [Error 2]),也有时候出现不能正常输出中文字符串,编译器报错为(KeyError),这是编码出现了问题。这个时候在字符串后面添加转码操作即可。详见源码示例如下【中文字符串】原创 2015-08-14 16:27:26 · 6017 阅读 · 0 评论 -
Spider 之 深入解析 Python 正则表达式
一、 正则表达式基础1.1.概念介绍正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。其他编程语言中也有正则表达式的概念,区别只在于不同的编程语言实现支持的语法数量不同。它拥有自己独特的语法以及一个独立的处理引擎,在提供了正则表达式的语言里,正则表达式的语法都是一样的。下图展示了使用正则表达式进行匹配的流程:正则表达式的大致匹配过程是:1.原创 2016-02-06 21:08:45 · 932 阅读 · 9 评论 -
Spider 之 下载连续的网页
# -*- coding: utf-8 -*-"""Created on Sat Feb 06 18:20:39 2016@author: Administrator# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 # 功能:下载对应页码内的所有页面并存储为html文件。 #-----------------------------------原创 2016-02-06 20:12:33 · 741 阅读 · 0 评论 -
Python 之 将 list 存储为 .mat 文件
在 Python 中数据的矩阵操作常常会与 matlab 有数据交互,这就涉及到了在 Python 输出 .mat 文件。下面给出详细代码实现。存储 .mat 文件,涉及 scipy 中的 io 模块,以及相关方法 savemat 。主要代码如下:import numpy, scipy.ioscipy.io.savemat('filename.mat', mdict={'my_da原创 2015-09-01 19:44:26 · 9357 阅读 · 1 评论 -
Python 之 将字符串数组转换为浮点型数组
问题描述现有一 txt 文件,文件共有 M 行,每行有 N 个元素,元素由含小数点后 K 位的 float 组成。现要求读取该文件,输出为 float 型的 list or array 。代码实现如下fid = open(file_path,'r')lines = fid.readlines()fid.close()act_feat = []for j in range原创 2015-08-16 14:53:41 · 31613 阅读 · 0 评论 -
Python 之 h5py 读取 matlab 中 .mat 文件 cell 方法浅析
采用 Python 读取 matlab 中 .mat文件的方法有很多,中外文的论坛上都不少,相关博文可见:Python 从 mat 文件的读写和存储 到 h5py 文件包。详址:http://blog.youkuaiyun.com/u013630349/article/details/47090299但是,在读取matlab文件的时候,往往不是一层 .mat 就足以解决问题的,.mat 文件中可能原创 2015-07-28 21:48:18 · 18876 阅读 · 2 评论 -
Python 之 any与all 方法
any()doc: Return True if any element of the iterable is true. If the iterable is empty, return False.只要迭代器中有一个元素为真就为真。In [4]: a = [True, False] In [5]: any(a) Out[5]: True 也就是说,整个迭代中返回所原创 2015-08-09 11:15:08 · 6098 阅读 · 0 评论 -
Python 从 mat 文件读写 到 h5py 文件包
【摘要】python在读写matlab文件时常用到scipy.io文件,但,针对大文件(有网友睁着直径为8848米的小眼睛说的大小的分界点在2GB)以及存储版本在“matlab-v7.3”以上的文件就拙计了,这里分享一种刚刚学到处理方式,用h5py模块,详细介绍以及Python源码详见本文。【正文】1、如果你的matlab的版本比较旧,保存的.mat 格式为‘-v7.3’以...原创 2015-07-27 20:47:53 · 19009 阅读 · 6 评论 -
Python 之 获取聚类中心与其支撑点的方法
闲话少说先上代码# 读方式打开文件myfile=h5py.File('arr.mat','r')arr = myfile['arr'][:]myfile.close()slt = 'ward'whileclust_model = sklearn.cluster.AgglomerativeClustering(linkage=slt, affinity="euclidean", n原创 2015-07-28 17:39:11 · 5455 阅读 · 1 评论 -
Python 之 sklearn 交叉验证 数据拆分
本文K折验证拟采用的是 Python 中 sklearn 包中的 StratifiedKFold 方法。方法思想详见:http://scikit-learn.org/stable/modules/cross_validation.htmlStratifiedKFold is a variation of k-fold which returns stratified folds:原创 2015-07-29 20:35:31 · 10618 阅读 · 0 评论 -
Python 之 创建目录文件夹
Python对文件的操作还算是方便的,使用os模块即可实现文件路径操作,相关函数介绍如下。主要涉及到三个函数1、os.path.exists(path) 判断一个目录是否存在2、os.makedirs(path) 多层创建目录3、os.mkdir(path) 创建目录原创 2015-08-11 11:45:19 · 1569 阅读 · 0 评论 -
Python 之 sklearn 实现 PCA 降维
关于 PCA 算法的讲解文章不胜枚举,这里主要谈一谈 基于 Python 中 sklearn 模块的 PCA 算法实现。Explained Variance 累计贡献率 又名 累计方差贡献率 不要简单理解为 解释方差,它是 PCA 降维维度的重要指标,一般选取累计贡献率在90%左右的维度作为PCA 降维的参考维度。在识别算法的实现过程中,当我们求得某一数据库各类别特征参考维度时,取最大维度作为每一原创 2015-08-11 17:54:19 · 26309 阅读 · 0 评论 -
Python 之 sklearn 计算 SVM 隶属度
python中的sklean已经集成SVM算法,其中包含fit(), predict()等,我们只要输入训练样本和标记,以及模型参数,就可得到分类的结果。关于这个的代码实现已有很多,SVC 参数详见:详址:http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC但对于libsvm之中实现的隶属度计算仍未找到相似讲解与示例,先给出源码如下。原创 2015-08-13 14:53:06 · 4556 阅读 · 0 评论 -
Python 之 cPickle 实现 文件存取
计算机的内存中存储的是二进制的序列 (当然,在Linux眼中,是文本流)。我们可以直接将某个对象所对应位置的数据抓取下来,转换成文本流 (这个过程叫做serialize),然后将文本流存入到文件中。由于Python在创建对象时,要参考对象的类定义,所以当我们从文本中读取对象时,必须在手边要有该对象的类定义,才能懂得如何去重建这一对象。从文件读取时,对于Python的内建(built-in)对象原创 2015-08-13 09:17:16 · 5536 阅读 · 0 评论 -
Python 之 glob读取路径下所有文件夹或文件方法
在python中,glob模块是用来查找匹配的文件的 在查找的条件中,需要用到Unix shell中的匹配规则: * : 匹配所所有 ? : 匹配一个字符 *.* : 匹配如:[hello.txt,cat.xls,xxx234s.doc] ?.* : 匹配如:[1.txt,h.py]原创 2015-08-15 16:55:53 · 28997 阅读 · 1 评论 -
Python 之 读取txt文件
本文直接给出三种实现方法,代码如下。方法一:f = open("Proc_Data.txt") # 返回一个文件对象 line = f.readline() # 调用文件的 readline()方法 while line: print line, # 后面跟 ',' 将忽略换行符原创 2015-08-16 14:23:52 · 2233 阅读 · 0 评论 -
Spider 之 爬虫 基本工作原理
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL; 2.将这些URL放入待原创 2016-03-21 20:36:00 · 6691 阅读 · 2 评论