
大数据语言-Python语言
HuFeiHu-Blog
知无涯者,虚心若愚,求知若饥,勇者天佑!
展开
-
Python 大规模数据存储与读取、并行计算:Dask库简述
本文转自:https://blog.youkuaiyun.com/sinat_26917383/article/details/78044437数据结构与pandas非常相似,比较容易理解。原文文档:http://dask.pydata.org/en/latest/index.htmlgithub:https://github.com/daskdask的内容很多,挑一些我比较看好的内容着重点一下...转载 2019-01-21 20:51:47 · 3040 阅读 · 0 评论 -
python和C语言互相调用的几种方式
版权申明:本文为博主窗户(Colin Cai)原创,欢迎转帖。如要转贴,必须注明原文网址 http://www.cnblogs.com/Colin-Cai/p/7594551.html 作者:窗户 QQ:6679072 E-mail:6679072@qq.com Python这些年风头...转载 2018-09-10 09:47:37 · 302 阅读 · 0 评论 -
Python模块之命令行参数解析
解析命令行参数模块Python中由三个内建的模块用于处理命令行参数:第一个:getopt,只能简单的处理命令行参数官网资料:https://docs.python.org/2/library/getopt.html#module-getopt第二个:optparse,功能强大,易于使用,可以方便地生成标准的、符合Unix/Posix 规范的命令行说明。(Python2.7以后弃用,不会...转载 2018-07-28 10:15:31 · 2910 阅读 · 0 评论 -
python argparse用法总结
1. argparse介绍是python的一个命令行解析包,非常编写可读性非常好的程序2. 基本用法prog.py是我在linux下测试argparse的文件,放在/tmp目录下,其内容如下:#!/usr/bin/env python# encoding: utf-8import argparseparser = argparse.ArgumentParser()pa...转载 2018-07-28 10:10:56 · 452 阅读 · 0 评论 -
数据科学工具箱: SparkR vs Sparklyr
文章转载自:https://segmentfault.com/a/1190000013806395背景介绍SparkR 和 Sparklyr 是两个基于Spark的R语言接口,通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护,通过源码级别更新SparkR的最新功能,最初从2016年夏天的1.5版本开始支持,从使用上非常像Spark Native。Sparklyr 由 R...转载 2018-04-02 18:05:04 · 995 阅读 · 0 评论 -
Basemap绘制地图
文章转自:http://blog.youkuaiyun.com/ouening/article/details/55227364使用folium实现中国地图绘制,文章链接:python/folium绘制中国人口数量热力图(HeatMap)今天发现另一个软件库folium可以实现对openstreetmap的调用,参考链接http://blog.youkuaiyun.com/qq_14906811/article/deta...转载 2018-03-20 10:20:10 · 8465 阅读 · 2 评论 -
Python常见正则表达式
https://blog.youkuaiyun.com/sinat_34439107/article/details/70214232 一、校验数字的表达式数字:^[0-9]*$n位的数字:^\d{n}$至少n位的数字:^\d{n,}$m-n位的数字:^\d{m,n}$零和非零开头的数字:^(0|[1-9][0-9]*)$非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[...转载 2018-09-18 19:07:19 · 196 阅读 · 0 评论 -
Python 面向对象--Python2和Python3中@abstractmethod的用法
抽象方法:抽象方法表示基类的一个方法,没有实现,所以基类不能实例化,子类实现了该抽象方法才能被实例化。Python的abc提供了@abstractmethod装饰器实现抽象方法,下面以Python3的abc模块举例。 @abstractmethod:见下图的代码,基类Foo的fun方法被@abstractmethod装饰了,所以Foo不能被实例化;子类SubA没有实现基类的fu...转载 2018-09-14 14:17:10 · 415 阅读 · 0 评论 -
Python中*args和**kwargs的区别
一、*args的使用方法 *args 用来将参数打包成tuple给函数体调用 例子一:def function(*args): print(args, type(args))function(1) 输出结果以元组的形式展示: 例子二:def function(x, y...转载 2018-09-14 14:24:45 · 3701 阅读 · 0 评论 -
阿里开源首款自研科学计算引擎 Mars
日前,阿里巴巴正式对外发布了分布式科学计算引擎 Mars 的开源代码地址,开发者们可以在Github上获取源代码并参与开发。Mars 突破了现有大数据计算引擎的关系代数为主的计算模型,将分布式技术引入科学计算/数值计算领域,极大地扩展了科学计算的计算规模和效率。目前已应用于阿里巴巴及其云上客户的业务和生产场景。下面,我们将详细介绍Mars的设计初衷和技术架构,希望和大家共同交流探讨。G...转载 2019-01-19 20:55:16 · 1381 阅读 · 0 评论 -
Python之系统交互
本文转自:http://www.cnblogs.com/yyds/p/7288916.htmlos与commands模块 subprocess模块 subprocess.Popen类 总结我们几乎可以在任何操作系统上通过命令行指令与操作系统进行交互,比如Linux平台下的shell。那么我们如何通过Python来完成这些命令行指令的执行呢?另外,我们应该知道的是命令行指令的执行通常有两...转载 2019-01-24 20:54:30 · 368 阅读 · 0 评论 -
利用PyCharm的Profile工具进行Python性能分析
Profile:PyCharm提供了性能分析工具Run-》Profile,如下图所示。利用Profile工具可以对代码进行性能分析,找出瓶颈所在。 测试:下面以一段测试代码来说明如何使用pycharm的Profile功能。测试代码见下文,文件命名为Test.py, 一共有5个函数,每个函数都调用了time.sleep进行延时,其中fun5函数调用了fun4函数: ...转载 2018-09-28 19:28:51 · 14849 阅读 · 5 评论 -
Python语言--Python 学习目录
Python基础python基础字符编码数据类型数据类型二文件处理函数的定义和调用、return语句、变量作用域、传参、函数嵌套、函数对象、闭包、递归函数装饰器迭代器、生成器、协程函数及应用(面向过程实例)列表生成式、生成器表达式内置函数----匿名函数(lambda)递归函数(二分法、最大深度递归)面向对象的程序设计面向对象的程序设计(五个阶段...转载 2018-09-14 14:31:03 · 256 阅读 · 0 评论 -
Python 面向对象--python中@classmethod @staticmethod区别
Python中3种方式定义类方法, 常规方式, @classmethod修饰方式, @staticmethod修饰方式.class A(object): def foo(self, x): print("executing foo(%s,%s)" % (self, x)) print('self:', self) @classmethod ...转载 2018-09-14 14:25:47 · 308 阅读 · 0 评论 -
Anaconda中 安装basemap包
Basemap 是matplotlib子包,也是python中最常用、最方便的地理数据可视化工具之一。使用传统python安装包的方法(pip install basemap 或者conda install basemap)经常报错,提示结果为Python 2.7 basemap和Python 3.6冲突(图),尽管2.7非常经典且世面大多数资料仍然是基于2.X版本,但官方已经宣布2.X版本只维护...原创 2018-03-20 09:39:28 · 24340 阅读 · 0 评论 -
Python 中的可视化工具介绍
几周前,R语言社区经历了一场关于画图工具的讨论。对于我们这种外人来说,具体的细节并不重要,但是我们可以将一些有用的观点运用到 Python 中。讨论的重点是 R 语言自带的绘图工具 base R 和 Hadley Wickham 开发的绘图工具 ggplot2 之间的优劣情况。 ...转载 2018-03-11 11:10:21 · 13491 阅读 · 0 评论 -
线性判别分析
线性判别分析(Linear Discriminant Analysis)线性判别分析Linear Discriminant Analysis线性分类器判别式函数discriminant functions从判别式或后验概率到决策面线性判别分析Linear Discriminant Analysis二次判别分析QDAFisher判别式类间距离类转载 2016-11-13 12:06:34 · 1053 阅读 · 0 评论 -
支持向量机
支持向量机(SVM)一支持向量机SVM一最大间隔分类器1 决策面2 最优决策面3 最小间隔4 最小间隔最大化5 拉格朗日对偶性1原始问题2对偶问题3KKT条件6 最小间隔最大化求解求解内部极小化求解外部极大化7 SVMLDALogistics Regression 算法比较对于Logistics Regression对于Lin转载 2016-11-13 11:58:09 · 625 阅读 · 0 评论 -
数据挖掘--Apriori导论
版权声明:作者:Jinliang's Hill(金良山庄),欲联系请评论博客或私信,优快云博客: http://blog.youkuaiyun.com/u012176591目录(?)[+]Apriori算法简介Apriori算法是频繁模式和关联规则挖掘( Association Rule Mining )中最基础的算法,它用于从一个事务集中发现频繁项集并推出关转载 2016-11-16 17:28:13 · 641 阅读 · 1 评论 -
机器学习--梯度-牛顿-拟牛顿优化算法和实现
版权声明:作者:Jinliang's Hill(金良山庄),欲联系请评论博客或私信,优快云博客: http://blog.youkuaiyun.com/u012176591目录(?)[+]要求解的问题线搜索技术和Armijo准则最速下降法及其Python实现牛顿法阻尼牛顿法及其Python实现修正牛顿法法及其Python实现拟牛顿法DFP算法及其P转载 2016-11-16 17:21:29 · 2040 阅读 · 0 评论 -
机器学习--AdaBoost算法
集成方法在函数模型上等价于一个多层神经网络,两种常见的集成方法为Adaboost模型和RandomTrees模型。其中随机森林可被视为前馈神经网络,而Adaboost模型则等价于一个反馈型多层神经网络。一.引入 对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(boo转载 2016-11-16 17:17:23 · 871 阅读 · 0 评论 -
机器学习--SVM支持向量机
SVM支持向量机是建立于统计学习理论上的一种分类算法,适合与处理具备高维特征的数据集。SVM算法的数学原理相对比较复杂,好在由于SVM算法的研究与应用如此火爆,优快云博客里也有大量的好文章对此进行分析,下面给出几个本人认为讲解的相当不错的:支持向量机通俗导论(理解SVM的3层境界):http://blog.youkuaiyun.com/v_july_v/article/details/7624837转载 2016-11-16 17:08:35 · 1585 阅读 · 0 评论 -
机器学习--决策树算法
一、决策树原理决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。 决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决策树是一种知识表示形式,它是对所有样本数据的高度概括决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别。 决策树算法ID3的基本思想:首先找出最有判别力转载 2016-11-16 17:06:04 · 638 阅读 · 0 评论 -
机器学习 - 高斯混合模型参数估计的EM算法
看理论之前先来【举个例子】: 对于一个未知参数的模型,我们观测他的输出,得到下图这样的直方图:我们先假设它是由两个高斯分布混合叠加而成的,那么我们该怎么去得到这两个高斯分布的参数呢? EM算法!!1. 高斯混合模型假设观测数据 y1,y2,...,yN 是由高斯混合模型生成的。 P(y|θ)=∑k=1Kαkθ(y|θk)其中,θ={α1,α2,...,α转载 2016-11-16 17:01:51 · 8157 阅读 · 0 评论 -
机器学习 - 感知机(PLA, Perceptron Learning Algorithm)
1. 感知机模型感知机是二分类的线性分类模型,该模型的输入为实例的特征向量,输出为实例的类别,一般取+1和-1两个值。感知机将实例划分为两类,属于判别模型。1.1 模型定义【感知机定义】 假设输入空间(特征空间)是X⊆Rn,输出空间是Y={−1,+1}。输入x⊂X 表示实例的特征向量对应于输入空间(特征空间)的点。输出y⊂Y 表示实例的类别。从输入空间到输出空间转载 2016-11-16 16:49:45 · 778 阅读 · 0 评论 -
机器学习 - K近临法(KNN, k-Nearest Neighbor)
博客内容源于《统计机器学习》一书的阅读笔记。Python的源码实现源于《机器学习实战》部分内容。1. K近临算法【算法描述】给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最近临的K个实例,这个k个实例的多数属于某个类,就把该输入实例分为这个类。【数学描述】 输入:训练数据集 其中, 为实例的特征向量,转载 2016-11-16 16:56:11 · 563 阅读 · 0 评论 -
机器学习--条件随机场(CRF)原理和实现
对数域操作函数class Logspace: def __init__(self): self.LOGZERO =np.nan def eexp(self,x): if np.isnan(x): return 0 else: return np.exp(x)转载 2016-11-16 23:02:03 · 7882 阅读 · 1 评论 -
机器学习--BP神经网络
BP神经网络相关概念什么是神经网络? 神经网络是由很多神经元组成的,用个比较粗浅的解释,可能不太全面科学,但对初学者很容易理解: 我们把输入数据,输进去神经网络这些数据的每一个都会被乘个数,即权值w,然后这些东东与阀值b相加后求和得到u上面只是线性变化,为了达到能处理非线性的目的,u做了个变换,变换的规则和传输函数有关 可能还有人问,那么那个阀值是什么呢?简单理解就是让这些转载 2016-11-16 23:11:21 · 1818 阅读 · 0 评论 -
大数据真实案例:Spark在美团的实践
美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主,底层计算引擎为MapRe...转载 2018-03-11 11:01:27 · 12870 阅读 · 2 评论 -
PyCharm 远程连接linux中Python 运行pyspark
PySpark in PyCharm on a remote server1、确保remote端Python、spark安装正确2、remote端安装、设置vi /etc/profile添加一行:PYTHONPATH=SPARKHOME/python/:SPARK_HOME/python/lib/py4j-0.8.2.1-src.zipsource /etc/profile转载 2018-01-05 11:30:58 · 5782 阅读 · 0 评论 -
matplotlib的颜色及线条控制
参考网址:http://www.cnblogs.com/darkknightzh/p/6117528.htmlhttp://stackoverflow.com/questions/22408237/named-colors-in-matplotlibhttp://stackoverflow.com/questions/8409095/matplotlib-set-markers-f转载 2017-12-31 16:48:00 · 931 阅读 · 0 评论 -
python 时间序列分析之ARIMA
1 时间序列与时间序列分析在生产和科学研究中,对某一个或者一组变量 x(t) 进行观察测量,将在一系列时刻 t1,t2,⋯,tn 所得到的离散数字组成的序列集合,称之为时间序列。 时间序列分析是根据系统观察得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。时间序列分析常用于国民宏观经济控制、市场潜力预测、气象预测、农作物害虫灾害预报等各个方面。2 时间序列建转载 2017-11-27 23:26:55 · 19574 阅读 · 11 评论 -
python时间序列分析
什么是时间序列 时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的(这里不考虑含外生变量的时间序列)。为什么用python 用两个字总结“情怀”,爱屋及乌,个人比较喜欢python,就用python撸了。能做时间序列的软件很多,SAS、R、SPSS转载 2017-11-27 23:23:38 · 20324 阅读 · 6 评论 -
Python lambda介绍
在学习python的过程中,lambda的语法时常会使人感到困惑,lambda是什么,为什么要使用lambda,是不是必须使用lambda? 下面就上面的问题进行一下解答。 1、lambda是什么? 看个例子: 1 g = lambda x:x+1 看一下执行的结果: g(1) >>>2 g(2) >>>3 当然,你也转载 2017-11-27 22:57:45 · 305 阅读 · 0 评论 -
Python logging模块详解
简单将日志打印到屏幕:[python] view plain copyimport logging logging.debug('debug message') logging.info('info message') logging.warning('warning message') logging.error('erro转载 2017-11-28 22:31:00 · 259 阅读 · 0 评论 -
史上最全的机器学习资料
摘要: 机器学习牵涉的编程语言十分之广,包括了MATLAB、Python、Clojure、Ruby等等。为了让开发者更加广泛、深入地了解机器学习,云栖社区组织翻译了GitHub Awesome Machine Learning 资源,涵盖24种编程语言的机器学习的框架、库以及其他相关资料。机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、转载 2017-01-05 19:20:56 · 6040 阅读 · 0 评论 -
Ubuntu16.04下安装sublime text3并配置anaconda插件
1. 安装sublime text 3安装过程非常简单,在terminal中输入:sudo add-apt-repository ppa:webupd8team/sublime-text-3 #添加sublime text 3的仓库sudo apt-get update #更新软件库sudo apt-get install sublime-text-installer #安装Subli转载 2016-11-20 13:16:41 · 652 阅读 · 0 评论 -
Ubuntu16.04+Pycharm+Anaconda配置
配置完Eclipse+pydev之后用了一段时间,其实感觉还是不错的。但是听学弟说Pycharm用起来更加爽,那试着换一个IDE试试。1. 下载https://www.jetbrains.com/pycharm/download/#section=linux 。 选择Linux,选择下载免费的Community。2. 安装PyCharm# 下载完之后转载 2016-11-20 13:01:15 · 6301 阅读 · 0 评论 -
《Python学习笔记
近日,在某微博上看到有人推荐了这本作者是 雨痕 的《Python学习笔记》,从github上下载下来看了下,确实很不错。注意,这本学习笔记不适合Python新手学习。从目录上看,并不能看出这本笔记有何特别之处,但看到里面的内容,感到非常惊喜。这本书更多的是关注一些底层的实现细节,以及更多的考虑性能方面(讲解内容很多会涉及到内存管理、缓存、垃圾回收、堆栈帧等方面的内容)。目前本笔记的转载 2016-10-24 12:42:49 · 1056 阅读 · 0 评论