【python与Anaconda科学计算】
文章平均质量分 85
flash胜龙
异构编程、机器学习框架设计
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【转载】【总结】pandas方法中的增删改查
在查方法的时候始终有些困扰发觉可以按照增加(Create)、读取查询(Retrieve)、更新(Update)和删除(Delete)来归纳pandas方法中的增删改查,打算近期整理下。最近遇到一个郁闷的问题,就是列名为日期的时候,使用字符串查询列会出现KeyError。但是你单独取df.columns出来,所得的类型又是str,郁闷死。取出来的是str,但是你用str是无法检索的,类型不对。有空得深究解决下这个问题初步探索:http://pandas.pydata.org/pandas-docs/转载 2022-04-22 10:37:57 · 985 阅读 · 0 评论 -
基本数学逻辑学符号(数学知识用程序表达轻松学系列)
目录基本符号复杂推理基本符号你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。名称逻辑符号python等价逻辑与a∧ba\wedge ba∧ba and b逻辑或a∨ba\vee ba∨ba or b逻辑非∼a\sim a∼a...原创 2019-03-19 11:05:32 · 5339 阅读 · 0 评论 -
机器学习函数的python入门*(数学知识用程序表达轻松学系列)
前言在机器学习的公式中,我们经常看到一些比较陌生的函数和符号,如argmax、F*、∧等等,接下来我们就用python程序的视角进行解读,其实非常简单易懂。argmax和argmin函数:arg maxx∈S⊆X f(x):={x∣x∈S∧∀y∈S:f(y)≤f(x)}\underset{x\in S\subseteq X}{\op...原创 2019-03-07 16:43:40 · 344 阅读 · 0 评论 -
初学pandas(八)条件选取行的便捷…
我们说excel好用,在处理大型数据表格的时候,excel可以非常方便地进行筛选。那么pandas是否有类似的功能呢?答案是肯定的。下面介绍的几个操作,返回的类型都是dataframe,因此可以进行嵌套操作,非常方便。一、选取几列组成新的dataframe: df = df[['A列列明', 'S列列明', 'H列列明']]二、选取某列'STATUS'里面元素为"ACTIVE"的行,即原创 2017-04-21 10:55:49 · 21798 阅读 · 0 评论 -
初学pandas(七)坑爹版本与resamp…
起因是写好的一程序,放到服务器上跑就失败了。搜索网上半天没找着原因。 pandas有个库可以让一时间序列按周(月或年等)汇总,如进行数据分析的时候,需要将不均匀的时间戳数据按照月来汇总排列,那么就需要用到resample函数。使用resample有个要求,就是dataframe的index要为时间序列类型的。一般的index不是从0到n,就是字符串,那样的话没办法resample。所以我们要原创 2017-04-21 10:55:46 · 3372 阅读 · 0 评论 -
初学pandas与seaborn(六)制作散…
散点矩阵图(也称SPLOM,或ScatterplotMatrix)用于粗略展现N列数据中,不同列之间的关系,可以粗略估计哪些变量是正相关的,哪些是负相关的,进而为下一步数据分析提供决策。许多统计语言里面都有非常方便的函数生成散点矩阵图,比如说R。那么Python语言有没有呢?答案还是seaborn图形库。 其实seaborn库生成的散点矩阵图不是常规的散点矩阵图,其斜对角标注的不是列名,而原创 2017-04-21 10:55:38 · 1510 阅读 · 0 评论 -
Oozie报错Py4JJavaError Secu…
解决了缺py4j.zip和pyspark.zip问题后,结果还是返回exit code 1:【回到exit code返回1的问题】根据http://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/SparkStreaming-ExitCodeException-exitCode-13/m-p/32832的解释:I g原创 2017-04-21 10:54:30 · 1502 阅读 · 0 评论 -
Oozie运行python的spark job…
尝试在oozie上运行pyspark程序:先配置yarn-env.sh以解决找不到pyspark库等的问题export SPARK_HOME=/usr/share/spark$ hdfs dfs -copyFromLocal py4j.zip/user/oozie/share/lib/spark$ hdfs dfs -copyFromLocal pyspark.zip/user/oo原创 2017-04-21 10:54:27 · 2514 阅读 · 0 评论 -
【汇总】ExitCodeException问题Ooz…
这种问题光看yarn的log,是看不出到底啥毛病的。Applicationapplication_1486993422162_0079 failed 2 times due to AM Containerfor appattempt_1486993422162_0079_000002 exited with exitCode:1For more detailed output, chec原创 2017-04-21 10:54:24 · 2098 阅读 · 0 评论 -
初学pandas与seaborn(五)pandas…
查的问题: pandas的逻辑筛选功能还是蛮简洁流畅的,直接在方括号里输入逻辑运算符,即可进行 栏目筛选: resultData[resultData['true'] ==False] 在名叫true的这一列查询等于False布尔值的行,即从600多万条里面筛选出“必输”状态的行,花费了: 0.170 sec 一开始我选择输入带引号的——'False'结果给我显示查找出原创 2017-04-21 10:53:33 · 611 阅读 · 0 评论 -
初学pandas与seaborn(四)datafra…
由于实在没找到或者下载到大数据,只能自己编个不大不小的数据。 给定初始金额s,2个人轮流拿,头一个人可以拿n个(n<= s-1),第二个人可以拿n_2 =1~2n个,然后刚才那第一人可以拿1~2(n_2)个,也就是之后的人都能在1到上一个人拿的2倍之间拿钱,最后一个拿的胜利。这是一个类是巴什博弈的问题,用动态规划来解,推导到5000的情况。存了624万种博弈可能(当然有很多冗余没剔除,毕竟推原创 2017-04-21 10:53:30 · 453 阅读 · 0 评论 -
初学pandas与seaborn(三)回归曲…
看个坐标图、点图的曲线啥的,seaborn还是比较方便的。这里可以用seaborn自带的样板库数据来写,也可以导入外部数据。外部数据是自己编的,点点不够多,不过能体会下pandas调用文件数据并用seaborn显示出来的全过程,对整个数据处理编程应该会有一些启发。上图:自己编的数据点,时间关系数据点少了点,嘿嘿可以发现,刻意构造的相关性被显示出来了好了,这是数据文件:tips原创 2017-04-21 10:53:27 · 2669 阅读 · 0 评论 -
初学pandas与seaborn(二)随机点…
计算机一般只能生成一定范围内平均分布的随机数,例如在区间[0,1]的白噪声。而如果需要其它概率分布,那就得用这个“白噪声”进行一系列变换和投影了。 生成正太分布函数(也可以用库函数),这里暂时使用Box-Muller方法:def boxmullersampling(mu=0,sigma=1, size=1): u = np.random.uniform(size=size)原创 2017-04-21 10:53:24 · 855 阅读 · 0 评论 -
初学pandas与seaborn(一)系统配…
前言,整了一通Anaconda,开始学习大数据、数据挖掘……balabala。作为一个啥都没有的小白,零基础开始了。之前的JavaEE先告一段落,个人感觉对JavaEE的学习最重要的还是各种框架单独走一遍、组合走一遍,然后就会对java里面设计模式精髓理解得比较清晰透彻,也对企业中分工协作有个清楚的认识。当然,这是后话。 一开始有个误解,以为学习Anaconda就是学习这些大数据。但是上网几原创 2017-04-21 10:53:21 · 3116 阅读 · 0 评论
分享