
Python
文章平均质量分 56
Jinlong_Xu
talk is cheap, show me code!
展开
-
【pandas】对矩阵的某一行、某一列进行求和
昨天一位朋友问我,矩阵的某一行列怎么求和?我也是初学者,但是觉得碰到问题就去解决,抱着这样的心态,就去想这个问题了。首先我们肯定要有一个矩阵,所以我就用用生成随机数的方法生成了一个随机数矩阵。显示一下我们生成的矩阵:我们可以看一下我们的矩阵的维度:我尝试了一下直接用sum()函数:我原创 2017-03-10 10:45:22 · 95554 阅读 · 2 评论 -
【网易游戏——数据分析/数据挖掘/BI】暑期实习生笔试(中大专场)——2017/04/13
今天下午参加了网易游戏春招/实习生招聘(中大专场)的笔试,同时也打算记录一下自己做到的笔试题,在这里分享给大家。 首先要吐槽的一点是,中大的限外令真的很严。还好我带校园卡了,同学忘拿了,直接回宿舍拿的。同时,即使是网易游戏的工作人员也不得不打报告,上面同意才放进来的。第二点,为啥网易游戏的数据挖掘居然不考算法?在这里,提醒各位想做数据挖掘算法的小伙伴,不太建议投网易游戏的原创 2017-04-13 22:47:35 · 9363 阅读 · 0 评论 -
【Python-matplotlib】subplot2grid()函数的简单示例
今天看到一个画图函数觉得挺有意思的,就试了一下。直接上代码片段:ax1 = plt.subplot2grid((3,3), (0,0), colspan=3)ax2 = plt.subplot2grid((3,3), (1,0), colspan=2)ax3 = plt.subplot2grid((3,3), (1, 2), rowspan=2)ax4 = plt.subplot2g原创 2017-04-14 13:04:55 · 13599 阅读 · 1 评论 -
【matplotlib】plot()kind参数表
在这里我介绍一下plot方法的函数的使用。Series.plot方法的函数:参数说明label用于图例的标签ax要在其上进行绘制的matplotlib subplot对象。如果没有设置,则使用当前matplotlib subplotstyle将要传给matplotlib的风格原创 2017-04-14 18:40:48 · 40611 阅读 · 1 评论 -
【Python-matplotlib】画直方图(hist)
首先要理清楚一个概念,直方图与条形图。直方图与条形图的区别:条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。条形图主要用于展示分类数据,而直方图则主要用于展示数据型数据原创 2017-04-15 11:26:14 · 53172 阅读 · 0 评论 -
正则表达式的方法--re
re.compile(pattern, flags=0)将正则表达式patten编译成正则表达式对象。re.DEBUG显示关于正则表达式的debug信息。re.Ire.IGNORECASE执行大小写不敏感匹配。这并不被当前的语言环境影响。re.Lre.LOCALE使\w, \W, \b, \B, \s 和 \S取决于当前语言环境。re.Mre.MULTILINE指定原创 2017-05-08 11:42:15 · 453 阅读 · 0 评论 -
对列表List进行赋值
今天讲讲Python中对List进行赋值的方法,并会接下来给出实例和截图详解。这个问题源自于我想对一个某一个区间内的值进行均匀划分成50份,对此,我想到了用List,并用循环赋值来实现.并将区间内的值用区间的中值来表示,很显然,算出来的中值肯定会有很多的小数位数,所以我们需要对得到的数进行处理,保留小数点后三位。首先,区间是[-1.013, 0.614]. 定义区间的始端是 -1.01原创 2017-05-08 15:48:44 · 6791 阅读 · 0 评论 -
【正则表达式】python re模块用法总结
本文系转载:http://www.pyfun.com/kaifabao/201010/2122.html另附传送门两枚:http://www.cnblogs.com/PythonHome/archive/2011/11/19/2255459.htmlhttp://wiki.ubuntu.org.cn/Python%E6%AD%A3%E5%88%99%E8%A1%转载 2017-06-08 22:15:51 · 1106 阅读 · 0 评论 -
python的三个读read(),readline()和readlines()
我们谈到“文本处理”时,我们通常是指处理的内容。Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法: .read()、.readline() 和 .readlines()。每种方法可以接受一个变量以限制每次读取的数据量,但它们通常不使用变量。 .read() 每次读取整个文件,它通常用于将文件内容放到一个字符串变量中。然而 .read() 生成文件内容转载 2017-06-08 22:26:45 · 1841 阅读 · 0 评论 -
ipython notebook 的详细介绍
介绍ipython notebook¶1.简单介绍ipython notebook的安装和使用,在ubuntu上:sudo apt-get install ipython但是并不是所有的版本都支持notebook功能,本人的系统安装的是0.13的版本有notebook,但是有个重要的功能没有,什么功能等会再说,所以本人手动安装的ipython 1.1.0版本,你可以转载 2017-07-05 09:50:05 · 16646 阅读 · 0 评论 -
报错 ImportError: No module named 'geohash' 的解决办法
最近有个“摩拜杯”算法大赛,看了下数据,发现里面的起点和终点都进行了编码,需要用geohsah来解码成坐标。先介绍一下安装geohash:pip install geohash显示安装成功:然后我发现import 模块的时候是会报错的:我的解决方法是:1、将Geohash文件夹改成geohash;2、将文件夹下的 __init__原创 2017-06-27 19:53:02 · 5546 阅读 · 4 评论 -
两篇文章掌握Python语法和内置函数功能(第一篇)
OverviewPython是一种动态,解释型语言。它的变量、参数、函数或者一些在源码中的方法都不需要类型声明。你并不需要编译时的类型检查,python会在运行时确定所有值的类型和标记运行到的有错误的代码。字符串Python字符串像Java一样都是不可变的。当我们写这样一个表达式的时候,例如表达式(‘hello’ + ‘world’),它会新构建一个字符串’hellothe转载 2017-09-04 16:59:12 · 682 阅读 · 0 评论 -
两篇文章掌握Python语法和内置函数功能(第二篇)
Overview这篇文章是接着上篇文章写的,主要介绍Python的字典结构,操作文件,正则表达式。上篇文章链接如下:http://blog.youkuaiyun.com/xlinsist/article/details/50866079字典先看看下面的例子:## 构建一个字典dict = {}## 向字典中存入键值对dict['a'] = 'alpha'dict[转载 2017-09-04 17:02:40 · 628 阅读 · 0 评论 -
【装饰器】理解Python中的装饰器
文章先由stackoverflow上面的一个问题引起吧,如果使用如下的代码:@makebold@makeitalicdef say(): return "Hello"打印出如下的输出:Hello你会怎么做?最后给出的答案是:def makebold(fn): def wrapped():转载 2017-10-16 13:48:45 · 822 阅读 · 0 评论 -
修改Anaconda中的Jupyter Notebook默认工作路径
最初的Jupyter Notebook是默认路径,如下图所示:打开Windows的cmd,在cmd中输入jupyter notebook --generate-config如下图:可以看到路径为C:\Users……找到此路径修改jupyter_notebook_config.py文件 ,如下图所示:用VS code打开文件后,找到## The原创 2018-01-31 13:56:46 · 1368 阅读 · 0 评论 -
matplotlib绘图中中文显示乱码问题的解决方案
实验环境是linux 16.10, Python3.6,其他平台应该也一样。没试过,大家可以去试试看,应该差不多。1. 正确下载字体文件simhei.ttf点击下载字体2. 将上面下载的文件copy到matplotlib里的对应目录,我的目录是~/anaconda3/lib/python3.6/site-packages/matplotlib原创 2018-01-07 21:36:14 · 1103 阅读 · 0 评论 -
jupyter notebook更换主题 步骤详解
最近在折腾自己的笔记本电脑,结果被Jupyter Notebook的自带主题亮瞎了眼,为了保护视力,还是换个对眼睛友好点的主题吧。在github上发现了一个jupyter-themes工具,可以通过pip安装,非常方便使用。接下来将详细介绍Jupyter-themes工具及如何为Jupyter Notebook更换主题安装jupyter-themes的命令行如下所示:pip ins原创 2018-01-31 21:09:28 · 34499 阅读 · 13 评论 -
IDEA创建Python工程
Intellij IDEA15:建立Python 工程[python] view plain copy #! /usr/bin/env python # -*- coding: utf-8 -*- def foo(): str="function" print(str); def foo1(num): print('num' ,num); def...转载 2018-03-17 11:04:37 · 7453 阅读 · 0 评论 -
【浪叫兽】京东JData算法赛经验总结
申明:本文由浪叫兽对京东JData算法大赛的总结,行文略微口语化,但是不得不说,真正琢磨过数据的人才能发 现更多内在的东西。Mark,学习一下。0.055规则很简单的,就是type5 大于 2,就这一条就可以了。我们搞的是kdd,主要是知识发现,所以大多是重复 eda(探索分析) etl(数据清洗),数据清洗和探索,使用现有的数据挖掘框架。重头戏还是在eda转载 2017-04-03 17:45:35 · 11526 阅读 · 2 评论 -
数据挖掘笔试题(一)
数据挖掘笔试题(一)晚饭后,突然有些兴致,想刷刷题,就去了牛客网做题。虽然战况惨烈,但是还是发现了一些有意思的题。基础很重要,基础很重要,基础很重要!!!重要的事说三遍。以下说法中正确的是()A、SVM对噪声(如来自其他分布的噪声样本)鲁棒B、在AdaBoost算法中,所有被分错的样本的权重更新比例相同C、Boosting和Bagging都是组合多个分类器投票的方法,二原创 2017-03-26 20:06:33 · 3779 阅读 · 0 评论 -
scikit-learn Preprocessing data
scikit-learn Preprocessing data 本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。内容比较简单,仅供参考!首先来回顾一下下面要用到的基本知识。一、知识回顾均值公式:原创 2017-03-26 15:44:30 · 669 阅读 · 0 评论 -
【sklearn】数据预处理(一)
一般来说,我们搜集到的数据因为种种原因都会出现缺失值,通常而言,我们有几种常见的解决方法,一种解决方法是直接去掉这些包含缺失值的行,不得不说这样的做法或多或少会影响到我们的后续的数据分析,特别是对数据量小的情况。因此我们要采用更好的策略来填充缺失的数据,例如通过已知的数据来推测。Imputer提供了基本的填充方法,例如使用均值或者中位数填充,当然也有人使用众数,具体的你可以根据你的数据来定。原创 2017-03-11 15:35:50 · 676 阅读 · 0 评论 -
数据挖掘笔试题(二)
数据挖掘笔试题(二) 1、深度学习是当前很热门的机器学习算法。在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且mA、A(BC)B、(AB)CC、(AC)BD、所有效率都相同解析:首先根据基原创 2017-03-28 09:57:53 · 2051 阅读 · 0 评论 -
十分钟入门Matplotlib
十分钟入门Matplotlib 数据的处理、分析和可视化已经成为 Python 近年来最重要的应用之一。这种现象又进一步引出“大数据”分析等类似的话题,而大数据分析在人们所能预见的诸多领域内都有广泛应用,这其中就包含笔者个人感兴趣的机器学习。Python 在处理数据、分析数据以及数据可视化方面拥有很多功能强大的工具,这也是 Python 在科学领域中能够迅速发展的一个主要原因。在接转载 2017-03-28 20:56:10 · 2699 阅读 · 0 评论 -
一文学会 Python 多线程编程
一文学会 Python 多线程编程 Threading 模块从 Python 1.5.2 版开始出现,用于增强底层的多线程模块thread 。Threading 模块让操作多线程变得更简单,并且支持程序同时运行多个操作。注意,Python 中的多线程最好用于处理有关 I/O 的操作,如从网上下载资源或者从本地读取文件或者目录。如果你要做的是 CPU 密集型操作,那么你需要使用 Py转载 2017-03-28 21:08:54 · 2753 阅读 · 0 评论 -
Python多进程编程入门
Python多进程编程入门 多进程(multiprocessing)模块是在 Python 2.6 版本加入的。它最初由 Jesse Noller 和 Richard Oudkerk 在PEP 371 中定义。multiprocessing 模块生成进程的方式就和你使用 threading 模块生成线程是一样的。但是在这里,因为你使用的是多进程,所以你可以规避全局解释锁(GIL),充分转载 2017-03-28 21:16:49 · 1146 阅读 · 0 评论 -
DataCastle[猜你喜欢]赛事算法分享
DataCastle[猜你喜欢]赛事算法分享关于竞赛DC的小伙伴们大家好,我是Yes,boy! ,来自东北大学计算机学院。在猜你喜欢推荐系统竞赛中,很幸运以7.89465的得分取得第一名,看到大家在群里对推荐系统的热情很高,所以在这里我简单介绍下竞赛中我的思路。本次比赛的赛题背景是给出了约3400万条数据,包含一个商品网站站内顾客在某一时刻对某一个商品的打分值,分值范围为1至5转载 2017-03-29 09:09:38 · 876 阅读 · 0 评论 -
Python2.x和Python3.x区别
最近总是遇到一些烦心的事情,比如用Python3.5来写一些代码,有些不太懂的地方,就去网上找答案,却发现很多都是基于python2.x的。今天我就来说点遇到的一些问题。Unicode 字符串 在Python2中,普通字符串是以8位ASCII码进行存储的,而Unicode字符串则存储为16位unicode字符串,这样能够表示更多的字符集。使用的语法是在字原创 2017-03-13 22:06:02 · 1555 阅读 · 0 评论 -
数据城堡参赛代码实战篇(一)---手把手教你使用pandas
数据城堡参赛代码实战篇(一)---手把手教你使用pandas小编们最近参加了数据城堡( http://www.pkbigdata.com/ )举办的“大学生助学金精准资助预测 ”比赛,分组第19名的成绩进入了复赛,很激动有木有!在上一篇文章中,小编带大家回顾了参赛的心路历程,虽然看上去生动有趣,十分轻松,但是小编们在背后也是付出了不少的汗水呀。本篇,小编文文将带你一起分析如何用pa转载 2017-03-23 21:48:19 · 4075 阅读 · 14 评论 -
pandas学习(一)
最近在做JData算法大赛,作为一个新手,第一次参加这样的比赛,还处于没入门的状态,但是还是希望可以慢慢做,慢慢玩数据,来提高自己。其中有一个数据文件——JData_Action_1604, 这是一个用户行为文件,我看在数据的时候,第一个用户User_id——100259在短短的时间内就出现了很多的交互(行为)。为此,我想提取出在JData_Action_1604文件中有关User_id—原创 2017-03-31 13:00:42 · 541 阅读 · 0 评论 -
XGBoost-安装(Windows/VS2015)
XGBoost-安装(Windows/VS2015)昨天想装theano的时候,误删了之前的一些Python包,导致xgboost无法使用。索性重新安装了anaconda平台,方便自己后续的使用。 Anaconda是python科学计算的集成。使用起来给人matlab的感觉。并且预装了numpy,scipy,matplotlib,pandas, scikit-learn等多个常转载 2017-03-31 19:40:05 · 910 阅读 · 0 评论 -
XGBoost-Python完全调参指南-介绍篇
XGBoost-Python完全调参指南-介绍篇 在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost inPython>,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/blog/2转载 2017-03-31 19:43:14 · 715 阅读 · 0 评论 -
XGBoost-Python完全调参指南-参数解释篇
XGBoost-Python完全调参指南-参数解释篇 在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost inPython>,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/转载 2017-03-31 19:45:28 · 845 阅读 · 0 评论 -
十分钟搞定pandas
本文是对pandas 官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里 。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考: Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。 1、可以通过转载 2017-03-24 20:05:28 · 872 阅读 · 0 评论 -
pandas常用函数
pandas常用函数 import numpy as np import pandas as pd import matplotlib.pyplot as plt ---------------numpy----------------------- arr = np.array([1,2,3], dtype=np.float6转载 2017-03-31 22:48:45 · 2823 阅读 · 0 评论 -
Python数据分析笔记——Numpy、Pandas库
Python数据分析笔记——Numpy、Pandas库 Numpy库Numpy最重要的一个特点是就是其N维数组对象,即ndarray,ndarray是一个通用的同构数据多维容器,其中的所有元素必须是相同类型的。每个数组都有一个shape(一个表示各维度大小的元组,即表示有几行几列)和dtype(一个用于说明数组数据类型的对象)。本节将围绕ndarray数组展开。转载 2017-03-26 13:22:08 · 2505 阅读 · 0 评论 -
经典算法实现——字符串(一)
这篇文章主要介绍字符串相关的题目。处理字符串操作相关问题时,常见的做法是从字符串尾部开始编辑,从后往前逆向操作。这么做的原因是因为字符串的尾部往往有足够空间,可以直接修改而不用担心覆盖字符串前面的数据。摘自《程序员面试金典》问题描述:对于一个给定的源字符串和一个目标字符串,你应该输出在这个源字符串中匹配到的第一个索引。如果源字符串中不存在目标字符串,就返回-1.例如:源字符原创 2017-04-02 22:10:46 · 2051 阅读 · 0 评论 -
机器学习 特征工程之特征选择
机器学习 特征工程之特征选择 概念首先看一下维基百科中关于特征选择的介绍:在机器学习和统计学中,特征选择 也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。在机器学习中,每个特征对于目标类别的影响并不相同,所以需要从特征集中挑选出一组最具统计意义的特征子集,把其他无用数据删掉,达到降维的目的。特征选择的目标是寻找最优转载 2017-03-26 15:38:11 · 2241 阅读 · 0 评论 -
python seaborn画图
python seaborn画图在做分析时候,有时需要画几个图看看数据分布情况,但总记不住python的绘图函数。今天有空顺便整理下python的seaborn绘图函数库。 Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib能制作具有更多特色的图。应该把Seaborn...转载 2018-03-31 15:39:09 · 4115 阅读 · 0 评论