零基础学习Python数据分析,学习资源大整合

使用Python进行数据挖掘是最近几年才开始火起来的,之前网上很多的资料都是关于Python网页开发等。但使用Python进行数据挖掘的侧重点已经完成不一样了。本人就是浪费了很多时间来筛选这些博客、书籍。所以就有了本文,希望能帮大家少走一点弯路。

----------我是分割线--------

本文章主要从数据挖掘的角度出发, 讲讲如何零基础学习Python语法、数据清洗、以及数据建模。本文不能保证你能成为大神,但是如果能踏踏实实地学习完,找一份年薪15w+的工作还是不太难的。本人也是非计算机专业,所以希望给非计算机的人一点参考,大神请绕道。

熟练掌握任何一门语言,几乎都需要经过以下过程:

良师--学习Python课程+入门书籍+浏览技术博客
社区帮助--善于使用搜索引擎、Mail List
益友 -- 寻找学习伙伴
Learn by Code --项目实践
一、Python学习课程推荐

这两个学习课程从最基础的Python语法开始,介绍了Python数据分析、统计模型以及机器学习的各个方面,内容十分充足。之所以建议使用老外的课程是因为,老外上课假定你什么都不会,讲解深入浅出,尤其是对于华盛顿大学的机器学习课程,把复杂的概念讲解得十分简单。

密歇根大学的《学习使用Python编程并分析数据》主要包括以下课程(讲解十分详细,深入浅出,非常适合入门学习,视频都是有字幕的):
《大家的编程 (Python 入门》:课程涵盖了如何使用Python的基本指令编写程序. 课程对学生没有先设要求, 我们只涉及到最基本的数学, 有一定使用电脑经验的人都可以完全掌握这门课的内容.
《Python 数据结构》:本课程将介绍Python编程语言的核心数据结构。我们将学习编程语言的基础概念,探索如何使用Python的内置数据结构,如列表、字典、元组,进行更为复杂的数据分析。
《使用 Python 访问网络数据》:使用Python爬取和解析网络数据
《Python 数据库开发》:使用Python和数据库进行交互
《使用 Python 获取并处理数据,并用可视化方式展现数据》
2. 华盛顿大学的《机器学习》专项课程

在专项课程页面无法选择旁听,必须点击进入单独课程页面才可,这个课程专题旁听是有限制的,无法提交作业;如有需求,可以申请奖学金,回答三个问题即可,系统自动通过申请。

《机器学习基础:案例研究》:你是否好奇数据可以告诉你什么?你是否想在关于机器学习促进商业的核心方式上有深层次的理解?你是否想能同专家们讨论关于回归,分类,深度学习以及推荐系统的一切?在这门课上,你将会通过一系列实际案例学习来获取实践经历。
《机器学习:回归》
《机器学习:分类》
《机器学习:聚类和检索》
《机器学习:推荐系统和降维》
《机器学习:应用深度学习创建智能运用》
二、网上打码教程

Learn by doing!!! 学习编程最有效的方式就是敲代码!

Codecademy 围绕Python 的基础语法,内容非常丰富。
Datacamp Python基本语法(他家的R语言课程十分不错!)
三、Python技术博客

简单介绍一些非常棒的Python技术学习的博客

廖雪峰Python教程 简单易上手的Python基础语法教程,值得学习, Python 2和Python 3版本都有。

非常棒的pandas练习Github Repo

很详细的Python 爬虫教程

国外Data Science博客大全

四、Python入门书籍推荐

常用书籍下载网址,几乎囊括了网上能找得到的所有Python相关的书籍(PDF、Epub和mo bi格式),且提供云盘下载链接。你值得拥有!

python | 搜索结果

掌握Python语法的基础上学习《Python for data analysis》是比较不错的选择,涵盖了ipython notebook、Numpy、Scipy和Pandas包的使用。
2.《Python数据分析与挖掘实战》介绍了使用Python进行数据挖掘的详细案例,数据和代码都可以下载,作为机器学习的进阶学习是不错的选择(这本书也用对应的R语言和Matlab 版本)。

《Python Cookbook》很厚的一本书,可以作为Python语法查询手册。
再添加几个外文书籍下载网址:

All IT eBooks 全,可能需要使用翻*墙下载,翻*墙方法见文末

Library Genesis 各种书籍,不局限于编程书籍

Fox eBook - eBooks Free Download Site

Development / Programming / AvaxHome

五、推荐订阅博客(更细频率较高)

iPhone上可以使用Reeder阅读器,Instapaper用来保存后稍后阅读,因为信息量比较大。

No free Hunch Kaggle竞赛平台的官方博客,包括一些优秀的代码解读以及高分选手的采访,十分有用的经验(来自不同背景,不同年龄层次,不同职业的选手)
Flowing Data 十分有用的数据分析的案例
Python日报 内容十分精彩的集锦(中文)
六、FAQ (待续)

Python 2.x还是Python 3.x?
如何安装Python包? 强烈推荐Anaconda包,你值得拥有!尤其是Windows系统。
网络速度慢,请翻*墙,安利一款免费好用Google开发的防屏蔽的梯子Lantern,速度不错。
是否需要很强的统计和数学背景? 有良好的数学和统计背景固然很好,但是现在很多岗位对数学和统计背景要求并不很多,都是简单的算法,Python编程已经能够很方便地实现,更多的是对业务的深入理解。如有需要建议,边学习Python边学习数学统计。
七、实践项目

Kaggle竞赛项目,里面不仅仅有很多竞赛项目,而且有很多可供学习的代码、博客以及论坛,都是实战项目,有很强的实践价值。
----------------------

中文的Python数据分析的教程较少,而且质量良莠不齐,所以推荐多为英文资料。而且随着学习的深入,有时候只有英文资料可以借鉴。学习数据分析和机器学习,英文再好也不为过。并不是说中国没有优秀的人才,而是为了便于国际交流学习,中国人也多用英语。


一个人自学python是非常艰难的,我当初就非常希望有个人能为我答疑解惑,跟其他小伙伴一起交流学习。所以有需要python学习资料,学习路线图,python学习电子书等等的或者是学习路上碰到什么问题可以看这里~群内每晚还python老师免费直播教学带你学Python。Python学习交流qq群:196872581

 

 

python数据分析基础教程》 ⼀、导⼊常⽤numpy模块 from numpy import * //可以直接引⽤numpy中的属性XXX import numpy as np //引⽤numpy中的属性⼀定要np.XXX ⼆、常⽤函数以及转化关系 np.arange() 对应 python中的range() np.array() 对应 python中的list np.dtype() 对应 python中的type() tolist()函数可以将numpy数组转换成python列表: 列表转为数组: warning:Passing 1d arrays as data is deprecated in 0.17 and willraise ValueError in 0.19. Reshape your data either using X.reshape(-1, 1) if your data has a single feature or X.reshape(1, -1) if it contains a single sample. 这个warning主要就是有些函数参数应该是输⼊数组,当输⼊列表时就会警告!! 三、numpy中数组操作函数 数组组合函数 将ndarray对象构成的元组作为参数输⼊ (1)⽔平组合:hstack((a,b)) 或者concatenate((a,b),axis=1) (2)垂直组合:vstack((a,b)) 或者concatenate((a,b),axis=0) (3)列组合:column((a,b)) (4)⾏组合:row_stack((a,b)) 数组的分割函数 (1)⽔平分割:hsplit(a,3) 或者 split(a,3,axis=1) (2)垂直分割:vsplit(a,3) 或者 split(a,3,axis=0) 四、⽂件处理——os库 1.os.system() 运⾏shell命令 2.os.listdir(path) 获得⽬录中的内容 3.os.mkdir(path) 创建⽬录 4.os.rmdir(path) 删除⽬录 5.os.isdir(path) os.isfile(path) 判断是否为⽬录或者⽂件 6.os.remove(path) 删除⽂件 7.os.rename(old, new) 重命名⽂件或者⽬录 8.os.name 输出字符串指⽰正在使⽤的平台。如果是window 则⽤'nt'表⽰,对于Linux/Unix⽤户,它是'posix' 9.os.path.join() 在⽬录后⾯接上⽂件名 10.os.path.split() 返回⼀个路径的⽬录名和⽂件名 11.os.path.splitext() 分离⽂件名与扩展名 12.os.path.getsize(name) 获得⽂件⼤⼩,如果name是⽬录返回0L 14.os.path.abspath(")获得当前路径 15.os.path.dirname()返回⼀个路径的⽬录名 五、使⽤matplotlib画图(第九章 ) 前⾯⼏个列⼦主要讲解了通过多项式函数通过plt.plot()函数构建绘图,补充⼀下在机器学习中散点绘制 import numpy as np import matplotlib.pyplot as plt fig=plt.figure() ax=fig.add_subplot(111) x1=[2, 2.6, 2.8] y1=[2, 2.4, 3] x2=[4,5 ,6] y2=[1.3, 2, 1.2] ax.scatter(x1,y1,s=20,c='red') ax.scatter(x2,y2,s=50,c='blue') plt.show() 另外:做数据分析——sklearn库 from sklearn import preprocessing 数据预处理:归⼀化、标准化、正则化处理 from sklearn import preprocessing preprocessing.normalize(features, norm='l2')//正则化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值