大数据技术派
待我代码写成,便娶你为妻。
展开
-
神经网络的概念和基本用法
什么是人工神经网络,我的理解就是:举个不太恰当的例子,当你训练你的狗时,第一次给它一个橘子,跟它说这是橘子;下一次再给它橘子,看它还认不认识,如果不认识,继续告诉他,直到...原创 2019-05-09 21:54:36 · 7142 阅读 · 1 评论 -
多元线性回归、逐步回归、逻辑回归的总结
线性回归,前面用Python从底层一步一个脚印用两种方法实现了回归拟合。在这个高级语言层出不穷的年代,这样做显然不明智,所以我考虑用优秀的数据分析工具——R语言(不敢说最...原创 2019-04-01 19:54:56 · 29885 阅读 · 2 评论 -
turtle绘图入门
黎明老师https://segmentfault.com/a/1190000017854607turtle图形库源于1966年诞生的Logo语言,是入门Python的有趣工具。因其简单便...转载 2020-10-08 15:44:02 · 6163 阅读 · 0 评论 -
which函数的用法
R语言的which函数主要是用于条件筛选,在R语言里面用的非常多,因为很多时候我们都需要筛选满足一些特定条件的数据记录。向量> a <- c(2,4,5,2,...原创 2017-11-04 10:17:43 · 22139 阅读 · 0 评论 -
Pandas里面的加权平均,我猜你不会用!
摘要Pandas包含多个内置函数,如sum、mean、max、min等,你可以将其应用于一个DataFrame或分组数据。然而,构建和使用自己定义的函数可以进一步了解...转载 2019-03-05 22:47:27 · 16551 阅读 · 2 评论 -
R语言读取csv文件
csv文件一般是用的最多的数据文件格式,这一节主要介绍怎么读取csv文件。这个文件这里在D盘根目录下面有一个csv文件,可以下面对其进行一些操作。读取文件> dat...原创 2017-10-22 20:39:24 · 5047 阅读 · 0 评论 -
蒙特卡洛方法
我的个人博客蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。最经典的莫过于圆周率π的计算了。圆周率π的计算单位圆面积为π,并且内切与边长为2的正方形,用随机数,10000个点往下面投,落到圆里面的概率乘以4就是π的值说明:等式左边,是圆与正方形面积之比;等式右边,是落在单位圆内的点与落在正方形内的点的比值。二者相等。分析1、以圆心为原点,建立...原创 2019-07-14 22:28:04 · 587 阅读 · 0 评论 -
为什么会有这么多IT培训机构,分析慕课网培训课程情况就都明白了!
http://www.ikeguang.com/获取了慕课网的所有IT培训课程数据,通过pandas和matplotlib从不同领域、课程难易度、数量进行数据分析,发现现在网络教育很火,难怪连百度的吴恩达都退下来开始自己的教育事业了。一、数据获取数据获取主要是用python的简单爬虫,慕课网的数据获取非常容易,这里不再赘述。二、数据预处理读取数据,并且将其变为DataFrame...原创 2019-01-16 23:25:43 · 3118 阅读 · 0 评论 -
读书笔记(一)——支持向量机(SVM)朴素原理
http://www.ikeguang.com/最近在学习分类算法支持向量机(SVM),它是一种监督式学习算法。SVM算法是将原始数据特征转换至另一个高维度,并基于构建一个或多个超平面,使得训练数据中不同类别的数据得以尽可能的分开,同时该超平面需要尽可能地远离各类别中最靠近超平面的数据点。那么就有这样的疑问了:对于线性可分情况能不能像简单神经网络感知机那样找到一条直线将所有点分类?该超平面怎么...原创 2019-01-16 23:22:12 · 530 阅读 · 0 评论 -
决策树分析理论之分支准则+实例计算(一)
http://www.ikeguang.com/决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树具有监督式的特征提取与描述的功能,将输入变量根据目标设定来选择分支变量与分支方式,并以树枝状的层级架构呈现,以提取分类规则。构建决策树目的探索 预测构建决策树的步骤数据准备 决策树生长 决策树修剪 规则提取在...原创 2019-01-16 23:19:07 · 4700 阅读 · 0 评论 -
基于梯度下降法的——线性回归拟合(二)
http://www.ikeguang.com/阅读本文需要的知识储备:高等数学 运筹学 Python基础1、引出梯度下降对于,线性回归问题,上一篇我们用的是最小二乘法,很多人听到这个,或许会说:天杀的最小二乘法,因为很多人对它太敏感了。是的,从小到大,天天最小二乘法,能不能来点新花样。这里就用数学算法——梯度下降,来解决,寻优问题。当然了,我们的目标函数还是:在开始...原创 2019-01-16 23:15:27 · 1867 阅读 · 0 评论 -
基于30多万条招聘信息的热门城市、地域 、薪资、人才要求的R语言数据可视化分析
又是一年毕业季,什么工作好找、工资高、哪些地域有优势等就是很多人关注的话题了。这里用一份2017年初,含有32万条数据(行)、19个详细招聘信息(列)的数据进行招聘信息的知识发现、挖掘。数据部分截图如下: 需要完成的工作 1、数据预处理; 2、每个行业的招聘次数、平均工资分析; 3、学历要求与平均工资分析; 4、不同工作经验的招聘次数、平均工资分析; 5、不同职位的发展前景分...原创 2018-08-05 11:08:47 · 2125 阅读 · 5 评论 -
MySQL server has gone away , 解决办法
我的博客今天在用python查询hive,统计结果保存到mysql的时候,尝试了好多遍,总是报这个错误,python环境下的错误信息: _mysql_exceptions.OperationalError: (2006, 'MySQL server has gone away')造成这样的原因一般是sql操作的时间过长,或者是传送的数据太大(例如使用insert ... value...原创 2019-01-18 21:07:25 · 2439 阅读 · 0 评论 -
R语言爬虫之rvest包——基础详细介绍+示例
分享一个大神的人工智能教程。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到人工智能的队伍中来!点击浏览教程都说Python爬虫功能强大,其实遇到动态加载或者登陆网站Python还是很困难,对于大部分的一些普通爬虫,R语言还是很方便。这里介绍R语言rvest包爬虫,主要用到函数:read_html()、html_nodes()、html_text()和html_attrs()。安...原创 2019-01-19 10:28:46 · 16983 阅读 · 11 评论 -
jieba分词的Python与R语言基础用法介绍
人们说话不是一个词一个词崩出来的,文章也就由句子组成。要想让机器识别美文,体会中华名族汉语的博大精深,不是不可能。但是,首先需要将其转化成其可以识别的模式——词语。分词是自然语言处理(NLP)中最底层、最基本的模块,分词精度的好坏将直接影响文本分析的结果。这里介绍著名的分词方法:结巴分词以及基本分词方法在Python和R语言中的用法。Python中的结巴分词 Python中文分词的三种...原创 2019-01-19 10:32:08 · 2313 阅读 · 0 评论 -
5分钟学会马尔科夫模型
马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。有时候,数学就是这么强大,数学家就是这么富于创造力。很多人觉得马尔科夫不好理解,今天先对马尔科夫模型做一个5分钟快速入门,希望对新手有帮助!一、马尔科夫模型包括我自己,很多人都不...原创 2019-01-19 11:01:51 · 22187 阅读 · 4 评论 -
数据分析应该怎么学?———一个包含数据获取与分析的小项目
http://www.ikeguang.com/数据来源:前程无忧网获取方式:爬虫数据量:所有最新的招聘信息(武汉)时间:最近几天分析对象:a:实习律师;b:律师助理分析视角:1、不同工资区间比例;2、不同经验要求的比例;3、不同学历要求的比例;4、不同律所的平均工资水平;5、结论。律师行业整体属于高收入群体,那么实习律师、律师助理工资又会是怎样一个水平呢。对于这...原创 2019-01-16 23:00:02 · 577 阅读 · 0 评论 -
来一场啤酒与尿不湿的旅行——关联规则
http://www.ikeguang.com/在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。这是数据挖掘算法关联规则在实际中的成功应用案例,那么关联规则算法的理论根基又是什么呢?这就是关联规则的思想,即如果顾客购买一部分商品,那么他有多...原创 2019-01-16 23:04:13 · 2794 阅读 · 0 评论 -
隐马尔科夫模型(HMM)趣味理解与实现
http://www.ikeguang.com/在马尔可夫模型中,每一个状态都是可观察的序列,是状态关于时间的随机过程,也成为可视马尔可夫模型。隐马尔科夫模型中的状态是不可见的,我们可以看到的是状态表现出来的观察值和状态的概率函数。在隐马模型中,观察值是关于状态的随机过程,而状态是关于时间的随机过程,因此隐马模型是一个双重随机过程。什么叫状态序列与观察序列呢?举个例子:假如,有一对男生...原创 2019-01-16 23:09:09 · 567 阅读 · 0 评论 -
基于最小二乘法的——线性回归拟合(一)
http://www.ikeguang.com/阅读本文需要的知识储备:高等数学 概率论与数理统计 Python基础最近对线性回归很感兴趣,就研究了一下。其实生活中有很多这样的例子,比如:票价与行车距离、服务质量之间的关系,买房时房价与面积、地域等的关系。给我们一组这样的数据,我们想找出一个数学关系来描述这个问题,从而得到自己想要的结论。那么,怎么样才能使得你确定出的关系是一个好的线...原创 2019-01-16 23:13:26 · 16944 阅读 · 0 评论 -
用概率判生死:法庭上的数学证据
给大家分享一个概率统计的故事。法官如果通过掷硬币的方式来判一个人有没有罪,肯定没人会服。但历史上真的发生过这种事,当然不会是抛硬币,而是——算一个更复杂的概率。概率断案好不好用,看看几个案例就知道了。如果概率玩的不好,辩护时被占便宜的事也发生过。洛杉矶抢劫案历史上最著名的案例要数 1964 年夏天发生在美国洛杉矶的一起劫案。一天中午,一位老妇人从杂货店买了东西推着小车回家,途经一条...原创 2018-08-05 10:30:45 · 1268 阅读 · 0 评论