Python大数据挖掘与分析
文章平均质量分 76
啥都鼓捣的小yao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python大数据分析——AdaBoost、GBDT、SMOTE与XGBoost算法模型
提升树算法与线性回归模型的思想类似,所不同的是该算法实现了多棵基础决策树f(x)的加权运算,最具代表的提升树为AdaBoost算法,即:其中,F(x)是由M棵基础决策树构成的最终提升树,Fm-1(x)表示经过m-1轮迭代后的提升树,αm为第m棵基础决策树所对应的权重,fm(x)为第m棵基础决策树。其中Fm-1(x)=α1f1+α2f2+…+αm-1fm-1。原创 2025-08-09 14:42:52 · 837 阅读 · 0 评论 -
Python之数学、科学、工程计算——Scipy模块
我们来看一个更复杂的例子,对于物理上,比如弹簧我们有很多的传感器记录。设 S=(y1,y2),我们需要编写一个返回 dS/dx=(dy1/dx,dy2/dx) 的函数。Scipy 只能求解耦合的一阶微分方程,但是任何二阶微分方程都可以转化为两个耦合的一阶微分方程。对于minimize的更多操作可以看scipy里的该函数的文档进行了解,或者用help指令查看,这里不再详细叙述。我们知道:ω=2πf 、f=1/T。所以很好的初步猜测是ω=2π(1/2)=π;我们可以发现和我们设置的函数参数是相同的。原创 2024-11-08 02:15:00 · 595 阅读 · 0 评论 -
Python大数据分析——DBSCAN聚类模型(密度聚类)
Kmeans聚类存在两个致命缺点,一是聚类效果容易受到异常样本点的影响(因为求的是均值,而异常值对于均值聚类非常容易受到异常点影响);二是该算法无法准确地将非球形样本进行合理的聚类。基于密度的聚类则可以解决非球形簇的问题,“密度”可以理解为样本点的紧密程度,如果在指定的半径领域内,实际样本量超过给定的最小样本量阈值,则认为是密度高的对象,就可以聚成一个簇。原创 2024-08-13 14:49:06 · 2550 阅读 · 1 评论 -
Python大数据分析——Kmeans聚类分析
对于有监督的数据挖掘算法而言,数据集中需要包含标签变量(即因变量y的值)。但在有些场景下,并没有给定的y值,对于这类数据的建模,一般称为无监督的数据挖掘算法,最为典型的当属聚类算法。Kmeans聚类算法利用距离远近的思想将目标数据聚为指定的k个簇,进而使样本呈现簇内差异小,簇间差异大的特征。原创 2024-08-11 16:00:02 · 4393 阅读 · 0 评论 -
Python大数据分析——SVM模型(支持向量机)
超平面的理解:在一维空间中,如需将数据切分为两段,只需要一个点即可;在二维空间中,对于线性可分的样本点,将其切分为两类,只需一条直线即可;在三维空间中,将样本点切分开来,就需要一个平面。原创 2024-08-08 10:33:25 · 3528 阅读 · 1 评论 -
Python大数据分析——朴素贝叶斯模型
请问在给定的信息下,对于高收入的公务员,并且其学历为硕士的男生来说,女孩是否愿意参与他的相亲?被预测为不经过上面的计算可知,当客户的年龄为24岁,并且收入为8500时,放贷的概率是4.8079x10-8,放贷的概率为2.1479x10-6,所以根据argmax P(Ci)P(X I Ci)的原则,最终该金融公司决定给客户放贷。结果所示,当用户的评论中只含有“还行”一词时,计算该评论为正面情绪的概率约为0.015,评论为负面情绪的概率约为0.00073,故根据贝叶斯后验概率最大原则将该评论预判为正面情绪。原创 2024-08-06 11:08:19 · 2628 阅读 · 0 评论 -
Python大数据分析——K近邻模型(KNN)
那么解决方法就是,一种是设置k近邻样本的投票权重,使用KNN算法进行分类或预测时设置的k值比较大,担心模型发生欠拟合的现象,一个简单有效的处理办法就是设置近邻样本的投票权重,如果已知样本距离未知样本比较远,则对应的权重就设置得低一些,否则权重就高一些,通常可以将权重设置为距离的倒数。对于连续型的因变量来说,则是将k个最近的已知样本均值用作未知样本的预测。还有一种方法是,采用多重交叉验证法,该方法是目前比较流行的方案,其核心就是将k取不同的值,然后在每种值下执行m重的交叉验证,最后选出平均误差最小的k值。原创 2024-07-11 21:12:54 · 1385 阅读 · 0 评论 -
Python大数据分析——决策树和随机森林
对于已知的事件A来说,事件D的信息增益就是D的信息熵与A事件下D的条件熵之差,事件A对事件D的影响越大,条件熵H(D|A)就会越小(在事件A的影响下,事件D被划分得越“纯净”),体现在信息增益上就是差值越大,进而说明事件D的信息熵下降得越多。与信息增益类似,还需要考虑自变量对因变量的影响程度,即因变量的基尼指数下降速度的快慢,下降得越快,自变量对因变量的影响就越强。为了克服信息增益指标的缺点,提出了信息增益率的概念,"它的思想很简单,就是在信息增益的基础上进行相应的惩罚。浅色的椭圆表示树的中间节点;原创 2024-07-09 22:36:04 · 1236 阅读 · 0 评论 -
Python大数据分析——Logistic回归模型
x轴叫阈值,图中的两条折线分别代表各分位点下的正例覆盖率和1-负例覆盖率,通过两条曲线很难对模型的好坏做评估,一般会选用最大的KS值作为衡量指标。通常绘制ROC曲线,不仅仅是得到左侧的图形,更重要的是计算折线下的面积,即图中的阴影部分,这个面积称为AUC。其中,α为学习率,也称为参数βj变化的步长,通常步长可以取0.1,0.05,0.01等。所以,性别变量的发生比率为e** β1,表示男性患癌的发生比约为女性患癌发生比的e**β1倍。正例命中率:表示正确预测的正例数在预测正例数中的比例,即D/(C+D),原创 2024-05-11 21:41:26 · 3390 阅读 · 1 评论 -
Python大数据分析——岭回归和LASSO回归模型
因为根据线性回归模型的参数估计公式β=(X’X)-1X’y可知,得到β的前提是矩阵X’X可逆,但在实际应用中,可能会出现自变量个数多于样本量或者自变量间存在多重共线性的情况,即X’X的行列式为0。岭回归模型解决线性回归模型中矩阵X’X不可逆的办法是添加l2正则的惩罚项,但缺陷在于始终保留建模时的所有变量,首先将数据集拆分成k个样本量大体相当的数据组(如图中的第一行),并且每个数据组与其他组都没有重叠的观测;然后从k组数据中挑选k-1组数据用于模型的训练,剩下的一组数据用于模型的测试(如图中的第二行);原创 2024-04-18 03:18:58 · 2148 阅读 · 1 评论 -
Python大数据分析——一元与多元线性回归模型
从返回的结果可知,只有截距项Intercept和研发成本RD Spend对应的p值小于0.05,其余变量都没有通过系数的显著性检验,即在模型中这些变量不是影响利润的重要因素。我们发现,计算出来的F统计量值174.64远远大于F分布的理论值2.50,所以应当拒绝原假设,即认为多元线性回归模型是显著的,也就是说回归模型的偏回归系数都不全为0。对于一元线性回归模型来说,其反映的是单个自变量对因变量的影响,然而实际情况中,影响因变量的自变量往往不止一个,从而需要将一元线性回归模型扩展到多元线性回归模型。原创 2024-04-14 21:33:59 · 1718 阅读 · 0 评论 -
Python数据分析必备工具——数据可视化Matplotlib模块及其应用
箱线图是另一种体现数据分布的图形,通过该图可以得知数据的下须值(Q1-1.5IQR)、下四分位数(Q1)、中位数(Q2)、均值、上四分位(Q3)数和上须值(Q3+1.5IQR),更重要的是,箱线图还可以发现数据中的异常点;虽然饼图可以很好地表达离散型变量在各水平上的差异,但其不擅长对比差异不大或水平值过多的离散型变量,因为饼图是通过各扇形面积的大小来比价差异的,面积的比较有时并不直观;气泡图的绘制,使用的仍然是scatter函数,区别在于函数的s参数被赋予了具体的数值型变量;通常折线图的横坐标指代。原创 2024-04-10 23:53:06 · 1011 阅读 · 0 评论 -
Python数据分析必备工具——Pandas模块及其应用
df.head():查看数据前5组df.shape:表示数据规模操作函数df.columns:变量列表df.dtypes:变量类型(object表示非数字类型或叫字符型)df.describe:统计描述(默认对数值型数据做统计表述,如非缺失数据的个数、均值、标准值等)df.describe(include=‘object’) 对字符型数据进行描述df.columns:列名称。原创 2024-03-29 21:51:43 · 1609 阅读 · 0 评论 -
Python数据分析必备工具——Numpy模块
数组是编程中一种强大的数据结构,它允许您存储和操作相同类型元素的集合。在 Python 中,数组是通过数组模块创建的,该模块提供了一个简单的接口来创建、操作和处理数组。特别的:矩阵是一种二维数组。原创 2024-03-19 17:06:47 · 1230 阅读 · 0 评论 -
Python的网络爬虫介绍与实战
网络爬虫是按照一定的规则,自动地抓取万维网(www)信息的程序或者脚本。借助于网络爬虫的技术,基本上可以做到所见即所得。比如:新闻、搜索引擎、微博、竞品分析和股票等。原创 2024-03-17 22:55:48 · 1780 阅读 · 1 评论 -
Python的自定义函数
定制化需求降低代码重复编写def function_name(parameters) : function_expression return(result) def 是define单词的缩写,为自定义函数的关键词function_name为自定义的函数名称parameters为自定义函数的形参,需要放在圆括号内function_expression为具体的函数体 return 用于返回函数的计算结果。原创 2024-02-21 14:45:55 · 524 阅读 · 1 评论 -
Python的正则表达式使用
正则表达式是指专门用于描述或刻画字符串内在规律的表达式。原创 2023-12-01 03:53:09 · 1392 阅读 · 0 评论 -
Python的控制流语句使用
单分支 if condition : expression # 双分支 if condition : expression1 else : expression2 # 多分支 if condition1 : expression1 elif condition2 : expression2 else : expression3。原创 2023-11-28 02:59:35 · 1104 阅读 · 0 评论 -
Python常见基础数据结构
{‘姓名’: ‘张三’, ‘年龄’: 33, ‘性别’: ‘男’, ‘子女’: {‘儿子’: ‘张四’, ‘女儿’: ‘张美’}, ‘兴趣’: [‘踢球’, ‘游泳’, ‘唱歌’], ‘身高’: 178}{‘姓名’: ‘张三’, ‘年龄’: 35, ‘性别’: ‘男’, ‘子女’: {‘儿子’: ‘张四’, ‘女儿’: ‘张美’}, ‘兴趣’: [‘踢球’, ‘游泳’, ‘唱歌’], ‘身高’: 178}[‘江苏’, ‘安徽’, ‘浙江’, ‘上海’, ‘山东’, ‘山西’, ‘湖南’, ‘湖北’]原创 2023-11-26 16:59:09 · 1182 阅读 · 0 评论 -
14 Python进行数据乱码处理
我们在爬取网页时,结果会出现乱码,这是因为编码不一致的原因导致的,那么如何解决这样的问题就显得非常重要。原创 2022-10-05 21:30:21 · 2206 阅读 · 0 评论 -
13 Python进行数据清洗优化
数据清洗优化,进行我们的爬虫内容,下一节我们讲一下编码和数据乱码的处理方式原创 2022-09-20 22:11:19 · 1215 阅读 · 0 评论 -
12 Python 与 MySQL 数据库交互(含案例实战2:把金融数据存入数据库中)
Python与数据库进行连接,并实战配套将爬虫出来的金融数据存入数据库当中去。怎么爬怎么处理可以看我之前写的 7案例实战1,因为网页规则大体不变,但会有小的改变,所以你会发现我本次进行的信息处理和之前不一样,不过大体上是一样的,请学习前面文章,后面我会继续更新数据清洗优化原创 2022-09-12 11:07:35 · 1818 阅读 · 1 评论 -
MySQL操作并用Python进行连接
MySQL的基础操作并用Python进行连接,从而可建立数据库进行分析原创 2022-06-05 10:56:04 · 744 阅读 · 0 评论 -
统计分析——回归分析
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。原创 2022-04-27 22:40:28 · 24330 阅读 · 1 评论 -
数据科学分布——Beta分布
Beta分布概念参数影响数量比例随机产生数据概率密度函数累积概率密度函数概念贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。# 加载功能包import numpy as npimport scipy.stats as原创 2022-04-20 16:43:19 · 15063 阅读 · 0 评论 -
数据科学分布——卡方分布
卡方分布概念自由度随机生成概率密度函数累积概率密度函数概念通俗的讲就是通过小数量的样本容量去预估总体容量的分布情况。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。其中# 加载功能包import numpy as npimport scipy.原创 2022-04-20 14:33:40 · 2017 阅读 · 0 评论 -
数据科学分布——均匀分布
均匀分布概念a与b的影响概念在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。# 加载功能包import numpy as npimport scipy.stats as statsimport matplotlib.pyplot as pltimport matplotlib.style as stylefrom IPython.core.display原创 2022-04-20 13:42:35 · 7740 阅读 · 3 评论 -
数据科学分布——泊松分布
泊松分布概念λ的影响产生随机值概率质量函数累积概率密度函数绘制λ概念Poisson分布,是一种统计与概率学里常见到的离散概率分布。现实生活多数服从泊松分布。泊松分布的概率函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的期望和方差均为λ特征函数为# 加载功能包import numpy as npimport scipy.stats as statsimport matplotlib.pyplot原创 2022-04-20 12:19:38 · 16316 阅读 · 0 评论 -
数据科学分布——二项式分布
概念在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件{X=k}即为“n次试验中事件A恰好发生k次”,随机变量X的离散概率分布即为二项分布(Binomial Distribution)。N·p表示分布的均值PMF(概率质量函数): 是对 离散随机变量 在各个特定取值的概率. 该函数通俗来说,就是对于一个离散型概率事件来说,使用这个函数来求它的各个成功事件结果的概率.PDF(概率原创 2022-04-19 17:35:25 · 2264 阅读 · 1 评论 -
数据科学分布——正态分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。原创 2022-04-17 20:20:52 · 3250 阅读 · 0 评论 -
11 MySQL数据库基础
创建数据库及数据表输入数据库名称选择编码方式,一般选择中文编码方式utf8_general_ci然后点击创建新建工作表随后就可以进行数据表结构的编辑,然后执行。(其中必填内容:名字、类型、长度/值)varchar为字符串数据表基本操作保存后将会跳转到如下界面1.结构结构主要用于查看和修改数据表的基本结构。如要添加新的一列,修改字符串长度等。2.插入单击插入,会默认显示插入两组数据。输入点击执行则会跳转至SQL3.浏览点击浏览后,可以浏览数据表的数据内容。4.搜索利用原创 2021-08-28 18:42:11 · 246 阅读 · 1 评论 -
10 按时间顺序爬取及批量爬取多页内容
按时间顺序爬取及批量爬取多页内容按时间顺序爬取百度新闻一次性爬取多页内容爬取一家公司的多页信息爬取多家公司的多页信息补充知识点:访问超时设置——timeout参数的使用按时间顺序爬取百度新闻按时间排列顺序:rtt=4按热点排列:rtt=1具体的网页改变都会使得对应的网页链接进行变化,所有我们只需要修改url即可了。import requestsimport reheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)原创 2021-08-25 17:22:22 · 1699 阅读 · 1 评论 -
9 异常处理及24小时实时数据挖掘实战
异常处理companys = ['华能信托','阿里巴巴','百度','京东']for i in companys: try: baidu(i) print(i+'爬取成功') except: print(i+'爬取失败')如果出现异常,没有写异常处理的话就会直接终止整个程序的运行,而加上就会执行except后的操作,不会完全终止跳出。24小时实时爬虫实战要想实现24小时不断爬取,只需要加一个while True:如果不需要不间断地运行,而是每隔一定时间运行一次,可以用t原创 2021-08-23 20:34:18 · 789 阅读 · 0 评论 -
8 批量获取多家公司的新闻并生成数据报告
批量爬取多家公司的百度新闻其实本质修改的就是url,通过一个列表不断遍历发送给一个变量实现批量使用import requestsimport reheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}def baidu(company): url = 'htt原创 2021-08-09 22:21:16 · 1000 阅读 · 0 评论 -
7 数据挖掘案例实战1—百度新闻标题、网址、日期及来源
数据挖掘案例实战1—百度新闻标题、网址、日期及来源获取网页源代码编写正则表达式提取新闻1.提取新闻的来源和日期2.提取新闻的网址和标题数据清洗并打印输出1.新闻标题的清洗2.新闻来源和日期的清洗总代码理解获取网页源代码import requestsheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Sa原创 2021-08-06 21:28:35 · 2572 阅读 · 7 评论 -
6 爬虫技术基础3—正则表达式
爬虫技术基础3—正则表达式正则表达式基础1—findall()函数正则表达式基础2—非贪婪匹配之(.*?)正则表达式基础3—非贪婪匹配之.*?正则表达式基础4—自动考虑换行的修饰符re.S正则表达式基础5—数据清洗正则表达式基础1—findall()函数findall()函数的功能是在原始文本中寻找所有符合匹配规则的文本内容使用规则:re.findall(匹配规则, 原始文本)例如,提取“Hello 123 world 456 Python大数据教学789”里的所有三位数字import reco原创 2021-08-05 17:04:04 · 471 阅读 · 2 评论 -
5 实战1—利用Python获取新闻网页源代码
利用Python获取新闻网页源代码通过Requests库来尝试获取百度新闻的网页源代码import requestsurl = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里巴巴'res = requests.get(url, headers=headers).textprint(res)'''输出结果为:<html><head> <script> l原创 2021-08-04 14:43:16 · 1718 阅读 · 3 评论 -
4 爬虫技术基础2—网页结构进阶
文章目录HTML基础知识—网页基础HTML基础知识—基础结构主体解析定义标题定义段落定义链接HTML基础知识—基础进阶区块类与idHTML基础知识—网页基础新建一个记事本来进行编写,然后将文件后缀改为html即可<!DOCTYPE html><html> <p>hello world</p></html>注意:我们也可以用专业的软件Notepad++进行编写:点击访问官网HTML基础知识—基础结构主体解析<!D原创 2021-08-04 14:19:40 · 189 阅读 · 0 评论 -
3 爬虫技术基础1——网页结构基础
查看网页源代码—F12按住F12或者Fn+F12,弹出来的界面叫开发者工具左上角为选择按钮(点击之后再点击你想选中的内容他就会跳转到对应的代码)其中Elements为(元素)选项卡,找到对应的文本进行修改,网页就会对应的修改查看网页源代码—右键菜单通过此操作能查看所需内容再网页源代码的位置,通过此方式打开也能通过Ctrl+F搜索(显示的为网页框架)网址构成和http与https协议“ https:// ”称为heeps协议,表明该网址某种程度上是安全的;有些网址则是:“ http://原创 2021-08-04 10:46:17 · 1606 阅读 · 0 评论 -
2 try/excepy异常处理语句
通过try/except异常处理语句可以避免因为某一部程序出错而导致整个程序终止,使用方法如下:try: 主代码except: 主代码出错时要执行的代码原创 2021-08-01 20:06:43 · 611 阅读 · 0 评论
分享