
python
文章平均质量分 81
湫湫玺云台
个人学习笔记
展开
-
爬虫-Scrapy框架(vscode)
引擎 (engine):Scrapy的核心,所有模块的衔接,数据流程梳理。调度器 (scheduler):本质上这东西可以看成是一个队列,里面存放着一堆我们即将要发送的请求,可以看成是一个URL的容器。它决定了下一步要去爬取哪一个URL,通常我们在这里可以对URL进行去重操作。下载器 (downloader):它的本质就是用来发动请求的一个模块,完全可以把它理解成实现 get_page_source() 功能的模块,只不过它返回的是一个response对象。原创 2024-01-25 21:58:45 · 2809 阅读 · 0 评论 -
爬虫-ConnectTimeout,ReadTimeout解决
服务器在指定时间内没有应答,抛出若分别指定连接和读取的超时时间,服务器在指定时间没有应答,抛出- 连接:客户端连接服务器并并发送http请求服务器- 读取:客户端等待服务器发送第一个字节之前的时间报错原因:出现连接超时要么是因为访问过快导致对方服务器连接超时,要么是因为被发现是爬虫程序了。原创 2024-01-14 12:38:10 · 2827 阅读 · 0 评论 -
数据挖掘任务
序列数据和时间序列数据都是连续的观察值,观察值相互依赖,区别在于序列包含离散的状态,而时间序列包含的是连续的数值;序列和关联数据有相似,都是包含一个项集或一组状态,区别在于序列模型分析的是状态的转移,而关联模型认为购物篮的每个商品平等且独立。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。既然骰子是均匀的,这就是概率计算。原创 2023-02-16 14:12:31 · 406 阅读 · 0 评论 -
数据挖掘--距离小结
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。原创 2023-02-16 12:55:02 · 181 阅读 · 0 评论 -
数据挖掘11--总结
python原创 2023-02-15 21:25:07 · 52 阅读 · 0 评论 -
数据挖掘10--特征选择
是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为:*logistic回归)模型:实际上分类算法C:正则化强度的倒数,必须是一个大于0的浮点数,不填写默认1.0,即默认正则项与损失函数的比值是1:1。C越小,损失函数会越小,模型对损失函数的惩罚越重,正则化的效力越强,参数会逐渐被压缩得越来越小。原创 2023-02-15 21:18:09 · 1031 阅读 · 0 评论 -
数据挖掘09--决策树
多变量决策树(multi-variate decision tree) 同时,无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策,但是大多数,分类决策不应该是由某一个特征决定的,而是应该由一组特征决定的。那么,对应到混淆矩阵中,那肯定是希望TP与TN的数量大,而FP与FN的数量小。二级指标 但是,混淆矩阵里面统计的是个数,有时候面对大量的数据,光凭算个数,很难衡量模型的优劣。以猫为例,在总共18只真猫中,我们的模型认为里面只有10只是猫,剩下的3只是狗,5只都是猪。原创 2023-02-15 19:26:55 · 329 阅读 · 0 评论 -
数据挖掘08--线性回归
学习目标知道全梯度下降算法的原理知道随机梯度下降算法的原理知道随机平均梯度下降算法的原理知道小批量梯度下降算法的原理全梯度下降算法(Full gradient descent),随机梯度下降算法(Stochastic gradient descent),小批量梯度下降算法(Mini-batch gradient descent),随机平均梯度下降算法(Stochastic average gradient descent)原创 2023-02-15 17:22:47 · 286 阅读 · 0 评论 -
数据挖掘07--K近邻算法
load和fetch返回的数据类型datasets.base.Bunch(字典格式)data:特征数据数组,是 [n_samples * n_features] 的二维 numpy.ndarray 数组target:标签数组,是 n_samples 的一维 numpy.ndarray 数组DESCR:数据描述feature_names:特征名,新闻数据,手写数字、回归数据集没有target_names:标签名# 获取鸢尾花数据集#print("鸢尾花数据集的返回值:\n", iris)原创 2023-02-15 17:10:32 · 81 阅读 · 0 评论 -
数据挖掘06--特征变换(二)
离散后数据好处:对于连续型特征,在离散化之后,能够降低对离群数据的影响,例如将表示年龄的特征离散化,大于50的是1,否则为0。with_mean:布尔型,默认为 True,表示在缩放前将数据居中,当尝试在稀疏矩阵上时,这不起作用(并且会引发异常),因为将它们居中需要构建一个密集矩阵,在常见的用例中,该矩阵可能太大而无法容纳在内存中;pd.qcut函数,按照数据出现频率百分比划分,比如要把数据分为四份,则四段分别是数据的0-25%,25%-50%,50%-75%,75%-100%原创 2023-02-15 16:50:53 · 183 阅读 · 0 评论 -
数据挖掘06--特征变换(一)
A.数值型(连续型)B.离散型B.1分类数据(categorical or nominal data)B.1.1二分类型*B.1.2多分类*B.2 顺序数据(Ordinal data)顺序型1.特征数值化(分类型特征转数值)1.1.df.replace方法 字符串替换为数值1.2.sklearn中专有模块LabelEncoder1.3.项目案例2.特征二值化2.1.np.where函数完成阈值判断和赋值2.2.利用sklearn提供二值化模原创 2023-02-15 15:50:17 · 229 阅读 · 0 评论 -
数据挖掘05--特征分析
它其实就是我们之前学的relplot(),catplot()以及lmplot()这几个函数的一个上层类,我们可以根据自己的需求定制每个格子中画什么样的图形,使用更加自由。绘制函数: sns.scatterplot(x=None,y=None,hue=None,style=None,size=None,data=None) x、y是有关的两个变量数据集(一位的) hue,size、style显示不同的数据集条件类别 data制定的数据集。pairplot(变量关系组图) 描述数据集中的成对关系。原创 2023-02-15 15:28:33 · 274 阅读 · 0 评论 -
数据挖掘04--多个数据源合并
同时支持横向合并与纵向合并pd.concat(* objs : 需要合并的对象,列表形式提供* axis = 0 : 对行还是对列方向进行合并* join = 'outer' : 对另一个轴向的索引值如何进行处理* keys = None : 为不同数据源的提供合并后的索引值# 纵向合并df21 = pd.read_excel("data/高校信息.xlsx", sheet_name = 'part1')原创 2023-02-15 13:43:30 · 374 阅读 · 0 评论 -
数据挖掘04--数据集成
在Pandas中,分组是指使用特定的条件将原数据划分为多个组,聚合在这里指的是,对每个分组中的数据执行某些操作,最后将计算的结果进行整合。通过groupby()方法的by参数可以指定按什么标准分组,该参数可以接收的数据主要有以下4种。如果希望保持与原数据集形状相同,那么可以通过transfrom()方法实现。原创 2023-02-15 13:20:27 · 168 阅读 · 0 评论 -
数据挖掘03--质量分析
fill_value自定义。[4, 5, 6],# 运行结果[[666 2 3][4 5 6][7 8 9]]fill_value为默认值Zone。[4, 5, 6],# 运行结果[[0 2 3][4 5 6][7 8 9]]原创 2023-02-15 11:17:52 · 161 阅读 · 0 评论 -
数据挖掘02--变量变换
df2.所在城市.replace(['北京市','上海市'],['帝都','魔都'],True) #列表值批量替换。df2.所在城市.replace({'北京市':"北平","上海市":"申城"},inplace=True)df2.所在城市.replace('北京市','帝都',inplace=True) #单个值的替换。df2["new"]=np.sqrt(df2.总分)df2.loc[70,'所在城市']="上海市01"df2['所在城市'][70]="上海市01"#该方法会直接修改原df。原创 2023-02-15 09:59:22 · 79 阅读 · 0 评论 -
爬虫--Xpath解析
/div[@class="song"] 即 tag[@attrName="attrValue"]//div[@class="song"]/p[3] 从1开始返回第3个标签。//text() 获取的是标签中非直系的文本内容(所有文本内容)、、1.将本地的html文档资源中源码数据加载到etree对象中。/text() 获取的是标签中直系的文本内容。// 可以表示从任意位置开始定位。2.将从互联网上获取的源码资源数据加载到对象中。/ 表示的是从根节点开始定位。引号必须与外引用的引号不同。原创 2022-11-17 19:42:02 · 66 阅读 · 0 评论 -
爬虫--bs4
②属性定位:soupfind('tagname',class_='song') [class_/id/attr]①select('某种选择器(id,class,标签...选择器)') 返回一个列表。soup.find_all('tagname') 返回所有符合要求的标签(列表)soup.tagname 返回的文档中第一次出现的tagname对应的标签。fp=open('文档名','r',encoding='utf-8')1.本地的html文档加载到该对象中。原创 2022-11-17 18:59:00 · 59 阅读 · 0 评论 -
爬虫--正则表达式
尝试董字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。非贪婪匹配:(.*?会匹配尽量少的字符)贪婪匹配:(.*会匹配尽量多的字符)原创 2022-11-16 09:33:22 · 55 阅读 · 0 评论 -
爬虫--基础
type(response) -->response属性response.status_code -->http请求的返回状态,2xx表示连接成功,3xx表示跳转,4xx客户端错误,500服务器错误。原创 2022-11-13 22:55:22 · 79 阅读 · 0 评论 -
数据挖掘02--Pandas
Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,pandas学习的目的在增强图表可读性其中Series是一维数据结构,DataFrame是 二维的表格型数据结构,Multilndex是 三维的数据结构。#检查版本升级版本。原创 2022-10-09 16:06:16 · 108 阅读 · 0 评论 -
数据挖掘01--Numpy
通过%time魔法方法,查看当前行的代码运行一次所花费的时间创建x行y列的二位空数组,值为0同上,值为1类似b数组组值为0的数组x行x列的对角线为1,其他全为0的方阵。原创 2022-10-08 17:02:54 · 56 阅读 · 0 评论 -
数据挖掘01--数据结构
把函数作用在序列元素上,但是该函数的结果必须是布尔型,filter跟据true或者false进行元素的保护和删除。因为嵌套的List保存的是地址,复制过去的时候是把地址复制过去了,嵌套的List在内存中指向的还是同一个。对于List来说,其第一层,是实现了深拷贝,但对于其内嵌套的List,仍然是浅拷贝。要注意的是如果已经有了一个列表a,同时想复制a,命名为变量b,那么。功能上看,列表与元组的区别是,列表可以被修改,二元组不可以。无论多少层,无论怎样的形式,得到的新列表都是和原来无关的。原创 2022-10-08 10:58:05 · 78 阅读 · 0 评论 -
日期函数(padas高级接口dt的使用)
【代码】日期函数(padas高级接口dt的使用)原创 2022-10-07 17:04:57 · 123 阅读 · 0 评论