- 博客(31)
- 收藏
- 关注
原创 利用python进行数据分析(重点、易忘点)---第八章数据规整:聚合、合并和重塑
因为一些历史版本的遗留原因,DataFrame的join方法默认使用的是左连接,保留左边表的行索引。combine_first可以看作用传递对象中的数据为调用对象的缺失数据“打补丁”,举例就是下面df1的缺失值在df2看看有没有,如果有就用来替换掉df1的缺失值。它允许你将 DataFrame 中的某个列的值,按另外两列进行分组,创建一个以这些列的组合为列标签的宽格式表。最后一个关于DataFrame的问题是,如果DataFrame的行索引不包含任何相关数据,即行索引作用不大,在这种情况下,传入。
2025-02-26 21:32:24
916
原创 利用python进行数据分析(重点、易忘点)---第七章数据清洗和准备
它可以快速生成关于数据的汇总统计信息,如均值、标准差、最小值、最大值等。用来检查是否所有元素都为“真”,即True,可以结合axis使用,例如any(axis=0)(“axis=”可省略)。分一个字符串,分隔符为数量不定的一组空白符(制表符、空格、换行符等)。drop_duplicates方法删除重复行,如果判断指定列的重复行,就在里面放入相应列名的列表。对于一个Series,dropna返回一个仅含非空数据和索引值的Series。最基本的,通过一个常数调用fillna就会将缺失值替换为那个常数值。
2025-02-25 20:50:32
547
原创 利用python进行数据分析(重点、易忘点)---第六章常用的数据加载存储
可以是整数(表示列的索引,0 表示第一列,1 表示第二列,依此类推),或者是列名(字符串形式);=“”,用在pd.read_table()里,先观察放到read_table()的文件用什么分隔,比如文本文件(.txt),有可能用空格(/s+)分隔等。= None/0/1/2/........如果header=None就是把全部内容作为数据行,header=n就是把第n行作为列名,之前的行用作数据行。=[ ](列表),限制加载的列,从而提高读取效率,也可以为整数(从0开始)或者列名。
2025-02-25 00:20:12
403
原创 利用python进行数据分析(重点、易忘点)---第九章绘图和可视化
使用savefig保存图片,一般用.png格式,在发布图片时最常用到两个重要的选项是dpi(控制“每英寸点数”分辨率)和bbox_inches(可以剪除当前图表周围的空白部分)。使用pandas绘图与之前主要区别在于,之前是在图里面绘制(ax.plot()),或者直接绘制(plt.plot()),这里是在Series或DataFrame后接上plot()。上下两行代码的作用相同,上面是下面的简化版,color是颜色,linestyle是线型,marker是标记。是一个图形对象,它代表整个图形窗口或画布。
2025-02-24 21:10:00
979
原创 利用python进行数据分析(重点、易忘点)---第五章Pandas基础学习
之前看的pandas的教材和课程里,内容参差不齐,很多实际使用很少用上的方法内容有点多,导致很乱而且记不住那么多,这个帖子尽量用最少的文字,最精炼的语言来总结我认为比较实用的方法。
2024-12-22 00:26:58
1062
原创 rnn/lstm 项目实战
在深度学习模型中,层数概念指的是网络结构中的不同计算层,它们共同完成数据的逐步抽象和特征提取。一般来说,一个模型的层可以分为输入层隐藏层和输出层。这些层共同构成了模型的数据流动路径和特征提取结构。这个股票预测rnn模型的局限性:预测结果比实际结果趋势变化较慢。如上图所示,实际数据已经开始上升了,而预测的数据还在下降,并在下一个时间点上才开始上升。总结一下rnn和lstm两个项目中,训练和预测用到的数据:rnn:用一个文件做训练集,对模型进行训练;用另外一个文件直接拿来做预测。
2024-11-03 19:55:39
1343
1
原创 虚拟环境设置成kernel来解决一些jupyter报错问题
我自己下载的python是3.12版本的,不是说3.7不好,我反正不太清楚为什么anaconda的python3.7环境老是报错,根本就不能conda install,于是我想到,能不能让jupyter用我自己下的python3.12环境呢?之前在笔记本电脑也创建过一个myenv环境,即可以创建一个python 3或者myenv的jupyter文件,本机的myenv虚拟环境python版本为3.8,忘记咋弄的了,重复上面的操作,应该也能创建类似的kernel。这不,在要用到keras包的时候,又报错了。
2024-10-30 19:03:54
1469
原创 rnn/lstm
tip:本人比较小白,看到july大佬的文章受益匪浅,现在其文章基础上加上自己的归纳、理解,以及gpt的答疑,如果有侵权会删。
2024-10-29 19:52:34
1376
原创 力扣刷题(sql)--零散知识点(2)
例题1:查询每个工资类别的银行账户数量。:所有工资严格低于20000美元。包含范围内的所有工资。:所有工资严格大于50000美元。结果表必须包含所有三个类别。如果某个类别中没有帐户,则报告0。Accounts 表:这里主要难点就是把这类“Average Salary”组内没有符合条件的分组不能将其省略,可以通过以下方法,用union来操作,不是很高级的方法,但很完美实现了目的,适用于分组比较少的情况,真的很实用。unionunion。
2024-10-28 20:44:09
1522
原创 力扣刷题(sql)--零散知识点(1)
通过一段时间的刷题,感觉自己的sql能力逐渐上去,所以不会像前三道题一样讲那么详细了,这里主要会讲到一些特殊的知识点和方法。另外,我的建议是做完一个题有好的想法赶紧记录下来,不要想着最后汇总,不然会懒得整理,也会忘记一些当时才发现的知识点。
2024-10-23 21:38:22
918
原创 sqlleedcode刷题(上升的温度、机器进行时间、学生各科参加次数)
如图所示,select的student_id,student_name(来自表a),subject_name(来自表sub)都来自上图靠左的表列名,而count()的列名却是右边的列名*(来自表b),这样就起到了合理统计数量的作用,即题目需要我们实现的目的。
2024-10-21 19:46:31
956
原创 sql必知必会(读后需要记住的一些重难点)
为更新表定义,可使用ALTER TABLE语句。常见的有增加(add)、删除列(drop)。ALTER TABLE的一种常见用途是定义外键。
2024-10-18 16:27:32
956
原创 利用python进行数据分析(重点、易忘点)---第四章
自然对数e的次方,这里的arr的dtype应为float,下面的sqrt也是,不然会报错# 开方# 求两组相同结构array最大值(x、y多维的也行,也能直接用大于小于号比较得到相同结构的布尔值)# 分开整数部分和小数部分# 把开方后的结果赋给arr,exp等其他函数也可以。
2024-10-17 22:15:43
1011
原创 sql必知必会(表联结篇)
ps:这里很多联结种类,如果概念容易忘记的话,可以记住每个联结对应的实例,都是很经典的例子,可以很好的帮助理解和记忆。
2024-10-16 21:34:33
866
原创 利用python进行数据分析(重点、易忘点)---第三章
所以,像数字、字符串、元组(里面不包含可变对象)等可哈希的类型可以作为集合的元素,而列表、字典等不可哈希的类型不能直接放入集合中。(iterator protocol,它是一种使对象可迭代的通用方式)的方式实现的,一个原生的使对象可迭代的方法。在Python中,可迭代对象是指可以逐一访问其元素的对象,常见的有列表、元组、字符串、字典、集合等容器类型,以及生成器和。的部分是想要舍弃的部分,rest的名字不重要。这里的行指的是换行符,可以是手动输入的”/n“,更多指的是按enter在文本文件形成的换行符。
2024-10-16 00:05:21
900
原创 数据分析方法(回归分析,决策树与神经网络,提升树,时间序列分析,假设检验,用户画像,竞品分析)等
回归分析是一种统计方法,用于探索自变量(预测变量)和因变量(目标变量)之间的关系。它可以帮助预测变量的变化对目标变量的影响大小。例如,简单线性回归用于分析两个变量之间的线性关系,而多元回归分析可以处理多个自变量的情况。
2024-10-15 16:45:35
1176
原创 软考(中级数据库)4 操作系统基础(4.1)进程管理
解题思路:首先把已分配资源数加起来最后得到7、6、4,然后把五个进程还需要的资源数算出来,例P1还需要5、3、1等等,把可用资源数8、7、4减去已分配资源数7、6、4得到剩余资源数1、1、0,和五个进程还需要资源数进行比较,发现只有P4还需要的资源能由剩余资源数提供,那么先执行进程P4,剩下的步骤以此类推。假设系统中有三类互斥资源R1、R2和R3,可用资源数分别为8、7和4,在T时刻系统中有P1,P2, P3,P4,P5这5个进程,这些进程对资源的最大需求量和已分配资源数如下图所示。如打印机、共享变量等。
2024-05-22 14:40:23
609
原创 软考(中级数据库)3 数据结构与算法(3.8图的相关算法)
普里姆(Prim)算法是一种用于构造最小生成树的算法,它从一个起始顶点开始逐步扩展生成树,直到覆盖所有的顶点为止。对于有n个顶点的连通图,至少有n-1条边,而生成树中恰好有n-1条边,所以连通图的生成树是该图的极小连通子图。最小生成树:对于连通网来说,边是带权值的,生成树的各边也带权值,于是就把生成树各边的权值总和称为生成树的权,把权值最小的生成树称为最小生成树。求解最小生成树有许多实际的应用。生成树的概念:设图G=(V, E)是个连通图,如果其子图是一棵包含G的所有顶点的树,则该子图称为G的生成树。
2024-05-16 15:07:13
286
原创 软考(中级数据库)3 数据结构与算法(3.6排序算法3.7查找算法)
1、直接插入排序:按顺序插入待排关键字,插入时依次查找位置,直接插入,后面的依次后移。2、冒泡排序:依次把相邻的两个记录进行比较,然后交换位置。3、简单选择排序:每次选择最小的,与第一个没有排过序的记录交换。4、希尔排序:间隔若干个空的记录分为一组,进行直接插入排序,依次将间隔缩小到1为止。5、快速排序:设两个指针指示头尾,从尾开始,首尾交替轮流和枢。记录(第一个记录)进行比较,并交换位置。6、堆排序:反复将待排序列建立成堆,并取堆顶。
2024-05-14 17:21:00
837
2
原创 软考(中级数据库)3 数据结构与算法(3.5图)
一个图G (Graph) 是由两个集合:V和E所组成的,V是有限的非空顶点(Vertex) 集合,E是用顶点表示的边(Edge) 集合,图G的顶点集和边集分别记为V (G) 和E (G),而将图G记作G=(V, E)。可以看出,一个顶点集合与连接这些顶点的边的集合可以唯一表示一个图。在图中,数据结构中的数据元素用顶点表示,数据元素之间的关系用边表示。
2024-05-14 10:12:07
570
1
原创 软考(中级数据库)3 数据结构与算法(3.4树与二叉树)
当n=0时称为空树。在任一非空树中,有且仅有一个称为根的节点:其余节点可分为m (m≥0)个互不相交的有限集T1,T2,...,.其中每个集合又都是一棵树,并且称为根节点的子树。定义:二叉树是n(n≥0)个节点的有限集合,它或者是空树(n=0),或者是由一个根节点及两棵不相交的、分别称为左子树和右子树的二叉树所组成。(2)在F中选取两棵根节点的权值最小的树作为左右子树,构造一棵新的二叉树,置新构造二叉树的根节点的权值为其左、右子树根节点的权值之和。若i>1,则该节点的双亲节点为INT(i/2)。
2024-05-11 14:44:40
880
1
原创 软考(中级数据库)3 数据结构与算法(线性结构、数组、矩阵)
一个线性表是n个元素的有限序列(n大于等于0),通常表示为(a1,a2,a3,......,an)。
2024-05-10 16:47:31
648
原创 软考(中级数据库)1.4 安全性、可靠性与系统性能评测基础知识
摘要:对主要内容进行描述Hash函数:输入一个长度不固定的字符串,返回一串固定长度的字符串,又称Hash值。单向Hash函数用于产生信息摘要,单向指原文单方面指向hash值,而由hash值不能推导得到原文。对于特定的文件而言,信息摘要是唯一的。在某一特定的时间内,无法查找经Hash操作后生成特定Hash值的原报文,也无法查找两个经Hash操作后生成相同Hash值的不同报文。在数字签名中,可以解决验证签名和用户身份验证、不可抵赖性的问题。是被广泛使用的Hash函数,它们产生一种128位的信息摘要。
2024-04-16 22:46:43
752
1
原创 软考(中极数据库)2.程序语言基础
●低级语言:机器语言和汇编语言。是一种面向机器的语言,其格式取决于计算机的机器指令。难以理解,程序可读性差,程序设计效率低。●高级语言:面向各类应用的程序语言。如Java、C、C++、Python、 PHP、JavaScript等等。与人们使用的语言较为接近,便于理解,提高了程序设计的效率。机器语言:由0、1组成,计算机能无障碍理解,执行效率最高;但复杂度也极高、开发效率极低。汇编语言:用一个英文标签代表一组二进制指令,比机器语言更不复杂,但还是很复杂。下图为汇编语言打印“Hello World!
2024-04-16 16:48:00
1011
原创 软考(中极数据库)1.2 计算机存储结构与1.3存储系统
(即CPU先忙自己的,然后外设给CPU传送准备好的信号,让CPU先暂停并暂存当前进行的程序,等处理完外设的需求后,恢复之前暂停的程序。CPU工作时给出的是主存的地址,要从Cache存储器中读写信息,就需要将主存地址转换成Cache存储器的地址,这种地址的转换叫作。设Hc为Cache的命中率,tc为Cache的存 取时间,tm为主存的访问时间,则Cache存储器的等效加。直接映像:主存的块与cache块的对应关系固定,主存中的块只能存放在Cache存储器的相同块号中。对指令而言,就是单位时间里执行的指令数。
2024-04-15 16:11:01
618
1
原创 面板数据介绍
数据常分为时间序列数据、横截面数据、面板数据。时间序列数据:时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。特点是统计口径一致(收集同一指标、统计方法一致),按照一定顺序记录。举例说明:(1)一年内每天某一只股票的开盘价;(2) 10年某一个国家的GDP;(3) 某个地区从1月到12月的人均收入;横截面数据:横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。收集数据:时间点、收集指标和统计口径一致的。
2023-12-16 17:19:42
10052
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人