- 博客(66)
- 资源 (1)
- 收藏
- 关注
原创 对称图做法,全程动图演示
最终效果:实现步骤:其他图形画法:点线对比图做法,全程动图演示气泡图做法,全程动图演示重叠柱状图做法,全程动图演示瀑布图做法,全程动图演示
2024-01-23 10:46:59
407
原创 用pandas处理数据时,使变量能够在不同的Notebook会话页面进行传递,魔法命令%store
以便在不同的Notebook会话之间都能访问到,你可以考虑将变量存储在文件中,然后在需要的时候从文件中读取。这种方式可以长期保存变量的值。这样做可以在不同的Notebook会话之间保持变量的值。不过要确保你保存的文件路径是可访问的,并且注意保护敏感数据。命令来存储变量会保持到你关闭当前的Jupyter Notebook会话为止。4、然后去数据可视化的.ipynb文件读取这个带有时间变量的文件名。在使用pandas时,有的时候我想将.ipynb文件分开写。,除非你再次打开Notebook并使用。
2023-10-06 20:15:00
507
原创 在大数据相关技术中,HBase是个分布的、面向列的开源数据库,是一个适合于非结构化数据存储的数据库。
HDFS,适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。Hbase,是一个分布式的、面向列的开源数据库,适合于非结构化数据存储。MapReduce,一种编程模型,方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。Chukwa,是一个开源的用于监控大型分布式系统的数据收集系统。
2023-10-05 09:00:29
774
原创 用户无需购买软件,而是租用基于web的软件来管理企业经营活动,这种模式属于软件即服务 SaaS
向用户提供虚拟的操作系统、数据库管理系统、Web应用等平台化的服务。如:Cloud Enginee、App Enginee。向用户提供计算机能力、存储空间等基础设施方面的服务。如:Amazom、阿里云。向用户提供应用软件、组件、工作流等虚拟化软件的服务。
2023-10-05 08:58:28
261
原创 Internet通过TCP/IP协议可以实现多个网络的无缝连接
TCP/IP是Internet的基础通信协议套件,它定义了数据如何在不同网络之间传输和路由,使得全球范围内的不同计算机和网络可以互相通信。TCP/IP协议套件包括多个协议,其中最重要的两个是TCP(Transmission Control Protocol)和IP(Internet Protocol)。TCP/IP协议通过IP地址唯一标识每个连接到Internet的设备,并使用TCP来确保可靠的数据传输。它使得从一台计算机到另一台计算机的数据传输变得无缝,无论这些计算机连接到哪个网络,都可以互相通信。
2023-10-05 08:49:12
756
原创 EDI是连接原始电子商务和现代电子商务的纽带
用于在不同组织之间以结构化和标准化的方式交换业务文档和数据。EDI使企业能够更有效地与供应商、客户和合作伙伴之间进行业务交流,以实现自动化、高效的数据传输和处理。EDI允许企业自动化处理许多常见的业务流程,如订单处理、发票处理、物流跟踪等。使用EDI可以减少或完全消除纸质文档的需求,如订单、发票和交货通知。EDI被广泛应用于不同的行业,包括零售、制造、物流、医疗保健等。使用EDI可以大幅缩短交易处理时间,减少了传统邮寄和传真的延迟。EDI通常使用安全协议和加密技术来保护数据的机密性和完整性。
2023-10-05 08:43:24
339
原创 一张大图中有多个子图,子图与子图图表形式还不一致,可以考虑使用这种方法
【代码】一张大图中有多个子图,子图与子图图表形式还不一致,可以考虑使用这种方法。
2023-09-22 15:27:36
151
原创 在pandas中使matplotlib动态画子图的两种方法【推荐gridspec】
【代码】在pandas中使matplotlib动态画子图的两种方法【推荐gridspec】
2023-09-22 14:50:25
258
原创 pandas加速运行时,判断加速运行常用的两个库【bottleneck库】和【numexpr库】开启与关闭状态
在pandas中处理大数据集时想要加速进行运算,两个库必不可少,强烈推荐安装。如果不确定是开启还是关闭状态,可以查询一下,会显示True或False。这两个库如果安装了,默认是开启的,如果没安装需要安装。安装官方的说法,是这两个库是默认开启的,可以手动关闭。bottleneck库。
2022-11-18 11:15:02
1390
原创 原数据需要搭配映射表使用,根据映射表数据快速将原始数据进行补全
开发同学为了数据库优化,很多数据存储的时候做了一层映射。比如:语,数,外 --> 1,2,3。我们需要将其映射回来
2022-10-17 09:35:46
509
原创 RockyLinux9.0系统在VMware虚拟机上【保姆级】安装步骤,并修改网络配置,使用固定IP进行SSH连接【47张过程图】
RockyLinux9.0多图详解版
2022-09-30 11:17:08
10007
2
原创 datetime时间格式的几种常用转化+对时间空值进行判断中遇到的坑isna()和isnull()
注:通过上图,我们可以看到【实际日期】是存在空值的,四种方法都可以进行判断空值,但是在下面函数进行判断是,不能使用.isna( )和.isnull( )。而要使用pd.isna( )或pd.isnull( )。
2022-09-28 18:05:53
754
原创 pandas数据映射,更改列名,批量映射替换某列数据replace、map、apply、rename对比
首先,无论那一种方法,都建议先将映射关系写出来,然后使用方法时,可以直接调写好的关系表。
2022-09-23 14:27:31
1949
原创 pandas中根据两列 或 多列进行条件对比,生成新列【三种方法】
使用目的:使用目的:两列数量对比,收货比期望多,就是标记数量满足,否则就数量不满足如果数量满足、日期满足,那么总体就标记满足,有一个不满足就总体标记不满足。
2022-09-19 11:53:21
10867
原创 pandas数据透视表pivot_table对一列唯一值计数使用:aggfunc=np??三种方法
方法二:aggfunc=lambda x:x.value_counts().count()方法三:aggfunc=lambda x:len(x.dropna().unique())方法一:aggfunc=lambda x: len(x.unique()
2022-08-23 15:42:35
3415
原创 使用python在pandas中通过调取金蝶K3cloud API来进行取数据
注意:上面这组参数除了lcId和acctId,其他的账号、密码及密钥,要么你是金蝶的系统管理员能够自动生成,要么你就找相关人员要。不然后面没办法调取数据。
2022-08-02 17:27:58
2556
4
原创 我在Blue Nile(蓝色尼罗河)上通过python爬取一百万颗钻石,最终选出心仪的一颗
由于到了结婚的年龄,所以找到政府领取了女朋友一枚,并且把婚期订到了今年的圣诞节。由于加工好的成品钻价格实在是太高了,所以就把主意打到了"裸钻"身上,去了大罗塘一类的珠宝批发市场,热了一身的汗,但是还是感觉没有合适的。先是在各种周大福、周六福、周福福看,后来又在某东、某宝、某官网看,翻遍了网上各种达人教你如何选择钻戒的文章、视频。通过Excel选出喜欢的并进行标记,再将标记得编号,写成代码,把GIA证书进行下载,逐个对比GIA正证书的参数。--------代码在文章最下面----------...
2022-08-01 17:38:18
582
原创 在 pandas 中画树状图,使用 squarify 画树状图
importsquarify#用来画树状图dfdf.sort_values(by='DeliveryTime',inplace=True,ascending=False)#把数据排序,画出的树状图归整些#取消轴显示好看一点点httpshttpshttpshttps。
2022-07-21 10:03:42
1488
原创 使用 plt.plot/scatter 画散点图,并将两个及两个以上散点图在一张图中显示
此处巧妙的将plot折线图的默认“-”改成了“o",就可以将多个散点图放在一块了,同样的方法适用于一张图中画多个折线图。
2022-07-20 10:23:04
10997
1
原创 常见的反爬技术,并给出应对方案
1. Headers从用户的 headers 进行反爬是最常见的反爬虫策略。Headers(上一讲中已经提及) 是一种区分浏览器行为和机器行为中最简单的方法,还有一些网站会对 Referer (上级链接)进行检测(机器行为不太可能通过链接跳转实现)从而实现爬虫。相应的解决措施:通过审查元素或者开发者工具获取相应的 headers 然后把相应的 headers 传输给 python 的 requests,这样就能很好地绕过。2. IP 限制一些网站会根据你的 IP 地址访问的频率,次数进行反爬。也就是
2022-02-17 17:50:47
1749
HTML基础 | 常用标记|xHTML5常用的标签.xmind
2020-12-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人