- 博客(16)
- 收藏
- 关注
原创 css自适应下的信息爬虫(克服页面杂乱无章,有序获取信息)【packet.response.body版】
假设你已经有了一个机制来获取 packet.response.body 中的数据,通常是通过网络抓包工具(如Chrome DevTools的Network面板)来查看具体的请求和响应。通过这种方法,你可以有效地从 packet.response.body 中提取图片信息,并将其保存到CSV文件中,从而实现有序的管理。中,这种情况常见于动态加载的内容,例如通过Ajax请求加载的图片信息。:确保响应数据的结构与示例中的结构一致,否则需要相应调整数据提取逻辑。中提取图片信息,并将其保存到CSV文件中。
2024-10-18 19:03:01
172
原创 css自适应下的信息爬虫(克服页面杂乱无章,有序获取信息)【直接从网页的HTML中提取信息】版
这段代码将会从指定的网页中爬取所有图片的信息,并按照宽度和高度进行排序,然后将排序后的信息保存到CSV文件中。你可以通过调整 url 变量来指向不同的网页,并根据需要调整其他参数。提取图片信息:遍历所有 标签,提取 src、width 和 height 属性,并存储在字典中。解析HTML:使用 BeautifulSoup 解析返回的HTML文档。排序图片信息:使用 sorted 函数按宽度和高度对图片信息进行排序。保存到CSV文件:将排序后的图片信息保存到CSV文件中。
2024-10-18 18:44:57
227
原创 pyechart画图时,时间Period(‘2018-09‘, ‘M‘)显示为null
如果您在绘图时发现 pandas.Period 对象导致标签显示为 null,这通常是因为绘图库可能不支持直接处理 Period 类型的对象。为了正确地显示日期,在绘图之前,您需要将 Period 对象转换为字符串或者 datetime 对象。在这个例子中,我们首先将 Period 对象转换成了 datetime 对象。然后使用 matplotlib 库绘制了一个简单的图表,并确保 x 轴的刻度使用了转换后的日期。如果您仍然遇到问题,比如日期显示不正确或者格式不对,可以进一步调整日期格式。
2024-10-05 14:46:15
159
原创 ‘DataFrame‘ object has no attribute ‘append‘
在Pandas中,DataFrame对象并没有一个名为append的方法。你可能是想使用append方法来追加行,但实际上应该使用的是pd.concat或者直接使用loc来追加行。
2024-10-03 16:41:19
2590
原创 transform处理非数值型数据的两种种方法
fit_transform() 方法通常应用于数值型数据,因为它涉及到数值计算,比如距离度量等。然而,在实际应用中,数据集可能包含非数值型(即类别型)数据。
2024-10-03 11:15:37
378
原创 缺失值填充的方法及其优缺点
可能会引入偏差,特别是如果使用的常数值与实际数据相差较大。中位数:也可以使用中位数,特别是当数据不是正态分布时。方法:用一个特定的常数(如0或-999)填充缺失值。对于非均匀分布的数据,可能会导致模型性能下降。方法:通过数学方法估计缺失值,例如线性插值等。前向填充(ffill):用前一个非空值填充。均值:对于数值型变量,可以使用列的平均值。方法:使用回归或其他预测模型来估计缺失值。方法:基于相似样本的距离来预测缺失值。众数:对于分类变量,可以使用众数。如果存在连续的缺失值,则无法填补。
2024-10-03 10:34:40
695
原创 org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode
确保你的 Hadoop 和 Hive 配置文件(如 core-site.xml, hdfs-site.xml, hive-site.xml)中的安全设置正确,并且 Kerberos 认证等相关配置正确无误。首先确认当前使用的用户(这里是 root)是否具备写入 /user/hive/warehouse 目录的权限。如果你是用 root 用户运行应用程序,但是 Hive 或者 Hadoop 是用其他用户(如 hadoop 或 hive 用户)运行的,那么你应该使用正确的用户身份来写入文件系统。
2024-09-25 11:11:57
681
原创 centos7安装MySQL8.0,HIVE(常见问题解决方法)
一、检查centos中是否安装过Mysql如果没有内容,则没有安装过,有过一下类似的,说明Centos安装过MySQL,要先安装新的mysql,需要卸载旧版本。写在之前,先将mysql停止,再卸载。执行 systemctl stop mysqld.service 在执行 rpm -qa | grep mysql | xargs yum remove -y检查是否还存在Mysql的配置文件 ls /etc/cnf有文件则删除 rm -rf /etc/配置文件。
2024-09-21 18:51:31
989
原创 静态ip设置失效, service network restart Restarting network (via systemctl): Job for network.service fail
ifconfig命令时看到了IPv6地址(inet6),但没有看到IPv4地址(inet4),这可能是因为你的系统只配置了IPv6地址,或者IPv4地址尚未被分配。如果使用NetworkManager,你可以检查/etc/NetworkManager/system-connections/ens33文件中的配置。如果使用传统的网络脚本,检查/etc/sysconfig/network-scripts/ifcfg-ens33文件中的配置。 是你的静态IP地址。
2024-09-11 22:45:39
1401
原创 spark:报错WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using built
用户身份运行 Spark 应用程序,请确保 Hadoop 配置正确地指定了用户。目录,但是没有相应的写入权限。这通常是因为 Hadoop 文件系统(HDFS)上的权限设置与当前用户的权限不匹配。从错误信息来看,您在尝试初始化一个 SparkContext 实例时遇到了权限问题。身份运行 Spark 应用程序,而是以其他具有正确权限的用户身份运行,请确保此用户对。但这不是一个安全的做法,因为这会放宽整个目录的权限。是默认的组名,您应该根据您的环境来指定正确的组名。用户需要写入权限,您可以将。
2024-09-10 21:22:07
729
原创 anaconda通过命令行升级客户端后,anaconda客户端无法启动。
检查环境变量:使用命令行更新或重置: 上述无法解决,再检查是否有错误消息:查看日志文件: 5.上述无法解决,重新安装 Anaconda:
2024-08-26 17:48:13
380
原创 一网打尽Matplotlib Pyplot画图(pycharm版)
pyplot是Matplotlib的子库,提供了和Matlib类似的接口,能很方便用户绘制2D图表。Pyplot 包含一系列绘图的相关函数,每个函数根据数据绘画出对应图像,也可以对当前的图像进行一些修改,例如:给图像加上标记,生新的图像,在图像中产生新的绘图区域等等。首先使用import 导入pyplot库,并给出一个方便引用的别名plt.plot()scatter()bar()hist()pie()
2024-08-25 02:13:08
4338
原创 pycharm导入matplotlib库画图时,报错AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘
这个错误,通常是由于 Matplotlib 的后端配置问题导致的。PyCharm 使用的是。后端,但如果这个后端没有正确配置或者不兼容当前的环境,就会出现这样的错误。在 PyCharm 中遇到。
2024-08-24 23:08:02
1223
原创 简易版:Power BI数据分析实战项目——淘宝用户行为分析(案例教程)
结论1.流量高的商品并不是购买量高的商品,高流量的商品购买量低导致了整体的流量转化率低,也就是推荐展示的逻辑并没有以销售为导向。3.用户主要集中在重要发展用户占用户数的91%建议1.建议算法部门优先展示购买量TOP10的商品类给顾客,例如等,如果说浏览量高的商品是新品或者近期主推的商品,是否可以考虑和TOP10购买的商品按照类目合理搭配销售,提升转化率和连带率。2.需积极。
2024-08-19 15:29:52
1387
原创 hadoop在安装zookeeper后,启动之后,jps,报错如:main class information unavailable
出现这个问题主要是我们在node节点配置myid时出现了错误。server后面的数字应当与myid值保持一致。zoo.cfg文件时,# 集群中服务器地址。# 集群中服务器地址。
2024-08-04 22:29:56
323
原创 Container exited with a non-zero exit code 127. Error file: prelaunch.err.
问题描述:Container exited with a non-zero exit code 127. Error file: prelaunch.err. Last 4096 bytes of prelaunch.err : Last 4096 bytes of stderr : /bin/bash: /bin/java: No such file or directory。hadoop-env.sh再/hadoop/etc/hadoop的文件夹下。
2024-08-04 22:16:38
652
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人