- 博客(33)
- 收藏
- 关注
原创 网易buff出售商品批量备注
编写原因:网易buff中的商品在自己的【出售】模块下架之后,通常需要等待6-7天,只有这样才能在再次上架时提高曝光度,因此每次在下架时我通常会在备注里面写上下架日期,便于之后有计划的上架,但是通常上架的商品有几百个,一个个地手动备注太过于麻烦,所以学习了自动化工具,又因为网易buff有网页端,因此做出了一个简单地可以批量备注地python程序,代码如下。2. 驱动解压到任意路径后,把程序中的驱动路径更改为自己的路径。
2024-08-10 11:03:38
419
原创 mysql(8.0及以上版本)管理用户命令总结
主机ip地址如果设置成localhost,那就只有本地能够登录这个用户 ,如果设置成%的话,任意主机都可以连接此用户。
2024-03-25 14:54:13
412
原创 scrapy爬取到的数据为空
网上说是【allowed_domains】需要补全,所以尝试了把【start_urls】的内容复制给了【allowed_domains】,最终尝试了发现是头信息里的cookie没有设置,scrapy默认用了它内部设置的头信息。使用scrapy爬取58同城的数据,发现xpath路径正确,第一次运行确实可以输出数据,但是第二次运行后却返回了一个空列表,代码如下。3.设置headers,添加cookie,以及UA,如果有referer的话也添加进去。又因为第一次运行时能够输出内容,因此排除了xpath路径问题。
2024-03-21 22:43:12
664
1
原创 大数据集群常用端口号
历史服务器网页端口号19888,集群内部端口号是10020。yarn的ResourceManager网页端8088。namenode 网页端口号9870。namenode内部端口号 8020。
2023-07-26 11:03:16
249
原创 hive的去重的方法总结
原始数据用户id是102的有多个下单日期根据需求,需要进行去重。distinct会对他后面所有的字段进行一个去重。如果distinct放在两个字段中间会报错。3.利用排行窗口函数 row_number。1.利用关键字distinct。2.利用group by去重。
2023-07-01 09:53:15
608
原创 hive设置本地模式插入数据时产生的错误
新版本的Hive启动的时候,默认申请的JVM堆内存大小为256M,JVM堆内存申请的太小,导致后期开启本地模式,执行复杂的SQL时经常会报错。(1)修改$HIVE_HOME/conf下的hive-env.sh.template为hive-env.sh。(2)将hive-env.sh其中的参数 export HADOOP_HEAPSIZE修改为2048,因此最好提前调整一下HADOOP_HEAPSIZE这个参数。
2023-06-30 22:07:10
713
原创 linux常用命令
添加用户目录添加到指定目录 useradd -d 路径 name。删除用户,但不删除/home下的主目录 userdel name。删除用户的同时删除用户主目录 userdel -r name。用户创建之后默认就在自己gid标识的组。usermode -g 新组 旧组。添加用户 useradd name。
2023-06-30 15:01:36
60
原创 HDFS读写数据流程
1.客户端通过Distributed FileSystem模块向集群中的namenode发送请求上传数据2.namenode检查客户端是否有创建目录权限,以及要创建的目录是否已经存在,如果满足条件,namenode向客户端发出响应可以上传文件3.客户端上传block,请求集群给出datanode4.集群返回若干datanode。5.客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
2023-06-06 18:20:49
138
原创 numpy学习记录
ndarray是一个多维数组对象由两部分构成1.包含实际的数据2.包含描述这些数据的元数据(数据维度、数据类型等)ndarray数组一般要求所有元素类型相同(同质),数组下标从0开始ndarray是n维数组对象包含两部分:1.数据部分2.包含数据的元数据信息。
2023-06-06 10:52:55
108
原创 计算机网络-传输层
传输层是主机才有的层次,主机和主机之间的网络设备最高只到网络层功能:1.实现进程与进程之间的逻辑通信2.复用和分用:复用:就是两个进程所发送的报文段,使用同一个传输层协议传送到网络层。分用:把收到的报文段交付给特定的进程,qq消息交给qq,微信消息交给微信。3.传输层对收到的报文进行差错检验,收到的报文就是网络层传输报文的数据部分。
2023-06-03 18:30:37
77
原创 requests库使用学习
如果使用response.text的话会报错,因为r.text是按照字符串形式返回会导致保存图片出错,然而r.content是按照二进制形式返回的。可以先在浏览器随意搜索一个词,查看字典内的key值是什么。如果响应的内容打印出现乱码,可以使。
2023-06-03 10:22:10
52
原创 xshell远程连接阿里云服务器遇到的问题
5.查看ssh服务状态显示: error: Bind to port 22 on 0.0.0.0 failed: Address already in use.无法解决,只好再重新开启一个ssh的端口 :2023 ,并且在阿里云安全组中添加2023端口。1.首先在自己的命令行窗口ping + 服务器公网ip查看是否连通。4.使用阿里云通过Workbench远程连接,在终端开启ssh服务。点击安全组 -> 配置规则 ->点击手动配置->配置指定端口。在安全组内如果没有开启的话会导致无法连接。
2023-05-23 15:02:37
1888
原创 hive中sql操作
comment:是对数据库的注释,是字符串location: 设置数据库在hdfs中的路径 ,默认路径是 /user/hive/warehouse/数据库名.db,指定路径使用单引号。with dbproperties 给数据库设置一些键值。
2023-05-20 15:22:47
574
1
原创 虚拟机中的网络模式
在虚拟机中进行网络连接测试,查看虚拟机是否和主机连接在虚拟机中使用主机ip可以在命令行窗口输入ipconfig查看主机ip地址在虚拟机终端查看是否能够ping通。
2023-05-19 11:12:41
1380
1
原创 vim操作
一般模式:在终端输入进入一般模式,在一般模式只能进行。编辑模式:点击a,i,o中的任意键进入编辑模式。命令模式:在一般模式输入“ :”进入命令模式。
2023-05-19 09:05:38
210
1
原创 centos下载镜像文件
如果电脑是win10系统的话就选择x86版本,点击进入如图界面。3.点击任意一个镜像源,选择以iso结尾的文件下载。2.根据系统选择合适的版本。1.进入centos官网。
2023-05-17 21:22:40
6030
1
原创 java中的进程和线程
1.进程1.进程在java中每运行一个程序就会产生一个进程进程的名字就是程序名称。使用while循环使程序能够不断运行。使用javac 编译java程序使用java 命令执行java程序不关闭程序执行界面,再次打开一个命令行窗口使用jps命令查看正在运行的进程。
2023-05-13 16:50:41
244
原创 大数据处理架构Hadoop
目录什么是hadoop呢?从课本中了解到是一个开源分布式计算平台 ,为用户提供分布式基础架构,可以想象hadoop是一座戏台供各式各样的角色(各种功能组件)发挥作用,hadoop和它的各种功能组件的作用是用来存储和处理海量数据。hadoop有五大重要特性hadoop有1.x版,2.x版,3.x版 其中1.x和2.x最大的不同是 在1.x时处理数据和分配资源是由mapreduce独自完成的,而2.x版将调度资源的功能分配给了yarn,mapreduce只负责数据处理。HDFS分布式文件管理系统是hadoop
2022-06-23 10:56:10
344
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人