
大数据
zjc4j
打工人
展开
-
pytorch+numpy实现,按行从大到小排序 ,找出值大于0.5所对应的行列值
问题pytorch+numpy实现,按行从大到小排序 ,找出值大于0.5所对应的行列值。代码import torchx = torch.randn(3,4)print(x)sorted, indices = torch.sort(x, descending=True) #按行从大到小排序 (即反序)print(sorted)print(indices)# sorted[:, sorted[:,]>0.5]mz_items = sorted[:,] > 0.5print(m原创 2021-11-14 19:30:09 · 1558 阅读 · 0 评论 -
idea2021.1版本,设置自动显示scala类型
设置如下Editor–>Inlay Hints–>Scala设置之后,成功显示scala类型:原创 2021-08-07 20:36:38 · 1397 阅读 · 2 评论 -
需求:用pandas 依据某列的值进行从小到大排名,排名从0开始,如果某列值相同则排名相同,总排名数小于记录条数
需求需求:用pandas 依据某列的值进行从小到大排名,排名从0开始,如果某列值相同则排名相同,总排名数小于记录条数。实现之前,用下面的方法来实现上面的需求,但是因为数据量太大了,我从晚上开始运行,到第二天来还没运行出来结果,后来直接OOM了…后来,突然想到hive中rank()函数、DENSE_RANK()、ROW_NUMBER()函数了,这三个函数功能分别是:RANK() 排序相同时会重复,总数不会变(两个满分,99分的是第三名)DENSE_RANK() 排序相同时会重复,总数会减少(两个原创 2021-06-23 15:53:12 · 602 阅读 · 0 评论 -
centOS7.5下安装keepalived实现MySQL(5.6版)高可用(待解决!!!!!!)
引言在centOS7.5下好不容易安装好MySQL,今天尝试搭建MySQL HA,但是安装keepalived的时候失败了,因为又又又冲突了。如下图所示:sudo yum install -y keepalived通过上图可知,安装keepalived时候需要依赖mariadb-lib,而安装mariadb-lib又与MySQL冲突。另一台服务器,没有安装MySQL,直接安装keepalived就能顺利安装成功,如下图所示:【结尾】在网上找了半天还是没有解决掉,希望有解决的大佬告知,谢谢。原创 2021-06-08 17:42:37 · 128 阅读 · 0 评论 -
centOS7.5下安装MySQL5.6总结
前言Linux下“最难”安装的软件只之一,MySQL。在centOS6.x版本我安装的时候还比较容易的,但是到了centOS7.x安装就比较麻烦了,安装了6个小时,算是暂时安装成功。安装步骤1. 先卸载默认安装的mysqlrpm -qa|grep -i mysql有默认安装的卸载掉:rpm -e –nodeps (上面出现的软件)2. 尝试安装sudo rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm由上图可知安装失败,从上面可以获取到找的原创 2021-06-07 22:26:33 · 384 阅读 · 0 评论 -
有多少种走法
题目代码码源方法1,排列组合:从左上角到右下角的过程中,我们需要移动 m+n-2 次,其中有 m−1 次向下移动,n-1 次向右移动。因此路径的总数,就等于从 m+n−2 次移动中选择 m-1次向下移动的方案数。class Solution { public int uniquePaths(int m, int n) { long result = 1L; for (int x = n, y = 1; y < m; x++, y++) {原创 2021-04-16 22:12:44 · 559 阅读 · 0 评论 -
调优之Hadoop(更新中...)
调优小总结1. dfs.namenode.handler.count设置多少的问题NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作,也即dfs.namenode.handler.count=20 * log2(Cluster Size),该参数默认值为10(在hdfs-site.xml里)。在使用时要根据实际情况设置,比如集群规模为8台时,此参数设置为60。2.数据统计主要用HiveSQL,没有数据倾斜,小文件已经做了合并处理,开启的JVM重用,而且I原创 2021-04-16 17:52:05 · 98 阅读 · 0 评论 -
调优之Flume(更新中...)
调优小总结1. 启动消费Flume抛出OutOfMemoryError现象: ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded内存不足导致的,在flume-env.sh文件增大分配的内存,注意:-Xmx与-Xms最好设置一致,减少内存抖动带来的性能影响,如果设置不一致容易导致频繁fullgc。flume/conf/flume-env.sh文件中增加如下原创 2021-04-16 17:36:38 · 180 阅读 · 0 评论 -
调优之Kafka(更新中...)
参数调优小总结1. Kafka机器数量计算Kafka机器数量(经验公式)=2*(峰值生产速度副本数/100)+1先拿到峰值生产速度,再根据设定的副本数,就能预估出需要部署Kafka的数量。比如峰值生产速度是50M/s。副本数为2,则有:Kafka机器数量=2(50*2/100)+ 1=3台...原创 2021-04-16 16:31:43 · 77 阅读 · 0 评论 -
大数据相关框架常用端口(更新中...)
大数据相关框架常用端口(可能有错误或不准确的地方,欢迎指正!)1.web端查看HDFS文件系统:500702.历史服务器web端地址:198883.历史服务器端地址:100204.SecondaryNameNode辅助名称节点端口号:500905.YARN的浏览器页面查看:80886.zookeeper客户端连接端口:21817.zookeeper执行选举时服务器相互通信的端口:38888.Kafka服务端的端口号:90929.Kafka Eagle监控web端口:804810.Kaf原创 2021-04-16 15:40:30 · 587 阅读 · 0 评论 -
sudo: etc/sudoers可被任何人与. sudo: 没有找到有效的 sudoers资源,退出 sudo: 无法初始化策略插件
/etc/sudoers简单理解是用于给其他用户添加root权限的。如下:给atguigu添加root权限,这样以后使用 sudo +root用户才能使用的命令。(感谢尚硅谷提供开源视频)修改完/etc/sudoers内容后要将权限改回来:chmod 0440 /etc/sudoers不然的话:以上都是个人理解,仅供参考。...原创 2020-12-19 17:02:03 · 10866 阅读 · 7 评论