- 博客(85)
- 资源 (1)
- 收藏
- 关注
原创 HuggingFace下载模型默认保存在~/.cache/huggingface下面怎么修改这个路径?AutoModel.from_pretrained(‘bert-base-chinese‘, ca
AutoModel.from_pretrained(‘bert-base-chinese’, cache_dir=‘./’)
2023-06-12 16:32:09
2144
1
原创 centos7安装anaconda3改变默认安装路径
sudo bash Anaconda3-5.3.1-Linux-x86_64.sh -u /apps/lost+found/anconda3
2023-05-24 10:45:56
338
原创 pip安装解决报错:WARNING: Running pip as the ‘root‘ user can result in broken permissions and conflicting
大概意思就是:提示以“root”用户身份运行 pip 可能会导致权限损坏和冲突,因此我们需要创造一个虚拟的环境区执行它。
2023-05-04 15:56:26
513
原创 anaconda base环境_centos7 如何安装与使用 Anaconda
转发:https://blog.youkuaiyun.com/weixin_39534121/article/details/111181964。centos7 如何安装与使用 Anaconda。
2023-05-04 15:27:55
158
原创 conda环境下pip安装报错AttributeError: module ‘lib‘ has no attribute ‘X509_V_FLAG_CB_ISSUER_CHECK‘
上述安装命令按照实际情况不发先后。1、报错目录注释掉包含。
2023-05-04 10:23:39
1117
原创 企业级superset阿里云ESC搭建全流程详解
企业级superset阿里云ESC搭建全流程详解你好! 作为一名大数据猿来说。你可能会需要轻量级大数据bi工具superset来帮助你快速实现数据的可视化展示。那么我们以阿里云云服务器ESC举例,帮你清楚的了解到superset的安装流程基础环境介绍我们采用企业常用的服务器环境centos6.9:需要python环境切换工具miniconde第三代产品安装路径:(https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.s
2020-11-19 17:18:24
1172
2
原创 Oozie的工作流调度
设置oozie工作流调度workflowCoordinatorbundleworkflow.xmljob.properties内容:nameNode=hdfs://hadoop01:9000 --客户端连接hdfs集群jobTracker=hadoop01:8032 --客户端连接yarn集群queueName=default --调度队列filePath=/gp1819/oozie --oozie的根目录oozie.use.system.libpath=true –oozie.lib
2020-06-02 15:01:42
363
原创 FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcepti
查看mysql-connector-java-5.1.38.jar是否放到了所有节点的hive/lib目录下
2020-04-26 13:00:13
322
原创 hadoopHa集群namenode起不来的原因(1)
保错2020-03-22 22:00:51,467 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /export/servers...
2020-04-25 22:22:24
942
原创 RDD和sparksql的求分组topN
RDD16、计算出每个地区的地点人数最多的前3名?studentRDD.map(line => (line._4,line._7.toInt)).groupByKey().map(line => {(line._1, line.2.toList.sortWith( > _).take(3)) //按照降序进行排列}).collect().foreach(println...
2020-04-24 09:59:44
319
原创 将kafka中的数据消费到mysql的两种方式
方式一package demo01import java.sql.{Connection, DriverManager, PreparedStatement}import java.text.SimpleDateFormatimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import or...
2020-04-23 21:11:59
6482
原创 Txt文本传数据到Kafka的两种方式
方式一 自定义合并分区类import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerRecord;import java.io.Buffere...
2020-04-23 21:07:07
2108
原创 java和scala,RDD方式,MR的方式过滤txt文本中的数据
JAVA方式过滤数据package demo01;import java.io.*;public class show01 { private static String filename1; private static String filename2; public static void main(String[] args) { filename1=...
2020-04-23 20:54:03
546
原创 Spring/Spring Boot 整合 Mybatis + Phoenix
Spring + Mybatis + Phoenix2.1 项目结构2.2 主要依赖除了 Spring 相关依赖外,还需要导入 phoenix-core 和对应的 Mybatis 依赖包<!--mybatis 依赖包--><dependency> <groupId>org.mybatis</groupId> <art...
2020-04-08 09:38:17
587
原创 Kafka中steamAPi操作
/*用于实现将一个topic的数据读取后从转换成大写,再将结果写入另一个topic*/public class StreamAPI {public static void main(String[] args) { Properties props = new Properties(); //设置程序的唯一标识 props.put(StreamsConfig.APP...
2020-04-01 10:41:40
377
原创 自学yarn部分知识点汇总
1、什么是Yarn通用资源管理系统和调度平台2、Yarn特点:1、支持多计算框架2、资源利用率高,运行成本低,数据共享。3、Yarn的意义:降低了企业硬件的成本(多个集群变成一个集群),减少了资源的了浪费,运营成本低。4、Yarn基本组成ResourceManager :一个集群资源调度的管理者NodeManager :一个节点资源调度的管理者(集群各个节点资源的工作者)...
2020-04-01 10:00:04
227
原创 Scala 中的foreach和map方法比较
Scala中的集合对象都有foreach和map两个方法。两个方法的共同点在于:都是用于遍历集合对象,并对每一项执行指定的方法。而两者的差异在于:foreach无返回值(准确说返回void),map返回集合对象。见如下代码及运行结果:b.getClass 得到的是void, 而c.getClass得到的是colletion 。再看代码的第9-11行,foreach和map的运行结果一致。结论就是:...
2020-03-31 11:10:43
214
原创 自学kafka部分知识点汇总
(Kafka阶段)简答题:1、Kafka生态系统四大角色,生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper2、每个消费者都必须属于一个消费组,一个组内的消费者可以多个。3、一个Topic可以有1到多个多个分区(Partition)4、一个分区可以有1到多个segment。5、每个segment可以有由一个log和一个index组...
2020-03-30 20:51:45
588
原创 自学Redis部分知识点汇总
(Redis部分)简答题1、什么是redis?Redis是一个基于内存的使用c语言编写的key-value开源的nosql数据库2、Redis持久化数据的方式有哪些?1》PDB触发式持久化++每秒钟触发一次3、解决IT行业数据读取瓶颈的终极方案?读写分离4、Redis如何实现读写分离?Redis本身支持读写分离,主节点可以读写数据、从节点只能读数据。配置redis的主从复制结构可实现...
2020-03-30 19:37:16
333
原创 yarn常用概念知识点汇总
问题一:集群提交任务,是什么决定任务分配到哪个节点上?Yarn(RM,NM)问题二:集群提交任务,偶尔成功,偶尔失败(使用外部配置文件)?答:程序所需要的数据(配置文件)缺失。有的节点缺失,有的节点不缺失。解决:在所有的节点上存一份程序所需要的数据(配置文件)是谁来分配的呢? 答案:YarnResourceManager:一个集群只有一个ResourceManager对外提供服务(可...
2020-03-30 10:20:46
571
原创 Scala40道例题与答案
set集合(1-10)1、定义一个不可变set集合a,保存以下元素:10,20,30,10,50,40(1)var a = Set(10,20,30,10,50,40)2、获取a集合的大小(1)Println(a.size)3、遍历a集合a.foreach(i => println(i))4、a集合删除元素50println(a - 50)5、a集合拼接set集合Set(6...
2020-03-30 10:08:56
3901
2
原创 scala常用需要导包操作(实用版)
-------------------可变集合-------------------------可变集合不可变集的创建方式一致,只不过需要提前导入一个可变集类。手动导入:import scala.collection.mutable.Set--------------------可变map------------------------定义语法与不可变Map一致。但定义可变Map需要手动导...
2020-03-30 08:28:15
1084
1
原创 KafKa常用JavaApi10道例题(送答案)
以下kafka集群的节点分别是node01,node02,node031、在kafka集群中创建student主题 副本为2个,分区为3个生产者设置:设置key的序列化为 org.apache.kafka.common.serialization. StringSerializer设置value的序列化为org.apache.kafka.common.serialization.Stri...
2020-03-29 09:43:13
300
原创 linux常用命令汇总(程序员必备)
Linux命令我是小白,我从来没玩过Linux,请点这里:http://www.runoob.com/linux/Linux-intro.html推荐的一个Git仓库我有些基础,推荐一个快速查询命令的手册,请点这里:https://github.com/jaywcjlove/linux-command必须学会的命令1.man和page1.内部命令:echo查看内部命令帮助:h...
2020-03-23 11:22:02
327
原创 kafka-eagle报错500异常解决文档
1.停止kafkaEagle 进程cd /export/servers/kafka-eagle-bin-1.3.2/kafka-eagle-web-1.3.2/bin./ke.sh stop2.修改kafkaEagle的启动脚本: bin/ke.sh注释掉下面的几行内容:# rm -rf $KE_HOME/kms/webapps/ke# rm -rf $KE_...
2020-03-20 17:22:56
1608
2
原创 screen关闭会话(详解版)
[root@localhost ~]# screen -lsThere are screens on:9975.pts-0.localhost (Detached)4588.pts-3.localhost (Detached)2 Sockets in /var/run/screen/S-root.[root@localhost ~]# screen -X -S 4588 quit[ro...
2020-02-06 09:25:56
6655
原创 HbaseApi
通过startRowKey和endRowKey进行扫描/*** 通过startRowKey和endRowKey进行扫描查询*/public static void scanrowkey() throws IOException{Configuration conf=new Configuration();conf.set(“hbase.zookeeper.quorum”,“node0...
2020-01-06 16:59:25
286
原创 离线大数据项目流程
建表、数据导入语句总结textfile格式create table 表名( a string , b string )row format delimited fields terminated by "指定分隔符"stored as textfile;load data local inpath '本地路径' into table '表名'orc格式create table...
2020-01-03 18:16:38
312
原创 java系统增加查找算法详解
题干数学老师小y 想写一个成绩查询系统,包含如下指令:insert [name] [score],向系统中插入一条信息,表示名字为name的学生的数学成绩为score。find [name],表示查找名字为name的学生的数学成绩。注意有些同学可能会为了刷分多次选课,查询的时候给出最大成绩即可。学生的名字是由小写字母组成。成绩是一个 0 \ldots 1000…100 的整数。老师找到你...
2019-12-26 11:52:22
341
原创 Hive如何drop删除外部表,如何恢复表中数据
1.创建以前的表结构2.恢复数据:MSCK REPAIR TABLE networkqualityinfo;H
2019-12-25 10:36:03
2130
原创 Linux基础指令(详解版)
Linux介绍: 特点: 开源、免费、自由使用;多用户、多线程、多任务、多CPU。 组成:Linux = 内核 + shell + 文件系统 + 应用程序 应用:服务器、手机操作系统...... 分支:Redhat、debain...... 安装:VMware、centOS6.4 基本环境配置(root)1.修改主机名 查...
2019-12-09 20:45:27
2427
3
原创 mapReduce之间的partition的作用详解
map/reduce之间的shuffle,partition,combiner过程的详解Shuffle的本意是洗牌、混乱的意思,类似于java中的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。MapReduce中的Shuffle过程。所谓Shuffle过程可以大致的理解成:怎样把map task的输出结果有效地传送到reduce输入端。也可以这样...
2019-11-28 14:54:39
2148
1
原创 HDFS如何查看文本内容
1.查看指定行数的文本hdfs dfs -cat /aaaaa/空白文本.txt | shuf -n 52.查看指定头数的文本hdfs dfs -cat /aaaaa/空白文本.txt | head -1003.查看指定尾数的文本hdfs dfs -cat /aaaaa/空白文本.txt | tail-1004.查看文本行数hdfs dfs -cat /path/txt | wc -...
2019-11-25 11:03:02
3854
原创 Intellij_idea连接虚拟机操作
1.在Intellij_idea上面点击如下菜单:Tools—Deployment—Configuration…[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AtQptkk9-1574429667152)(C:\Users\张泰\AppData\Roaming\Typora\typora-user-images\1574426492614.png)]2.新增一台...
2019-11-22 21:35:08
1004
原创 Hive知识点总结(简明版)
hive知识点总结一、hive介绍hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Metastore (hive元数据)Hive将元数据存储在数据库中,比如mysql ,derby.Hive中的元数据包括表的名称,表的列和分区及其属性,表的数据所在的目录Hive数据存...
2019-11-22 11:47:06
592
FSCapture工具压缩包
2019-02-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人