- 博客(139)
- 资源 (2)
- 收藏
- 关注
原创 Unrecognized option ‘stream_loop‘.(版本不匹配,利用make编译安装)
【代码】Unrecognized option ‘stream_loop‘.(版本不匹配,利用make编译安装)
2023-09-27 13:24:27
650
原创 pytorch和torchversion不兼容的解决方案
代码遇到pytorch 和 torchversion不兼容,两种办法,1升级python。
2023-09-27 13:20:36
387
原创 error: in C++98 ‘xxx’ must be initialized by constructor, not by ‘{...}’解决方案
cmake --build build/ 问题解决。cmake -S . -B build 正常。
2023-09-26 10:55:47
1719
原创 fourcc 方法找不到解决方案(opencv版本问题)
于是查了网络,也没找到解决方案,自己想肯定是版本有问题。cmake -S . -B build时候,会报错。安装了3.4.5版本的opencv,编译问题解决。于是先卸载了opencv。然后是参考如下博客,
2023-09-26 09:26:17
993
原创 ModuleNotFoundError: No module named ‘xxx‘ 问题解决
遇到这个问题我发现我导入的utils这个pacakge是有的,那就有可能是因为使用了main函数,导致找不到路径了,于是加入了如下代码,在开头,把项目根目录加进来。这个问题发生的主要原因,我搜索网络,大概意思就是在py文件中使用了__main__函数,破坏了什么路径识别什么的,
2023-07-29 14:50:57
776
原创 calac: error: scala.reflect.internal.MissingRequirementError: object java.lang.Object in compiler mi
我用到了scala2。0 和jdk8匹配都不行,问题解决不了。知道看到了如下评论,上马说升级scala到2。12就可以了,按照要求问题解决了。遇到上面的问题,网上大部分说的解决方案都是jdk和scala版本不符合。
2022-12-24 14:39:21
1174
原创 ubuntu 搭建深度学习开发环境
安装nvida显卡驱动 安装cuda 安装cudnn。nvida 驱动和cuda对应表。显示的内容太少,或者不显示,下载pycharm的地址。
2022-08-23 23:19:00
276
原创 pytorch-gpu 安装
打开Anaconda Propmt在命令行里面输入如下命令:创建pytorch-gpu虚拟空间conda create -n pytorch-gpu python=3.7 -y切换到pytorch-gpu空间conda activate pytorch-gpu为了使得安装快速,需要添加清华源conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --ad
2022-01-09 18:08:23
661
原创 spark-ml的pom文件
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav
2021-08-26 08:10:51
594
原创 spark trouble-shooting之Reference ‘temp‘ is ambiguous, could be
查看dataframe的可以发现temp列有两列,所以在运行时候报如下错误:这里是引用Caused by: org.apache.spark.sql.AnalysisException: Reference ‘temp’ is ambiguous, could be: temp, temp.;at org.apache.spark.sql.catalyst.expressions.package$AttributeSeq.resolve(package.scala:259)at org.apa
2021-08-26 08:01:18
1273
1
原创 spark ml之推荐系统实现
//查看下给定列个值得一个基本信息,例如数量 平均值 最大值 最小值 中位数这些基本描述 rating.describe("userId","movieId","rating").show }}查看数据的平均值 中位数 最大值,最小值,对数据有个最基本的认识将数据分文三部分:训练集 验证集 测试集 val splits = rating.randomSplit(Array(0.6,0.2,0.2),seed=1234)// 1234为随机种子,为了保证每次的验证结果相同...
2021-08-23 10:05:47
515
原创 spark-ml 之决策树-性别预测
数据如下:male.txt[174.0, 65.6], [175.3, 71.8], [193.5, 80.7], [186.5, 72.6], [187.2, 78.8], [181.5, 74.8], [184.0, 86.4], [184.5, 78.4], [175.0, 62.0], [184.0, 81.6], [180.0, 76.6], [177.8, 83.6], [192.0, 90.0], [176.0, 74.6],
2021-08-14 07:48:08
500
原创 spark ml 报错如下:java.io.NotSerializableException: scala.runtime.LazyRef
用idea执行执行spark ml任务,参考官方的代码,但是运行时候报错如下:org.apache.spark.ml.regression.LinearRegression.train(LinearRegression.scala:176)org.apache.spark.ml.Predictor.fit(Predictor.scala:118)lineReg$.main(lineReg.scala:42)lineReg.main(lineReg.scala)Exception in thread
2021-08-13 17:45:12
1592
2
原创 OOM的三种类型
OOM可能发生的区域主要有以下三个地方1.MetaSpace2.方法栈3.Heap其中MetaSpace和方法栈发生OOM的概率相对较少,Heap中发生OOM的概率较大
2020-11-29 13:22:59
699
原创 kubernet和docker的一些常用命令总结
1.利用镜像busybox运行容器docker run busybox echo "hello world"运行其他镜像docker run <image>#原理,docker会先在本地找对应的镜像,如果找不到就会到对应docker hub上拉取对应的镜像,然后运行构建镜像1.首先必须有DockerFile2.必须有对应的程序3.运行docker build -t 镜像名 .但是这个命令我运行了,并没有生产出对应的镜像列出本地的镜像查看本地存在的镜像docker
2020-08-09 23:27:51
235
原创 kubenet的emptydir和hostDir的区别
生命周期:emptydir:随着pod的创建而创建,随着pod的消亡,而消亡hostPath:对应的数据在节点的某个路径下面,不会随着pod的生命周期而变化所以如果是一些跟节点相关,生命周期比pod更长的,那就用hostPath但是如果是跨节点的,比如下次pod部署在b节点了,那么a节点上的hostPath就不能访问到了,例如a节点上的数据库信息,可能在b节点上就访问不到了...
2020-08-09 23:11:03
305
原创 git的fetch和pull的区别
下面的文档连接对git的fetch和pull的区别进行了介绍,比较容易理解,做个记录https://www.cnblogs.com/ruiyang-/p/10764711.html
2020-08-06 23:40:35
232
原创 origin和upstream的区别
如下连接很清晰的将origin和upstream进行了详细的讲解,可以很好的知道我们使用github和githttps://www.cnblogs.com/baihuitestsoftware/articles/10102828.html
2020-08-06 23:29:07
1505
原创 如何将主干的分支合并到分支上(小小感悟)
https://www.cnblogs.com/ailanlan/p/12071884.html注意上文说的,对于初学者来说,我的理解是比如你再d盘的aaa目录下拉取了a分支,然后就在这个目录下切换到master分支,然后拉取远端的master代码,这样这个aaa目录下,就会共存 a分支的代码和master分支的代码,这时候切换到a分支,然后使用merge命令就能把master分支的代码合并进来,并不是我原来想的那样,d盘下,一个aaa目录下载a分支 bbb目录下载master分支,然后到aaa目录下,用
2020-08-06 23:21:13
794
原创 sparksql process
Spark SQL :SQL 具有普及率高、学习成本低等特点,为了扩大 Spark 的应用面,增加了对 SQL 及 Hive 的支持。Spark SQL 的过程可以总结为:首先使用 SQL 语句解析器(SqlParser)将 SQL 转换为语法树(Tree),并且使用规则执行器(RuleExecutor)将一系列规则(Rule)应用到语法树,最终生成物理执行计划并执行。其中,规则执行器包括语法分析器(Analyzer)和优化器(Optimizer)。Hive 的执行过程与 SQL 类似。...
2020-06-03 23:31:12
304
原创 spark-sql按照分区查询,扫描全表问题定位和解决
spark-sql利用类似如下命令添加了新字段新增字段:use mart_flow_test;alter table detail_flow_test add columns(original_union_id string);在按照分区查询,发现sql并不是只扫描该分区下的文件,而是进行了全表扫描,分析原因,可能是添加了新字段后 元数据没有刷新,于是refresh table 表名...
2020-04-24 21:18:24
2559
1
原创 条件概率和联合概率
表示两个事件共同发生百的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。在概率论中,联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。举例说明:假设X和Y都服从正态分布,那么P{X<4,Y<0}就是一个联合概率,表示X<4,Y<0两个条件同时成立的概率。扩展资料:1、统计独立性当且仅当两个随机事件A与B满足P(A...
2020-04-08 23:46:21
7305
原创 机器学习资料网罗汇总
bilibili上面有个老师shuhuai008这个老师讲的好多手推公式都不错,可以看一下:下面的截图就是bilibili的老师的截图,留个传送门给大家(https://www.bilibili.com/video/BV1aE411o7qd)...
2020-04-08 08:41:04
200
原创 HMM和维特比算法
网上看到一篇浅显易懂的讲解HMM和维特比算法的blog,做已收藏https://www.cnblogs.com/fulcra/p/11065474.html
2020-04-08 00:09:17
175
原创 维特比算法-浅显易懂(转载)
在知乎上看了一篇对维特比算法的讲解,感觉还不错,分享下https://www.zhihu.com/question/20136144
2020-04-07 08:44:18
276
原创 自然语言处理(文本的简单表示方法)
一般简单的有boolean count tf-idf形式,网上发现一篇不错的博文,收藏下https://www.cnblogs.com/carlber/p/12153395.html
2020-03-29 08:49:49
686
原创 spark trouble shooting之过滤掉gzip不能解压的错误文件
简介明了添加如下配置:--conf spark.files.ignoreCorruptFiles=true如果大家对怎么找到这个问题,以及最终解决的全过程感兴趣,请继续往下看:在大数据处理过程中,必然会存在这样的问题,要处理的源文件可能由于网络传输等各种原因导致上传上来的文件不完整,那么遇到这种问题该如何处理呢?如题在处理大数据问题时候,由于读取gzip文件使用的是如下代码来读取的:#...
2020-03-11 23:16:18
754
2
原创 hadoop如何只查某个目录下的文件夹名称
#查看目录oss://tabao-com//day=20200308/ 目录下所有的文件夹名称hadoop fs -ls -R oss://tabao-com//day=20200308/ | grep '^d'分析所有的文件夹都是以d开头的,所以借助管道符号查询所有以d开头的...
2020-03-11 15:53:05
1711
2
原创 spark滥用count方法的后果,去掉count后,性能提升1倍
建好的代码如下val result1 =sparksession.sql("select dxkk")//假设这个sql很耗时,1hval executorBalanced = new BalancedClickhouseDataSource(jdbcLink, properties) val executorConn = executorBalanced.getConnection.a...
2020-03-10 18:29:15
3129
2
原创 sougou for linux
環境:ubuntu 16.4安裝sogou輸入法參考文檔:https://jingyan.baidu.com/article/925f8cb88390f5c0dde056a0.html官方文檔都沒有百度經驗靠譜
2020-03-07 20:35:13
289
原创 Sed替换 内容带反斜杠(/)
比如要替换的内容包含/,默认的替换语句是sudo sed -i 's/Asia/Shanghai/UTC/' /etc/timezone由于/Asia/Shanghai 包含 /s语句后的就是分割符,我们用#,替换默认的/分隔符就可以了sudo sed -i 's#Asia/Shanghai#UTC#' /etc/timezone...
2020-01-21 19:45:45
9173
原创 spark写入mongo,性能提升10倍+
原来代码:finalDf.rdd.repartition(100).foreach(itm => { val InsertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3)) //单条插入: mongoConn.withCo...
2020-01-14 21:29:19
1155
原创 spark假死现象分析
ss.sql( s""" insert overwrite table test.test1 partition(day='$Day', hour) select adx, geo_country as country, connectiontype ...
2020-01-10 22:23:19
1273
1
原创 Missing database name. Set via the 'spark.mongodb.output.uri' or..问题解决
spark数据入mongo报错:User class threw exception: java.lang.IllegalArgumentException: Missing database name. Set via the 'spark.mongodb.output.uri' or 'spark.mongodb.output.database' propertyval conf = n...
2020-01-10 13:14:46
1738
1
原创 CREATE TABLE databasename.t_d11 STORED AS ORC 语句报UnknownHostException: 错误
在阿里云上,由于利用的是临时集群,用的rds的mysql来管理hive元数据,在跑任务时候遇到如下问题:java.lang.IllegalArgumentException: java.net.UnknownHostException: emr-header-1.cluster-41729注意这个 emr-header-1.cluster-41729 ,这是一个ip的域名,于是查看hosts...
2020-01-06 19:21:34
972
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人