- 博客(53)
- 资源 (3)
- 收藏
- 关注

原创 朴素贝叶斯分类算法——商品多分类(代码)
python环境:3.6.8import csvimport jiebadef lst_strip(lst):#去掉多余的空格。如果 a=[' 123','ttt,'vv ','',' '],如何实现a=['123','fuck','cvm'],因为strip()是对字符串操作,现在是一个list L=[] for v in lst: v = str.strip(v) if v: L.append(v) return
2021-04-21 18:05:57
1837
4
原创 CDH6.3.2 组件Maven依赖版本
maven添加仓库:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVer
2022-05-12 13:23:56
715
原创 npm ERR! gyp ERR! stack Error: Can‘t find Python executable “D:\python\Python36\Python36“, you can s
报错npm ERR! gyp ERR! stack Error: Can't find Python executable "D:\python\Python36\Python36", you can set the PYTHON env variable.解决方法:通过npm install -g cnpm --registry=https://registry.npm.taobao.org cnpm install
2021-10-13 22:19:41
886
原创 canal 全量/增量数据同步说明
一、日志文件完整1、全量数据同步1、修改\canal.deployer-1.1.5\conf\example下的instance.properties通过以下三个配置实现canal全量数据同步# mysql日志文件canal.instance.master.journal.name=mysql-bin.000001# 获取日志的起始位置canal.instance.master.position=0# 获取日志的起始时间戳canal.instance.master.timestamp=16
2021-09-29 10:07:05
8296
1
原创 通过第三方仓库安装Git
Git第三方仓库安装方式(IUS)1.安装使用里面说的自动化安装脚本curl https://setup.ius.io | sh2.然后可以看到 git2u相关内容yum search git 3.执行安装,并查看下版本yum remove -y git | yum -y install git2u#或yum remove -y git | yum -y install git2224.检查git是否安装成功,和查看版本git --version...
2021-09-07 10:23:54
178
原创 问题 sparksql Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
在/sparkconf/spark-defaults.conf添加配置增加内存和核数spark.driver.memory 3gspark.executor.memory 2gspark.driver.cores 2spark.sql.broadcastTimeout=300 # 心跳检测间隔,以防数据量过大,超时报错
2021-06-07 11:40:51
681
原创 python postgresSQL的psycopg2:参数初始化编码格式
编码格式参数为client_encoding=“UTF-8”连接时如下:import psycopg2con = psycopg2.connect(dbname="test", user="user", password="password", port="5678", host="192.168.56.45", client_encoding="UTF-8")client_encodingThis sets the client_encoding configuration parameter
2021-03-15 15:22:14
1729
原创 centos mysql环境彻底清除
清除命令如下:yum remove mysql* mariadb* -y rm /etc/my.cnf rm -rf /var/lib/mysql rm -rf /usr/share/mysql rm -rf /usr/lib/mysql #查询mysql服务
2021-03-12 11:28:28
223
原创 Atlas2.1.0——编译安装使用
一、Atlas2.1.0编译编译环境:环境准备,jdk8_151以上,maven3.6.6下载源码包:国内下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/官方下载地址:http://atlas.apache.org/Downloads.html编译:1. 解压源码包,进入解压后源码包的目录。sudo tar -zxvf apache-atlas-2.1.0-sources.tar.gz #重命名mv ./apach
2021-01-22 17:07:03
731
原创 报错:CUDA out of memory
报错:RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 2.00 GiB total capacity; 1.27 GiB already allocated; 3.24 MiB free; 135.27 MiB cached)我查了一下发现电脑里面有两个显卡的,默认选择了intel的显卡(即是GPU 0...
2021-01-22 14:17:16
2542
原创 spark 启动thrift server实现hive on spark
在 spark的conf下 创建 hive-site.xml不过在CDH中,hive是默认为hive on spark的,而不是mr新增下面内容:<configuration> <property> <name>hive.metastore.client.connect.retry.delay</name> <value>5</value> </property> <
2021-01-21 08:55:08
802
转载 eclipse环境下报错:log cannot be resolved
转载于:https://blog.youkuaiyun.com/fjz_lihuapiaoxiang/article/details/83622934在eclipse环境下使用@Slf4j注解时,出现了log cannot be resolved这个异常。经过排查发现是缺少lombok插件的问题。解决方式当然是在eclipse中安装lombok插件啦。这里报错是因为没有lombok-1.16.20.jar这个插件下载完成以后,在eclipse的安装目录里找到eclipse.ini文件,E:\Tools\ecl
2020-11-18 09:13:32
2546
原创 python通过setup.py安装模块
步骤打开cmd到达安装目录python setup.py buildpython setup.py install
2020-11-16 10:02:06
221
转载 python离线安装外部依赖包
1.制作requirement.txt pip freeze > requirement.txt 内网安装外部依赖包办法:例如:安装pytest包得时候会顺带安装pytest依赖包离线下载安装包下载单个离线包 - pip download -d your_offline_packages <package_name>批量下载离线包 - pip download -d your_offline_packages -r requirements.txt离线安装安装单个离线
2020-11-13 14:31:08
392
原创 数据治理平台Apache Atlas搭建与导入hive表
一、Atlas2.1.0编译编译环境:环境准备,jdk8_151以上,maven3.6.6下载源码包:国内下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/官方下载地址:http://atlas.apache.org/Downloads.html编译:解压源码包,进入解压后源码包的目录。cd /optsudo tar -zxvf apache-atlas-2.1.0-sources.tar.gz #重命名mv
2020-10-30 09:04:38
1644
原创 dremio详细部署流程
独立集群模式架构图:环境要求Linux:RHEL (Tarball):Red Hat Enterprise Linux(红帽企业版)CentOS 6.7+ and 7.3+ (RPM))(在使用RHEL or CentOS机器上使用Dremio Linux RPM installer可以部署)Java:jdk8浏览器:Google Chrome 54+、Microsoft Edge 14+(用于访问UI管理界面,Dremio UI 在 http://hostname:9047)Dremio
2020-10-30 08:47:17
2424
3
原创 windows10家庭版 Hyper-V 的安装与完全关闭
windows10家庭版装Hyper-V方法:pushd "%~dp0"dir /b %SystemRoot%\servicing\Packages\*Hyper-V*.mum >hyper-v.txtfor /f %%i in ('findstr /i . hyper-v.txt 2^>nul') do dism /online /norestart /add-package:"%SystemRoot%\servicing\Packages\%%i"del hyper-v.txtDi
2020-07-07 09:36:43
2756
原创 错误——由于ssh配置启动不了yarn
错误信息:[root@hadoop103 hadoop-2.7.1]# sbin/start-yarn.shstarting yarn daemonsstarting resourcemanager, logging to /opt/module/hadoop-2.7.1/logs/yarn-root-resourcemanager-hadoop103.outThe authenticity of host 'hadoop102 (192.168.0.11)' can't be establishe
2020-06-06 17:00:05
1364
原创 VirtualBox下centos7网络配置
记录网上找的方法:1、https://jingyan.baidu.com/article/ed15cb1b86ebb21be36981b5.html
2020-05-28 22:16:37
318
原创 安装spark 2.4.4之后尝试运行pyspark时出现的“TypeError:an integer is required(got type bytes)”错误
环境为Ubuntu、jdk8、spark-2.4.5-bin-hadoop2.7,python3.8.21、原因由于spark还不支持python3.82、解决方法所以将python降级即可,我降级到python3.6.9成功注意:要配置默认的python为python3.6.9,方法如下删除原有的python软链接 :rm /usr/bin/python 建立python到python3.6新的软链接:ln -s /usr/bin/python3.6 /usr/bin/python
2020-05-19 13:03:26
6900
原创 ubuntu安装Spark
一、安装JDK81、解压cd /usr/libsudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件cd ~ #进入hadoop用户的主目录cd Downloads #注意区分大小写字母,刚才已经通过FTP软件把JDK安装包jdk-8u162-linux-x64.tar.gz上传到该目录下sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm #把JDK文件解压到/usr/lib/jvm目录下2、
2020-05-19 11:52:37
664
1
原创 Ubuntu将默认的python3改为默认的python与Ubuntu无法登录root
标题Ubuntu将默认的python3改为默认的pythonryzen@cp7:~$ pythonCommand 'python' not found, did you mean:command 'python3' from deb python3root@DESKTOP-I:/usr/bin# echo alias python=python3 >> .bashrcroot@DESKTOP-I:/usr/bin# . ./.bashrcroot@DESKTOP-I:/usr/
2020-05-19 11:18:25
11432
原创 关于cuda版本问题
cuda版本选择:查看电脑的驱动版本:驱动和cuda版本对应图:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.htmlcuda版本下载(使用迅雷下载速度更快):https://developer.nvidia.com/cuda-toolkit-archive...
2020-04-30 00:20:34
1073
原创 保存tensorflow模型出现错误OSError: `pydot` failed to call GraphViz.Please install GraphViz
Traceback (most recent call last): File "D:\Python\Python36\lib\site-packages\pydot.py", line 1915, in create working_dir=tmp_dir, File "D:\Python\Python36\lib\site-packages\pydot.py", line 13...
2020-04-11 18:45:03
259
原创 关于PyQt5加载本地网页
加载相对路径html网页Main.py程序代码:import sysfrom PyQt5.QtCore import *from PyQt5.QtGui import *from PyQt5.QtWidgets import *from PyQt5.QtWebEngineWidgets import *class MainWindow(QMainWindow): def ...
2020-03-12 22:25:17
3903
1
原创 docker的ubuntu18镜像中关于pip3的报错问题
报错:root@a2e751235f1a:~/build# pip3 -VTraceback (most recent call last): File "/usr/bin/pip3", line 9, in <module> from pip import main File "/usr/lib/python3/dist-packages/pip/__init__...
2020-02-22 23:16:02
495
原创 windows10下docker的scala、spark安装与配置
ubuntu下安装scalasudo wget https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.tgz下载好后解压到:/usr/local/sudo tar zxvf scala-2.11.8.tgz -C /usr/local/删除安装包:rm scala-2.11.8.tgz进入到解压目录并重命名:cd /usr/...
2020-02-19 23:10:08
395
原创 关于pyinstaller打包问题
环境windows10+python3.6+pyinstaller3.41、pyinstaller打包时报错lib not found的问题pyinstaller打包时出现以下问题:lib not found: api-ms-win-cr…解决方法:pyinstaller -p C:\Windows\System32\downlevel xxx.py(xxx.py:你要打包的程序)网...
2020-02-11 14:24:37
1168
原创 scala基础语法—数组、
1、使用类型参数化数组在Scala中,可以使用new实例化类,创建对象的实例时,可以使用数值或类型参数。使用方括号来指明数据类型参数。如下:val helloStrings = new Array[String](2)helloStrings(0)="Hello"helloStrings(0)="world!\n"for(i <- 0 to 1) print(helloStrin...
2020-01-29 22:23:46
208
原创 scala基础语法—变量、函数、while、for
1、定义变量Scala定义了两种类型的变量val和var,val一旦初始化之后,不可以重新赋值(即常变量 )。而 var可以任意重新赋值。定义一个msg变量为字符串常量:val msg = "Hello World!"msg: String = Hello Worldscala可以根据赋值内容推算出变量的类型,为"type inference"(类型推断)。不过也可以明确指定变量的类型...
2020-01-28 21:39:53
209
转载 通过独立IP访问docker for windows 容器内网
https://www.cnblogs.com/brock0624/p/9788710.html
2019-12-27 12:25:20
561
原创 Docker镜像保存到本地、加载本地镜像
(1)查看要要保存的镜像的IDC:\Users\xixi>docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEubuntu latest 549b9b86cb8d 3 days a...
2019-12-23 10:06:02
5376
原创 docker基础命令
Docker 17 中文开发手册docker ps [OPTIONS]-a :显示所有的容器,包括未运行的docker ps -adocker images关闭容器:docker stop 容器ID或容器名docker system prune是用来删除不再使用的 docker 对象docker system prune #用来删除不再使用的 docker 对象 doc...
2019-12-22 10:16:59
127
原创 windows10下docker的hadoop集群安装与配置
docker ps -adocker imagesdocker system prunedocker ps -adocker run hello-world
2019-12-21 08:56:18
1286
1
原创 Python语言开发的图论与复杂网络建模工具—networkx节点染色
一、介绍networkx是一个用Python语言开发的图论与复杂网络建模工具。networkx支持创建简单无向图、有向图和多重图;内置许多标准的图论算法,节点可为任意数据;支持任意的边值维度,功能丰富,简单易用。数据段下面是画图所用到的数据(items2.txt):name,num,goods小明,1,橙子小明,1,苹果小明,1,番薯小红,1,柚子小红,1,苹果小红,1,火龙...
2019-12-10 09:31:18
1980
原创 java—集合
Collection接口:该接口是最基本的集合接口。1. List接口:该接口实现了Collection接口。List是有序、可重复。可以使用索引来访问List中的·元素。有:ArrayList:优点: 底层数据结构是数组,查询快,增删慢。缺点: 线程不安全,效率高Vector:优点: 底层数据结构是数组,查询快,增删慢。缺点: 线程安全,效率低LinkedList:优点: 底...
2019-12-09 22:18:44
82
原创 Linux awk学习——简介、变量、读取文件、BEGIN关键字、END关键字
1、简介awk 是一种处理文本文件的语言,是一个强大的文本分析工具。awk 其实不仅仅是工具软件,还是一种编程语言。awk 是以文件的一行内容为处理单位的。awk读取一行内容,然后根据指定条件判断是否处理此行内容,若此行文本符合条件,则按照动作处理文本,否则跳过此行文本,读取下一行进行判断。2、变量默认情况下,awk 会将如下变量分配给它在文本行中发现的数据字段(即一列):$0 代表整...
2019-11-30 23:35:59
942
1
原创 hadoop的I/O操作——压缩实现
codeccodec实现了一种压缩-解压缩算法。在hadoop中,一个对CompressionCodec接口的实现代表一个codec。例如,GzipCodec包装了gzip压缩和解压缩算法hadoop的压缩codec压缩格式HadoopCompressionCodecDEFLATEorg.apache.hadoop.io.conpress.DefaultCodec...
2019-11-04 22:50:56
259
原创 django 返回json数据为中文
1、javascript的导入路径设置:在项目新建static文件夹,在static文件夹下新建js文件夹2、在setting.xml设置,static文件路径STATIC_URL = ‘/static/’STATICFILES_DIRS = (os.path.join(BASE_DIR, ‘static’),)然后在html文件开头写{% load staticfiles %},...
2019-11-03 11:35:56
1002
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人