云百佰-优快云博客

原创朴素贝叶斯分类算法——商品多分类（代码）

python环境：3.6.8import csvimport jiebadef lst_strip(lst):#去掉多余的空格。如果 a=[' 123','ttt,'vv ','',' ']，如何实现a=['123','fuck','cvm'],因为strip()是对字符串操作，现在是一个list L=[] for v in lst: v = str.strip(v) if v: L.append(v) return

2021-04-21 18:05:57 1896 4

原创 hive distinct函数 null不参与统计及解决方法

hive distinct函数

2022-08-16 16:03:42 868

原创 CDH6.3.2 组件Maven依赖版本

maven添加仓库：<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVer

2022-05-12 13:23:56 805

原创 npm ERR! gyp ERR! stack Error: Can‘t find Python executable “D:\python\Python36\Python36“, you can s

报错npm ERR! gyp ERR! stack Error: Can't find Python executable "D:\python\Python36\Python36", you can set the PYTHON env variable.解决方法：通过npm install -g cnpm --registry=https://registry.npm.taobao.org cnpm install

2021-10-13 22:19:41 928

原创 canal 全量/增量数据同步说明

一、日志文件完整1、全量数据同步1、修改\canal.deployer-1.1.5\conf\example下的instance.properties通过以下三个配置实现canal全量数据同步# mysql日志文件canal.instance.master.journal.name=mysql-bin.000001# 获取日志的起始位置canal.instance.master.position=0# 获取日志的起始时间戳canal.instance.master.timestamp=16

2021-09-29 10:07:05 8643 1

原创通过第三方仓库安装Git

Git第三方仓库安装方式（IUS）1.安装使用里面说的自动化安装脚本curl https://setup.ius.io | sh2.然后可以看到 git2u相关内容yum search git 3.执行安装，并查看下版本yum remove -y git | yum -y install git2u#或yum remove -y git | yum -y install git2224.检查git是否安装成功，和查看版本git --version...

2021-09-07 10:23:54 225

原创问题 sparksql Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded

在/sparkconf/spark-defaults.conf添加配置增加内存和核数spark.driver.memory 3gspark.executor.memory 2gspark.driver.cores 2spark.sql.broadcastTimeout=300 # 心跳检测间隔，以防数据量过大，超时报错

2021-06-07 11:40:51 743

原创 python postgresSQL的psycopg2：参数初始化编码格式

编码格式参数为client_encoding=“UTF-8”连接时如下：import psycopg2con = psycopg2.connect(dbname="test", user="user", password="password", port="5678", host="192.168.56.45", client_encoding="UTF-8")client_encodingThis sets the client_encoding configuration parameter

2021-03-15 15:22:14 1884

原创 centos mysql环境彻底清除

清除命令如下：yum remove mysql* mariadb* -y rm /etc/my.cnf rm -rf /var/lib/mysql rm -rf /usr/share/mysql rm -rf /usr/lib/mysql #查询mysql服务

2021-03-12 11:28:28 253

原创 Atlas2.1.0——编译安装使用

一、Atlas2.1.0编译编译环境：环境准备，jdk8_151以上，maven3.6.6下载源码包：国内下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/官方下载地址：http://atlas.apache.org/Downloads.html编译：1. 解压源码包，进入解压后源码包的目录。sudo tar -zxvf apache-atlas-2.1.0-sources.tar.gz #重命名mv ./apach

2021-01-22 17:07:03 824

原创报错：CUDA out of memory

报错：RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 2.00 GiB total capacity; 1.27 GiB already allocated; 3.24 MiB free; 135.27 MiB cached)我查了一下发现电脑里面有两个显卡的，默认选择了intel的显卡（即是GPU 0...

2021-01-22 14:17:16 2653

原创 spark 启动thrift server实现hive on spark

在 spark的conf下创建 hive-site.xml不过在CDH中，hive是默认为hive on spark的，而不是mr新增下面内容：<configuration> <property> <name>hive.metastore.client.connect.retry.delay</name> <value>5</value> </property> &lt

2021-01-21 08:55:08 846

转载 eclipse环境下报错：log cannot be resolved

转载于：https://blog.youkuaiyun.com/fjz_lihuapiaoxiang/article/details/83622934在eclipse环境下使用@Slf4j注解时，出现了log cannot be resolved这个异常。经过排查发现是缺少lombok插件的问题。解决方式当然是在eclipse中安装lombok插件啦。这里报错是因为没有lombok-1.16.20.jar这个插件下载完成以后，在eclipse的安装目录里找到eclipse.ini文件,E:\Tools\ecl

2020-11-18 09:13:32 2635

原创 python通过setup.py安装模块

步骤打开cmd到达安装目录python setup.py buildpython setup.py install

2020-11-16 10:02:06 255

转载 python离线安装外部依赖包

1.制作requirement.txt　　pip freeze > requirement.txt　　内网安装外部依赖包办法：例如:安装pytest包得时候会顺带安装pytest依赖包离线下载安装包下载单个离线包 - pip download -d your_offline_packages <package_name>批量下载离线包 - pip download -d your_offline_packages -r requirements.txt离线安装安装单个离线

2020-11-13 14:31:08 421

原创数据治理平台Apache Atlas搭建与导入hive表

一、Atlas2.1.0编译编译环境：环境准备，jdk8_151以上，maven3.6.6下载源码包：国内下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/官方下载地址：http://atlas.apache.org/Downloads.html编译：解压源码包，进入解压后源码包的目录。cd /optsudo tar -zxvf apache-atlas-2.1.0-sources.tar.gz #重命名mv

2020-10-30 09:04:38 1700

原创 dremio详细部署流程

独立集群模式架构图：环境要求Linux：RHEL (Tarball)：Red Hat Enterprise Linux（红帽企业版）CentOS 6.7+ and 7.3+ (RPM))（在使用RHEL or CentOS机器上使用Dremio Linux RPM installer可以部署）Java：jdk8浏览器：Google Chrome 54+、Microsoft Edge 14+（用于访问UI管理界面，Dremio UI 在 http://hostname:9047）Dremio

2020-10-30 08:47:17 2657 3

原创 windows10家庭版 Hyper-V 的安装与完全关闭

windows10家庭版装Hyper-V方法：pushd "%~dp0"dir /b %SystemRoot%\servicing\Packages\*Hyper-V*.mum >hyper-v.txtfor /f %%i in ('findstr /i . hyper-v.txt 2^>nul') do dism /online /norestart /add-package:"%SystemRoot%\servicing\Packages\%%i"del hyper-v.txtDi

2020-07-07 09:36:43 2821

原创错误——由于ssh配置启动不了yarn

错误信息：[root@hadoop103 hadoop-2.7.1]# sbin/start-yarn.shstarting yarn daemonsstarting resourcemanager, logging to /opt/module/hadoop-2.7.1/logs/yarn-root-resourcemanager-hadoop103.outThe authenticity of host 'hadoop102 (192.168.0.11)' can't be establishe

2020-06-06 17:00:05 1406

原创 VirtualBox下centos7网络配置

记录网上找的方法：1、https://jingyan.baidu.com/article/ed15cb1b86ebb21be36981b5.html

2020-05-28 22:16:37 353

原创安装spark 2.4.4之后尝试运行pyspark时出现的“TypeError:an integer is required（got type bytes）”错误

环境为Ubuntu、jdk8、spark-2.4.5-bin-hadoop2.7，python3.8.21、原因由于spark还不支持python3.82、解决方法所以将python降级即可，我降级到python3.6.9成功注意：要配置默认的python为python3.6.9，方法如下删除原有的python软链接：rm /usr/bin/python 建立python到python3.6新的软链接：ln -s /usr/bin/python3.6 /usr/bin/python

2020-05-19 13:03:26 7010

原创 ubuntu安装Spark

一、安装JDK81、解压cd /usr/libsudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件cd ~ #进入hadoop用户的主目录cd Downloads #注意区分大小写字母，刚才已经通过FTP软件把JDK安装包jdk-8u162-linux-x64.tar.gz上传到该目录下sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm #把JDK文件解压到/usr/lib/jvm目录下2、

2020-05-19 11:52:37 714 1

原创 Ubuntu将默认的python3改为默认的python与Ubuntu无法登录root

标题Ubuntu将默认的python3改为默认的pythonryzen@cp7:~$ pythonCommand 'python' not found, did you mean:command 'python3' from deb python3root@DESKTOP-I:/usr/bin# echo alias python=python3 >> .bashrcroot@DESKTOP-I:/usr/bin# . ./.bashrcroot@DESKTOP-I:/usr/

2020-05-19 11:18:25 11476

原创关于cuda版本问题

cuda版本选择：查看电脑的驱动版本：驱动和cuda版本对应图：https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.htmlcuda版本下载（使用迅雷下载速度更快）：https://developer.nvidia.com/cuda-toolkit-archive...

2020-04-30 00:20:34 1157

原创保存tensorflow模型出现错误OSError: `pydot` failed to call GraphViz.Please install GraphViz

Traceback (most recent call last): File "D:\Python\Python36\lib\site-packages\pydot.py", line 1915, in create working_dir=tmp_dir, File "D:\Python\Python36\lib\site-packages\pydot.py", line 13...

2020-04-11 18:45:03 289

原创关于PyQt5加载本地网页

加载相对路径html网页Main.py程序代码：import sysfrom PyQt5.QtCore import *from PyQt5.QtGui import *from PyQt5.QtWidgets import *from PyQt5.QtWebEngineWidgets import *class MainWindow(QMainWindow): def ...

2020-03-12 22:25:17 3966 1

原创 docker的ubuntu18镜像中关于pip3的报错问题

报错：root@a2e751235f1a:~/build# pip3 -VTraceback (most recent call last): File "/usr/bin/pip3", line 9, in <module> from pip import main File "/usr/lib/python3/dist-packages/pip/__init__...

2020-02-22 23:16:02 535

原创 windows10下docker的scala、spark安装与配置

ubuntu下安装scalasudo wget https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.tgz下载好后解压到：/usr/local/sudo tar zxvf scala-2.11.8.tgz -C /usr/local/删除安装包：rm scala-2.11.8.tgz进入到解压目录并重命名：cd /usr/...

2020-02-19 23:10:08 433

原创关于pyinstaller打包问题

环境windows10+python3.6+pyinstaller3.41、pyinstaller打包时报错lib not found的问题pyinstaller打包时出现以下问题：lib not found: api-ms-win-cr…解决方法：pyinstaller -p C:\Windows\System32\downlevel xxx.py（xxx.py：你要打包的程序）网...

2020-02-11 14:24:37 1260

原创 scala基础语法—数组、

1、使用类型参数化数组在Scala中，可以使用new实例化类，创建对象的实例时，可以使用数值或类型参数。使用方括号来指明数据类型参数。如下：val helloStrings = new Array[String](2)helloStrings(0)="Hello"helloStrings(0)="world!\n"for(i <- 0 to 1) print(helloStrin...

2020-01-29 22:23:46 234

原创 scala基础语法—变量、函数、while、for

1、定义变量Scala定义了两种类型的变量val和var，val一旦初始化之后，不可以重新赋值（即常变量）。而 var可以任意重新赋值。定义一个msg变量为字符串常量：val msg = "Hello World!"msg: String = Hello Worldscala可以根据赋值内容推算出变量的类型，为"type inference"（类型推断）。不过也可以明确指定变量的类型...

2020-01-28 21:39:53 236

转载通过独立IP访问docker for windows 容器内网

https://www.cnblogs.com/brock0624/p/9788710.html

2019-12-27 12:25:20 621

原创 Docker镜像保存到本地、加载本地镜像

（1）查看要要保存的镜像的IDC:\Users\xixi>docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEubuntu latest 549b9b86cb8d 3 days a...

2019-12-23 10:06:02 5423

原创 docker基础命令

Docker 17 中文开发手册docker ps [OPTIONS]-a :显示所有的容器，包括未运行的docker ps -adocker images关闭容器：docker stop 容器ID或容器名docker system prune是用来删除不再使用的 docker 对象docker system prune #用来删除不再使用的 docker 对象 doc...

2019-12-22 10:16:59 153

原创 windows10下docker的hadoop集群安装与配置

docker ps -adocker imagesdocker system prunedocker ps -adocker run hello-world

2019-12-21 08:56:18 1321 1

原创 Python语言开发的图论与复杂网络建模工具—networkx节点染色

一、介绍networkx是一个用Python语言开发的图论与复杂网络建模工具。networkx支持创建简单无向图、有向图和多重图；内置许多标准的图论算法，节点可为任意数据；支持任意的边值维度，功能丰富，简单易用。数据段下面是画图所用到的数据（items2.txt）：name,num,goods小明,1,橙子小明,1,苹果小明,1,番薯小红,1,柚子小红,1,苹果小红,1,火龙...

2019-12-10 09:31:18 2034

原创 java—集合

Collection接口：该接口是最基本的集合接口。1. List接口：该接口实现了Collection接口。List是有序、可重复。可以使用索引来访问List中的·元素。有：ArrayList：优点: 底层数据结构是数组，查询快，增删慢。缺点: 线程不安全，效率高Vector：优点: 底层数据结构是数组，查询快，增删慢。缺点: 线程安全，效率低LinkedList：优点: 底...

2019-12-09 22:18:44 111

原创 Linux awk学习——简介、变量、读取文件、BEGIN关键字、END关键字

1、简介awk 是一种处理文本文件的语言，是一个强大的文本分析工具。awk 其实不仅仅是工具软件，还是一种编程语言。awk 是以文件的一行内容为处理单位的。awk读取一行内容，然后根据指定条件判断是否处理此行内容，若此行文本符合条件，则按照动作处理文本，否则跳过此行文本，读取下一行进行判断。2、变量默认情况下，awk 会将如下变量分配给它在文本行中发现的数据字段（即一列）：$0 代表整...

2019-11-30 23:35:59 981 1

原创 hadoop的I/O操作——压缩实现

codeccodec实现了一种压缩-解压缩算法。在hadoop中，一个对CompressionCodec接口的实现代表一个codec。例如，GzipCodec包装了gzip压缩和解压缩算法hadoop的压缩codec压缩格式HadoopCompressionCodecDEFLATEorg.apache.hadoop.io.conpress.DefaultCodec...

2019-11-04 22:50:56 293

原创 django 返回json数据为中文

1、javascript的导入路径设置：在项目新建static文件夹，在static文件夹下新建js文件夹2、在setting.xml设置，static文件路径STATIC_URL = ‘/static/’STATICFILES_DIRS = (os.path.join(BASE_DIR, ‘static’),)然后在html文件开头写{% load staticfiles %}，...

2019-11-03 11:35:56 1035

朴素贝叶斯分类算法_商品多分类_数据集.txt

scala-2.11.12.rar

jd-gui.exe

空空如也