梦游的猴子-优快云博客

原创 hive表同步clickhouse并且修改字段类型

表在hive中生成，同步到clickhouse中去，最后连接superset，但是发现superset对字段格式要求比较严格。所以原先的度量是字符串，需要改成bigint。于是，先修改hive中的字段的类型（***.****：为表名称）：alter table ***.**** change column col1 col11 string cascade;alter table ***.**** change column col11 col1 string cascade;修改click

2022-04-22 14:11:18 3380

原创 Jupyter notebook安装pyspark

没安装前，百度了一下，看到好多安装时遇到版本冲突很严重的问题。但是看了pyspark官网的文档，发现可以直接用pypi直接安装，发现这个安装非常简单。1、打开cmd2、输入pip install pyspark3、打开Jupyter Notebook，直接import pysparkdone....

2022-02-23 16:25:00 2601

原创 xgboost导入报错

xgboost安装报错~

2021-12-23 18:46:23 1340

原创文本预处理去除表情符号，只提取中英文及数字

import re#去除表情符号[敲打]def filter_emoji2(content): content = str(content) content2 = re.sub('\[.*?\]','',content) return content2 #只提取中文英文和数字def pick_cn(content): content = str(content) REG_CN ="[\u4e00-\u9fa5]";#包含中文英文数字 for i...

2021-08-30 19:47:52 1057

原创生成以及调用pmml文件

from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlif __name__ == '__main__': # 经典数据集 iris = load_iris() # print(iris.keys()) # 样本特征 x...

2021-08-30 19:44:43 716 1

原创 36进制和10进制转换

#10进制转换成36进制def base36_encode(number): num_str = '0123456789abcdefghijklmnopqrstuvwxyz' if number == 0: return '0' base36 = [] while number != 0: number, i = divmod(number, 36) # 返回 number// 36 , number%36 base...

2021-08-30 19:40:10 1112

原创 hive中替换\t

居然被这种小问题，纠结浪费了几分钟，记录一下。在替换/t的时候，一定要再多加三个斜杠。亲测可用。regexp_replace(word, '\\\\t', '')

2021-08-18 18:02:17 1167

原创 hive中的map函数

在拼接画像标签的时候，了解到这个很少用的map函数。的确好用，不光节省资源，而且可以添加权重分值，还可以计算封装的标签的数量。代码：flag：标签cnt：权重str_to_map(CONCAT_WS('&',COLLECT_SET(concat(t0.flag,":",cnt))),"&",":" ) mm按照如上拼接之后，就可以把标签封装成一个map格式的字段，供后续使用。...

2021-08-18 17:57:56 3783

原创图片获取到转成哈希值，完整代码分享

# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""import requestsfrom PIL import Imagefrom io import BytesIOimport matplotlib.pylab as pltimport numpy as npimport cv2import pandas as pddef getImageByUrl(url): # 根据...

2021-07-21 12:51:21 1316 1

原创对TXT文档中文分词积累分词库

#! usr/bin/env python#coding=utf-8import jiebaclass WordCut: def __init__(self,sentence): # 初始化 sentence = [] def ConcatSentences(self,sentence): return','.join(sentence.values) #创建停用词表 def stopwor...

2021-07-21 12:45:38 751

原创多版本anaconda不兼容导致无法Import opencv和import seaborn

1、用anaconda的Uninstall-Anaconda3.exe卸载.删除干净2、去anaconda官网下载最新的anaconda包，适合自己的电脑版本。Anaconda3-2020.02-Windows-x86_64.exe3、修改环境变量，如果环境变量path里面有其他的路径，说明没有卸载干净，我就发现有C盘下最早装的anaconda3，最后打开文件所在位置，彻底删除干净4、修改jupyter的文档路径，之前就没搞定，其实就是一个---首先要找到配置文件位置。在开始菜单里找到并

2021-07-21 12:42:14 1417 2

原创模型如何封装成PMML文件

训练好的模型封装成PMML文件，就可以供数据直接调用。具体代码如下：from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlif __name__ == '__main__': # 经典数据集 iris = load_iris() #...

2021-07-20 14:36:32 488

原创如何判断链接为跳转链接

本文主要介绍，如何判断一个链接为跳转链接。并且判断出当前链接的域名以及跳转之后的域名。import numpy as npimport pandas as pdimport requestsimport reimport urllibdef __init__(self,url,text,content): # 初始化 self.url = url self.text = text self.content = content url_target = ...

2021-07-20 14:31:28 1070

qq_29632521的博客