- 博客(13)
- 收藏
- 关注
原创 hive表同步clickhouse并且修改字段类型
表在hive中生成,同步到clickhouse中去,最后连接superset,但是发现superset对字段格式要求比较严格。所以原先的度量是字符串,需要改成bigint。于是,先修改hive中的字段的类型(***.****:为表名称):alter table ***.**** change column col1 col11 string cascade;alter table ***.**** change column col11 col1 string cascade;修改click
2022-04-22 14:11:18
3246
原创 Jupyter notebook安装pyspark
没安装前,百度了一下,看到好多安装时遇到版本冲突很严重的问题。但是看了pyspark官网的文档,发现可以直接用pypi直接安装,发现这个安装非常简单。1、打开cmd2、输入pip install pyspark3、打开Jupyter Notebook,直接import pysparkdone....
2022-02-23 16:25:00
2487
原创 文本预处理去除表情符号,只提取中英文及数字
import re#去除表情符号[敲打]def filter_emoji2(content): content = str(content) content2 = re.sub('\[.*?\]','',content) return content2 #只提取中文英文和数字def pick_cn(content): content = str(content) REG_CN ="[\u4e00-\u9fa5]";#包含中文英文数字 for i...
2021-08-30 19:47:52
934
原创 生成以及调用pmml文件
from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlif __name__ == '__main__': # 经典数据集 iris = load_iris() # print(iris.keys()) # 样本特征 x...
2021-08-30 19:44:43
662
1
原创 36进制和10进制转换
#10进制转换成36进制def base36_encode(number): num_str = '0123456789abcdefghijklmnopqrstuvwxyz' if number == 0: return '0' base36 = [] while number != 0: number, i = divmod(number, 36) # 返回 number// 36 , number%36 base...
2021-08-30 19:40:10
1053
原创 hive中替换\t
居然被这种小问题,纠结浪费了几分钟,记录一下。在替换/t的时候,一定要再多加三个斜杠。亲测可用。regexp_replace(word, '\\\\t', '')
2021-08-18 18:02:17
1118
原创 hive中的map函数
在拼接画像标签的时候,了解到这个很少用的map函数。的确好用,不光节省资源,而且可以添加权重分值,还可以计算封装的标签的数量。代码:flag:标签cnt:权重str_to_map(CONCAT_WS('&',COLLECT_SET(concat(t0.flag,":",cnt))),"&",":" ) mm按照如上拼接之后,就可以把标签封装成一个map格式的字段,供后续使用。...
2021-08-18 17:57:56
3745
原创 图片获取到转成哈希值,完整代码分享
# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""import requestsfrom PIL import Imagefrom io import BytesIOimport matplotlib.pylab as pltimport numpy as npimport cv2import pandas as pddef getImageByUrl(url): # 根据...
2021-07-21 12:51:21
1251
1
原创 对TXT文档中文分词积累分词库
#! usr/bin/env python#coding=utf-8import jiebaclass WordCut: def __init__(self,sentence): # 初始化 sentence = [] def ConcatSentences(self,sentence): return','.join(sentence.values) #创建停用词表 def stopwor...
2021-07-21 12:45:38
704
原创 多版本anaconda不兼容导致无法Import opencv和import seaborn
1、用anaconda的Uninstall-Anaconda3.exe卸载.删除干净2、去anaconda官网下载最新的anaconda包,适合自己的电脑版本。Anaconda3-2020.02-Windows-x86_64.exe3、修改环境变量,如果环境变量path里面有其他的路径,说明没有卸载干净,我就发现有C盘下最早装的anaconda3,最后打开文件所在位置,彻底删除干净4、修改jupyter的文档路径,之前就没搞定,其实就是一个---首先要找到配置文件位置。在开始菜单里找到并
2021-07-21 12:42:14
1348
2
原创 模型如何封装成PMML文件
训练好的模型封装成PMML文件,就可以供数据直接调用。具体代码如下:from sklearn import treefrom sklearn.datasets import load_irisfrom sklearn2pmml.pipeline import PMMLPipelinefrom sklearn2pmml import sklearn2pmmlif __name__ == '__main__': # 经典数据集 iris = load_iris() #...
2021-07-20 14:36:32
443
原创 如何判断链接为跳转链接
本文主要介绍,如何判断一个链接为跳转链接。并且判断出当前链接的域名以及跳转之后的域名。import numpy as npimport pandas as pdimport requestsimport reimport urllibdef __init__(self,url,text,content): # 初始化 self.url = url self.text = text self.content = content url_target = ...
2021-07-20 14:31:28
996
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人