- 博客(198)
- 收藏
- 关注
原创 SQL-杂记1
使用 VALUES 子句将 D 表中的五个日期字段作为行插入到一个虚拟表 V 中,字段名为 DateValue。然后从这个虚拟表中选择 DateValue 的最小值,并将其命名为 MinStartDate。其实它就是将查询结果集以XML形式展现,将多行的结果,展示在同一行。虚拟表中对应呀源表中有5条 是多对一的关系衍生出了5条数据。将字符串中的某一部分用另一字符串替换掉。多个字段使用MX()函数。
2025-01-17 11:23:13
284
原创 Spark综合案例
# 需求1: 统计各省销售额# 需求2:TOP3销售省份中,有多少店铺达到过日销售额1000+# 需求3: TOP3省份中各个省份的平均订单价格# 需求4: TOP3省份中,各个省份的支付比例
2022-02-17 19:13:27
1408
1
原创 pyspark 第五章共享变量
from unittest import resultfrom pyspark import SparkConf,SparkContextimport json# /opt/module/spark/bin/spark-submit /opt/Code/broadcast.pyif __name__ == '__main__': conf = SparkConf().setAppName("WorldCount").setMaster("local[*]") sc = Spark..
2022-02-06 11:17:23
1177
原创 pyspark 搜索引擎日志分析
# coding:utf8import jieba# python /opt/Code/searchSouGou.pyif __name__ == '__main__': content = '小明硕士毕业于中国科学院计算所,后在清华大学深造' # 对切分后的关键词进行二次组合 result = jieba.cut(content,True) print(','.join(result)) # 仅切分出来词 result = jieba.cut(co.
2022-01-30 11:07:54
2308
原创 SparkSQL 函数的定义
if __name__ == '__main__': spark = SparkSession.builder.appName('create df').master('local[*]').\ config('spark.sql.shuffle.partition','2').\ getOrCreate() sc = spark.sparkContext rdd = sc..
2022-01-30 10:02:41
1256
原创 sparkSQL案例(第三章)
SparkSession#coding:utf8from pyspark.sql import SparkSessionif __name__ == '__main__': spark = SparkSession.builder.appName('create df').master('local[*]').getOrCreate() sc = spark.sparkContext df = spark.read.csv('hdfs://101.133.232.96:8.
2022-01-27 13:49:19
3456
原创 pyspark 相关代码记录(Transformation 算子)
在conda activate pyspark 的环境中运行更快1. WordCountfrom pyspark import SparkConf,SparkContextif __name__ == '__main__': conf = SparkConf().setAppName("WorldCount").setMaster("local") sc = SparkContext(conf=conf) file_rdd = sc.textFile("hdfs://47.
2022-01-23 17:32:12
774
原创 在Anaconda中安装XGBoost
Mac在Anaconda中安装XGBoosthttps://blog.youkuaiyun.com/weixin_44750583/article/details/103841216windows在Anaconda中安装XGBoosthttps://blog.youkuaiyun.com/xiaoran_Li/article/details/88025003?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachin
2021-05-16 21:01:18
218
转载 用opencv保存视频失败
由查得的方法总结,可能存在的问题包括几方面:1.编码方式不对2.视频写入的图像尺寸与画布尺寸不对应转载 https://blog.youkuaiyun.com/weixin_48994268/article/details/114458138import numpy as npimport cv2cap = cv2.VideoCapture('test.mp4')fourcc = cv2.VideoWriter_fourcc(*'MJPG')width = int(cap.get(cv2.CAP_P
2021-03-23 17:19:52
561
原创 苹果 Acrobat Pro DC Xmind 2020
资源链接: https://pan.baidu.com/s/1WBhmCkSIxYe_GdtuNrCwng安装教程:https://www.maczl.com/AcrobatProDC2020.html
2021-03-10 16:38:09
201
原创 KNN算法
class KNearestNeighbor(object): def __init__(self): pass # 训练函数 def train(self, X, y): self.X_train = X self.y_train = y # 预测函数 def predict(self, X, k=1): # 计算L2距离 num_test = X.shape[0]
2021-01-19 11:17:42
198
1
原创 k折交叉验证
K折交叉验证,将初始采样(样本集X,Y)分割成K份,一份被保留作为验证模型的数据(test set),其他K-1份用来训练(train set)。交叉验证重复K次,每份验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测K_classes = [3, 5, 7, 9, 11, 13, 15] # 所有K值# 把训练数据分成5份X_train_folds = []y_train_folds = []X_train_folds = np.split(X_train, num_.
2021-01-19 10:51:07
385
转载 matplotlib不显示中文的解决方法
RuntimeWarning: Glyph 20108 missing from current font. font.set_text(s, 0.0, flags=flags)解决办法
2021-01-18 17:12:58
198
原创 批量插入数据,若数据已存在请忽略
sql 2008if not exists( select top 1 * from actor where actor_id = '3')begin insert into actor values('3','ED','CHASE','2006-02-15 12:34:33')endsqliteinsert or ignore into actorvalues(3,'ED','CHASE','2006-02-15 12:34:33');
2021-01-18 14:53:36
446
原创 查找描述信息中包含robor的电影
select name,count(B.film_id)from categoryinner join (select category_idfrom film_categorygroup by category_idhaving count(film_category.category_id)>5) Aon category.category_id =A.category_idinner join film_categoryon A.category_id = film
2021-01-14 15:00:29
153
原创 svn==>brew===>gitzip 离线==》google插件
https://www.jianshu.com/p/ef3d53a9f0b0
2021-01-08 17:27:13
173
原创 辅导
https://blog.youkuaiyun.com/nb_zsy/article/details/10407663224: 内存地址从AC000H到C7FFFH,共有 K个地址单元,如果该内存地址按字(16bit)编址,由28片存储器芯片构成。已知构成此内存的芯片每片有16K个存储单元,则该芯片每片存储单元存储 位(1)A.96 B.112 C.132 D.156(2)A.4 B.8 C.16 D.241.C7FFF - AC00 +1 = C8000 -AC000 = 1C000将16进制转成十进制再除
2020-12-18 20:13:43
190
原创 cv2.VideoWriter
videoCapture = cv2.VideoCapture(args.video_name)fps = videoCapture.get(cv2.CAP_PROP_FPS)size = (int(videoCapture.get(cv2.CAP_PROP_FRAME_WIDTH)),int(videoCapture.get(cv2.CAP_PROP_FRAME_HEIGHT)))print("fps:",fps,"size:",size)videoWriter = cv2.VideoWriter
2020-11-26 15:27:05
1412
原创 ModuleNotFoundError: No module named ‘pip‘
python -m ensurepippython -m pip install --upgrade pip参考 https://blog.youkuaiyun.com/haihonga/article/details/100168691
2020-11-24 16:57:45
100
原创 不用打开jupyter也能预览.ipynb
太强了!这个 Jupyter notebook 离线工具可以用一辈子!Github链接:https://github.com/jsvine/nbpreview如果大家不便下载的话,也给大家准备了奶牛快传:https://alltodata.cowtransfer.com/s/53ef0ced82f64a
2020-11-19 17:52:25
953
原创 爬取药监局的数据尝试
1.直接利用网址http://app1.nmpa.gov.cn/datasearchcnda/face3/search.jsp?tableId=121&State=1&bcId=152894035121716369704750131820&State=1&curstart=’+str(i)+’&State=1&tableName=TABLE121&State=1&viewtitleName=COLUMN1615&State=1&
2020-11-18 16:43:39
6399
18
原创 YawDD数据集
https://ieee-dataport.org/open-access/yawdd-yawning-detection-dataset
2020-11-17 22:01:14
6188
原创 latex在word中插入公式
下载wps教育版ctex下载打开WPS,插入公式,选择latex参考: https://zhuanlan.zhihu.com/p/50762285
2020-11-12 17:22:44
558
原创 1. (self: dlib.fhog_object_detector, image: array, upsample_num_times: int=0) -> dlib.rectangles
参考:TypeError in python OpenCV - Unable to get frame可能返回的是空帧
2020-09-16 21:46:28
1245
原创 UnboundLocalError: local variable ‘l’ referenced before assignment
遇到在程序中访问全局变量并且要修改全局变量的值的情况可以使用:global 关键字,在函数中声明此变量是全局变量。#!/usr/bin/python# -*- coding: UTF-8 -*-import syssum=5print '改变之前:sum=',sumdef add(a=1,b=3): global sum print 'add 函数中:sum=',sum sum=b+a print '函数中改变之后:sum= ',sumadd(4,8)pr
2020-09-15 23:21:10
431
原创 pycharm的debug
设置好断点,debug运行,然后 F8 单步调试,遇到想进入的函数 F7 进去,想出来在 shift + F8,跳过不想看的地方,直接设置下一个断点,然后 F9 过去。参考: https://blog.youkuaiyun.com/s740556472/article/details/90054266...
2020-09-04 17:07:42
88
原创 pip install 安装加速方法
pip --default-timeout=100 install 库名称 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com转载: Python报错pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool解决方法
2020-08-26 16:13:24
433
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人