- 博客(48)
- 收藏
- 关注
原创 数仓建模理论-最全
数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合。重要用于组织积累的历史数据,并且使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能。面向主题:为数据分析提供服务,根据主题将原始数据集合在一起。集成的:原始数据来源于不同的数据源,要整合成最终数据,需要经过 ETL(抽取、清洗、转换)的过程。非易失:保存的数据是一系列历史快照,不允许被修改,只允许通过工具进行查询、分析。
2023-08-30 13:57:58
301
原创 urllib携带登录信息
python抓取页面模拟登录信息import urllib.requestimport urllib.parseimport urllib.errorimport http.cookiejarurl='http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=La2A2'data={ 'username':'zhanghao', 'pass
2021-08-18 11:32:16
318
原创 python调用扬声器、摄像头
实现语音播报import pyttsx3engine = pyttsx3.init()engine.say("hello world")engine.runAndWait()实现调用摄像头拍照import cv2def getPicture(): cap = cv2.VideoCapture(0) ret, frame = cap.read() cv2.imwrite('./test.jpg', frame) # 关闭摄像头 cap.rel.
2021-07-30 15:39:29
1435
原创 SQL会话变量
select *,if(@salary=salary,@rank:=@rank+1,@rank:=1),@salary:=salary from (select * from test order by salary) a,(select @salary:=0,@rank:=0) b;
2021-04-12 21:26:13
343
原创 ADB事件大全
模拟点击adb shell input tap 250 250模拟滑动界面adb shell input swipe 250 250 300 300模拟键入adb shell input text "text"模拟home键adb shell input keyevent 3电话键KEYCODE_CALL: 拨号键KEYCODE_ENDCALL: 挂机键KEYCODE_HOME: 按键HomeKEYCODE_MENU: 菜单键KEYCODE_BACK: .
2021-04-07 08:49:39
691
原创 ADB启动或关闭APP
查看启动的包名及activityadb shell dumpsys activity top | find "ACTIVITY"# 实例输出 ACTIVITY com.tencent.mm/.ui.LauncherUI 717a383 pid=5505 ACTIVITY com.huawei.android.launcher/.unihome.UniHomeLauncher 70fbc87 pid=2211 ACTIVITY com.eg.android.AlipayGphone/.Al.
2021-04-06 22:44:16
458
原创 Hive(五)——查询
Hive(五)——查询SELECT… FROM语句,一般情况不再赘述,以下展示复合数据结构如何取值# 先提供几条数据与建表语句,方便随手练习John Doe!100000.0!Mary Smith$Todd Jones!Federal Taxes,0.2$State Taxes,0.05$Insurance,0.1!1 Michigan Ave.$Chicago$IL$60600Mary Smith!80000.0!Bill King!Federal Taxes,0.2$State Taxes,
2021-03-30 09:59:32
138
原创 Hive(四)——数据操作
Hive(四)——数据操作向管理表装载数据,指定路径应该是一个目录而非文件(load本地文件不会抛异常,hdfs则不可)# 装载本地文件的数据使用local关键字,装载hdfs数据去掉local关键字即可LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'OVERWRITE INTO TABLE employeesPARTITION (country = 'US', state = 'CA');注意:1、LOAD DATA LO
2021-03-25 19:59:23
522
转载 HTTP三次握手与四次挥手
TCP通讯三次握手(1)第一次握手:Client将标志位SYN置为1,随机产生一个值seq=J,并将该数据包发送给Server,Client进入SYN_SENT状态,等待Server确认。(2)第二次握手:Server收到数据包后由标志位SYN=1知道Client请求建立连接,Server将标志位SYN和ACK都置为1,ack=J+1,随机产生一个值seq=K,并将该数据包发送给Client...
2021-03-25 11:07:54
108
原创 Hadoop环境搭建
HDFS环境搭建下载jdk 和 hadooptar -zxvf 压缩包名字 -C ~/bigdata/配置环境变量vi ~/.bash_profileexport JAVA_HOME=/root/bigdata/jdkexport PATH=$JAVA_HOME/bin:$PATHexport HADOOP_HOME=/root/bigdata/hadoopexport ...
2021-03-25 11:06:58
84
原创 Spark入门
Spark入门Spark概述专为大规模数据处理而设计的快速通用计算引擎(与hadoop的Mapreduce类似)Spark 对比 MapReduceMapReduce每一次shuffle都要写磁盘,多个MapReduce之间通过磁盘进行数据传递,Spark的shuffle结果可以保存在内存中的MapReduce在每一个mapper和reducer之间都要经历一次shuffle,sp...
2021-03-25 11:05:59
77
原创 数据分析和挖掘常用方法
数据分析和挖掘常用方法介绍 聚类分析 回归分析 分类分析 以及其他常用分析手段不同方法的内在业务联系聚类分析用户由哪些群体组成这些群体有哪些明显特征回归分析未来销售趋势预测营销投入如何影响销售分类分析如何筛选出更值得营销的用户其它分析手段关联分析异常检测分析聚类分析聚类是将大量数据集中具有“相似”特征的数据点或样本划分为一个...
2021-03-25 11:04:28
2433
原创 Hive(三)——数据定义
Hive(三)——数据定义每个数据库会创建一个目录,数据库下的表变现为改目录下的子目录(default库无自己的目录)数据库目录默认在hive.metastore.warehouse.dir指定的顶层目录后,例如,常见数据库database,则hive创建一个/user/hive/warehouse/database.db目录。# 我们可以通过以下命令修改建库默认位置hive > CREATE DATABASE financials > LOCATION '/my/pre
2021-03-25 10:52:04
228
原创 命令行打印二维码-pyqrcode
安装pyqrcodepip install pyqrcode实现import pyqrcodeurl = pyqrcode.create("https://lemon.baidu.com")url.svg("uca-url.svg", scale=8)url.eps("uca-url.eps", scale=2)print(url.terminal(quiet_zone=1))
2021-03-19 17:27:36
1308
原创 Python生成二维码-qrcode
# 安装qrcode包pip install qrcode简单实现import qrcodeqrcode.make("https://www.baidu.com").save('./baidu.jpg')
2021-03-19 17:23:56
109
原创 Hive(二)——数据类型与文件格式
Hive笔记(二)数据基本数据类型集合数据类型分隔符如果一个表表结构指定三个字段,而数据文件有五列,则后两列会被舍弃如果某些字段是数值型的,但是Hive在读取时发现存在非数值型的字符串值的话,那么对于那些字段将会返回null值。————读时模式如果数据库非常多的话,那么可以使用正则表达式匹配来筛选出需要的数据库名hive >show databases like 'h.*';建库语句使用LOCATION关键字可指定数据库位置(默认hive.meta
2021-03-04 14:03:20
207
1
原创 Hive(一)——基础操作
Hive笔记(一)CLI命令行使用!加linux命令可避免退出不退出CLI hive >!ls;hdfs命令可配合管道符加linux命令使用 dfs -cat /test/c.txt | more可在~/.hiverc文件写入自定义配置vim ~/.hiverc # CLI输出显示标头 set hive.cli.print.header=false; # CLI输出显示当前数据库 set hive.cli.print.current.db=true;
2021-02-09 15:20:53
159
原创 Hive命名空间-自定义变量
Hive命名空间Hive的命名空间分为:hiveconf , system, env 和 hivevar1、hiveconf 的命名空间指的是hive-site.xml下面配置的环境变量2、system的命名空间是系统的变量,包含JVM的运行信息3、evn的命名空间是指环境变量,包含Shell环境下的变量信息,如 HADOOP_HOME一类的4、hivevar为临时变量可以使用:$ hive --define foo=barhive> set foo;foo=bar;hive&g
2021-02-09 14:05:43
2084
原创 为linux命令起别名
使别名永久生效(#定制专属命令~#)编辑~/.bashrc文件vim ~/.bashrc例子:# .bashrc# User specific aliases and functionsalias rm='rm -i'alias cp='cp -i'alias mv='mv -i'alias cls='clear'alias hdfs='hadoop fs'# Source global definitionsif [ -f /etc/bashrc ]; then
2021-01-11 22:49:35
160
原创 pip极速安装指定下载源
终端执行pip install XXX -i https://pypi.tuna.tsinghua.edu.cn/simple
2021-01-03 22:12:09
373
1
原创 centos 安装mysql5.7
下载并安装MySQL官方的 Yum Repositorywget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm使用上面的命令就直接下载了安装用的Yum Repository,大概25KB的样子,然后就可以直接yum安装了。yum -y install mysql57-community-release-el7-10.noarch.rpm之后就开始安装MySQL服务器。yum -y insta
2020-12-06 21:53:50
85
原创 centos安装rpm格式jdk
删除系统自带jdkrpm -qa | grep javayum -y remove java java-1.*yum -y remove java java-1.*rpm -e --nodeps tzdata-java-2013g-1.el6.noarchjava #验证已删除(命令不可用)rpm安装jdkrpm -ivh jdk-8u191-linux-x64.rpmjava #验证安装成功Usage: java [-options] class [args...] .
2020-12-05 23:12:57
239
原创 linux安装python3.7
安装编译工具yum -y groupinstall "Development tools"yum install gcc patch libffi-devel python3-devel zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel -yyum install libffi-deve.
2020-12-05 22:47:13
138
原创 《Python cookbook》笔记二
《Python cookbook》笔记二第二章 字符串和文本—使用多个界定符分割字符串—你需要将一个字符串分割为多个字段,但是分隔符 (还有周围的空格) 并不是固定的。# str.split() 方法只适应于非常简单的字符串分割情形# 当你需要更加灵活的切割字符串的时候,最好使用 re.split() 方法>>> line = 'asdf fjdk; afed, fjek,asdf, foo'>>> import re>>> re.sp
2020-10-20 16:25:12
158
原创 《Python cookbook》笔记一
《Python cookbook》第一章 数据结构和算法— *号解压多个变量 —如果一个可迭代对象的元素个数超过变量个数时,会抛出一个 ValueError 。那么怎样才能从这个可迭代对象中解压出 N 个元素出来?>>> record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')>>> name, email, *phone_numbers = record>>>
2020-10-12 13:17:43
191
原创 服务器启动jupyter
进入虚拟环境source activate 虚拟环境名启动jupyterjupyter notebook --ip 0.0.0.0 --allow-root
2020-08-21 13:36:11
2842
原创 Pandas 数据预处理
Pandas数据处理一 概述1.1 业务建模流程将业务抽象为分类or回归问题定义标签,得到y选取合适的样本,并匹配出全部的信息作为特征的来源特征工程 + 模型训练 + 模型评价与调优(相互之间可能会有交互)输出模型报告上线与监控1.2什么是特征在机器学习的背景下,特征是用来解释现象发生的单个特性或一组特性。 当这些特性转换为某种可度量的形式时,它们被称为特征。举个例子,假...
2020-07-17 13:23:53
1531
原创 服务器间数据传输的四种方式
scp【优点】简单方便,安全可靠;支持限速参数【缺点】不支持排除目录【用法】scp就是secure copy,是用来进行远程文件拷贝的。数据传输使用 ssh,并且和ssh 使用相同的认证方式,提供相同的安全保证 。scp [参数] <源地址(用户名@IP地址或主机名)>:<文件路径> <目的地址(用户名 @IP 地址或主机名)>:<文件路径>...
2020-02-29 22:10:11
3378
原创 Spark Streaming实现WordCount
利用Spark Streaming实现WordCount需求:监听某个端口上的网络数据,实时统计出现的不同单词个数。1,需要安装一个nc工具:sudo yum install -y nc2,执行指令:nc -lk 9999 -vimport os#### 配置spark driver和pyspark运行时,所使用的python解释器路径PYSPARK_PYTHON = " " #...
2020-02-20 19:46:45
441
1
原创 pyspark指定schema
通过StructType对象指定DataFrame的Schema没有嵌套结构的jsonjsonString = ["""{ "id" : "01001", "city" : "AGAWAM", "pop" : 15338, "state" : "MA" }""","""{ "id" : "01002", "city" : "CUSHMAN", "pop" : 36963, "stat...
2020-02-20 19:03:00
4621
原创 HBase-shell及happyhbase
HappyBase操作HBase启动HBase thrift server :hbase-daemon.sh start thrift安装happy basepip install happybase如何使用HappyBase建立连接import happybaseconnection = happybase.Connection('somehost')...
2020-02-13 16:23:14
321
原创 Hadoop基础
Hadoop基础简介Hadoop是可靠的、可扩展的开源分布式计算和分布式存储框架由Hadoop Common,HDFS,MapReduce,Yarn 组成HDFS:分布式文件系统MapReduce:分布式计算框架Yarn:资源调度系统Hadoop的优势高可靠数据存储: 数据块多副本数据计算: 某个节点崩溃, 会自动重新调度作业计算高扩展性存储/计算...
2019-12-15 18:18:45
209
原创 matplotlib基本使用
matplotlib基本使用import matplotlib.pylab as plimport numpyx = [1, 2, 3, 4]y = [1, 4, 9, 16]# 线型图pl.plot(x, y) # 折线图pl.plot(x, y, '-') # '-'表示直线,'--'表示虚线,':'表示细小虚线,'-.'表示-.的形式# 散点图pl.plot(x,...
2019-12-04 11:15:31
302
原创 CentOS查看硬件情况
CentOS7 查看硬件情况lsblk 查看分区和磁盘df -h 查看空间使用情况fdisk -l 分区工具查看分区信息cfdisk /dev/sda 查看分区blkid 查看硬盘label(别名)du -sh ./* 统计当前目录各文件夹大小free -h 查看内存大小...
2019-11-27 19:40:05
460
原创 机器学习及算法-python
Scikit-learn包含:分类、聚类、回归特征工程模型选择、调优安装逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法。
2019-11-24 11:27:23
3214
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人