- 博客(29)
- 资源 (15)
- 收藏
- 关注
转载 python3解析库lxml
python3解析库lxml1、python库lxml的安装2、XPath常用规则(1)读取文本解析节点(2)读取HTML文件进行解析(3)获取所有节点(4)获取子节点(5)获取父节点(6)属性匹配(7)文本获取(8)属性获取(9)属性多值匹配(10)多属性匹配(11)XPath中的运算符(12)按序选择(13)节点轴选择(14)案例应用:抓取TIOBE指数前20...
2019-07-01 09:48:23
568
转载 Kafka 是否可以用做长期数据存储?
问题“把 Kafka 作为长期存储有问题吗?”这是一个非常常见的问题,我们知道,Kafka 是这样存储日志记录的答案是“可以”,只要把数据保留时间设置为“永久”,或者开启日志压缩,数据就会被一直保存把数据长期存储在 Kafka,这个做法并不疯狂,很多人已经在这么用,并且 Kafka 的设计中也涵盖了这种用法,下面是一些实际应用的场景应用场景(1)你有一个应用,使用了事件模...
2019-06-20 14:35:09
1294
原创 ElasticSearch常用语句
ElasticSearch常用语句ElasticSearch:6.4.x定义规则:PUT _template/template_1{ "index_patterns": ["es_index_*"], #es索引index规则 "settings": { "number_of_shards": 5, #设置分片数 "number_of_...
2019-06-05 15:26:45
999
原创 使用PySpark将kafka数据写入ElasticSearch
使用PySpark将kafka数据写入ElasticSearchElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 ...
2019-05-27 18:00:41
1523
原创 hive分区表增加字段会导致新增字段为NULL
hive分区表增加字段会导致新增字段无法显示值的BUG问题:创建了hive表:create table default.temp (id int,name string) partitioned by (logdate string);插入数据:insert into table default.temp partition (logdate='2019-03-01') v...
2019-04-18 15:58:47
1601
转载 Spark Streaming与Kafka如何保证数据零丢失
1、At most once - 每条数据最多被处理一次(0次或1次),这种语义下会出现数据丢失的问题;2、At least once - 每条数据最少被处理一次 (1次或更多),这个不会出现数据丢失,但是会出现数据重复;3、Exactly once - 每条数据只会被处理一次,没有数据会丢失,并且没有数据会被多次处理,这种语义是大家最想要的,但是也是最难实现的。spark streami...
2019-03-13 10:49:12
645
转载 RabbitMQ 四种类型发送接收数据方式
1.基本用法生产者1 import pika2 import sys34 username = 'wt' #指定远程rabbitmq的用户名密码5 pwd = '111111'6 user_pwd = pika.PlainCredentials(username, pwd)7 s_conn = pika.BlockingConnection(pika.Co...
2019-03-07 10:17:08
3725
转载 正则表达式三种模式:贪婪模式、懒惰模式、独占模式
需求为Lazada卖家中心做一个自助注册的项目,其中的shop name校验规则较为复杂,要求1. 英文字母大小写2. 数字3. 越南文4. 一些特殊字符,如“&”,“-”,“_”等看到这个要求的时候,自然而然地想到了正则表达式。于是就有了下面的表达式(写的比较龊):^([A-Za-z0-9._()&'\- ]|[aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶ...
2019-03-05 17:16:34
646
1
转载 requests发送post请求的一些疑点
前言在Python爬虫中,使用requests发送请求,访问指定网站,是常见的做法。一般是发送GET请求或者POST请求,对于GET请求没有什么好说的,而发送POST请求,有很多朋友不是很清楚,主要是因为容易混淆POST提交的方式。在HTTP协议中,post提交的数据必须放在消息主体中,但是协议中并没有规定必须使用什么编码方式,从而导致了提交方式的不同。服务端根据请求头中的Content-...
2019-02-19 14:24:47
352
转载 正则化方法:L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,经常会导致overfitting(过拟合)。其直观的表现例如以下图所看到的。随着训练过程的进行,模型复杂度添加,在training data上的error渐渐减小。可是在验证集上的error却反而渐渐增大——由于训练出来的网络过拟合了训练集,对训练集外的数据却不work。 为了防止overfit...
2019-02-19 11:24:25
287
转载 搞懂朴素贝叶斯公式
一. 朴素贝叶斯 朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。 首先给出贝叶斯公式: 换成分类任务的表达式: 我们最终求的p(类别|特征)即可!就相当于完成了我们的任务。 则,朴素贝特斯公式为:二. 实例解析首先,给出数据如下:现在给我们的问题是,如果...
2019-01-25 12:29:16
1880
原创 Structured Streaming使用staticDf和StreamingDf进行join
概观结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。您可以像表达静态数据的批处理计算一样表达流式计算。Spark SQL引擎将负责逐步和连续地运行它,并在流数据继续到达时更新最终结果。您可以使用Scala,Java,Python或R中的数据集/数据框架API来表示流聚合,事件时间窗口,流到批处理连接等。计算在同一优化的Spark SQL引擎上执行。最后,系统通过检查点和预写...
2018-12-07 17:23:32
5360
原创 flink项目开发-flink的scala shell命令行交互模式开发
flink的 scala shell命令行交互模式开发版本Flink:1.6.2flink带有一个集成的scala shell命令行。它可以以本地方式启动来模拟集群集群。执行下面的命令就可以通过shell命令行和flink集群交互(这种方式方便于代码调试):bin/start-scala-shell.sh local如果想在集群上面运行scala shell,请查看本节后面的...
2018-12-05 17:24:35
5966
转载 Spark排错与优化
文章目录一. 运维1. Master挂掉,standby重启也失效2. worker挂掉或假死二. 运行错误1.shuffle FetchFailedException2.Executor&Task Lost3.倾斜4.OOM5.task not serializable6.driver.maxResultSize太小7.taskSet too large8. dr...
2018-12-04 09:05:44
6864
转载 Hive性能优化(全面)
Hive性能优化(全面)原文地址:https://blog.youkuaiyun.com/qq_36421826/article/details/82112373#commentBox1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联...
2018-11-02 10:12:21
8100
原创 Kylin 认识及使用RESTful API进行cube的增量更新
Kylin 认识及使用RESTful API进行cube的增量更新版本:spark 2.2.0kylin:2.5.0首次登入界面: 首先要创建project:如果想要查看当前有多少个project:点击Manage Project:创建完Project之后,就可以导入hive的数据(kylin是查询hive的数据,根据预计算将结果预写入H...
2018-11-01 09:06:23
9892
原创 HIVE分区以及分桶的简单概念
1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。 Hive可以对数据按照某列或者某些列进行分区管理,所谓分区我们可以拿下面的例子进行解释。 当前互联网应用每天都要存储大量的日志文件,几G、几十G甚至更大...
2018-10-16 13:24:18
9801
原创 HIVE函数集合(全)
HIVE函数集合函数名 含义及实例 ABS abs(x) - 返回x的绝对值 示例: > SELECT abs(0)FROM src LIMIT 1; 0 > SELECT abs(-5)FROM src LIMIT 1; 五 ACOS acos(x) - 如果-1 <= x <= 1则返回x的反余...
2018-09-29 13:05:39
25659
1
原创 FreeTDS在Linux操作sqlServer
FreeTDS在Linux操作sqlServer什么是FreeTDS 简单的说FreeTDS是一个程序库,可以实现在Linux系统下访问微软的SQL数据库! FreeTDS 是一个开源的程序库,是TDS(表列数据流 )协议的再次实现。它可以被用在Sybase的db-lib或者ct-lib库。它也包含一个ODBC的库。允许许多开源的应用软件比如Perl和PHP(或者你自己的c或C++程序)...
2018-09-06 10:51:57
20194
1
原创 Zeppelin结合Spark等各种Interpreter的使用
Zeppelin结合Spark等各种Interpreter的使用Apache Zeppelin是基于Web的笔记本,支持SQL、Scala等数据驱动的交互式数据分析和协作文档。技术方面主要有Spark、SQL、Python。在部署方面支持单个用户也支持多用户。Zeppelin Notebook可以满足数据摄取、数据发现、数据分析、数据可视化与协作。多语言后端Apace Zeppel...
2018-09-05 10:27:46
21663
3
原创 Linux窗口和Win命令窗口查看mysql bit类型的值
Linux窗口和Win命令窗口查看mysql bit类型的值在很多情况下(例如数据量大、磁盘空间有限活节约空间),我们需要压缩存储空间,mysql的数据也一样,当我们存储的数据为1和0时,就可以采用bit类型数据要减少存储空间,Bit称为位数据类型,其数据有两种取值:0和1,长度为1位。在输入0以外的其他值时,系统均把它们当1看待。在mysql工具当中(比如Navicat)可以查看mysq...
2018-09-04 09:59:26
12869
原创 SPSS数据分组
SPSS数据分组数据分组,根据分析目的将数值型数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,入消费分布、收入分布、年龄分布等在SPSS中主要使用可视分箱来对数据分组操作,首先打开数据,点击转换菜单栏下面的可视分箱:我们主要是对年龄进分组,将“年龄”变量移至“要分箱的变量”中,点击继续:可以为分组变量起名为:年龄段(分箱化变量),从直方图中我们可以看出...
2018-08-24 14:59:31
37200
1
原创 SPSS数据抽取
SPSS数据抽取数据抽取一般分为两类:字段拆分和随机抽样字段拆分数据抽取,也称为数据拆分,是只保留原数据表中的某些字段、记录的部分信息,形成一个新字段、新记录。在spss中导入我们需要的数据,变量主要包含如下:对于身份号码可以获取出生年、月、日点击转换菜单栏下面的计算变量:在函数组中选择字符串,在函数和特殊变量中选择Char.Substr(3),双击Char.S...
2018-08-24 14:30:42
22811
原创 SPSS数据清洗
SPSS数据清洗关于spss对数据的清洗,就是将多余重复的数据筛选清楚,将确实的数据补充完整,将错误的数据纠正活删除。下面主要内容是关于最常用的重复数据操作:首先在spss中导入需要去重的数据:选择数据菜单,选择【标识重复个案】因为我们是要将6个变量都相同的理解为重复个案,所以需要将6个变量全都放置“定义匹配个案的依据中”其他保持不变,然后点击确定,在数据窗口就...
2018-08-24 11:19:04
29152
2
原创 Windows安装mysql的ZIP包
Windows安装mysql的ZIP包MYSQL安装的时候可以有msi安装和zip解压缩两种安装方式(windows)。zip压缩包解压到目录,要使用它还需对它进行一定的配置。下面对Mysql压缩包版的安装方法进行详细的描述。一、下载mysql压缩包文件下载地址:https://dev.mysql.com/downloads/mysql/①选择相应的mysql版本:如图②根...
2018-08-24 10:07:55
23063
8
原创 kettle链接hive的环境配置
kettle链接hive1)首先将hive/lib目录的包导入到kettle目录D:\software\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh510\lib下(找到你安装的目录)2)找到D:\software\data-integration\plugins\pentaho-b...
2018-08-24 09:40:14
14311
原创 phoenix创建hbase的映射表
phoenix创建hbase的映射表首先在hbase中创建表方法如下:往表里面添加数据:hbase查询数据: 在phoenix创建hbase的映射表: 注意:在phoenix创建hbase映射表时,如果hbase的表是小写,一定要在创建phoenix映射表时小写表名加上引号,phoenix映射表的字段不管hbase的字段是大小写都要加上引号,...
2018-08-23 11:53:47
18918
6
原创 GitHub详细使用步骤
将项目上传到github上详细步骤①首先注册github账号登录,创建新仓库 ,点击下三角+号,再点击new repository得到如下页面,填写仓库名,自己随便写一个名字,下面的描述可写可不写,点击Initialize this repository with a README,然后创建:②下载git shell,https://git-scm.com/download...
2018-08-20 17:22:13
13704
转载 猫眼爬取专业评分的python技术
本人是比较喜欢爬虫技术,对于爬虫我更喜欢python的一些框架等,最好看见很不错的一篇文章,给大家转发看下转发链接:https://blog.youkuaiyun.com/qq_36421826/article/details/72621867...
2018-06-14 11:03:07
12403
Python爬虫框架Scrapy_200页操作过程
2018-08-21
R语言描述性统计分析_207页
2018-08-21
Python基础及其数据分析库_279页
2018-08-21
SPSS Modeler数据挖掘方法及应用_网盘链接下载85.25M
2018-08-20
基于SPSS Modeler的数据挖掘_数据分析_网盘链接下载108.40M
2018-08-20
SPSS从入门到精通_网盘链接下载37.93M
2018-08-20
Spark大数据分析技术_网盘链接下载15.69M
2018-08-20
数据分析师TABLEAU应用实战_网盘链接48.32M
2018-08-20
数据分析_企业完整高清版_熟练数据分析过程
2018-08-20
[Excel数据处理与分析实战技巧精粹]
2018-08-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人