小丑鱼1127-优快云博客

转载 python3解析库lxml

python3解析库lxml1、python库lxml的安装2、XPath常用规则（1）读取文本解析节点（2）读取HTML文件进行解析（3）获取所有节点（4）获取子节点（5）获取父节点（6）属性匹配（7）文本获取（8）属性获取（9）属性多值匹配（10）多属性匹配（11）XPath中的运算符（12）按序选择（13）节点轴选择（14）案例应用：抓取TIOBE指数前20...

2019-07-01 09:48:23 620

转载 Kafka 是否可以用做长期数据存储？

问题“把 Kafka 作为长期存储有问题吗？”这是一个非常常见的问题，我们知道，Kafka 是这样存储日志记录的答案是“可以”，只要把数据保留时间设置为“永久”，或者开启日志压缩，数据就会被一直保存把数据长期存储在 Kafka，这个做法并不疯狂，很多人已经在这么用，并且 Kafka 的设计中也涵盖了这种用法，下面是一些实际应用的场景应用场景（1）你有一个应用，使用了事件模...

2019-06-20 14:35:09 1358

原创 ElasticSearch常用语句

ElasticSearch常用语句ElasticSearch:6.4.x定义规则：PUT _template/template_1{ "index_patterns": ["es_index_*"], #es索引index规则 "settings": { "number_of_shards": 5, #设置分片数 "number_of_...

2019-06-05 15:26:45 1032

原创使用PySpark将kafka数据写入ElasticSearch

使用PySpark将kafka数据写入ElasticSearchElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。　　...

2019-05-27 18:00:41 1575

原创 hive分区表增加字段会导致新增字段为NULL

hive分区表增加字段会导致新增字段无法显示值的BUG问题：创建了hive表：create table default.temp (id int,name string) partitioned by (logdate string);插入数据：insert into table default.temp partition (logdate='2019-03-01') v...

2019-04-18 15:58:47 1641

转载 Spark Streaming与Kafka如何保证数据零丢失

1、At most once - 每条数据最多被处理一次（0次或1次），这种语义下会出现数据丢失的问题；2、At least once - 每条数据最少被处理一次 (1次或更多)，这个不会出现数据丢失，但是会出现数据重复；3、Exactly once - 每条数据只会被处理一次，没有数据会丢失，并且没有数据会被多次处理，这种语义是大家最想要的，但是也是最难实现的。spark streami...

2019-03-13 10:49:12 683

转载 RabbitMQ 四种类型发送接收数据方式

1.基本用法生产者1 import pika2 import sys34 username = 'wt' #指定远程rabbitmq的用户名密码5 pwd = '111111'6 user_pwd = pika.PlainCredentials(username, pwd)7 s_conn = pika.BlockingConnection(pika.Co...

2019-03-07 10:17:08 3793

转载正则表达式三种模式：贪婪模式、懒惰模式、独占模式

需求为Lazada卖家中心做一个自助注册的项目，其中的shop name校验规则较为复杂，要求1. 英文字母大小写2. 数字3. 越南文4. 一些特殊字符，如“&”，“-”，“_”等看到这个要求的时候，自然而然地想到了正则表达式。于是就有了下面的表达式（写的比较龊）：^([A-Za-z0-9._()&'\- ]|[aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶ...

2019-03-05 17:16:34 691 1

转载 requests发送post请求的一些疑点

前言在Python爬虫中，使用requests发送请求，访问指定网站，是常见的做法。一般是发送GET请求或者POST请求，对于GET请求没有什么好说的，而发送POST请求，有很多朋友不是很清楚，主要是因为容易混淆POST提交的方式。在HTTP协议中，post提交的数据必须放在消息主体中，但是协议中并没有规定必须使用什么编码方式，从而导致了提交方式的不同。服务端根据请求头中的Content-...

2019-02-19 14:24:47 379

转载正则化方法：L1和L2 regularization、数据集扩增、dropout

正则化方法：防止过拟合，提高泛化能力在训练数据不够多时，或者overtraining时，经常会导致overfitting（过拟合）。其直观的表现例如以下图所看到的。随着训练过程的进行，模型复杂度添加，在training data上的error渐渐减小。可是在验证集上的error却反而渐渐增大——由于训练出来的网络过拟合了训练集，对训练集外的数据却不work。为了防止overfit...

2019-02-19 11:24:25 310

转载搞懂朴素贝叶斯公式

一. 朴素贝叶斯朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单，但有时会牺牲一定的分类准确率。首先给出贝叶斯公式：换成分类任务的表达式：我们最终求的p(类别|特征)即可！就相当于完成了我们的任务。则，朴素贝特斯公式为：二. 实例解析首先，给出数据如下:现在给我们的问题是，如果...

2019-01-25 12:29:16 1946

原创 Structured Streaming使用staticDf和StreamingDf进行join

概观结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。您可以像表达静态数据的批处理计算一样表达流式计算。Spark SQL引擎将负责逐步和连续地运行它，并在流数据继续到达时更新最终结果。您可以使用Scala，Java，Python或R中的数据集/数据框架API来表示流聚合，事件时间窗口，流到批处理连接等。计算在同一优化的Spark SQL引擎上执行。最后，系统通过检查点和预写...

2018-12-07 17:23:32 5406

原创 flink项目开发-flink的scala shell命令行交互模式开发

flink的 scala shell命令行交互模式开发版本Flink：1.6.2flink带有一个集成的scala shell命令行。它可以以本地方式启动来模拟集群集群。执行下面的命令就可以通过shell命令行和flink集群交互(这种方式方便于代码调试)：bin/start-scala-shell.sh local如果想在集群上面运行scala shell，请查看本节后面的...

2018-12-05 17:24:35 6003

转载 Spark排错与优化

文章目录一. 运维1. Master挂掉,standby重启也失效2. worker挂掉或假死二. 运行错误1.shuffle FetchFailedException2.Executor&Task Lost3.倾斜4.OOM5.task not serializable6.driver.maxResultSize太小7.taskSet too large8. dr...

2018-12-04 09:05:44 6949

转载 Hive性能优化（全面）

Hive性能优化（全面）原文地址：https://blog.youkuaiyun.com/qq_36421826/article/details/82112373#commentBox1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联...

2018-11-02 10:12:21 8132

原创 Kylin 认识及使用RESTful API进行cube的增量更新

Kylin 认识及使用RESTful API进行cube的增量更新版本：spark 2.2.0kylin：2.5.0首次登入界面：首先要创建project：如果想要查看当前有多少个project：点击Manage Project:创建完Project之后，就可以导入hive的数据（kylin是查询hive的数据，根据预计算将结果预写入H...

2018-11-01 09:06:23 9938

原创 HIVE分区以及分桶的简单概念

1、Hive 分区表在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。 Hive可以对数据按照某列或者某些列进行分区管理，所谓分区我们可以拿下面的例子进行解释。当前互联网应用每天都要存储大量的日志文件，几G、几十G甚至更大...

2018-10-16 13:24:18 9829

原创 HIVE函数集合（全）

HIVE函数集合函数名含义及实例 ABS abs（x） - 返回x的绝对值示例： > SELECT abs（0）FROM src LIMIT 1; 0 > SELECT abs（-5）FROM src LIMIT 1; 五 ACOS acos（x） - 如果-1 <= x <= 1则返回x的反余...

2018-09-29 13:05:39 25837 1

原创 FreeTDS在Linux操作sqlServer

FreeTDS在Linux操作sqlServer什么是FreeTDS 　　简单的说FreeTDS是一个程序库，可以实现在Linux系统下访问微软的SQL数据库！ FreeTDS 是一个开源的程序库，是TDS（表列数据流）协议的再次实现。它可以被用在Sybase的db-lib或者ct-lib库。它也包含一个ODBC的库。允许许多开源的应用软件比如Perl和PHP(或者你自己的c或C++程序)...

2018-09-06 10:51:57 20296 1

原创 Zeppelin结合Spark等各种Interpreter的使用

Zeppelin结合Spark等各种Interpreter的使用Apache Zeppelin是基于Web的笔记本，支持SQL、Scala等数据驱动的交互式数据分析和协作文档。技术方面主要有Spark、SQL、Python。在部署方面支持单个用户也支持多用户。Zeppelin Notebook可以满足数据摄取、数据发现、数据分析、数据可视化与协作。多语言后端Apace Zeppel...

2018-09-05 10:27:46 21742 3

原创 Linux窗口和Win命令窗口查看mysql bit类型的值

Linux窗口和Win命令窗口查看mysql bit类型的值在很多情况下（例如数据量大、磁盘空间有限活节约空间），我们需要压缩存储空间，mysql的数据也一样，当我们存储的数据为1和0时，就可以采用bit类型数据要减少存储空间，Bit称为位数据类型，其数据有两种取值：0和1，长度为1位。在输入0以外的其他值时，系统均把它们当1看待。在mysql工具当中（比如Navicat）可以查看mysq...

2018-09-04 09:59:26 12917

原创 SPSS数据分组

SPSS数据分组数据分组，根据分析目的将数值型数据进行等距或非等距分组，这个过程也称为数据离散化，一般用于查看分布，入消费分布、收入分布、年龄分布等在SPSS中主要使用可视分箱来对数据分组操作，首先打开数据，点击转换菜单栏下面的可视分箱：我们主要是对年龄进分组，将“年龄”变量移至“要分箱的变量”中，点击继续：可以为分组变量起名为：年龄段（分箱化变量），从直方图中我们可以看出...

2018-08-24 14:59:31 37919 1

原创 SPSS数据抽取

SPSS数据抽取数据抽取一般分为两类：字段拆分和随机抽样字段拆分数据抽取，也称为数据拆分，是只保留原数据表中的某些字段、记录的部分信息，形成一个新字段、新记录。在spss中导入我们需要的数据，变量主要包含如下：对于身份号码可以获取出生年、月、日点击转换菜单栏下面的计算变量：在函数组中选择字符串，在函数和特殊变量中选择Char.Substr(3),双击Char.S...

2018-08-24 14:30:42 23144

原创 SPSS数据清洗

SPSS数据清洗关于spss对数据的清洗，就是将多余重复的数据筛选清楚，将确实的数据补充完整，将错误的数据纠正活删除。下面主要内容是关于最常用的重复数据操作：首先在spss中导入需要去重的数据：选择数据菜单，选择【标识重复个案】因为我们是要将6个变量都相同的理解为重复个案，所以需要将6个变量全都放置“定义匹配个案的依据中”其他保持不变，然后点击确定，在数据窗口就...

2018-08-24 11:19:04 29740 2

原创 Windows安装mysql的ZIP包

Windows安装mysql的ZIP包MYSQL安装的时候可以有msi安装和zip解压缩两种安装方式（windows）。zip压缩包解压到目录，要使用它还需对它进行一定的配置。下面对Mysql压缩包版的安装方法进行详细的描述。一、下载mysql压缩包文件下载地址：https://dev.mysql.com/downloads/mysql/①选择相应的mysql版本：如图②根...

2018-08-24 10:07:55 23156 8

原创 kettle链接hive的环境配置

kettle链接hive1）首先将hive/lib目录的包导入到kettle目录D:\software\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh510\lib下（找到你安装的目录）2）找到D:\software\data-integration\plugins\pentaho-b...

2018-08-24 09:40:14 14355

原创 phoenix创建hbase的映射表

phoenix创建hbase的映射表首先在hbase中创建表方法如下：往表里面添加数据：hbase查询数据：在phoenix创建hbase的映射表：注意：在phoenix创建hbase映射表时，如果hbase的表是小写，一定要在创建phoenix映射表时小写表名加上引号，phoenix映射表的字段不管hbase的字段是大小写都要加上引号，...

2018-08-23 11:53:47 19027 6

原创 GitHub详细使用步骤

将项目上传到github上详细步骤①首先注册github账号登录，创建新仓库，点击下三角+号，再点击new repository得到如下页面，填写仓库名，自己随便写一个名字，下面的描述可写可不写，点击Initialize this repository with a README，然后创建：②下载git shell，https://git-scm.com/download...

2018-08-20 17:22:13 13780

转载猫眼爬取专业评分的python技术

本人是比较喜欢爬虫技术，对于爬虫我更喜欢python的一些框架等，最好看见很不错的一篇文章，给大家转发看下转发链接：https://blog.youkuaiyun.com/qq_36421826/article/details/72621867...

2018-06-14 11:03:07 12436

Python爬虫框架Scrapy_200页操作过程

Python爬虫从入门到精通，这篇文档主要是针对学习python爬虫的课程，又基础的python爬虫框架scrapy开始，一步步学习到最后完整的爬虫完成，现在python爬虫应用的非常广泛，改篇详细介绍了scrapy爬虫和其他爬虫技术的对比，深入剖析python爬虫的每一步，主要内容如下： 1）pyhon爬虫基础 2）爬虫库 3）Scrapy框架 4）命令行工具 5）Items 6）Spiders 7）选择器 8）管道 9）中间件 10）爬虫小技巧

2018-08-21

世界各个国家边界范围 shp格式数据154.77MB

全球行政区划shapefile数据，包含全球行政区划数据

2022-01-05

[Excel数据处理与分析实战技巧精粹]

[Excel数据处理与分析实战技巧精粹]专业版是市场上最为强大便捷的Excel比较工具。它为工作中经常需要进行数据比较的用户提供了完美的解决方案。无论你的数据是存放在Excel文件，还是存放在文本文件，或者存放在Access、Microsoft SQL数据库，[Excel数据处理与分析实战技巧精粹]专业版都可以提供快速比较，大量节省您的时间和精力，将您从枯燥冗长的数据海洋中解放出来，从而让您的工作变得轻松愉快。 [Excel数据处理与分析实战技巧精粹]专业版不同于其它同类产品。其它同类产品在比较时候，要么是一个插件，要么需要显式地在前台运行Excel程序。而百分百比较Excel完全独立运行，与后台的Excel程序协同完成工作，不需要来回切换程序。掌握SUM函数，if函数，vlookup函数，index函数，match函数。offset函数和text函数等，成为一个高级用户。

2018-08-20

【百度地图API】自行获取区域经纬度的工具.html

百度地图，下载可直接打开获取任意点击经纬度，开启状态可获取连线多经纬度

2022-01-05

信息系统项目管理师备考指导.rar

信息系统项目管理师备考指导

2022-01-05

全球经纬度边界JSON数据-(全).rar

全球各国的经纬度边界数据，数据为JSON格式的，比较全，不是shp格式的。注意下载

2022-01-05

Spark大数据分析技术_网盘链接下载15.69M

Spark大数据分析技术，是一本为Spark初学者准备的书，没有过多深入实现细节，而更多关注上层用户的具体用法。尝试把spark应用到实践中，去探寻数据海洋里的无尽瑰宝。主要内容如下： 1）Spark数据分析导论 2）Spark下载与入门 3）RDD编程 4）键值对操作 5）数据读取与保存 6）Spark编程进阶 7）在集群上运行的Spark 8）Spark调优与调试 9）SparkSQL 10）Spark Streaming 11）基于MLlib的机器学习

2018-08-20

数据分析_企业完整高清版_熟练数据分析过程

《数据分析_企业完整高清版_熟练数据分析过程》结合了项目流程和项目应用让大家可以更深入理解Excel的应用，引项目之线，穿知识之珠，让你真正学会企业数据分析的使用过程，本书主要包括以下内容： 1）数据分析的价值与需求 2）数据分析的实战与应用设计方案数据采集数据处理数据分析

2018-08-20

数据分析师TABLEAU应用实战_网盘链接48.32M

《数据分析师TABLEAU应用实战》全篇以丰富的电力行业实际案列贯穿始终，对各类方法，技术进行详细说明，包括数据连接与管理，踧踖与高级可视化分析，地图分析，高级数据操作，统计分析，分析图表整合与分析成果共享等主要内容，方便大家快速掌握数据连接与标记、图形展示与编辑功能，阐述了如何与R同等工具进行集成，如何在服务器上进行发布管理等内容，主要部分如下： 1）Tableau入门 2）典型应用场景 3）数据连接与管理 4）初级可视化分析 5）地图分析 6）高级数据操作 7）高级可视化分析 8）统计分析 9）分析图表整合 10）分析成果共享 11）Tableau Server简介

2018-08-20

基于SPSS Modeler的数据挖掘_数据分析_网盘链接下载108.40M

基于SPSS Modeler的数据挖掘_数据分析，主要结合了三个方面进行讲解，第一是软件操作层面，让使用者实际操作，尽快掌握软件的使用方法和处理步骤，第二是结果分析层面，让使用者通过案例演示，基本明白软件的输出结果，从而得出正确的分析结论，第三是方法论层面，让使用者通过对某个算法基本思路的了解，进一步提高方法应用和分析水平，升华对数据挖掘的认识。主要内容如下： 1）数据挖掘和Modeler使用概述 2）Modeler的数据读入和数据集成 3）Modeler的数据理解 4）Modeler的数据准备 5）Modeler的基本分析 6）Modeler的数据精简 7）分类预测：Modeler的决策树 8）分类预测：Modeler的人工神经网络 9）分类预测：Modeler的支持向量机 10）分类预测：Modeler的贝叶斯网络 11）探索内部结构：Modeler的聚类分析 12）探索内部结构：Modeler的关联分析

2018-08-20

SPSS Modeler数据挖掘方法及应用_网盘链接下载85.25M

SPSS Modeler数据挖掘方法及应用，本书主要特点： 1）以数据挖掘过程为线索介绍SPSS Modeler软件 2）数据挖掘方法，软件操作、案例分析的有机结合 3）数据挖掘方法讲解通俗，软件操作过程说明详实主要内容如下： 1）数据挖掘和SPSS Modeler概述 2）SPSS Modeler数据的读入 3）SPSSModeler变量的管理 4）SPSS Modeler样本的管理 5）SPSS Modeler数据的基本分析 6）分类预测：SPSS Modeler的决策树 7）分类预测：SPSS Modeler的人工神经网络 8）分类预测：SPSS Modeler的统计方法 9）探索内部结构：SPSS Modeler 的关联分析 10）探索内部结构：SPSS Modeler的聚类分析

2018-08-20

SPSS从入门到精通_网盘链接下载37.93M

SPSS从入门到精通，主要是通过统计描述、统计推断和探索性分析，总结并提炼工作汇中经常用到并且非常实用的通过SPSS进行数据处理，数据分析实战方法和技巧。主要内容如下： 1）SPSS概况 2）数据处理 3）数据分析 4）相关分析 5）回归分析 6）自动线性建模 7）Logistic回归 8）时间序列分析 9）RFM分析 10）聚类分析 11）因子分析 12）对应分析

2018-08-20

2018年手机号码归属地

2018年手机号码归属地，这篇文档主要是手机号码归属地详细内容

2018-08-21

R语言描述性统计分析_207页

R语言描述性统计分析，这篇文档主要是以R语言基础为引导到R语言描述性统计分析，会有分析方法和高级绘图方法，主要章节有：第一章：数据分析概念与R编程第二章：SQL数据库与统计分析第三章：描述性统计分析推断第四章：捅进推断与精益化管理第五章：时长分析方法与模式识别第六章：客户分析方法与分类模型第七章：时间序列分析与综合案例

2018-08-21

Python基础及其数据分析库_279页

Python基础及其数据分析库，这篇文章主要 1）python语言介绍 2）Anaconda科学计算集成介绍 3）python编辑器、shell，编辑器介绍 4）python的第三方包的管理 5）python在数据分析领域的生态介绍 6）程序 7）变量，表达式和语句 8）函数 9）条件表达式 10）字符串 11）列表 12）序列 13）字典 14）文件 15）异常 16）类和对象 17）类和方法 18）操作符重定义 19）继承 20）numpy库 21）Pandas库 22）Pandas数据读写 23）深入pandas数据处理

2018-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人