- 博客(7)
- 资源 (1)
- 收藏
- 关注
转载 elasticsearch添加索引
--创建索引PUT http://127.0.0.1:9200/spark_index_sl_1head Content-Type:application/json;charset=utf-8--设置mapping大小PUT http://127.0.0.1:9200/spark_index_sl_1head Content-Type:application/json;charset...
2019-09-10 11:27:00
610
转载 elasticsearch添加jieba分词器
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/ak46143279/article/details/715158771.下载ElasticSearch5.3.0,地址:https://artifacts.elastic.co/downloads/elasticsearch/el...
2019-09-10 10:59:00
634
转载 Word2Vec
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/qq_28840013/article/details/89681499这里,我们不讲word2vec的原理(其实是还了解不透彻,以后明白了再写,大家在阅读本文之前,可以先简单了解一下其推理过程),就只了解其参数和输入输出。网上还有...
2019-08-14 15:07:00
337
转载 朴素贝叶斯为本分类
文本情感分析的机器学习项目,今天的流程如下:数据情况和处理数据情况这里的数据为大众点评上的评论数据(王树义老师提供),主要就是评论文字和打分。我们首先读入数据,看下数据的情况:import numpy as npimport pandas as pddata = pd.read_csv('data1.csv')data.head()情感划分对s...
2019-08-14 15:04:00
197
转载 spark小文件过多
什么是小文件?生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。小文件问题的影响一方面,大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件...
2019-08-13 14:21:00
3765
转载 开窗函数
SQL开窗函数开窗函数:在开窗函数出现之前存在着很多用 SQL 语句很难解决的问题,很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题,在 2003 年 ISO SQL 标准加入了开窗函数,开窗函数的使用使得这些经典的难题可以被轻松的解决。目前在 MSSQLServer、Oracle、DB2 等主流数据库中都提供了对开窗函数的支持,不过非常遗憾的是 MYSQ...
2019-08-13 14:03:00
377
转载 yarn资源管理
yarn资源管理1.文档编写目的Hadoop集群管理员希望能对集群Yarn作业的资源进行控制。根据不同的业务组或不同的用户,对Yarn的资源池进行划分,达到资源管控、任务管控的效果。通过CM可以进行Yarn动态资源的配置,这里Fayson主要介绍如何在Cloudera Manager中配置Yarn动态资源池的放置规则。在这里Fayso...
2019-08-07 16:33:00
407
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅