cynthia_file-优快云博客

hadoop fs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OWNER][:[GROUP]] PATH…][-copyFromLocal [-f] [-p] [-l] [-d] … ][-copyToLocal [-f]

2023-08-29 12:01:47 247

原创 spark 部署

/bin/spark-shell --master local[*] 服务器线程数等效 ./bin/spark-shell。独立集群模式：hadoop 是伪分布式布置的，spark就只能是standAlone模式。./bin/spark-shell --master local 单线程。spark://HOST:PORT 默认7077。yarn-cluster模式生产模式使用。yarn-client 模式调试时用。Spark的Driver节点从集群中选择。客户端可以获得查看信息。

2023-08-29 12:01:28 225

原创 scala函数式编程

case(k,v) unapply+(k,v)是元组不用换指定对象。def 函数名(参数:类型[，参数:类型]):返回类型={函数体}函数值 (value)=>{value+=1}用来表示一个参数的一次使用，，不能用两次。中缀表示法 & 匿名函数 & 高阶函数。匿名函数（Lambda 表达式）容器映射 map&flatMap。类型：(参数类型)=>返回类型。函数值 (参数)=>{函数体}函数类型 (Int)=>Int。容器遍历 foreach。容器过滤 filter。flatMap一对多。

2023-04-23 14:43:38 561

原创 scala之基础&面向对象

scala 既是面向对象也是函数式编程从Java 发展而来，依赖JVM环境。

2023-04-23 10:17:50 641

原创 spark

可以部署在Yarn之上的内存计算框架可以满足批处理 Spark，实时交互查询 spark SQL，流处理Spark streaming，图计算 GraphX，机器学习 MLlib。

2023-03-24 15:39:26 198

原创 HBase

HBase基本介绍

2023-03-13 17:31:33 112

原创学习笔记--推荐系统概述

推荐系统做什么？从用户和用户的显性/隐形行为中找到隐藏的连接从而找到用户和物品直接的连接分类评分预测：预测用户会打高分的物品原理：评分机制，尽量减小预测分数与实际分数的误差【回归问题】-（均方根误差）-（）优点：计算简单，原理易理解缺点：显性反馈收集信息-数据收集不易-数据质量难以保证，用户主观性和捣乱成分村存在-分布不稳定，因用户个体和时期结果会有差异性行为预测：预测用户某个行为的发生概率&对物品进行相对排序原理：-类似于二分类的问题（对一种.

2023-03-09 18:01:45 95

原创 Hadoop组件

Hadoop组件 hdfs文件系统

2023-03-09 17:58:49 102

原创用户画像之建立

目的：将文本等非结构化内容转化为结构化内容存储，待将来使用用户画像所有非结构化的文本结构化，去粗取精，保留关键信息NLP 算法,eg…关键词提取：TF-IDF 和 TextRank。实体识别（序列标注问题）：人物、位置和地点、著作、影视剧、历史事件和热点事件等，常用：基于词典的方法结合 CRF 模型、隐马尔科夫模型（HMM）内容分类：文本分类（指定分类），用分类来表达较粗粒度的结构化信息。SVM、FastText聚类：在无人制定分类体系的前提下，无监督地将文本划分成多个类簇（聚类）

2023-03-09 17:57:44 209

原创 HDFS原理

hdfs原理

2023-03-09 17:57:13 186 1

原创 hadoop 搭建

hadoop环境搭建

2023-03-09 17:54:20 380

原创 MapReduce原理(二)

MapReduce 作为分布式计算框架(在分布式集群中)优：可靠、容错、海量数据处理缺：慢（分成的map太多?）任务如何下发到各集群：大数据进程：启动MapReduce程序的主入口（用户提交的MapReduce任务），内包含实际Map任务、实际Reduce任务，输入输出文件位置。jobtracker：根据处理数据量，命令taskTracker启动相应数量Map和Reduce进程任务，管理整个作业生命周期内的任务调度与监控，全局唯一。负责指挥的就是它。tasktracker：与DataNode

2021-02-03 17:42:45 173

原创 MapReduce原理(一)

MapReduce 编程模型使用者只需要对Map()和Reduce()进行编程实例解释：文件词频统计hdfs处理文件为数据块框架将hdfs处理的数据块处理为<key(位置),value(每行文本)>的模式【eg.<0，Hello World> <12, Bye World>】map：一个block的过程：1.<key(位置),value(每行文本)>输入到map函数中【eg.<0，Hello World> <1

2021-02-03 16:00:27 162

原创 MYSQL之实际应用

留存概念用途案例环比与同比连续打卡思路

2021-01-14 13:30:51 304

原创 MySQL之窗口函数

窗口函数vs 聚合函数

2021-01-11 17:33:45 1053

原创数据分析思维

问题分析思路

2021-01-10 22:35:55 256

原创开发转数据分析，小白的学习之路

浅谈现状我为什么向转行数分如何做规划为什么报课以及拉勾课程的设置对我的吸引最后为什么报课拉勾的课程设置笔记链接分析思维问题分析思路电商分析MySQL基础查询常用函数窗口函数及聚合函数实际应用（留存及连续打卡问题）Tableau…待续...

2021-01-09 20:47:00 1080

原创 MySQL之索引及优化

B-Tree索引：所有值按顺序存储，并且每一个叶子页到根的距离相等。B-Tree索引适合查找范围数据，适用的查询类型：全值匹配，键值范围，键左前缀匹配；同样由于B-Tree的按顺序存储特性，也适用于ORDER BY按顺序查找的方式。注意：索引又多列时，索引列的顺序对查询有很大影响，因为索引不能跨列使用（要从左列依次使用）；而且当其中一列的查询条件时范围时，其右边的索引列都不能使用。优化性能：可以用相同列建立不同顺序的索引满足不同类型查询需求。如何排序列？经验法：基于全局基数和选择性,选择选择..

2020-11-11 19:07:11 115

原创 MySQL之基础查询

select */字段1，字段2… from nametab where 条件条件：条件1 AND/OR 条件2 id>10 AND grade <60IN/NOT IN id IN (1,3,5,7,8,9)LIKE & _ (一个未指定字符)，% (不定个未指定字符)select * from nametab where phone like ‘0411 8789 05__’;select * from nametab where n

2020-11-11 16:40:18 143

原创词云

数据来源：爬虫boss详见，https://editor.youkuaiyun.com/md/?articleId=109598995#获取数据import pandas as pddf_b = pd.read_csv(r'beijingDataAnaly.csv')df_b.info()df_s = pd.read_csv(r'shanghaiDataAnaly.csv')df_s.info()df = df_b.append(df_s)df = df.drop_duplicates().fillna

2020-11-10 16:02:35 342

cynthia_file的博客

原创 hive部署

原创 hdfs操作

原创 spark 部署

原创 scala函数式编程

原创 scala之基础&面向对象

原创 spark

原创 HBase

原创学习笔记--推荐系统概述

原创 Hadoop组件

原创用户画像之建立

原创 HDFS原理

原创 hadoop 搭建

原创 MapReduce原理(二)

原创 MapReduce原理(一)

原创 MYSQL之实际应用

原创 MySQL之窗口函数

原创数据分析思维

原创开发转数据分析，小白的学习之路

原创 MySQL之索引及优化

原创 MySQL之基础查询

原创词云

原创 boss爬虫（scrapy+selenium）

原创 MYSQL数据库

转载 ndarray内存篇

原创 ndarray属性篇

原创 c++ 11/14 (一)

原创 python+pyqt5+pycharm

原创 KMP算法

原创 IIS配置及MVC项目发布

转载 Qt TableView导出数据到Excel

原创 Windows C++程序使用SQLite

转载 Qt 5.9.3+VS 2017环境配置

空空如也

空空如也