- 博客(32)
- 收藏
- 关注
原创 hdfs操作
hadoop fs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OWNER][:[GROUP]] PATH…][-copyFromLocal [-f] [-p] [-l] [-d] … ][-copyToLocal [-f]
2023-08-29 12:01:47
161
原创 spark 部署
/bin/spark-shell --master local[*] 服务器线程数 等效 ./bin/spark-shell。独立集群模式:hadoop 是伪分布式布置的,spark就只能是standAlone模式。./bin/spark-shell --master local 单线程。spark://HOST:PORT 默认7077。yarn-cluster模式 生产模式使用。yarn-client 模式 调试时用。Spark的Driver节点从集群中选择。客户端可以获得查看信息。
2023-08-29 12:01:28
179
原创 scala函数式编程
case(k,v) unapply+(k,v)是元组不用换指定对象。def 函数名(参数:类型[,参数:类型]):返回类型={函数体}函数值 (value)=>{value+=1}用来表示一个参数的一次使用,,不能用两次。中缀表示法 & 匿名函数 & 高阶函数。匿名函数(Lambda 表达式)容器映射 map&flatMap。类型:(参数类型)=>返回类型。函数值 (参数)=>{函数体}函数类型 (Int)=>Int。容器遍历 foreach。容器过滤 filter。flatMap一对多。
2023-04-23 14:43:38
524
原创 spark
可以部署在Yarn之上的 内存计算框架可以满足批处理 Spark,实时交互查询 spark SQL,流处理Spark streaming,图计算 GraphX,机器学习 MLlib。
2023-03-24 15:39:26
168
原创 学习笔记--推荐系统概述
推荐系统做什么?从用户和用户 的显性/隐形行为中 找到隐藏的连接从而找到用户和物品直接的连接分类评分预测:预测用户会打高分的物品原理:评分机制,尽量减小预测分数 与 实际分数的误差【回归问题】-(均方根误差)-()优点:计算简单,原理易理解缺点:显性反馈收集信息-数据收集不易-数据质量难以保证,用户主观性和捣乱成分村存在-分布不稳定,因用户个体和时期 结果会有差异性行为预测:预测用户某个行为的发生概率&对物品进行相对排序原理:-类似于二分类的问题(对一种.
2023-03-09 18:01:45
68
原创 用户画像之建立
目的:将文本等非结构化内容 转化为 结构化内容存储,待将来使用用户画像所有非结构化的文本结构化,去粗取精,保留关键信息NLP 算法,eg…关键词提取:TF-IDF 和 TextRank。实体识别(序列标注问题):人物、位置和地点、著作、影视剧、历史事件和热点事件等,常用:基于词典的方法结合 CRF 模型、隐马尔科夫模型(HMM)内容分类:文本分类(指定分类),用分类来表达较粗粒度的结构化信息。SVM、FastText聚类 :在无人制定分类体系的前提下,无监督地将文本划分成多个类簇(聚类)
2023-03-09 17:57:44
79
原创 MapReduce原理(二)
MapReduce 作为 分布式计算框架(在分布式集群中)优:可靠、容错、海量数据处理缺:慢(分成的map太多?)任务如何下发到各集群:大数据进程:启动MapReduce程序的主入口(用户提交的MapReduce任务),内包含实际Map任务、实际Reduce任务,输入输出文件位置。jobtracker:根据处理数据量,命令taskTracker启动相应数量Map和Reduce进程任务,管理整个作业生命周期内的任务调度与监控,全局唯一。负责指挥的就是它。tasktracker:与DataNode
2021-02-03 17:42:45
140
原创 MapReduce原理(一)
MapReduce 编程模型使用者只需要对Map()和Reduce()进行编程实例解释:文件词频统计hdfs处理 文件为数据块框架将hdfs处理的数据块处理为<key(位置),value(每行文本)>的模式【eg.<0,Hello World> <12, Bye World>】map:一个block的过程:1.<key(位置),value(每行文本)>输入到map函数中【eg.<0,Hello World> <1
2021-02-03 16:00:27
121
原创 开发转数据分析,小白的学习之路
浅谈现状我为什么向转行数分如何做规划为什么报课以及拉勾课程的设置对我的吸引最后为什么报课拉勾的课程设置笔记链接分析思维问题分析思路电商分析MySQL基础查询常用函数窗口函数及聚合函数实际应用(留存及连续打卡问题)Tableau…待续...
2021-01-09 20:47:00
992
原创 MySQL之索引及优化
B-Tree索引:所有值按顺序存储,并且每一个叶子页到根的距离相等。B-Tree索引适合查找范围数据,适用的查询类型:全值匹配,键值范围,键左前缀匹配;同样由于B-Tree的按顺序存储特性,也适用于ORDER BY按顺序查找的方式。 注意:索引又多列时,索引列的顺序对查询有很大影响,因为索引不能跨列使用(要从左列依次使用);而且当其中一列的查询条件时范围时,其右边的索引列都不能使用。优化性能: 可以用相同列建立不同顺序的索引满足不同类型查询需求。如何排序列?经验法:基于全局基数和选择性,选择 选择..
2020-11-11 19:07:11
87
原创 MySQL之基础查询
select */字段1,字段2… from nametab where 条件条件:条件1 AND/OR 条件2 id>10 AND grade <60IN/NOT IN id IN (1,3,5,7,8,9)LIKE & _ (一个未指定字符),% (不定个未指定字符)select * from nametab where phone like ‘0411 8789 05__’;select * from nametab where n
2020-11-11 16:40:18
122
原创 词云
数据来源:爬虫boss详见,https://editor.youkuaiyun.com/md/?articleId=109598995#获取数据import pandas as pddf_b = pd.read_csv(r'beijingDataAnaly.csv')df_b.info()df_s = pd.read_csv(r'shanghaiDataAnaly.csv')df_s.info()df = df_b.append(df_s)df = df.drop_duplicates().fillna
2020-11-10 16:02:35
315
原创 boss爬虫(scrapy+selenium)
由于boss的反爬虫策略,我又没有使用ip代理,所以爬的比较慢环境:pyCharm+jupyter notebookfrom scrapy import signalsfrom selenium import webdriverimport timeimport scrapyfrom scrapy.http.response.html import HtmlResponsefrom selenium.webdriver.common.action_chains import ActionCha
2020-11-10 15:01:19
1013
转载 ndarray内存篇
转载自:https://www.cnblogs.com/shine-lee/p/12293097.htmlndarray的设计哲学在于数据存储与其解释方式的分离,或者说copy和view的分离,让尽可能多的操作发生在解释方式上(view上),而尽量少地操作实际存储数据的内存区域。如下所示,像reshape操作返回的新对象b,a和b的shape不同,但是两者共享同一个数据block,c=b.T...
2020-04-29 15:48:59
566
原创 ndarray属性篇
Attributes属性T:ndarrayThe transposed array.(转置矩阵)dtype:dtype objectData-type of the array’s elements.(元素类型)存布局相关属性:flags:dictInformation about the memory layout of the array.(数组内存布局信息)size:int...
2020-04-29 14:22:42
303
原创 c++ 11/14 (一)
弃用特性:(会保留,但终究会从标准中消失)弃用的特性(1):如果一个类有析构函数,为其生成拷贝构造函数和拷贝赋值运算符的特性被弃用了。**弃用的特性(2):不再允许字符串字面值常量赋值给一个 char *。如果需要用字符串字面值常量赋值和初始化一个 char *,应该使用 const char * 或者 auto。弃用的特性(3):C++98 异常说明、 unexpected_handler...
2020-03-30 11:02:26
296
原创 python+pyqt5+pycharm
python安装在python官网下载相应版本的python版本安装,我用的是python3.6windows下直接安装,记住安装路径,加入环境变量即可python添加镜像源镜像源:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学:https://p...
2019-05-08 11:36:12
393
原创 KMP算法
@KMP算法KMP算法KMP算法用于字符串查找,将暴力破解方法的O(n2)复杂度降低到O(n)其主要分为两部分:next数组求法(子串的部分匹配值),主子串的比较本次对next数组求法详细分析,主子串的比较略分析求next数组前,先理解前后缀概念"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABAD"为例,- &qu
2019-01-22 15:35:34
158
原创 IIS配置及MVC项目发布
IIS配置及MVC项目发布安装IIS控制面板->程序按下图进行选择,安装IISMVC项目发布右键项目->发布,出现下图选择配置连接配置,发布方法为文件系统,目标位置可以自己设定(要记住,IIS配置要用)由于发布程序,所以,选择【Release】进行发布,底部未显示失败,即为发布成功IIS配置控制面板->系统和安全->管理工具,选择Inter...
2018-12-21 11:27:35
1954
2
转载 Qt TableView导出数据到Excel
Qt TableView导出数据到ExcelQt TableView导出数据到Excel转自于:http://blog.youkuaiyun.com/lazydreamhunter/article/details/8571021QAxObject对COM对象进行了封装,QAxObject派生自QAxBase,而后者提供了一组API通过IUnknown(不清楚IUnknown的同学可以去看看COM对象模型...
2018-11-13 09:28:13
8557
1
原创 Windows C++程序使用SQLite
Windows C++程序使用SQLiteWindows C++程序使用SQLiteWindows下,使用VS 2017 community进行C++程序编程,使用SQLite需要三个步骤:Windows 下SQLite的安装使用VS编译sqlite3.lib建项目使用SQLite进行验证Windows下SQLite的安装安装教程参考:http://www.runoob.com...
2018-11-01 09:50:58
1775
转载 Qt 5.9.3+VS 2017环境配置
Qt 5.9.3+VS 2017环境配置Qt 5.9.3下载地址:http://download.qt.io/archive/qt/5.9/5.9.3/ vs 2017 官网可下载 参考网址:https://www.cnblogs.com/noticeable/p/8930497.html一、Qt安装 下载Qt qt-opensource-windows-x86-5.9.3.exe,...
2018-08-21 11:02:22
3485
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人