
大数据
文章平均质量分 91
AcceptedLin
ACC
展开
-
什么是中间件?常见中间件有哪些?
中间件是介于操作系统和应用软件之间,为应用软件提供服务功能的软件,有消息中间件,交易中间件,应用服务器等。由于介于两种软件之间,所以,称为中间件。转载 2023-02-07 15:30:44 · 5253 阅读 · 0 评论 -
QPS概念
吞吐量(TPS)概念QPS原理:每天80%的访问集中在20%的时间里,这20%时间叫做峰值时间。公式:( 总PV数 * 80% ) / ( 每天秒数 * 20% ) = 峰值时间每秒请求数(QPS) 。机器:峰值时间每秒QPS / 单台机器的QPS = 需要的机器 。每天300w PV 的在单台机器上,这台机器需要多少QPS?( 3000000 * 0.8 ) / (86400 * 0.2 ) = 139...转载 2020-09-21 18:56:27 · 37516 阅读 · 0 评论 -
faiss 学习笔记
faiss 学习笔记前言不同的索引方式是faiss的核心内容, 他们以不同的方式构建,基于不同的算法与数据结构. 选择合适的index来处理数据是使用faiss最基础的一步. 官方wiki上也有帮助你如何选择不同的 index, 参见Guidelines to choose an index这次来...转载 2019-12-20 20:06:23 · 6231 阅读 · 0 评论 -
大数据学习路线(完整详细版)
大数据学习路线(完整详细版)java(Java se,javaweb)Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm...转载 2019-08-25 16:11:58 · 429 阅读 · 0 评论 -
hive学习之--导入数据成功,查询显示NULL
hive学习之--导入数据成功,查询显示NULLhive导入数据成功,但是查询结果为NULL:load data local inpath '/user/hive/student.txt' into table hive_test.students;Loading data to table hive_test.studentsOK select...原创 2019-01-30 17:37:22 · 12847 阅读 · 7 评论 -
Mac hive 配置和安装
Mac hive 配置和安装安装brew install hive该命令默认安装的版本较新,我的是 hive2.3.1,安装位置:/usr/local/Cellar/hive/环境变量,修改的是当前用户 vim ~/.bash_profileexport HIVE_HOME=/usr/...转载 2019-01-29 16:24:59 · 479 阅读 · 0 评论 -
数据埋点及其意义
数据埋点及其意义 所谓埋点就是在应用中特定的流程收集一些信息,用来跟踪应用使用的状况,后续用来进一步优化产品或是提供运营的数据支撑,包括访问数(Visits),访客数(Visitor),停留时长(Time On Site),页面浏览数(Page Views)和跳出率(Bounce Rate)。这样的信息收集可...转载 2019-01-09 15:09:19 · 4645 阅读 · 0 评论 -
Spark大数据计算引擎介绍
Spark大数据计算引擎介绍大数据生态的两个主要部分是Hadoop软件框架和Spark内存级计算引擎。Hadoop包含四个项目:Hadoop common,HDFS,YARN和MapReduce。 HDFS用于存储数据,HDFS文件被划分成区块分布在集群上; 用于管理集群资源(CPU和内存)和支持Hadoop的公共实用程序; MapRe...转载 2019-01-04 17:09:43 · 1650 阅读 · 0 评论 -
Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解
Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下:输入:参数0--存储样本数据的文本文件inputfile; 参数1--存储样本数据的SequenceFile文件inputPath; 参数2--存储质心数据的SequenceFile文件ce...转载 2018-08-23 19:16:48 · 7114 阅读 · 1 评论 -
Hadoop
Hadoop分布式并行计算平台,文件系统是HDFS,HDFS实现数据的存储,MapReduce实现数据的分析和处理,可将MapReduce视为是关系型数据库管理系统的补充,MapReduce对非结构化和半结构化数据非常有效。数据本地化是MapReduce的核心特征,MapReduce程序本质上第并行运行的,分为map和reduce两个处理阶段(映射和规约),输入和输出都是键值对。相对于Hadoop...原创 2018-07-14 16:23:11 · 330 阅读 · 1 评论 -
CNN卷积和池化
概述深度学习中CNN网络是核心,对CNN网络来说卷积层与池化层的计算至关重要,不同的步长、填充方式、卷积核大小、池化层策略等都会对最终输出模型与参数、计算复杂度产生重要影响,本文将从卷积层与池化层计算这些相关参数出发,演示一下不同步长、填充方式、卷积核大小计算结果差异。一:卷积层卷积神经网络(CNN)第一次提出是在1997年,杨乐春(LeNet)大神的一篇关于数字OCR识别的论文,在2012年的I...转载 2018-07-12 15:30:19 · 6485 阅读 · 0 评论 -
LARS算法
LARS算法的几何意义1. LARS算法简介 Efron于2004年发表在Annals of Statistics的文章LEAST ANGLE REGRESSION中提出LARS算法,其核心思想是提出一种新的solution path(求解路径),即在已经入选的变量中,寻找一个新的路径,使得在这个路径上前进时,当前残差与已入选变量的相关系数都是相同的,直到找出新的比当前残差相转载 2017-09-21 11:06:01 · 6354 阅读 · 0 评论 -
个性化推荐理论
个性化推荐理论1.推荐算法大致可以分为三类:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。基于内容的推荐算法,原理是用户喜欢和自己关注过的Item在内容上类似的Item,比如你看了哈利波特I,基于内容的推荐算法发现哈利波特II-VI,与你以前观看的在内容上面(共有很多关键词)有很大关联性,就把后者推荐给你,这种方法可以避免Item的冷启动问题(冷启动:如果一个Item从没有被关翻译 2017-09-28 10:57:09 · 11310 阅读 · 0 评论 -
推荐算法实践
前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短转载 2017-03-10 14:10:08 · 3329 阅读 · 0 评论 -
推荐算法讲解链接
http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part01http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part02http://www.infoq.com/cn/articles/recommendation-原创 2017-03-10 12:58:43 · 259 阅读 · 0 评论 -
常用的推荐算法
在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐 基 于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它转载 2017-03-10 11:47:33 · 502 阅读 · 0 评论