- 博客(89)
- 收藏
- 关注
原创 快手内推~最新
专属内推链接:https://campus.kuaishou.cn/#/campus/jobs?🌟📢 亲爱的朋友们,机会来啦!无论你是技术大咖,还是创意达人,这里都有属于你的位置!• 🎉 员工福利:丰富多彩的员工活动,丰厚的薪资福利,工作生活两不误!• 🚀 创新无限:在这里,你将参与最前沿的技术研发,推动产品创新。• 🌈 多元文化:开放包容的团队氛围,让每一个声音都被倾听。• 💼 职业发展:完善的培训体系和晋升通道,助你快速成长。• 🔥 优先面试机会:内推简历直达HR,快人一步!🌟 快手内推还有HC!
2024-10-30 22:52:36
248
原创 快手2025秋招内推,新鲜出炉
🌟📢 亲爱的朋友们,机会来啦!无论你是技术大咖,还是创意达人,这里都有属于你的位置!专属内推链接:https://campus.kuaishou.cn/#/campus/jobs?• 🎉 员工福利:丰富多彩的员工活动,丰厚的薪资福利,工作生活两不误!• 🚀 创新无限:在这里,你将参与最前沿的技术研发,推动产品创新。• 🎁 专属求职指导:资深员工一对一辅导,助你轻松拿offer!• 💼 职业发展:完善的培训体系和晋升通道,助你快速成长。• 🔥 优先面试机会:内推简历直达HR,快人一步!
2024-10-08 17:58:24
463
原创 Hadoop概述及集群搭建
狭义上Hadoop指的是Apache的一款开源软件。用Java语言实现的开源软件大数据框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理广义上Hadoop是围绕Hadoop打造的大数据生态圈。Hadoop 集群包括两个集群:HDFS集群、YARN集群两个集群逻辑上分离、通常物理上在一起逻辑上分离:两个集群相互之间没依赖、互不影响物理上在一起:某些角色进程往往部署在同一台物理服务器上两个集群都是标准的主从架构Hadoop 集群 = HDFS集群+YARN集群。
2024-04-13 23:13:22
953
原创 MySQL单行函数
与ATAN(X)函数相比,ATAN2(M,N)需要两个参数,例如有两个点point(x1,y1)和point(x2,y2),使用ATAN(X)函数计算反正切值为ATAN((y2-y1)/(x2-x1)),使用ATAN2(M,N)计算反正切值则为ATAN2(y2-y1,x2-x1)。由使用方式可以看出,当x2-x1等于0时,ATAN(X)函数会报错,而ATAN2(M,N)函数则仍然可以计算。可以分为数值函数、字符串函数、日期和时间函数、流程控制函数、加密与解密函数、获取MySQL信息函数、聚合函数等。
2024-04-13 22:36:58
701
1
原创 MYSQL多表查询
多表查询,也称为关联查询,指两个或更多个表一起完成查询操作。前提条件:这些一起查询的表之间是有关系的(一对一、一对多),它们之间一定是有关联字段,这个关联字段可能建立了外键,也可能没有建立外键。比如:员工表和部门表,这两个表依靠“部门编号”进行关联。
2024-04-13 22:34:49
3736
原创 Smoothing
文章目录返回主目录Add-one SmoothingAdd-K SmoothingInterpolationGood-Turning Smoothing返回主目录这是一个系列的文章,点击返回综合目录页Add-one SmoothingPAdd−1(Wi∣Wi−1)=C(Wi−1,Wi)+1C(Wi)+VP_{Add-1}(W_i|W_{i-1}) = \frac{C(W_{i-1},W_{i})+1}{C(W_i)+V} PAdd−1(Wi∣Wi−1)=C(Wi)+VC(Wi−1.
2021-12-24 09:50:10
532
原创 东北大学公共管理考研经验贴
目录文章目录自我介绍院校选择时间总体规划建议英语准备政治准备专业课准备其他建议自我介绍本科就读于四川师范大学,考研一站上岸东北大学公共管理专业。自己一路走来也曾像此时屏幕前的你搜索了一篇又一篇经验贴,试图找到最合适自己的方法。想要认真的梳理自己这一路的经验给后来人,也以此纪念自己的这段光辉岁月。(若时间紧迫,可直接选择相应部分阅读,当然如果能细品全文,甚是荣幸。)所以以下更多是本人亲自实践操作的经验,请大家还是根据自己的实际情况进行参考借鉴,因地制宜,适合自己的才是最好的!如图为成绩单院校选
2021-11-15 20:59:35
997
转载 算法入门-概念理解
文章目录引入数据结构与算法的概念基本概念与术语逻辑结构与物理结构算法的五大特性算法设计的要求算法效率衡量执行时间反应算法效率时间复杂度与“大O记法”最坏时间复杂度时间复杂度的几条基本计算规则常见时间复杂度常见时间复杂度之间的关系Python内置类型性能分析timeit模块list的操作测试pop操作测试list内置操作的时间复杂度dict内置操作的时间复杂度数据结构算法与数据结构的区别抽象数据类型(Abstract Data Type)引入先来看一道题:如果 a+b+c=1000,且 a2+b2
2021-05-07 23:00:48
827
转载 Python语言概述 和 编译型语言与解释型语言
Python创始人吉多·范罗苏姆(Guido van Rossum)Python的设计哲学:优雅、简单、明确1、Python简介Python是一种面向对象、解释型、弱类型的脚本语言。是基于ABC教学语言(ABC语言是专门为非专业程序员设计,是由吉多参加设计的一种教学语言,就吉多本人看来,ABC 这种语言非常优美和强大。但是 ABC 语言并没有成功,究其原因,吉多认为是非开放造成的。吉多决心在 Python 中避免这一错误,并获取了非常好的效果)解释型语言几乎是天然跨平台的Java占..
2021-05-07 22:52:24
926
翻译 ElasticSearch系列——bucket与metric两个核心概念的讲解
文章目录两个核心概念:bucket和metricbucket:一个数据分组metric:对一个数据分组执行的统计ElasticSearch系列——主目录两个核心概念:bucket和metricbucket:一个数据分组city name北京 小李北京 小王上海 小张上海 小丽上海 小陈基于city划分buckets划分出来两个bucket,一个是北京bucket,一个是上海bucket北京bucket:包含了2个人,小李,小王上海bucket:包含了3个人,小张,小丽,小.
2020-07-15 16:38:02
920
翻译 ElasticSearch系列——拼写纠错时的fuzzy模糊搜索技术
文章目录ElasticSearch系列——主目录搜索的时候,可能输入的搜索文本会出现误拼写的情况doc1: hello worlddoc2: hello java搜索:hallo worldfuzzy搜索技术 --> 自动将拼写错误的搜索文本,进行纠正,纠正以后去尝试匹配索引中的数据POST /my_index/my_type/_bulk{ "index": { "_id": 1 }}{ "text": "Surprise me!"}{ "index": { "_id": 2.
2020-07-15 15:21:07
882
翻译 ElasticSearch系列——用function score自定义相关度分数算法
文章目录ElasticSearch系列——主目录我们可以做到自定义一个function_score函数,自己将某个field的值,跟es内置算出来的分数进行运算,然后由自己指定的field来进行分数的增强给所有的帖子数据增加follower数量POST /forum/article/_bulk{ "update": { "_id": "1"} }{ "doc" : {"follower_num" : 5} }{ "update": { "_id": "2"} }{ "doc" : {".
2020-07-15 15:14:48
470
翻译 ElasticSearch系列——lucene的相关度分数算法及四种常见的相关度分数优化方法
文章目录深入讲解TF/IDF算法0、boolean model1、lucene practical scoring function2、query normalization factor3、query coodination4、field level boost相关度评分进行调节和优化的常见的4种方法1、query-time boost2、重构查询结构3、negative boost4、constant_scoreElasticSearch系列——主目录深入讲解TF/IDF算法0、boole.
2020-07-15 10:53:05
671
翻译 ElasticSearch系列——揭秘TF-IDF算法以及向量空间模型算法.
文章目录1、boolean model2、TF/IDF3、vector space modelElasticSearch系列——主目录1、boolean model类似and这种逻辑操作符,先过滤出包含指定term的docquery “hello world” --> 过滤 --> hello / world / hello & worldbool --> must/must not/should --> 过滤 --> 包含 / 不包含 / 可能包含.
2020-07-15 10:29:58
435
翻译 ElasticSearch系列——通过ngram分词机制实现index-time搜索推荐
文章目录1、ngram和index-time搜索推荐原理2、实验一下ngramElasticSearch系列——主目录1、ngram和index-time搜索推荐原理什么是ngramquick,5种长度下的ngramngram length=1,q u i c kngram length=2,qu ui ic ckngram length=3,qui uic ickngram length=4,quic uickngram length=5,quick什么是edge ngram.
2020-07-15 10:14:53
418
翻译 ElasticSearch系列——实战match_phrase_prefix实现search-time搜索推荐
文章目录ElasticSearch系列——主目录搜索推荐,search as you type,搜索提示,解释一下什么意思hello w --> 搜索hello worldhello wehello winhello windhello doghello cathello w -->hello worldhello wehello winhello wind搜索推荐的功能百度 --> elas --> elasticsearch --&g.
2020-07-15 10:00:34
285
翻译 ElasticSearch系列——实战前缀搜索、通配符搜索、正则搜索等技术
文章目录1、前缀搜索2、前缀搜索的原理3、通配符搜索4、正则搜索ElasticSearch系列——主目录1、前缀搜索C3D0-KD345C3K5-DFG65C4I8-UI365检索C3 --> 上面这两个都搜索出来 --> 根据字符串的前缀去搜索不用帖子的案例背景,因为比较简单,直接用自己手动建的新索引,给大家演示一下就可以了PUT my_index{ "mappings": { "my_type": { "properties": { .
2020-07-15 09:41:08
272
翻译 ElasticSearch系列——使用rescoring机制优化近似匹配搜索的性能
文章目录match和phrase match(proximity match)区别rescoring机制ElasticSearch系列——主目录match和phrase match(proximity match)区别match --> 只要简单的匹配到了一个term,就可以理解将term对应的doc作为结果返回,扫描倒排索引,扫描到了就okphrase match --> 首先扫描到所有term的doc list; 找到包含所有term的doc list; 然后对每个doc都计.
2020-07-15 08:45:15
523
翻译 ElasticSearch系列——混合使用match和近似匹配实现召回率与精准度的平衡
文章目录什么是召回率和精准度实例讲解ElasticSearch系列——主目录什么是召回率和精准度召回率:比如你搜索一个java spark,总共有100个doc,能返回多少个doc作为结果,就是召回率,recall精准度:比如你搜索一个java spark,能不能尽可能让包含java spark,或者是java和spark离的很近的doc,排在最前面,precision实例讲解直接用match_phrase短语搜索,会导致必须所有term都在doc field中出现,而且距离在s.
2020-07-15 08:36:44
456
翻译 ElasticSearch系列——基于sIop参数实现近似匹配以及原理剖析
文章目录slop的含义是什么?slop工作原理及案例ElasticSearch系列——主目录slop的含义是什么?query string,搜索文本,中的几个term,要经过几次移动才能与一个document匹配,这个移动的次数,就是slopslop工作原理及案例实际举例,一个query string经过几次移动之后可以匹配到一个document,然后设置slop举例:hello world, java is very good, spark is also very good..
2020-07-15 08:16:24
257
翻译 ElasticSearch系列——掌握phrase matching搜索技术
文章目录1、什么是近似匹配2、match_phrase3、term position4、match_phrase的基本原理ElasticSearch系列——主目录1、什么是近似匹配两个句子java is my favourite programming language, and I also think spark is a very good big data system.java spark are very related, because scala is spark’s pr.
2020-07-14 16:42:29
444
翻译 ElasticSearch系列——使用most_fields策略进行cross-fields search弊端
文章目录准备数据使用copy_to定制组合field解决cross-fields搜索弊端使用原生cross -fiels技术解决搜索弊端ElasticSearch系列——主目录【这部分不太好,慎看】准备数据POST /forum/article/_bulk{ "update": { "_id": "1"} }{ "doc" : {"author_first_name" : "Peter", "author_last_name" : "Smith"} }{ "update": { "_.
2020-07-14 16:07:21
229
翻译 ElasticSearch系列——基于multi_match+most fiels策略进行multi_field搜索
文章目录best-fields与most-fields策略准备增加写入新的数据most_fields与best_fields的区别ElasticSearch系列——主目录best-fields与most-fields策略best-fields策略,主要是说将某一个field匹配尽可能多的关键词的doc优先返回回来most-fields策略,主要是说尽可能返回更多field匹配到某个关键词的doc,优先返回回来准备增加写入新的数据POST /forum/_mapping/article.
2020-07-14 15:39:59
333
翻译 ElasticSearch系列——基于dis_ max实现best fields策略进行多字段搜索及tie breaker参数优化
文章目录1、为帖子数据增加content字段2、搜索title或content中包含java或solution的帖子3、结果分析4、best fields策略,dis_maxElasticSearch系列——主目录1、为帖子数据增加content字段POST /forum/article/_bulk{ "update": { "_id": "1"} }{ "doc" : {"content" : "i like to write best elasticsearch article"} }.
2020-07-13 20:09:47
300
翻译 ElasticSearch系列——基于boost的细粒度搜索条件权重控制
文章目录ElasticSearch系列——主目录需求:搜索标题中包含java的帖子,同时呢,如果标题中包含hadoop或elasticsearch就优先搜索出来,同时呢,如果一个帖子包含java hadoop,一个帖子包含java elasticsearch,包含hadoop的帖子要比elasticsearch优先搜索出来知识点,搜索条件的权重,boost,可以将某个搜索条件的权重加大,此时当匹配这个搜索条件和匹配另一个搜索条件的document,计算relevance score时,匹配权重更.
2020-07-13 17:30:56
798
翻译 ElasticSearch系列——基于term+bool实现的multiword搜索底层原理剖析
文章目录1、普通match如何转换为term+shouldand match如何转换为term+mustminimum_should_match如何转换ElasticSearch系列——主目录1、普通match如何转换为term+should{ "match": { "title": "java elasticsearch"}}使用诸如上面的match query进行多值搜索的时候,es会在底层自动将这个match query转换为bool的语法bool should,指定多个.
2020-07-13 17:14:08
287
翻译 ElasticSearch系列——如何手动控制全文检索结果的精准度
文章目录数据准备搜索标题中包含java或elasticsearch的blog搜索标题中包含java、hadoop和elasticsearch的blog搜索包含java,elasticsearch,spark,hadoop,4个关键字中,至少3个的blog用bool组合多个搜索条件,来搜索titleElasticSearch系列——主目录数据准备为帖子数据增加标题字段POST /forum/article/_bulk{ "update": { "_id": "1"} }{ "doc" : .
2020-07-13 17:04:41
339
翻译 ElasticSearch系列——基于range filter来进行范围过滤
文章目录1、为帖子数据增加浏览量的字段2、搜索浏览量在30~60之间的帖子3、搜索发帖日期在最近1个月的帖子ElasticSearch系列——主目录1、为帖子数据增加浏览量的字段POST /forum/article/_bulk{ "update": { "_id": "1"} }{ "doc" : {"view_cnt" : 30} }{ "update": { "_id": "2"} }{ "doc" : {"view_cnt" : 50} }{ "update": { "_id.
2020-07-13 13:01:37
1289
翻译 ElasticSearch系列——基于bool组合多个filter条件来搜索数据
文章目录准备插入一些测试帖子数据搜索发帖日期为2017-01-01,或者帖子ID为XHDK-A-1293-#fJ3的帖子,同时要求帖子的发帖日期绝对不为2017-01-02为帖子数据增加tag字段搜索tag中包含java的帖子优化搜索结果,仅仅搜索tag只包含java的帖子ElasticSearch系列——主目录准备插入一些测试帖子数据POST /forum/article/_bulk{ "index": { "_id": 1 }}{ "articleID" : "XHDK-A-1293-#.
2020-07-13 12:50:59
3388
翻译 ElasticSearch系列——使用term filter来搜索数据
文章目录(1)准备插入一些测试帖子数据(2)根据用户ID搜索帖子(3)搜索隐藏的帖子(4)根据发帖日期搜索帖子(5)查看分词(6)根据帖子ID搜索帖子(7)重建索引ElasticSearch系列——主目录(1)准备插入一些测试帖子数据POST /forum/article/_bulk{ "index": { "_id": 1 }}{ "articleID" : "XHDK-A-1293-#fJ3", "userID" : 1, "hidden": false, "postDate": "20.
2020-07-12 16:41:33
747
翻译 ElasticSearch系列——创建、 修改以及删除索引 和 分词器以及定制自己的分词器
文章目录索引创建索引修改索引删除索引默认的分词器修改分词器的设置定制化自己的分词器ElasticSearch系列——主目录索引创建索引创建索引的语法PUT /my_index{ "settings": { ... any settings ... }, "mappings": { "type_one": { ... any mappings ... }, "type_two": { ... any mappings ... }, .
2020-07-12 14:29:15
2347
翻译 ElasticSearch系列——基于scoll技术滚动搜索大量数据
文章目录ElasticSearch系列——主目录如果一次性要查出来比如10万条数据,那么性能会很差,此时一般会采取用scoll滚动查询,一批一批的查,直到所有数据都查询完处理完使用scoll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的视图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的采用基于_doc进行排序的方式,性能较高每次发送scroll请求,我们还需要指.
2020-07-12 14:11:24
267
翻译 ElasticSearch系列——query phase与fetch phase
文章目录query phasefetch phaseElasticSearch系列——主目录query phase(1)搜索请求发送到某一个coordinate node,构构建一个priority queue,长度以paging操作from和size为准,默认为10(2)coordinate node将请求转发到所有shard,每个shard本地搜索,并构建一个本地的priority queue(3)各个shard将自己的priority queue返回给coordinate node,.
2020-07-12 14:02:03
384
翻译 ElasticSearch系列——相关度评分TF&IDF算法
文章目录算法介绍_score是如何被计算出来的ElasticSearch系列——主目录算法介绍relevance score算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法Term frequency:搜索文本中的各个词条在field文本中出现了多少次,出现次数越多,就越相关搜索请求:hello world.
2020-07-12 13:50:21
386
翻译 ElasticSearch系列——倒排索引核心原理快速揭秘
文章目录ElasticSearch系列——主目录假设有两个文档doc1:I really liked my small dogs, and I think my mom also liked them.doc2:He never liked any dogs, so I hope that my mom will not expect me to liked him.分词,初步的倒排索引的建立word doc1 doc2I * *really *liked * .
2020-07-12 09:29:41
231
翻译 ElasticSearch系列——用个例子告诉你mapping到底是什么
文章目录mappingdynamic mappingElasticSearch系列——主目录插入几条数据,让es自动为我们建立一个索引PUT /website/article/1{ "post_date": "2017-01-01", "title": "my first article", "content": "this is my first article in this website", "author_id": 11400}PUT /website/arti.
2020-07-12 08:53:29
332
翻译 ElasticSearch系列——快速掌握query string search语法以及_all metadata 原理
文章目录query string基础语法_all metadata的原理和作用ElasticSearch系列——主目录query string基础语法GET /test_index/test_type/_search?q=test_field:testtest_field中包含testGET /test_index/test_type/_search?q=+test_field:testtest_field中包含testGET /test_index/test_type/_sear.
2020-07-12 08:45:08
218
翻译 ElasticSearch系列——分页搜索以及deep paging原理与性能问题
文章目录使用es进行分页搜索的语法deep paging原理与性能问题ElasticSearch系列——主目录使用es进行分页搜索的语法GET /test_index/test_type/_search?from=0&size=3deep paging原理与性能问题
2020-07-12 08:37:42
171
翻译 ElasticSearch系列——multi-index & multi-type搜索模式解析以及搜索原理
文章目录multi-index和multi-type搜索模式初步图解一下简单的搜索原理ElasticSearch系列——主目录multi-index和multi-type搜索模式/_search:所有索引,所有type下的所有数据都搜索出来/index1/_search:指定一个index,搜索其下所有type的数据/index1,index2/_search:同时搜索两个index下的数据/*1,*2/_search :按照通配符去匹配多个索引/index1/type1/_searc.
2020-07-11 22:41:13
278
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人