自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

搜索引擎、个性化推荐、大数据相关学习笔记|

工作多年在搜索、推荐算法、大数据这块领域深扎,业务与技术不断积累与成长,对业务、技术、算法有独道的思考

  • 博客(209)
  • 资源 (14)
  • 收藏
  • 关注

原创 SpeedReadist - Book Summary

从涵盖职业、人际关系、健身、工作和家庭等 20 多个领域的 30,00 多本领先书籍中获取基本见解、技能、建议和智慧,改变您的旅程。拓宽你的视野:深入阅读易于理解的顶级书籍。- 定期添加图书:我们的图书中心快速多样地添加图书,满足您的所有阅读需求。- 图书请求:通过源源不断的图书搜索、请求和定制您自己的阅读列表。- 探索和搜索:快速轻松地找到您喜欢的书籍,并请求独特的书籍。- 质量总结:来自受人尊敬的专家和制造商的浓缩学习成果。

2024-03-31 15:08:55 313

原创 CAD快速看图王--手机查看DWG神器

总的来说,CAD快速看图王似乎是一个方便的工具,旨在帮助CAD用户快速查看、管理和共享图纸,特别是对于那些在建筑、工程和装修等领域工作的专业人员来说可能非常有用。它提供了多种功能,以满足不同用户的需求。应用程序允许用户一键同步他们的CAD图纸到iCloud云,这意味着他们可以在不同的设备上随时访问和共享他们的图纸,无论是在手机iPhone、iPad平板上。用户可以使用社交软件,如微信、QQ和微博,轻松分享CAD图纸,还可以将CAD文档转换生成PDF,使图纸的交流更加便捷。这对于团队合作和项目共享非常有用。

2023-09-15 14:04:21 720

原创 Songtell.NET:用AI解锁您最喜欢的歌曲背后的含义!

使用最先进的自然语言处理技术,分析歌曲中的每一个单词和短语,以揭示歌曲的情感、主题和情节。它可以帮助您更好地理解歌曲所传达的信息,并深入了解歌曲的真正含义。,您可以更深入地了解您最喜欢的歌曲,并发现新的音乐和歌曲。不再只是听歌,现在您可以更深入地理解歌曲的深层含义,享受音乐带来的更多的情感和意义。您可以在平台上分享您最喜欢的歌曲和歌词,与其他用户交流和分享您的音乐感受。是一个基于最先进的AI技术实现的歌曲鉴赏库,它可以帮助您深入探索您最喜欢的歌曲背后的真正含义。🎧听歌不止是享受,还有深度的情感寓意!

2023-05-17 20:05:46 312

原创 向量检索服务迭代演进

背景在搜索推荐系统里,有一个重要的服务是向量检索服务,也就是求向量在空间中最相近的topk个向量,在搜索系统里,涉及大量的召回引擎可能需要用到向量检索服务,需要在线实时计算,并且可快速响应;所以这里需要解决两个问题,一个是存储所有待计算的向量,并对输入的向量,做向量相似度计算,求得最近的向量列表排序,取得top k个;另一个因为要达到在线服务即时响应需求,因为这个是基础服务,所以要做到毫秒级别响应解决方案&迭代演进1、最粗暴的向量KNN计算。

2023-01-12 13:06:48 801 1

原创 智能推荐架构演进

从18年开始,整个推荐开始从小作坊转向正规军前进,开始将重复造轮子的事,不断抽象优化,往平台方向靠拢;随着推荐业务场景越来

2020-10-09 16:04:33 507 1

原创 推荐策略平台与ABTEST实验结合

推荐策略平台与ABTEST实验整体实现过程首先先看下整体推荐架构流程,如图所未:推荐策略平台与实验平台都有业务&场景的粒度配置,他们都覆盖多个业务场景,所以以某一个业务场景粒度来看因为推荐策略平台已实现将实验平台主要是配置,与推荐策略平台打通,...

2020-09-29 19:23:36 730

原创 推荐策略平台

推荐策略平台一、项目背景与目标1、背景概况 推荐业务接⼝内部逻辑⿊盒,且耦合在⼀起,重⽤困难,开发⾮常耗时。 接⼝协议按需制定,没有标准化,新来一个业务开发完接⼝都要重新找⼈对接⼀遍 越来越多的业务推荐业务场景,开发效率慢,重造轮子成本明显太高 2、目标成果 减少⼈力和时间成本:对接通⽤接⼝,只需一份⽂档即可对接,减少沟通成本;拆成模块,配置成图即完成⼀个业务,提高搭建服务效率 为决策提供便利:决策者可通过业务流程图,结合报表,调整和优化⽅方案,摆...

2020-09-29 19:06:27 1005

原创 ABTEST实验平台

ABTEST实验与闭环一、单层实验一般早期的ab-test都是单层实验,逻辑非常简单,比如使用userId/deviceId做hash然后取模,将流 量打在0-99,做成100份。有如下问题:1、扩展性差,只能同时支持少量实验。但是以数据驱动的业务,需要极快的创新速度,大量的创新 需要被测试,会严重delay业务。2、如果在单层同时进行多个实验,实验之间不是独立事件,并行的时候,同一个策略,只能进行一 个实验,如果多个并行支持,无法实现。不同策略之间也有影响。3、流量饥饿问...

2020-09-29 16:51:32 2703

原创 推荐系统实时推荐架构演进

推荐系统实时召回引擎升级问题背景 用户体验问题,由于离线推荐性能问题,离线推荐大部分引擎只计算昨天活跃用户,当用户较前几天活跃时候,当用户打开app,触发拿到的推荐数据其实是比较老旧的; 离线推荐存量问题,在feed架构存储的数据也有比较多,原有设计都是为了避免离线推荐数据消费完无数据可推荐,但这个对于业务的调整都没感知,比如内容敏感下架,用户兴趣变化; 推荐数据不足,离线推荐的数据会很快受到用户的刷新过量快速消费完,导致召回源数据不足,多样性不够,需要补充引擎; .

2020-09-24 19:11:53 2244

原创 音频UGC内容推荐系统的思考

2018到2019年,荔枝推荐平台架构演进荔枝平台架构与未来规划

2020-03-25 17:56:05 531

转载 Lucene DocValues详解

转载,原文来自  http://blog.youkuaiyun.com/zteny/article/details/60633374今天斗胆来试试DocValues,对于DocValues我想大家都不会觉得陌生,同时又不是非常熟悉,就是那种熟悉而又陌生的感觉。一、docValues是什么鬼呢?DocValues在LUCENE-3518才引入新特征,初生在Lucene4.0,

2017-03-07 13:55:09 1305

原创 solr4.7分片shard对应的range值变为null异常问题处理(bug)

solr分片shard对应的range值变为null异常问题处理选 用的solr是solr4.7版本!solr分片突然发现多个collections上某些shard对应的range值变为null,而且还多一个parent:null

2016-10-31 17:17:36 2540

原创 hive 表注释乱码以及show create table语句描述乱码解决

hive 表注释乱码以及show create table语句描述乱码解决

2016-03-15 14:58:56 11590

原创 Spark累加器使用

Spark累加器使用使用spark累加器,解决视频平均播放数计算,以及视频播放数平方和平均值val totalTimes=sc.accumulator(0l)val totalVids=sc.accumulator(0)val totalPow2Times=sc.accumulator(0d)val timesFile=sc.textFile("/user/zheny

2014-11-27 17:56:16 8698

原创 Spark学习笔记

spark学习笔记join跟union方法测试效果join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, (V, W))测试过如果  没有join到的key,就没有数据,也就是两个RDD没有共同的K,则没有相应的数据如:res15: Array[(Int, Int)] =

2014-10-27 14:00:52 3352

原创 solrCloud 4.7 分布式搜索重要bug

solr开源社区真的很强大 ,当很多人在使用一个开源系统的时候 ,缺陷或者有bug的功能更快被使用者提出来解决,异或是有人跟你出现同样的问题,并提出解决方案,当你要使用选择某个发布版本的时候,有一个重要习惯就是看发布版本之后的另一个版本开发中,已处理了哪些bug或者哪些功能在完善。我想这就是我一直忠于solr而非es的吧。!!   今天逛了一下solr  jira ,关注一下最近要上线的sol

2014-03-22 15:06:52 4411

原创 推荐视频反馈系统设计

反馈系统设计日志收集:    展示:带多一个vids参数,表示展示相关的视频集合,按展示顺序拼接起来 show_vids=12_32_32_32点击:   现有from_vid=1&to_vid=2   从哪个视频点击到哪个视频情况 日志计算:(MR程序实现)from_vid—>to_vid      的点击率存储:

2014-03-07 18:37:38 3417

原创 Solr Search Request Handling

Solr Search Request Handling转贴请声明原文:solr SearchHandler的处理流程图大概如下:

2014-01-15 10:19:42 3786

原创 solrCloud Update Request Handling 更新索引流程

在之前写过另一篇学习笔记 : solrCloud 索引更新逻辑学习笔记今天再画了一个solrCloud更新流程图看起来会比较更清晰一些:solrCloud Update Request Handling:

2013-11-29 10:56:53 5961

原创 solrCloud分布式检索流程

好久没写solr的文章了,刚好需要在公司作个分享,先总结一些先。solrCloud分布式检索主要流程如下:搜索   video,“美女斗秀场” 取按相关度排序取得2条记录~过程是:从集群里得知:video—>两个分片信息所以请求被并行分发到两个分片搜索,各自取top2第一次返回返回:shard1返回:vid:sco

2013-11-28 23:49:28 5582

原创 单机对大数据的排序处理

引用请声明原文:http://blog.youkuaiyun.com/duck_genuine/article/details/9155705由于引用数据以hash的方式放在不同的文件里需要将其合并排序写到一个文件。数据量暂时是有几千万级别。文件的每行是一条json格式的记录,格式如下: { "_id" : { "$oid" : "51ace243bb15094b6c40ada5" }, "c

2013-06-23 16:49:47 4553

原创 重新拿起hadoop

为了将多数据源整到hadoop上,将每个表导到hive上,再做大表join,变成一个越级大表,作为某一个搜索业务的数据源,然后再将建索引程序整成MR程序! 为此重新再学起hadoop。先分享一下几个好东西!hadoop原理介绍http://tech.uc.cn/wp-content/uploads/2012/07/Hadoop%E5%8E%9F%E7%90%

2013-06-08 13:42:18 3438 1

原创 搜索架构更换solrCloud总结

转贴请声明引用:http://blog.youkuaiyun.com/duck_genuine/article/details/8826572新搜索架构是基于SolrCloud和indexing建索引框架技术的⼀一个分布式垂直搜索。主要开源工具:zookeeper、ganglia、tcpcopy、nginx、haproxy、rsync 旧架构弊端

2013-04-19 23:57:11 12904 4

原创 基于solr做的推荐引擎思路

转贴请声明原文:http://blog.youkuaiyun.com/duck_genuine/article/details/8776872基于用户相似推荐简单设计思路doc1->user1,user2,user3doc2->user3doc3->user2,user3提交给solr倒排序索引:user1->doc1user2->doc1,doc3user3->d

2013-04-09 11:45:11 6608 1

原创 SolrCloud使用问题记录

转贴请声明原文:http://blog.youkuaiyun.com/duck_genuine/article/details/8749121可以在solr.xml上配置 shardHandlerFactory,这样不用在solrconfig.xml配置重复,单独配置,可以给所有searchandler共用。具体如何配置wiki还没有写。不过应该跟普通的plug配置一样。

2013-04-01 23:50:29 5480

原创 SolrCloud你值得拥有,性能表现良好

转贴请声明原文: http://blog.youkuaiyun.com/duck_genuine/article/details/8644412solrCloud的压力测试:上一篇文章提过使用solr3.6做的架构优化。solr 搜索架构优化测试的时候还没有做更大数据量的并发请求压测试,最近来了新机器,比之前更加好,但没想要把索引放内存,而是放在ssd,内存是满 足的,但使用高于线上2倍多请求的时

2013-03-06 23:52:51 11370 1

原创 solr4.1正式发布了

solr4.0 bug太多,终于等到solr4.1发布了赶紧下载体验一下:http://lucene.apache.org/solr/更新说明如下:releasehttp://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/4.1.0/changes/Changes.html

2013-01-23 09:51:16 3539

原创 solrCloud选举leader的逻辑分析

solrCloud选举leader的逻辑分析转贴请声明原文:http://blog.youkuaiyun.com/duck_genuine/article/details/8491901First call *setup(ElectionContext) to ensure the election process is in it'd. Next calljoinElection(Electio

2013-01-11 00:05:30 5355

原创 solr的随机排序

转贴请声明原文:solr的随机排序有这样的一种需求,想从索引库里随机取出4条记录。在 schema.xml:配置一个动态字段,如下。具体实现可以看代码 org.apache.solr.schema.RandomSortField ... ... ... ... 由用户请求的时候按照一个动态

2013-01-07 15:40:48 8061

原创 solrCloud 索引更新逻辑学习笔记

转发请声明原文:http://blog.youkuaiyun.com/duck_genuine/article/details/8473502ZkCoreNodeProps 封装了一个node的相关信息,包括base_url,core_name,state,node_name,core_url,isLeaderSolrCmdDistributorsolr分布式更新的一个重要实现工具类,

2013-01-06 16:14:33 8369

原创 solrCloud 管理colleciton操作,可能出现的重大Bug

转载请声明原文:http://blog.youkuaiyun.com/duck_genuine/article/details/8440125solrCloud 管理colleciton操作,可能出现的重大Bug当删除某一个不存在的collection后,就会出现很大问题,任何对collection的命令都会失败,不过这个bug已在4.1解决https://issues.apach

2012-12-26 17:36:15 3675 1

原创 solrCloud 选举leader的bug

请声明原文:http://blog.youkuaiyun.com/duck_genuine/article/details/8332935当一个leader挂掉后,其中的几个replica 要重新选一个leader出来,但默认的是要等待3分钟,这个时间也太长了。对于开始在测试solrCloud功能来说,等待这么长时间,有可能觉得重新选举失败的挫败感。这里4.1之后已解决了这个bug:https

2012-12-19 17:49:25 4290

原创 监控服务程序调度算法实现

转贴请声明原文:http://blog.youkuaiyun.com/duck_genuine/article/details/8276169监控服务程序实现调度算法完成nginx服务监控(从nginx配置解析出对应的服务作为监控对象之五,还有可以从数据库里读出待监控的服务)与更新服务后的监控算法:               处理休眠队列---------将所有的待监控服务记

2012-12-09 23:25:17 2457

转载 solr索引分发

从solr1.4开始支持基于java的以http方式分发索引优点:1.不再使用脚本,可以跨平台2.不仅索引,还可以分发配置文件配置Master主机                    startup        commit                schema.xml,stopwords.txt,elevate.xml

2012-11-14 14:07:28 2494

原创 solr 搜索架构优化

solr 搜索架构优化     刚刚将solrt升级到最新版本3.6.1,除了精简了索引结构设计,新版本的天生优势更加重要,比之前solr1.4的性能算是小部分提升,响应由100ms以内占80%升到了90%,且搜索系统稳定性好了很多,出现挂掉的机率降低了,当然还得继续观察。同时优化了旧的搜索系统架构 ,加上系统的配置优化管理,方便修改调整,对外提供的接口重新设计了一翻,加入了一些请求的

2012-10-26 01:22:38 5426

原创 solr 4.0已正式发布了

原文出处:http://blog.youkuaiyun.com/duck_genuine/article/details/8073803正式版本更新发送到集群中的任何节点上,都可以自动转发到正确的索引shard片上,每一个replication都会做更新,并同时写tLog文件,当服务重启时会同步tlog。查询发送到任何一个节点上都会变成发布给集群上执行,并自动负载平衡和故障转移

2012-10-15 17:40:33 2866

原创 solr 的edismax与dismax比较与分析

edismax支持boost函数与score相乘作为,而dismax只能使用bf作用效果是相加,所以在处理多个维度排序时,score其实也应该是其中一个维度 ,用相加的方式处理调整麻烦。而dismax的实现代码逻辑比较简单,看起来比较易理解,edismax是它的加强版,其实是改变了不少。。比如在以下:先看看dismax的解析主要实现思路:首先取出搜索字段名qf将最终解析成一

2012-10-11 14:48:18 27662 1

原创 shell 实现 urlencode

#!/bin/shsubject=${1:-'test'}content=${2:-${1:-'test'}}subject=${1:-'test'}content=${2:-${1:-'test'}}subject=`echo -n "$subject" | od -An -tx1 | tr ' ' %`x=''for i in $subjec

2012-09-29 10:29:04 4720

原创 FileSwitchDirectory 学习笔记 并在solr上的使用

FileSwitchDirectory实现原理与应用 FileSwitchDirectory是lucene的另一种Directory实现类,从名字个就可以理解为文件切换的Directory实现,的确是针对lucene的不同的索引文件使用不同的Directory .借助FileSwitchDirectory整合不同的Directory实现类的优点于一身。比如MMapDirectory

2012-09-21 23:43:57 2681

转载 SIFT算法学习心得

这篇文章主要介绍 SIFT 算法。希望通过对 SIFT 算法的总结来更加深入地了解“尺度不变特征变换”,除此之外,也加深来对 SURF 算法的理解。附件:SIFT—Scale Invariant Feature Transform1 SIFT 发展历程及主要思想SIFT算法由D.G.Lowe 1999年提出,2004年完善总结。后来Y.Ke将其描述子部分用PCA代替直方图的方式

2012-08-30 12:54:41 1570

56.com 视频推荐与大数据架构介绍

56.com 视频推荐与大数据架构介绍

2015-09-22

56 solrCloud分布式搜索与索引过程

2014-05-29

hadoop中文教程.pdf

hadoop中文教程 ,hadoop入门学习

2010-11-15

编程珠玑第二版中英源打包

编程珠玑第二版中英源打包,经典的算法题,读取第一页的时候,深深地被使用bit数组对大数据量快捷的排序方式给吸引住了。。

2010-08-04

sogou 词典 搜狗最新词典

sogou 词典 搜狗最新词典,对于做分词程序作用。。

2010-05-28

lucene3 原理介绍跟代码分析

lucene3 原理介绍跟代码分析 全文检索就存在三个重要问题: 1. 索引里面究竟存些什么?(Index) 2. 如何创建索引?(Indexing) 3. 如何对索引进行搜索?(Search) 下面我们顺序对每个个问题进行研究。

2010-04-08

JMS简明教程.pdf

企业消息产品(或者有时称为面向消息的中间件产品)正逐渐成为公司内操作集成的关 键组件。这些产品可以将分离的业务组件组合成一个可靠灵活的系统。 除了传统的MOM 供应商,企业消息产品也可以由数据库供应商和许多与网络相关的公 司来提供。 Java 语言的客户端和Java 语言的中间层服务必须能够使用这些消息系统。JMS 为Java 语言程序提供了一个通用的方式来获取这些系统。 JMS 是一个接口和相关语义的集合,那些语义定义了JMS 客户端如何获取企业消息产品 的功能。 由于消息是点对点的,所以JMS 的所有用户都称为客户端(clients)。JMS 应用由定义 消息的应用和一系列与他们交互的客户端组成

2010-03-15

Java JDK6学习笔记.pdf

很好的一本JAVA书籍,很适合初学者~ 一本好的启蒙书,让你少走更多的弯路~

2009-05-04

lucene做的桌面搜索

这个程序是用java做的桌面搜索,利用lucene API技术完成建立索引跟搜索功能,其它大部分功能是仿照火速搜索软件的,请大家多多指教,因为没时间完善,所以还存在很多缺点,特别是界面运行就比较慢~

2009-05-04

RCP程序设计.pdf

对做eclipse的插件感兴趣的好东西 RCP 富客户端的入门第一手资料

2009-04-06

精通Struts(Word版).pdf

精通 Struts 中文版 孙卫琴 经典书籍

2009-03-28

JSF+in+Action中文版.pdf

JSF 经典书籍 我希望JavaServer Faces in Action 能够激发你如我一般对此技术的热情,并且成为你自己项目开发的有用工具 本书是针对那些正在开发 Java web 应用的人— 架构师,应用开发人员和前端开发人员。在 我看来,架构师关心的是应用的设计,使用哪种技术,以及开发过程如何运作。开发人员则 构建模型对象,应用逻辑等等,而前端开发人员则具体构建GUI,通常使用象JSP 或者Velocity 之类的显示技术。在某些团队中,这些角色可能由相同的人承担,或者不同的角色具有重叠 的技能要求。JSF 是一个 web 应用框架,类似于Struts, WebWork, 或者Tapestry,但是本书 即使你之前从没有用过一种Web 框架也是可读的。

2009-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除