自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SUL

  • 博客(12)
  • 收藏
  • 关注

原创 用python优雅的刷leetcode(001-100)

1. 两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]cla...

2019-11-22 15:55:46 806

原创 python踩坑:循环体中的lambda变量域问题

最近在回顾廖雪峰老师的python教程,在“高阶函数”这一节有一段利用filter函数和生成器求素数的代码,这里为了方便理解和调试进行了简化:def func(n): return lambda x: x % n > 0def primes(): it = (i for i in np.arange(3, 20, 2)) while True: ...

2019-10-22 19:57:04 832

原创 以微信公众号爬虫为例,谈谈对session、cookie和token认证的理解

为什么需要这些认证我们通过浏览器访问多数网站,本质上都可以理解为客户端(用户)和服务端(网站)之间的一次遵循http协议的请求和应答,比如:把a页面给我(返回a.html),删除b图片(删除b.jpg)。但是http协议本身是无状态的,也就是说我们每一次向网站发送请求,服务器都并不知道我们是谁、是否请求过、有何偏好(共享数据),所以需要一种验证机制将我们的所有请求关联起来。1、session和...

2019-10-21 18:12:24 1547

原创 python连接linux服务器:利用paramiko实现执行命令、上传文件和下载文件

Paramiko是基于SSHv2协议、用来连接和操作linux服务器的Python库,利用它可以在服务器中执行命令和传输文件。和传统的putty和ftp工具相比,Paramiko对服务器没有配置要求、且可以在代码层面实现以上操作。1 paramiko的安装一些比较旧的攻略提到paramiko需要依赖PyCrypto和GCC库,不过新版本已经解决的这些问题,我们可以直接利用pip安装:pip ...

2019-02-27 20:25:01 2080

原创 solr搭建电商搜索引擎06 - 数据查询和搜索关键词匹配

在前面内容中,我们已经向solr上传数据并创建了索引,现在我们看看怎样获取搜索结果。在solr管理页面选择core后点击“Query”,然后直接点击“Execute Query”可以看到“查找所以文档”的搜索结果。...

2019-02-21 15:45:00 1038

原创 python实习生笔试题目

1、Write the output of the following python programs(IPython).In[1] "Welcome to apple".split(" ",1)[-1]tips:本题考察字符串的split函数,该函数的作用是根据指定分隔符“ ”和分隔次数1+1=2对字符

2019-02-18 13:29:04 1930

原创 solr搭建电商搜索引擎05 - 中文分词器的配置

在英文中,单词本身就是一个“词”,一句话是由若干个英文单词和分隔符(空格)组成。而在汉语中,一句话是由若干汉字组成,但是语意的理解是以词为单位,而词和词之间没有分隔符。比如“南京市长江大桥”既可以理解为“南京市/长江/大桥”,也可以理解为“南京/市长/江大桥”。如果没有中文分词器,solr就只能按照整句话或者单个字进行索引,这样不但效率低,而且也会影响搜索结果的相关性。因此,我们需要为solr配置...

2019-02-15 17:55:02 649

原创 python数据可视化:基于pyecharts的BI数据大屏

1 项目背景作为公司负责搜索和推荐的部门,很多业务数据都需要进行可视化展示:一方面是方便团队成员进行监控和分析,另一方面也是为了和业务部门共享分析成果,让数据产生更多的价值。虽然公司已经准备部署Tableau,但我们经过讨论后认为团队自己开发的大屏可以更灵活、也可以和Tableau形成互补。在寻找解决方案的时候,我们首先明确了以下几条标准,并且最终选定了pyecharts。图表丰富,提供仪表...

2019-02-11 09:03:00 41759 22

原创 solr搭建电商搜索引擎04 - 上传搜索数据和创建索引

前文中我们已经创建了core并且配置好了solrconfig和schema两个文件,下面进行最后一步:上传数据和创建索引。根据数据形式的不同,我们可以选择WEB UI和DIH(Data Import Handler)两种上传数据的方法。Solr网页交互界面(WEB UI)在solr管理页面选择core后,我们就可以看到用来上传数据的菜单“Documents”。Documents既可以上传单个文...

2019-01-31 18:33:07 515

原创 solr搭建电商搜索引擎03 - 配置solrconfig和schema

利用solr构建搜索引擎,我们需要“新建core——配置文件——索引数据”三个步骤才能实现基本的查询,在此基础上还需要继续研究查询解析、中文分词、排序、分面、高亮等功能,才能实现一个成熟的搜索。当然,配置文件的修改是伴随我们功能的开发不断进行的。配置solrconfig文件前面介绍过,solrconfig的作用是配置索引创建、查询、solr缓存以及solr组件处理器,这里我们对solrconf...

2019-01-31 18:32:51 373

原创 solr搭建电商搜索引擎02 - 新建core和core配置文件

新建coresolr的搜索是以core为单位进行组织和管理的,因此我们可以把每个core理解为一个搜索引擎或者数据库中的一个database。solr支持跨core的联合查询,但会有一定的性能损耗,这其中涉及到查询性能和数据维护的权衡问题,暂时不做讨论。参考@Hrzhi 的博客,这里介绍两种创建core的方法。方法一:在路径 D:\solr_local\server\solr 下直接新建文...

2019-01-31 18:32:30 328 1

原创 solr搭建电商搜索引擎01 - solr的下载、部署和启动

写在前面因为工作需要开始接触solr,初期主要是在啃《solr实战》和《solr权威指南》,虽然这两本书对自己的帮助都很大,但感觉对没有接触过搜索引擎且没有java基础的新人还是不够友好(比如我自己)。在后来的学习中,自己也参考了官方Manual和很多博客,所以希望把自己学习过程中的笔记和心得整理下来,帮助更多的人。由于公司已经成熟应用solr多年,我学习solr的过程一直是把复现已经上线的搜...

2019-01-31 18:32:09 358

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除