阶段性总结--20130613

本文介绍了17搜索引擎的基本框架及功能实现,包括重要网页优先抓取、多线程抓取、url查重等,并讨论了算法效率和可扩展性问题。此外,还列举了为提升技能而计划阅读的技术书籍清单。

1.17搜索

17搜索基本框架已经搭好,从博客园、优快云、月光博客收录的博文也越来越多,功能涵盖了基本的重要网页优先抓取、多线程抓取、间隔抓取、中断抓取、url查重、博文抽取、标题分词、倒排索引、查询、网页排名、自动摘要、页面翻转等,但在具体算法效率和可扩展性都还存在很多问题进步解决,下一步的重点主要还是放在服务器端,待完成的任务主要有重要关键词cache、线程池、DNS自动解析、压缩存储等,路还很长继续加油。

2.准备找工作

目标单位:北京大中型互联网公司。

2.1重点要读的书

重点是算法思想、底层原理、基础和常见的笔面题。

 算法分析与设计、数据结构、深入理解计算机系统(内存管理、进程调度)、深度理解C++对象模型、STL源码剖析、Effective c++、数据挖掘(关联规则、分类、聚类)、设计模式、剑指offer、编程之美、数学之美、程序员面试宝典、c++ primer、unix高级编程、unix网络编程、精通unix C语言编程与项目实践。

2.2次重点要读的书

继续不断完善17搜索。

信息检索实践、搜索引擎实践原理、解密搜索引擎技术实践、搜索引擎-核心技术详解等搜索相关书书籍。

2.2其它

主要是一些基础知识。

数据库、操作系统、网络。

推荐系统实践。

hadoop做两个实验:统计词数和url。

书挺多,虽然多数都看过或正在看,但任务还是蛮重,务必抓紧时间。

3.毕业论文

目前大致想法是基于聚类的协同过滤算法改进。

转载于:https://www.cnblogs.com/siliconvalley/archive/2013/06/13/3133507.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值