百度国学搜索探密

年底写论文作实验搞得头昏脑胀,中午放松一下上网看看新闻,原来百度推出了国学搜索,平常也比较喜欢看诗词歌赋方面的东西,就上百度试了试,结果搜索结果让我感觉哪里好像不对劲,所以就稍微花点时间看看百度在后面作了些什么.

我说的不对劲到不是搜索结果本身,而是搜索结果的存放方式,你会发现百度所有搜索结果都放在http://guoxue.baidu.com/page/这个目录下面.比如搜索诗经”,所有返回结果页面都是guoxue.baidu.com/page/caabbead/XXX.html

这说明什么?说明百度所有的国学书籍都是存储在guoxue.baidu.com/page/这个目录下面,每个书籍一个目录,每个目录下面若干页面,每个页面是这个书籍的一部分.然后我感觉很好奇的是,目录名是按照什么原则命名的呢?比如诗经为什么是caabbead?看着这个字符串非常有亲切感,好像认识又叫不上名字,是谁呢?对了,很像是中文字符的字符编码,那到底是不是呢?做个实验,诗经放到UltraEdit里面选择HEX EDIT看看编码发现还真实这么回事情,在实验几个,比如红楼梦”,HEX EDIT编码: baecc2a5c3ce,那么我们试试百度存放在哪里,理论上应该存放在guoxue.baidu.com/page/baecc2a5c3ce这个目录下,那么构建URL: guoxue.baidu.com/page/baecc2a5c3ce/1.html看看,你看到了什么?跟我们的预期一样,是红楼梦,不过不是第一章,是第二章,这个出乎我的意料,看来百度程序员有职业习惯从0开始计算啊,试试, guoxue.baidu.com/page/baecc2a5c3ce/0.html,,是第一章了.

看来百度是这么做的:每个书籍一个目录,目录名就是书名的字符编码,每个章节或者段落是一个静态页面,目录页面是http://guoxue.baidu.com/page/xxxx/index.html,每个书籍都是若干静态页面组成的,所有数据放在http://guoxue.baidu.com/page/目录下而且不允许用户直接访问这个目录,想要大批量收藏古籍的先生太太老爷***门可以考虑写个小程序自动从百度抓取啊,百度真是个好人,呵呵.

那么后台怎么处理呢?这个看来很简单,后台应该有三个数据库,一个是人名倒排索引,记载了作者和作品信息,这个是为了支持按照作者查找的;一个是书名倒排索引,记载出现过数目的页面,这个是为了支持按照书名查找的,另外一个是全文倒排索引,这个是为了按照内容查找的,那么内容索引是怎样的呢?建立了N-GRAM索引还是分词后按照词汇索引的呢?所谓N-GRAM索引,就是说不考虑分词,而按照下面方法建立索引:

比如百度搜索”,2-gram索引记载下面信息:”百度 度搜 搜索”,3-gram就是百度搜 度搜索”,依次类推.用户输入度搜作为查询,那么数据库里面记载了信息,就把百度搜索提取出来了.

结论是百度分词后进行索引的没有采用N-GRAM,比如用土群你是搜不到东西的,而用郴土是可以搜索到郴土群山高”,说明没有用N-GRAM否则用土群也可以搜索出这句话的.

在我看来,国学搜索这种东西实际的有需求的用户有多少很难说,只是具有象征意义,百度推出这么个搜索无非是想强调自己是做中文的而已,但是从上面分析你可以看出来,这种搜索技术上实现起来跟中文又有多少关系呢?要想真正把国学搜索做好要花的功夫远非现在百度所采取的技术实现能够达到的.

补充(112):

排序是搜索引擎的核心,经过我分析,百度国学的排序原则是最传统的TF.IDF方法,排序公式如下:

Rank(w)=TF(w)*IDF(w)/Doclen

TF(w):w出现在文章中的次数,如果出现在文章的书名,那么权重加大.

IDF(w):w的所有数据库文件中多少个文件出现(DF(w)),然后求倒数1/DF(w)

Doclen:文章长度.

另外,采用了CACHE机制.

如果所有文章数据采取XML 格式整理好的话,对于做搜索的公司来说,构造这么一个检索系统还是比较花费时间的,我估计得用30分钟到1天的时间才能完成整个系统-:)

 

/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/

百度国学搜索探密

中科院软件所 张俊林

2006111

【SCI一区复现】基于配电网韧性提升的应急移动电源预配置和动态调度(下)—MPS动态调度(Matlab代码实现)内容概要:本文档围绕“基于配电网韧性提升的应急移动电源预配置和动态调度”主题,重点介绍MPS(Mobile Power Sources)动态调度的Matlab代码实现,是SCI一区论文复现的技术资料。内容涵盖在灾害或故障等极端场景下,如何通过优化算法对应急移动电源进行科学调度,以提升配电网在突发事件中的恢复能力与供电可靠性。文档强调采用先进的智能优化算法进行建模求解,并结合IEEE标准测试系统(如IEEE33节点)进行仿真验证,具有较强的学术前沿性和工程应用价值。; 适合人群:具备电力系统基础知识和Matlab编程能力,从事电力系统优化、配电网韧性、应急电源调度等相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①用于复现高水平期刊(SCI一区、IEEE顶刊)中关于配电网韧性与移动电源调度的研究成果;②支撑科研项目中的模型构建与算法开发,提升配电网在故障后的快速恢复能力;③为电力系统应急调度策略提供仿真工具与技术参考。; 阅读建议:建议结合前篇“MPS预配置”内容系统学习,重点关注动态调度模型的数学建模、目标函数设计与Matlab代码实现细节,建议配合YALMIP等优化工具包进行仿真实验,并参考文中提供的网盘资源获取完整代码与数据。
一款AI短视频生成工具,只需输入一句产品卖点或内容主题,软件便能自动生成脚本、配音、字幕和特效,并在30秒内渲染出成片。 支持批量自动剪辑,能够实现无人值守的循环生产。 一键生成产品营销与泛内容短视频,AI批量自动剪辑,高颜值跨平台桌面端工具。 AI视频生成工具是一个桌面端应用,旨在通过AI技术简化短视频的制作流程。用户可以通过简单的提示词文本+视频分镜素材,快速且自动的剪辑出高质量的产品营销和泛内容短视频。该项目集成了AI驱动的文案生成、语音合成、视频剪辑、字幕特效等功能,旨在为用户提供开箱即用的短视频制作体验。 核心功能 AI驱动:集成了最新的AI技术,提升视频制作效率和质量 文案生成:基于提示词生成高质量的短视频文案 自动剪辑:支持多种视频格式,自动化批量处理视频剪辑任务 语音合成:将生成的文案转换为自然流畅的语音 字幕特效:自动添加字幕和特效,提升视频质量 批量处理:支持批量任务,按预设自动持续合成视频 多语言支持:支持中文、英文等多种语言,满足不同用户需求 开箱即用:无需复杂配置,用户可以快速上手 持续更新:定期发布新版本,修复bug并添加新功能 安全可靠:完全本地本地化运行,确保用户数据安全 用户友好:简洁直观的用户界面,易于操作 多平台支持:支持Windows、macOS和Linux等多个操作系统
源码来自:https://pan.quark.cn/s/2bb27108fef8 **MetaTrader 5的智能交易系统(EA)**MetaTrader 5(MT5)是由MetaQuotes Software Corp公司研发的一款广受欢迎的外汇交易及金融市场分析软件。 该平台具备高级图表、技术分析工具、自动化交易(借助EA,即Expert Advisor)以及算法交易等多项功能,使交易参与者能够高效且智能化地开展市场活动。 **抛物线SAR(Parabolic SAR)技术指标**抛物线SAR(Stop and Reverse)是由技术分析专家Wells Wilder所设计的一种趋势追踪工具,其目的在于识别价格走势的变动并设定止损及止盈界限。 SAR值的计算依赖于当前价格与前一个周期的SAR数值,随着价格的上扬或下滑,SAR会以一定的加速系数逐渐靠近价格轨迹,一旦价格走势发生逆转,SAR也会迅速调整方向,从而发出交易提示。 **Parabolic SAR EA的操作原理**在MetaTrader 5环境中,Parabolic SAR EA借助内嵌的iSAR工具来执行交易决策。 iSAR工具通过计算得出的SAR位置,辅助EA判断入市与离市时机。 当市场价位触及SAR点时,EA将产生开仓指令,倘若价格持续朝同一方向变动,SAR将同步移动,形成动态止损与止盈参考点。 当价格反向突破SAR时,EA会结束当前仓位并可能建立反向仓位。 **智能交易系统(EA)的优越性**1. **自动化交易**:EA能够持续监控市场,依据既定策略自动完成买卖操作,减少人为情感对交易的影响。 2. **精确操作**:EA依照预设规则操作,无任何迟疑,从而提升交易成效。 3. **风险管控**:借助SA...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值