开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引 ...

百万商业圈视频搜索引擎已正式开源,包含网站、中文分词服务器、索引内核等组件,支持实时采集、索引和检索,适用于大规模数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引

整个视频搜索引擎包括:网站(C#+C语言)、中文分词服务器3.2(C语言)、索引内核2.0(C语言)、索引服务器1.0(C#+C语言)、采集器3.1(delphi)

网站 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
数据存储:可采用mysql、sql server、sqlite、oracle中的任何一种,无须更改代码,只需更改配置文件
性能指标:每分钟有效并发10万
在线范例:http://bida.cc
下载地址:
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是

索引服务器1.0 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
性能指标:每天有效索引>=50万(实时:新增数据即时索引)
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是

索引内核2.0(C语言) 相关指标:
名称:百万商业圈全文索引器
开发语言:C语言
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8、ubuntu、SUSE、CenterOS
性能指标:采用创新的倒排全文索引,单机(普通PC 2G内存)支持3000万网页的全文索引,任意检索不超过0.2秒。
功能支持:新增索引、更新索引、删除索引、检索归并
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
索引内核1.0(C语言)说明,包括动态摘要、高亮显示、相关设置等


中文分词服务器3.2(C语言) 相关指标:
名称:百万商业圈中文分词服务器
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:用例共 3000分10K+的随机文章
平均性能:5万字以内的文章单线程切分1秒内可以切分完毕
在线范例:http://bida.cc:888
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
内部版本:单线程稳定版
相关说明:http://www.cnblogs.com/bwsyq/archive/2011/12/02/2271611.html
注:网站开发框架中提供了三种中文分词方式 默认采用 百万商业圈中文分词

采集器3.1(delphi)  相关指标:
名称:百万商业圈龙蛛采集器 - 视频采集器
编译器:delphi 7.0
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:非特殊情况可连续运行>=一年
平均性能:2MB以内带宽每分钟采集上千视频
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是

附加:百万商业圈龙蛛采集器3.1 - 网页采集器:可自行设置保存目录和采集深度,
理论上根据一个入口地址可采集整个互联网,没有特殊情况程序可持续运行一年,
不会有任何错误,每5000个文档自动生成一个子目录,文件名都是整数,便于索引。

完整说明请参见:百万商业圈视频搜索引擎说明.doc (2.66MB) 
完整源代码下载1: 百万商业圈视频搜索引擎源代码及完整说明 (37.42MB) 在windows上打的包
完整源代码下载2:所有源代码及全部模块完整下载地址 (39.58MB) 在linux上打的包

注意:单机(普通PC、一般硬盘、2G内存)最大支持3000万条数据或网页的全文索引,任意检索不超过0.2秒。
     超过3000万的数据,请使用:百万商业圈开源可编程的集群分布式云平台

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值