安装MySql和CoreSeek
修改root用户密码
- 默认的root用户没有密码
- 到mysql安装目录的bin目录下
- 执行cmd命令:
mysqladmin -u root -password 1234
- 将root用户的密码设为:1234
创建数据库
- 登陆数据库:
mysql -u root -p1234
- 创建数据库:
create database html_url;
- 显示数据库:
show databases;

设计数据表字段
- 文档编号:id
- 查询过滤:分组(group_id),时间(date_info)
- 全文检索:网页概要(summary),URL
- 进入数据库:
use html_url
- 编写sql文件:documents.sql
- 将文件导入数据库:
source d:\documetns.sql
- 修改mysql的默认编码为utf-8:修改mysql默认编码为utf-8
DROP TABLE IF EXISTS `documents`;
CREATE TABLE IF NOT EXISTS `documents` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`summary` varchar(255) NOT NULL,
`url` text NOT NULL,
`date_info` datetime NOT NULL,
`group_id` int(2) NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=4 ;
INSERT INTO `documents` (`id`, `summary`, `url`, `date_info`, `group_id`) VALUES
(1, '百度官网', 'https://www.baidu.com/', '2015-02-25 13:20:07', 1),
(2, '多玩官网', 'http://www.duowan.com/', '2015-02-25 13:20:08', 1),
(3, '淘宝官网', 'http://www.taobao.com/', '2015-02-25 13:20:09', 1);

设置Coreseek索引文件
- 设置Coreseek根目录/etc/csft_mysql.conf文件
- 前提是完成之前建数据库,表和插入数据的操作
source mysql
{
type = mysql
sql_host = localhost
sql_user = root
sql_pass = 1234
sql_db = html_url
sql_port = 3306
sql_query_pre = SET NAMES utf8
sql_query = SELECT id, group_id, UNIX_TIMESTAMP(date_info) AS date_info, summary, url FROM documents
sql_attr_uint = group_id
sql_attr_timestamp = date_info
sql_query_info_pre = SET NAMES utf8
sql_query_info = SELECT * FROM documents WHERE id=$id
}
index mysql
{
source = mysql
path = C:\usr\local\coreseek-4.0.1-win32\var\data\mysql
docinfo = extern
mlock = 0
morphology = none
min_word_len = 1
html_strip = 0
charset_dictpath = C:\usr\local\coreseek-4.0.1-win32\etc\
charset_type = zh_cn.utf-8
}
indexer
{
mem_limit = 128M
}
searchd
{
listen = 9312
read_timeout = 5
max_children = 30
max_matches = 1000
seamless_rotate = 0
preopen_indexes = 0
unlink_old = 1
pid_file = C:\usr\local\coreseek-4.0.1-win32\var\log\searchd_mysql.pid
log = C:\usr\local\coreseek-4.0.1-win32\var\log\searchd_mysql.log
query_log = C:\usr\local\coreseek-4.0.1-win32\var\log\query_mysql.log
}
根据配置文件建立索引
- 在Coreseek根目录输入cmd命令,为数据源建立索引
bin\indexer -c etc\csft_mysql.conf --all
- 结果为3个文档,跟我们插入的3条数据相对应,说明正确建立索引

查询数据源中的数据
- 数据源中有3条数据:百度官网,多玩官网和淘宝官网
- CMD默认编码是gbk,而输入是utf-8,会乱码,现在把CMD设置成utf-8编码模式
- 将CMD设为utf-8模式:
chcp 65001
- 再在Coreseek根目录搜索:
bin\search -c etc\csft_mysql.conf

小结
- 现在Coreseek已经可以查询Mysql的数据了
- 下一步用Scrapy将网页的summary和URL爬取存进数据库
- 然后将搜索结果返回给Django的结果页面