在前两家公司都做过CMS系统,技术选型和业务类型各不相同,给第一家公司做的是文章管理系统,第二家做的是带富文本编辑的类论坛系统。记录下此类系统的设计思路与注意事项。
数据存储方案
技术选型要扎根业务规模和预算,对小规模业务,如果部门原本没有ES的基建,为了一个CMS的全文检索直接额外部署个ES成本上不可接受。只能利用现有的基建尽可能实现功能。
前两家公司,第一家公司使用MySQL数据库,第二家公司使用MongoDB,现代的DB基本都支持全文索引,MySQL的innoDB和MongoDB也不例外,原理其实与ES类似,都是一个倒排索引引擎。
基本注意事项
- 将纯文本和HTML文本分别存储,HTML文本可gzip压缩后存储到DB,也可直接传到OSS,以减小DB单行大小,纯文本则直接存储,以建立全文索引。
MySQL方案
使用MySQL时要注意content存成text类型,不过text类型也有大小限制,限制65535个字节,大部分业务够用,可以在业务层限制单篇文章不可超过此大小。如果需要存更多字符,也可以使用mediumtext(16,777,215个字节)或longtext(4,294,967,295个字节)类型。
MySQL5.6以后的版本,innoDB支持全文索引,5.7加入ngram分词器,用法如下:
- 添加全文索引
ALTER TABLE articles ADD FULLTEXT(title, content);
- ngram分词器配置
ngram分词器是InnoDB对中文,日文和韩文推出的分词器,实际上就是对文本做一个滑动窗口的切分,按token_size决定滑动窗口大小,比如token_size为2时,“今天是个好日子”这段文本就会被分词器切成“今天”,“天是”,“是个”,“个好”,“好日”,“日子”六个索引节点。
ngram分词器的分词策略其实相当原始,没有任何自然语言处理,不过用起来其实也堪用。
在汉语的语境下,大部分词语都是两字,token_size设置为2效果最好。需要在mysql的配置文件里配置下面两项[mysqld] ngram_token_size=2 #ngram分词器的窗口尺寸 ft_min_word_len=1 #创建索引的最小长度,大于这个长度的单词才会创建索引
- 使用MATCH和AGAINST关键字进行全文索引的检索,具体用法可以查阅文档。
MongoDB方案
- 添加全文索引
db.articles.createIndex( { content: "text" } )
- 分词器
MongoDB不支持中文分词器,只会按空格进行分词,所以存入数据前要自行分词,可以使用结巴分词器 Java版结巴分词器github地址
安全相关注意事项
XSS注入防御
XSS注入的基本原理就是,非法用户在提交文章时,由于是富文本,他可以直接加个script标签,或者放个链接,里面写js脚本。如果把这些HTML直接给前端,则访问到此内容的用户浏览器,会执行被非法嵌入的js脚本,这样就可以获取前端存在Cookie、LocalStorage、SessionStorage、IndexedDB、WebSQL里的数据,并传到其他站点,这些数据里很可能就有用户的敏感数据。
要防御也很简单,在提交文章的接口里,需要做一个标签过滤,可以使用Hutool的XMLUtil解析输入,并设置一个标签白名单、属性白名单,将非法标签和非法属性全部过滤掉即可。