CMS系统设计与技术选型：MySQLvsMongoDB全文检索与安全防护-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42277430/article/details/135931740

在前两家公司都做过CMS系统，技术选型和业务类型各不相同，给第一家公司做的是文章管理系统，第二家做的是带富文本编辑的类论坛系统。记录下此类系统的设计思路与注意事项。

数据存储方案

技术选型要扎根业务规模和预算，对小规模业务，如果部门原本没有ES的基建，为了一个CMS的全文检索直接额外部署个ES成本上不可接受。只能利用现有的基建尽可能实现功能。
前两家公司，第一家公司使用MySQL数据库，第二家公司使用MongoDB，现代的DB基本都支持全文索引，MySQL的innoDB和MongoDB也不例外，原理其实与ES类似，都是一个倒排索引引擎。

基本注意事项

将纯文本和HTML文本分别存储，HTML文本可gzip压缩后存储到DB，也可直接传到OSS，以减小DB单行大小，纯文本则直接存储，以建立全文索引。

MySQL方案

使用MySQL时要注意content存成text类型，不过text类型也有大小限制，限制65535个字节，大部分业务够用，可以在业务层限制单篇文章不可超过此大小。如果需要存更多字符，也可以使用mediumtext（16,777,215个字节）或longtext（4,294,967,295个字节）类型。

MySQL5.6以后的版本，innoDB支持全文索引，5.7加入ngram分词器，用法如下：

添加全文索引

ALTER TABLE articles ADD FULLTEXT(title, content);

ngram分词器配置
ngram分词器是InnoDB对中文，日文和韩文推出的分词器，实际上就是对文本做一个滑动窗口的切分，按token_size决定滑动窗口大小，比如token_size为2时，“今天是个好日子”这段文本就会被分词器切成“今天”，“天是”，“是个”，“个好”，“好日”，“日子”六个索引节点。
ngram分词器的分词策略其实相当原始，没有任何自然语言处理，不过用起来其实也堪用。
在汉语的语境下，大部分词语都是两字，token_size设置为2效果最好。需要在mysql的配置文件里配置下面两项
```
[mysqld]
ngram_token_size=2 #ngram分词器的窗口尺寸
ft_min_word_len=1 #创建索引的最小长度，大于这个长度的单词才会创建索引
```
使用MATCH和AGAINST关键字进行全文索引的检索，具体用法可以查阅文档。

MongoDB方案

添加全文索引

db.articles.createIndex( { content: "text" } )

分词器
MongoDB不支持中文分词器，只会按空格进行分词，所以存入数据前要自行分词，可以使用结巴分词器 Java版结巴分词器github地址

安全相关注意事项

XSS注入防御

XSS注入的基本原理就是，非法用户在提交文章时，由于是富文本，他可以直接加个script标签，或者放个链接，里面写js脚本。如果把这些HTML直接给前端，则访问到此内容的用户浏览器，会执行被非法嵌入的js脚本，这样就可以获取前端存在Cookie、LocalStorage、SessionStorage、IndexedDB、WebSQL里的数据，并传到其他站点，这些数据里很可能就有用户的敏感数据。
要防御也很简单，在提交文章的接口里，需要做一个标签过滤，可以使用Hutool的XMLUtil解析输入，并设置一个标签白名单、属性白名单，将非法标签和非法属性全部过滤掉即可。