CMS服务设计

在前两家公司都做过CMS系统,技术选型和业务类型各不相同,给第一家公司做的是文章管理系统,第二家做的是带富文本编辑的类论坛系统。记录下此类系统的设计思路与注意事项。

数据存储方案

技术选型要扎根业务规模和预算,对小规模业务,如果部门原本没有ES的基建,为了一个CMS的全文检索直接额外部署个ES成本上不可接受。只能利用现有的基建尽可能实现功能。
前两家公司,第一家公司使用MySQL数据库,第二家公司使用MongoDB,现代的DB基本都支持全文索引,MySQL的innoDB和MongoDB也不例外,原理其实与ES类似,都是一个倒排索引引擎。

基本注意事项

  1. 将纯文本和HTML文本分别存储,HTML文本可gzip压缩后存储到DB,也可直接传到OSS,以减小DB单行大小,纯文本则直接存储,以建立全文索引。

MySQL方案

使用MySQL时要注意content存成text类型,不过text类型也有大小限制,限制65535个字节,大部分业务够用,可以在业务层限制单篇文章不可超过此大小。如果需要存更多字符,也可以使用mediumtext(16,777,215个字节)或longtext(4,294,967,295个字节)类型。

MySQL5.6以后的版本,innoDB支持全文索引,5.7加入ngram分词器,用法如下:

  1. 添加全文索引
    ALTER TABLE articles ADD FULLTEXT(title, content);
    
  2. ngram分词器配置
    ngram分词器是InnoDB对中文,日文和韩文推出的分词器,实际上就是对文本做一个滑动窗口的切分,按token_size决定滑动窗口大小,比如token_size为2时,“今天是个好日子”这段文本就会被分词器切成“今天”,“天是”,“是个”,“个好”,“好日”,“日子”六个索引节点。
    ngram分词器的分词策略其实相当原始,没有任何自然语言处理,不过用起来其实也堪用。
    在汉语的语境下,大部分词语都是两字,token_size设置为2效果最好。需要在mysql的配置文件里配置下面两项
    [mysqld]
    ngram_token_size=2 #ngram分词器的窗口尺寸
    ft_min_word_len=1 #创建索引的最小长度,大于这个长度的单词才会创建索引
    
  3. 使用MATCH和AGAINST关键字进行全文索引的检索,具体用法可以查阅文档。

MongoDB方案

  1. 添加全文索引
    db.articles.createIndex( { content: "text" } )
    
  2. 分词器
    MongoDB不支持中文分词器,只会按空格进行分词,所以存入数据前要自行分词,可以使用结巴分词器 Java版结巴分词器github地址

安全相关注意事项

XSS注入防御

XSS注入的基本原理就是,非法用户在提交文章时,由于是富文本,他可以直接加个script标签,或者放个链接,里面写js脚本。如果把这些HTML直接给前端,则访问到此内容的用户浏览器,会执行被非法嵌入的js脚本,这样就可以获取前端存在Cookie、LocalStorage、SessionStorage、IndexedDB、WebSQL里的数据,并传到其他站点,这些数据里很可能就有用户的敏感数据。
要防御也很简单,在提交文章的接口里,需要做一个标签过滤,可以使用Hutool的XMLUtil解析输入,并设置一个标签白名单、属性白名单,将非法标签和非法属性全部过滤掉即可。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值