R语言中文本清理
textclean包
textclean是一组清理和规范化文本的工具。其中许多工具都是从qdap软件包中获取的,并且经过修改后更加直观,命名更好,速度更快。工具适用于检查不适合分析的子串,并用更多分析友好的子串替换或删除它们(规范化)(参见Sproat,Black,Chen,Kumar,Ostendorf,&Richards,2001,doi:10.1006 / csla.2001.0169)或将它们提取到新变量中。例如,表情符号通常用于文本中,但并不总是易于通过分析算法处理。replace_emoticon()函数用等效的单词替换表情符号。其他R包提供一些相同的功能(例如,english,gsubfn,mgsub,stringi,stringr,qdapRegex)。textclean与这些软件包的不同之处在于,它旨在通过单个,一致,预配置的工具集来处理所有常见的清理和规范化任务(请注意,textclean使用许多这些极好的软件包作为后端)。这意味着研究人员花费更少的时间进行调整,从而更快地进行分析。此包旨在与textshape包一起使用,该包提供文本提取和重塑功能。textclean适用于qdapRegex包,它为子串替换和预先包装的正则表达式的提取提供工具。此外,textclean的功能被设计为通过始终使用函数的第一个参数作为数据源在tidyverse框架的管道内工作。textclean subbing和replacement工具在dplyr :: mutate语句中特别有效。
https://github.com/trinker/textclean#html
mgsub
使用MGSUB :: MGSUB进行安全,多对象字符串的替换
http://thug-r.life/post/2018-01-10-safe-multiple-string-substitutions/
一个名为mgsub的新R包。它是qdap :: mgsub的安全替代品,完全支持正则表达式匹配和替换,以确保安全性。它也会首先取代较长的匹配,因此子匹配不会搞砸。我不需要传递匹配和替换的向量(可以重新编号),而是需要命名列表。最后,代码是纯R(现在),没有依赖关系,所以你不会安装很多其它的包。
devtools::install_github("bmewing/mgsub")