在研究了如何在scikit-learn中实现标记化之后,我们找到了这个正则表达式(source)。
token_pattern = r"(?u)\b\w\w+\b"
正则表达式非常简单,但是(?U)部分从未见过。有人可以告诉我这部分在做什么吗?
答案
该表达式打开
re.U(re.UNICODE)标志。
https://codeday.me/jp/qa/20190322/452983.html
(?iLmsux)(一个或多个字母从集合
'i','L','m','s','u','x'。)的组相匹配的空字符串;字母设置相应的标志:re.I(忽略大小写),re.L(与当前位置有关),re.M(多线),(re.S点匹配所有) ,re.U(取决于Unicode)和re.X(详细)(对于整个正则表达式)(标志在模块内容中进行了描述。)如果希望将标志包括在正则表达式中,而不是传递标志参数,则这很有用。收件人re.compile()功能。
本文深入探讨了scikit-learn中用于文本标记化的正则表达式,特别是对(?u)语法的作用进行了解析,揭示了其在处理Unicode字符集时的重要性。
4225

被折叠的 条评论
为什么被折叠?



