关于特殊字符\n\n<|endoftext|>的识别问题
用的正则是
PAT = r"""'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""
会将“.......! \n\n<|endoftext|>” 中两个连续的\n识别成两个单词,这样后续多没有机会合并它们了
而在“......! \n\n”中将两个连续\n识别到一个单词去,这是该作业自动测试时认可的结果
没有找到较好的解决方法,参考网上各答案,他们的解决方案中都是按照<|endoftext|>把整个文本切割开分别处理。因此没有出现我的上述问题。
964

被折叠的 条评论
为什么被折叠?



