句子放进去就是字符串;
一、英文分词:利用空格;
中文分词:启发式分词,用长度优先的方式,最长的在字典中出现的词;
机器学习分词法:HMM、CRF
结巴分词的GitHub主页:https://github.com/fxsjy/jieba
基于python的中文分词的实现及应用:http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html
对python中文分词模板结巴分词算法过程的理解和分析:
http://ddtcms.com/blog/archive/2013/2/4/69/jieba-fenci-suanfa-lijie/
https://blog.youkuaiyun.com/neutblue/article/details/7375085
二、社交网络语言
正则表达式:
http://www.regexlab.com/zh/regref.htm
import re
emoticons_str = r"""
(?:
[:=;] # 眼睛
[oO\-]? # ⿐鼻⼦子
[D\)\]\(\]/\\OpP] # 嘴
)"""
regex_str = [
emoticons_str,
r'<[^>]+>', # HTML tags
r'(?:@[\w_]+)', # @某⼈人
r"(?:\#+[\w_]+[\w\'_\-]*[\w_]+)", # 话题标签
r'http[s]?://(?:[a-z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-f][0-9a-f]))+',
# URLs
r'(?:(?:\d+,?)+(?:\.?\d+)?)', # 数字
r"(?:[a-z][a-z'\-_]+[a-z])", # 含有 -