•
对于序列中的每个时间步做分类
•
得到每个时间步的标签
•
•
对于输入:
X
1
X
2
X
3
X
4
….
X
n
•
预测输出:
Y
1
Y
2
Y
3
Y
4
…..
Y
n
•
•
应用场景:
•
分词,词性标注,句法分析,命名实体识别等
中文分词
•
B:
词左边界
•
•
E:
词右边界
•
•
M:词内部
S:
单字

命名实体识别(NER)
•
BA:
地址左边界
•
MA:
地址内部
•
EA:
地址右边界
•
•
BO:
机构左边界
•
MO:
机构内部
•
EO:
机构右边界
•
•
BP:
人名左边界
•
MP:
人名内部
•
EP:
人名右边界
•
•
O:
无关字

ner实现
基于深度学习
•通过神经网络将每个token向量化,预测其分类标签
CRF-条件随机场
转移矩阵
CRF-转移矩阵
CRF-Loss定义
代码实现
正则表达式
•正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
•
pattern
:
ab
检查
pattern
是否在字符串中出现
•
string 1:
babb
re.search
(pattern, string) True
•
string 2:
bbba
None
•
string 3:
baaa
None
•
string 4: abb
True
•
检查
pattern
是否在字符串开头出现
•
string 1:
babb
re.match
(pattern, string) None
•
string 2:
bbba
None
•
string 3:
baaa
None
•
string 4: abb True

