假设语料库
data = [("me gusta comer en la cafeteria".split(), "SPANISH"),
("Give it to me".split(), "ENGLISH"),
("No creo que sea una buena idea".split(), "SPANISH"),
("No it is not a good idea to get lost at sea".split(), "ENGLISH")]
test_data = [("Yo creo que si".split(), "SPANISH"),
("it is lost on me".split(), "ENGLISH")]
1、合并语料库中的测试集和训练集
2、找出合并后的语料库中所有的不重复的单词,并且用word_to_ix
(单词_单词index)表示:
(这里一共有26个单词,那么最终表示的向量长度为26)
{'me': 0, 'gusta': 1, 'comer': 2, 'en': 3, 'la': 4, 'cafeteria': 5, 'Give': 6, 'it': 7, 'to': 8, 'No': 9, 'creo': 10, 'que': 11, 'sea': 12, 'una': 13, 'buena': 14, 'idea': 15, 'is': 16, 'not': 17, 'a': 18, 'good': 19, 'get': 20, 'lost': 21, 'at': 22, 'Yo': 23, 'si': 24, 'on': 25}
3、表示(句子表示成向量,句子中的单词在词典中出现过几次就在相应位置填几,没有就0)
例如:
['me', 'gusta', 'comer', 'en', 'la', 'cafeteria']表示成
[ 1 1 1 1 1 1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0](长度为26)