python中提供了一些数据过滤功能,可以使用内建函数,也可以使用循环语句来判断,或者使用pandas库,当然在有些情况下使用pandas是为了提高工作效率。举例如下:
a = [('chic', 'JJ'), ('although', 'IN'), ('menu', 'JJ'), ('items', 'NNS'), ('doesnt', 'JJ'),
('scream', 'NN'), ('french', 'JJ'), ('cuisine', 'NN')]
这里的a为一个list,列表中还有元组。每一个元组由单词和其词性组成,我们要筛选词性为JJ何NN的单词。可以有三种写法:
第一种,使用内建函数filter:
def filt_nn(data_text):
nn_data = filter(lambda x: x[1] == 'NN'or x[1] == 'JJ', data_text)
print(list(nn_data))
return list(nn_data)
第二种,使用pandas包:
第三种,使用循环:data = pd.DataFrame(a, columns=['word', 'ps']) print(data[data.ps.isin(['JJ', 'NN'])].word)
得到的结果都相同,如下:absd = [] for i in a: if i[1] == 'NN' or i[1] == 'JJ': absd.append(i[0]) print(absd)
虽然结果相同,但是推荐第一、二种方法,因为这两个方法速度更快。['chic', 'menu', 'doesnt', 'scream', 'french', 'cuisine']