当我们用分词和预处理处理完中文文档后,按理说出现的是
[[‘创立’, ‘百度’, ‘人们’, ‘最’, ‘平等’, ‘便捷’, ‘获取’, ‘信息’, ‘找到’, ‘求’, ‘使命’, ‘成立’, ‘以来’, ‘公司’, ‘秉承’, ‘用户’, ‘至上’, ‘理念’, ‘不断’, ‘坚持’, ‘技术’, ‘创新’, ‘致力’, ‘用户’, ‘提供’, ‘简单’, ‘依赖’, ‘互联网’, ‘搜索’, ‘产品’, ‘服务’, ‘包括’, ‘网络’, ‘搜索’, ‘为主’, ‘功能性’, ‘搜索’, ‘贴吧’, ‘为主’, ‘社区’, ‘搜索’, ‘针对’, ‘区域’, ‘行业’, ‘需’, ‘垂直’, ‘搜索’, ‘门户’, ‘频道’, ‘IM’, ‘全面’, ‘覆盖’, ‘中文’, ‘网络’, ‘世界’, ‘所有’, ‘搜索’, ‘需求’], [‘创立’, ‘百度’, ‘人们’, ‘最’, ‘平等’, ‘便捷’, ‘获取’, ‘信息’, ‘找到’, ‘求’, ‘使命’, ‘成立’, ‘以来’, ‘公司’, ‘秉承’, ‘用户’, ‘至上’, ‘理念’, ‘不断’, ‘坚持’, ‘技术’, ‘创新’, ‘致力’, ‘用户’, ‘提供’, ‘简单’, ‘依赖’, ‘互联网’, ‘搜索’, ‘产品’, ‘服务’, ‘包括’, ‘网络’, ‘搜索’, ‘为主’, ‘功能性’, ‘搜索’, ‘贴吧’, ‘为主’, ‘社区’, ‘搜索’, ‘针对’, ‘区域’, ‘行业’, ‘需’, ‘垂直’, ‘搜索’, ‘门户’, ‘频道’, ‘IM’, ‘全面’, ‘覆盖’, ‘中文’, ‘网络’, ‘世界’, ‘所有’, ‘搜索’, ‘需求’]]
这样的状态,可以发现此处的list左右两边是两个[[]]即有两个方括号,所以此时如果我们要使用此处的文档的list,我们应该使用list[0]使用即可
这样的是获取其list,而如果我们需要的是string类型的,我们就需要将list转换为string类型,我们此处使用的是file= ' '.join(new_list[0])
即可,出现的结果为
创立 百度 人们 最 平等 便捷 获取 信息 找到 求 使命 成立 以来 公司 秉承 用户 至上 理念 不断 坚持 技术 创新 致力 用户 提供 简单 依赖 互联网 搜索 产品 服务 包括 网络 搜索 为主 功能性 搜索 贴吧 为主 社区 搜索 针对 区域 行业 需 垂直 搜索 门户 频道 IM 全面 覆盖 中文 网络 世界 所有 搜索 需求
中间的空格号可以通过join函数进行控制,而此时如果需要的是以
[‘创立 百度 人们 最 平等 便捷 获取 信息 找到 求 使命 成立 以来 公司 秉承 用户 至上 理念 不断 坚持 技术 创新 致力 用户 提供 简单 依赖 互联网 搜索 产品 服务 包括 网络 搜索 为主 功能性 搜索 贴吧 为主 社区 搜索 针对 区域 行业 需 垂直 搜索 门户 频道 IM 全面 覆盖 中文 网络 世界 所有 搜索 需求’]
这种形式出现的list类型,即此时的list[0]是整个句子,而非以这种形式出现
[‘创立’, ‘百度’, ‘人们’, ‘最’, ‘平等’, ‘便捷’, ‘获取’, ‘信息’, ‘找到’, ‘求’, ‘使命’, ‘成立’, ‘以来’, ‘公司’, ‘秉承’, ‘用户’, ‘至上’, ‘理念’, ‘不断’, ‘坚持’, ‘技术’, ‘创新’, ‘致力’, ‘用户’, ‘提供’, ‘简单’, ‘依赖’, ‘互联网’, ‘搜索’, ‘产品’, ‘服务’, ‘包括’, ‘网络’, ‘搜索’, ‘为主’, ‘功能性’, ‘搜索’, ‘贴吧’, ‘为主’, ‘社区’, ‘搜索’, ‘针对’, ‘区域’, ‘行业’, ‘需’, ‘垂直’, ‘搜索’, ‘门户’, ‘频道’, ‘IM’, ‘全面’, ‘覆盖’, ‘中文’, ‘网络’, ‘世界’, ‘所有’, ‘搜索’, ‘需求’]
此时的list[0]是单独的创立一词,我们应该使用的方法是string转list,如果直接使用list()这个函数的功能,如list=list(file),我们得到的结果是
[‘创’, ‘立’, ’ ', ‘百’, ‘度’, ’ ', ‘人’, ‘们’, ’ ', ‘最’, ’ ', ‘平’, ‘等’, ’ ', ‘便’, ‘捷’, ’ ', ‘获’, ‘取’, ’ ', ‘信’, ‘息’, ’ ', ‘找’, ‘到’, ’ ', ‘求’, ’ ', ‘使’, ‘命’, ’ ', ‘成’, ‘立’, ’ ', ‘以’, ‘来’, ’ ', ‘公’, ‘司’, ’ ', ‘秉’, ‘承’, ’ ', ‘用’, ‘户’, ’ ', ‘至’, ‘上’, ’ ', ‘理’, ‘念’, ’ ', ‘不’, ‘断’, ’ ', ‘坚’, ‘持’, ’ ', ‘技’, ‘术’, ’ ', ‘创’, ‘新’, ’ ', ‘致’, ‘力’, ’ ', ‘用’, ‘户’, ’ ', ‘提’, ‘供’, ’ ', ‘简’, ‘单’, ’ ', ‘依’, ‘赖’, ’ ', ‘互’, ‘联’, ‘网’, ’ ', ‘搜’, ‘索’, ’ ', ‘产’, ‘品’, ’ ', ‘服’, ‘务’, ’ ', ‘包’, ‘括’, ’ ', ‘网’, ‘络’, ’ ', ‘搜’, ‘索’, ’ ', ‘为’, ‘主’, ’ ', ‘功’, ‘能’, ‘性’, ’ ', ‘搜’, ‘索’, ’ ', ‘贴’, ‘吧’, ’ ', ‘为’, ‘主’, ’ ', ‘社’, ‘区’, ’ ', ‘搜’, ‘索’, ’ ', ‘针’, ‘对’, ’ ', ‘区’, ‘域’, ’ ', ‘行’, ‘业’, ’ ', ‘需’, ’ ', ‘垂’, ‘直’, ’ ', ‘搜’, ‘索’, ’ ', ‘门’, ‘户’, ’ ', ‘频’, ‘道’, ’ ', ‘I’, ‘M’, ’ ', ‘全’, ‘面’, ’ ', ‘覆’, ‘盖’, ’ ', ‘中’, ‘文’, ’ ', ‘网’, ‘络’, ’ ', ‘世’, ‘界’, ’ ', ‘所’, ‘有’, ’ ', ‘搜’, ‘索’, ’ ', ‘需’, ‘求’]
是以单个字出现的,与我们的要求不符,但如果我们是用list.append(file),我们得到的结果就是我们想要的了