第五部分,是比较专业的文字处理和自然语言处理,这2个方向也是今后的热点所在。
文字处理方面的前景是主题词提取,以及自动文章生成,可了解一下业内有几家创业公司被收购,就是依赖准确的主题分析和个性推荐,另外还有根据材料自动编写报道文章。
自然语言处理也是非常热门的方向,最直观就是siri 的成功,虽然离完全智能还差一点,但是对基本对话的理解准确率已经达到了可正常使用的地步。
- Corpus 语料库
- Named Entity Recognition 命名实体识别
- Text Analysis 文本分析
- UIMA Unstructured Information Management Architecture非结构化信息管理架构
- Term Document Matrix 术语文档矩阵
- Term Frequency & Weight 术语频率和权重
- Support Vector Machines 支持向量机
- Association Rules 关联规则
- Market Based Analysis ( Market Basket Analysis ? ) 基于市场分析(这里怀疑原作者有笔误)
- Feature Extraction 特征提取
- Using Mahout 使用Mahout(开源机器学习算法分布式框架)
- Using Weka 使用WaikatoEnvironmentforKnowledgeAnalysis(开源的数据分析软件)
- Using Natural Language Toolkit (NLTK) 使用自然语言工具箱
- Classify Text ( Document Classification? ) 分类文本
- Vocabulary Mapping 词汇映射
本文探讨了文字处理和自然语言处理的未来趋势,包括主题词提取、自动文章生成及命名实体识别等关键技术。介绍了非结构化信息管理架构(UIMA)、支持向量机(SVM)、关联规则等算法,并提及了Mahout、Weka和NLTK等工具的应用。
2580

被折叠的 条评论
为什么被折叠?



