第五部分,是比较专业的文字处理和自然语言处理,这2个方向也是今后的热点所在。
文字处理方面的前景是主题词提取,以及自动文章生成,可了解一下业内有几家创业公司被收购,就是依赖准确的主题分析和个性推荐,另外还有根据材料自动编写报道文章。
自然语言处理也是非常热门的方向,最直观就是siri 的成功,虽然离完全智能还差一点,但是对基本对话的理解准确率已经达到了可正常使用的地步。
- Corpus 语料库
- Named Entity Recognition 命名实体识别
- Text Analysis 文本分析
- UIMA Unstructured Information Management Architecture非结构化信息管理架构
- Term Document Matrix 术语文档矩阵
- Term Frequency & Weight 术语频率和权重
- Support Vector Machines 支持向量机
- Association Rules 关联规则
- Market Based Analysis ( Market Basket Analysis ? ) 基于市场分析(这里怀疑原作者有笔误)
- Feature Extraction 特征提取
- Using Mahout 使用Mahout(开源机器学习算法分布式框架)
- Using Weka 使用WaikatoEnvironmentforKnowledgeAnalysis(开源的数据分析软件)
- Using Natural Language Toolkit (NLTK) 使用自然语言工具箱
- Classify Text ( Document Classification? ) 分类文本
- Vocabulary Mapping 词汇映射