文章大纲
工欲善其事,必先利其器,熟练掌握python开发环境,虚拟环境,anaconda 等数据科学软件的使用技巧才能令自然语言处理工作游刃有余。
正则表达式,是处理自然语言的基础技术手段,学习和掌握正则表达式的相关技术可以迅速提取复杂文本中的有效信息,以便后续进行文本发掘。
网络爬虫,目的一般是为了原始数据积累,语料积累。有了语料和素材我们就可以针对爬取获得的数据,实战化的进行一些有针对性的分析。在实际应用中,我们往往做自然语言处理的第一步就是使用网络爬虫进行分析语料数据的积累。
语料与NLP常用资源,语料库协助算法对语言进行分析和建模,它的规模和质量可以在很大程度上决定模型算法的质量。在工程构建的过程中起到地基的作用。
Python编码规范
由于机器学习相关算法主要以python编写,本书也主要以python3.6为例进行算法实现的说明。规则的作用是避免混乱,当一个项目接受来自多个项目代码贡献者的代码,如果代码的风格不一致,会给代码阅读者和其它代码提交者造成不小的困扰。PEP8给出了组成主Python发行版中标准库的Python代码的编码约定。编码规范包含代码布局、命名规范等几个类别的注意事项,详细内容可以参考本章的链接[5-7],本小节提供工程实战中重要的几点并加以着重阐述。
代码布局
有关缩进的建议是不要用tab, 也不要tab和空格混用。 对于行连接的情况, 你应该垂直对齐换行的元素(见 行长度 部分的示例), 或者使用4空格的悬挂式缩进(这时第一行不应该有参数):
代码清单 代码布局样例