Python与spaCy:文本分析利器
1. Python在文本分析中的应用
1.1 为何选择Python
在文本分析领域,Python是一个强大且易用的语言。在Python中,文本以字符串形式呈现,字符串是 str 类的对象,是不可变的Unicode代码点或字符序列。不过在Python 2和Python 3中,字符串的处理有所不同。Python 3中,所有字符串默认是Unicode;而Python 2里, str 类限于ASCII码,另有 Unicode 类处理Unicode。
Unicode是一种编码语言,例如字母 Z 的Unicode值是 U+005A 。在Python历史上,开发者需自行处理不同编码,底层操作以字节进行。Python处理Unicode方式的转变引发了诸多讨论。建议在处理文本时使用Python 3和Unicode,因为Python 2将被科学计算社区逐步淘汰,且Python 3支持Unicode。
除了编码优势,Python还有以下优点:
- 社区与开源库 :有大量的开源库,如Google用的TensorFlow和Apple用的SciKit - learn。在本书中会重点使用的spaCy库就是很好的例子。数据收集也常借助Python的 tweepy (用于Twitter)、 urllib (访问网页)和 beautiful soup (从网页提取HTM
超级会员免费看
订阅专栏 解锁全文
1176

被折叠的 条评论
为什么被折叠?



