
学习python过程的总结
lijiaqi0612
这个作者很懒,什么都没留下…
展开
-
python3.6 使用newspaper库的Article包来快速抓取网页的文章或者新闻等正文
我主要是用了两个方法来抽去正文内容,第一个方法,诸如xpath,css,正则表达式,beautifulsoup来解析新闻页面的时候,总是会遇到这样那样各种奇奇怪怪的问题,让人很头疼。第二个方法是后面标红的,主要推荐用newspaper库在导师公司,需要利用重度搜索引擎来最快的获取想要的内容,再建立语料库,于是我用python 的 beautifulsoup 和urllib 来抓取一些网页内容来...原创 2018-08-15 17:52:15 · 9867 阅读 · 5 评论 -
python中求汉字字符串长度以及默认编码与解码格式设置
print(len('你好啊'))结果为 3一般汉字在uicode编码格式中,一个汉字对应长度为1在utf-8编码格式中,一个汉字对应长度为3我在刚开始写的时候,在python3环境下,列表value里,用的是:len(value[i].decode('utf-8')) 但运行结果错误,我又把utf-8去掉,还是不行,最后直接用len(value[i]),最后结果就正确了。...原创 2018-08-21 18:40:24 · 5671 阅读 · 0 评论