
python
文章平均质量分 53
x_bessie
这个作者很懒,什么都没留下…
展开
-
在python中使用mysql数据库
在python中使用mysql数据库先用pip安装一下mysqlpip install pymysql使用的时候,import python import pymysql###python连接数据库操作 # 打开数据库连接def connectdb(): print('连接到mysql服务器...') db = pymysql.connect("l...原创 2018-07-23 22:07:34 · 275 阅读 · 0 评论 -
python爬取数据(豆瓣上TOP250的电影信息)初学者必看!!!
python爬取豆瓣上TOP250电影初学python爬虫。我这里用的 lxml提取xpath的方式来爬取数据 lxml爬取的速度会比bs4快,所以这里我选用的lxml话不多上,赶紧上教程。爬取的思路:1.获取网页解析(有些网页需要代理)2.解析完成之后,分析我们需要提取的数据的格式 这里用xpath的方法3.爬取之后存储,存储数据我们这次爬取的地址是: http...原创 2018-07-18 21:00:14 · 5849 阅读 · 3 评论 -
pymongo的安装使用
首先安装一个MongoDB,具体不解释了 自行google装好之后的运行是这样的然后我使用的是Anaconda , 一个很好的使用工具在有pip的情况下使用pip安装pip install pymongo 这样就安装好了。版权声明:本文为博主原创文章,未经博主允许不得转载。https://mp.youkuaiyun.com/postedit/81043812...原创 2018-07-14 15:07:58 · 8065 阅读 · 0 评论 -
Selenium+chrome driver 实现模拟登陆
最近的项目都是在码python多点,所以帖子也跟着来python了。。最近爬数据的时候,发现有些动态加载网页不是很友好。看了很多的帖子说,Selenium是个好东西。不过要配合着PhantomJS用。但是,Selenium与PhantomJS分手了!今年的事。。。众多的帖子还是结合phantomJS的。人家已经不支持这种方法了。那么现在流行的是:Selenium+Handless Chrome...原创 2018-07-31 22:58:28 · 3120 阅读 · 0 评论 -
python 长文本分析——testrank
python 文本分析功能:摘取文章词语,重点短语,重点句子环境: pyhton3.6工具库:textrank``jieba``numpy方法介绍(重点):testrank 的算法来自于pagerank说人话就是,先把文章的句子拆分,然后对每一句都标注,对每一句生成一个无向图,然后无向图会有一个相似度的打分,也就是说两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有...原创 2018-12-03 16:55:06 · 1982 阅读 · 2 评论 -
NLP之word2vec用法
NLP之word2vec用法导入词向量模型,并查找词的相关性import gensim# 导入模型 #谷歌3.4G#model_path='GoogleNews-vectors-negative300.bin'#斯坦福0.94Gmodel_path='glove.twitter.27B.200d.bin'model = gensim.models.KeyedVectors.loa...原创 2018-12-13 16:44:46 · 332 阅读 · 0 评论 -
安装NLTK库进行数据预处理
安装NLTK,Torch本来是想装一个torchtext用来英文的分词的。但是用这个库的时候,颇为麻烦了。又不能直接pip 安装gayhub:https://github.com/pytorch/text但是,readme.md里面写的几百年前的版本了 QAQ首先要装一个torch,但是报了一个版本错误的提示。我的环境:anaconda5.2.0python3.6.5去官网找到...原创 2018-12-20 10:17:28 · 468 阅读 · 0 评论 -
高效读取上万(30w)数据
高效读取几十万文件数据我们通常在训练模型,或者在清洗数据的时候,会读写大量的数据。那如何快速的读取??这里使用两个方法:1.递归遍历 2.yeiled生成器首先需要掌握的知识:os的使用。os.listDir(path) #list读取路径下的文件名os.path.isxxx #这里有五个:isfile,isabs,islink,isdir,ismount我们这里用...原创 2019-07-19 15:48:11 · 679 阅读 · 0 评论