
PYTHON
Not丶Perfect
一个即将成为技术大牛的技术小白
展开
-
python脚本将mysql中的数据存入Elasticsearch
python脚本将mysql中的数据存入Elasticsearch公司项目数据分析的项目,需要爬虫获取数据存入msyql,然后将mysql的数据转存到elasticsearch,没有太高效率的需求,只需判断各字段非空即可。简单的python实现代码和ES创建的代码如下:python从mysql转存到ESimport MySQLdbimport pandas as pdimport re...原创 2019-01-17 10:55:12 · 1280 阅读 · 0 评论 -
python爬取数据并存入excel
爬虫存入excel项目需求公司的爬虫项目:爬取数据,以满足文本分析,词频统计的需要。由同事整理好所需链接存入excel,我直接打开连接,爬取网站数据。由于仅仅需要进行词频分析,不需要进一步的挖掘,又因为不同网站源码差距很大,故采取了简单的将整个页面获取并用soup.get_text()方法提取文本信息。全程自动化运行。所需改进因为不同网站源码差距很大,将整个页面源码爬取并存储的方法,包含太...原创 2019-01-17 15:17:51 · 4440 阅读 · 0 评论 -
重新设置Elasticsearch的mapping
重新设置Elasticsearch的mappingcsdn有很多装插件的方法,但是怕数据搞坏了,于是用python写了个脚本,获取数据,并重新存到新的index里面。代码如下import refrom elasticsearch import Elasticsearchfrom bs4 import BeautifulSoupimport timees = Elasticsearch...原创 2019-01-17 22:51:02 · 448 阅读 · 0 评论 -
火车浏览器爬虫常用xpath
火车浏览器爬虫常用xpath下一页//a[contains(text(), ‘下页’)]原创 2019-01-15 09:11:02 · 1028 阅读 · 0 评论 -
python对文件的读写
python对文件的读写(持续更新中)1、读写txt文件2、读写excel文件3、读写图片4、读写原创 2019-01-09 15:17:02 · 1756 阅读 · 0 评论 -
python 用所有标点符号分隔句子
python 用所有标点符号分隔句子问题给出一段话,由短句组成,短句之间可能被任意标点符号隔开。想要提取所有的短句。解决使用 re.split 函数,用正则式匹配的方法,一次性分隔所有短句。import repattern = r',|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|@|#|\$|%|\^|&|\(|\)|-|=|\_...原创 2019-01-09 17:39:03 · 7167 阅读 · 0 评论 -
用GPU加速python代码的运算速度
用GPU加速python代码的运算速度1. Numba是什么?Numba是一个库,可以在运行时将Python代码编译为本地机器指令,而不会强制大幅度的改变普通的Python代码(稍后再做说明)。翻译/魔术是使用LLVM编译器完成的,该编译器是相当活跃的开源社区开发的。Numba最初是由Continuum Analytics内部开发,此公司也开发了著名的Anaconda,但现在它是开源的。核心...原创 2019-02-27 12:47:18 · 18935 阅读 · 5 评论