- 博客(17)
- 收藏
- 关注
原创 sqoop把hive中的数据导入mysql
使用sqoop将hive中的数据导入mysql中记录简单案例首先开启集群:start-all.sh在hive中建库建表,并插入一条数据来为自己做实验:验证一下,是否插入成功:在mysql中建表,并且要与hive中传过来的数据字段相对应:建表后为空:用sqoop将hive中的数据传到mysql中:export 导出数据,–connect 连接数据库的参数,–username root 是指用户名为root,test mysql中使用的数据库的库名,–password ‘’
2022-05-28 16:15:59
5146
3
原创 将爬取的数据存为json格式
将爬取的数据存为json格式,你会吗?之前我都是将数据爬取后存为txt、csv或者excel,json格式几乎没有。于是乎我就想试一下,如何将爬取的数据存为json文件。于是我便查了一下使用json格式的好处,不查不知道,一查吓一跳。好家伙呀,json格式的特点和优势可真不少呢。json格式的特点和优势大致为:JSON数据清晰、易于读写JSON有很多工具类支持它的转换JSON在所有主流浏览器有很好的支持JSON在传输时数据量更小、传输更快JSON在JS中有天然的语言优势(因为它是标准的子集合)
2022-03-13 14:41:41
6768
3
原创 爬取《中国医生》影评分析可视化
暑假在家闲着,因为疫情复发了,就只能待在家。在网上看着词云图挺好玩的,然后自己就想着整一个中国医生的影评词云图玩玩。好家伙,就这样开始了一段“奇妙的旅程”。首先实现写爬虫来将自己想要的数据爬取下来。网址:豆瓣电影写爬虫不是什么问题,因为写过很多了,这其中唯一遇到的问题就是写入csv文件时出了点问题,就是我将csv写入操作写在了爬虫里面,但是无论我怎么调试,每一次都会将表头再次写入,这样就会影响之后的步骤。于是几经调试,我将表头单独在外面写了一次,在内部的时候就不用再写表头。诶,就解决了。爬取后是下
2021-08-13 21:17:16
397
1
原创 csv、excel等文件相关操作
分享自己关于学习文件操作的相关内容。目录open函数csv 操作Excel文件解析json模块open函数之前一直是这样写的:f = open('./data.txt',mode='a',encoding='utf8')f.write("hello")f.writelines(['xiaoming','xiaowang'])f.write('小明与小汪')# 文件读取lines = f.read()print(lines)lines = f.readlines()print(line
2021-08-13 17:41:34
235
原创 matplotlib库的使用
matplotlib库的使用继续分享自己的学习历程!概念什么的就不说了,网上资料很多,那就直接开始说要点吧!主要是四种绘图:折线图、散点图、直方图、条形图以及饼图。以一个实例来说我觉得效果会更好。那就随便举个列子吧。导入就用pip命令就好了,或者是直接在pycharm里输入from matplotlib import pyplot as plt如果没装这个库的话,在matplotlip下面会显示红线,将箭头放上去然后安装这个库就ok了。导入方式:from matplotlib impor
2021-08-12 23:32:51
811
原创 python批量处理txt文本,获取指定内容
分享分享分享那就是批量处理txt文本啦,获取里面指定内容,然后进行保存。刚开始拿到,发现无从下手。整理了思路后发现还是可以做的,嘿嘿!首先文本里的内容是这样的:要取的内容就是最后的那些数字。还好每个文档的格式都是规范的,其实不规范也是差不多的。因为我用的是正则来匹配,如下图:然后就是开始写代码啦!这里就直接上代码了!因为注释全在代码上啦!import osimport repath = "D:\\大一下学期\\课程\\new\\" # 找到txt所在位置files = os.list
2021-05-30 16:02:41
10022
1
原创 Python爬虫爬取信息
Python爬虫爬取指定信息和我的上一篇文章相同,记录自己学习过程以及经验感受分享。上一篇文章内容是爬取指定图片,那么这一片文章就是爬取自己想要的文字部分信息。这个有什么用呢?在之后可以将爬取好的信息(数据量庞大的)进行清洗整理后,在Hadoop上进行数据分析,最后再可视化。接下来也是分享几个网站,用实际应用来说明解决问题。网站1: 京东女鞋需要用到的库和上一篇文章差不多还是requests和BeautifulSoup。前五个步骤和我上一篇文章是一样的,因此可以参考一下我的上一篇文章Python
2021-05-03 19:23:22
1863
原创 Python爬虫爬取图片
**Python爬虫爬取网站指定图片(多个网站综合经验结论分享)**我想以这篇文章来记录自己学习过程以及经验感受,因为我也是个初学者。接下来我将分享几个我爬取过的图片网站,给大家们分享下自己的方法经验。嘿嘿!我选了以下两个具有代表性的网站进行分享网站1: 摄图网第一步:导入需要用到的库:requests、BeautifulSoup和timeimport requestsfrom bs4 import BeautifulSoupimport time第二步:伪装自己的爬虫因为很多网站都
2021-05-03 02:43:02
20529
7
原创 Edge浏览器的主页被360篡改的解决办法
困扰我好久的问题终于被解决了!不知道从啥时候开始,我的Edge浏览器主页被锁定成了360导航。之后尝试了很多种方法,就算重置浏览器后,打开还是360导航。在Edge浏览器设置中搞了好久还是没办法改变。于是这个问题我就放置了好久,直到今天,终于解决了!(对于我这个小白来说真的太不容易了)今天打开浏览器搜东西时,看着好多对于我来说没用的咨询,看着真的有点不舒服。于是我又开始尝试解决这个问题。点开设置弄了一会后发现还是没办法,突然想到那个是360导航,会不会和360安全卫士有关。打开360卫士鼓捣一会儿后发
2021-02-07 22:10:33
45060
5
原创 python小白的word转excel
大概流程为:一、首先导入 docx库以及xlwt库二、需要用到的文档的名称三、设置一个函数来写入excel,转为可识别通用的“utf8”,然后创建一个表格来将文档里的内容写入到表里去四、利用for循坏来设置表里多少个为一行五、在最后设置表的保存路径以及提示是否创建成功import docximport xlwtdocFile = "青年大学习.docx"def write_excel(path): doc = docx.Document(docFile) workboo
2021-02-04 20:48:50
2195
4
原创 python:在指定范围内按学号随机生成座位顺序,并分行输出
python:在指定范围内按学号随机生成座位顺序,并分行输出我是一名大一新生,也是python小白。专业课让我接触到了python,一下就迷住了。对于各种库,各种函数都贼感兴趣。这次因为座位需要随机分布,我就第一时间想到了用python来实现。以下便是我想到的方法,因为随机,所以用random来实现。再用到sample函数来在范围里指定随机多少个数,再转为字符串。因为要分行打印,所以再利用切片来做到分行。import randomStudentID = range(1, 54)a = rand
2021-02-04 19:36:00
2577
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人