- 博客(7)
- 收藏
- 关注
原创 Ubuntu系统中安装Scala
准备工作:JDK1.5版本或更高版本安装包,以及Scala2.11的安装包。如果是在虚拟机Ubuntu中安装,可以用Xshell等工具连接虚拟机、或VMware tools 等,将压缩包放进虚拟机,再进行安装操作。(如果不是在虚拟机中不需此操作)具体步骤:在安装Scala前需要先安装Java环境,即配置 jdk 。这里我们用准备好的 jdk1.8 的压缩包。1.在Ubuntu中安装jdk环境。解压安装包:tar -zxvf jdk-8u171-linux-x64.tar.gz解压好后为其
2021-10-29 21:18:50
5160
1
原创 R语言txt文件自定义词云图
在R语言中获取txt文件文本,并进行词频统计,然后自定义词云图。先获取txt文本wordfreqs = read.table("E:\\Python实训\\哔哩哔哩弹幕爬取\\dan_mu.txt" ,encoding = "UTF-8")这是事先用python爬虫准备好的B站番剧(排球少年)弹幕文本(当然也可以先自定义文本进行测试)。停止词readLines("E:\\数据处理\\PyDataPreprocessing-master\\Files
2021-10-24 23:19:01
3711
原创 站酷网图片爬取
先通过requests库 请求网址内容import requestsurl='https://www.zcool.com.cn/work/ZNTAyNTk5NzY=.html'#请求resp = requests.get(url)starus_code = resp.status_codetext = resp.text#print(text)#可通过打印检查获取结果再通过 lxml 里的 etree 解码from lxml import etreedom = etree.HTML
2021-01-19 12:57:21
1636
原创 哔哩哔哩番剧列表获取
网页接口请求在bilibili网连载动画里右键检查,查看network里 js 选项下,在进行翻页操作时的动态变量。如图:获取到url后就可以通过代码进行操作了(复制到 ?前,作为url)import requestsimport jsonurl = 'https://api.bilibili.com/x/web-interface/newlist'headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64
2021-01-19 12:56:57
902
原创 爬虫前的准备铺垫
安装第三方库pip install requests控制台 或者 pycharm 的 Terminal:local 进行如图换源这里推荐 阿里云步骤如图requests库的使用模拟请求,获取网页源代码import requestsresponse = requests.get(url='https://www.baidu.com')status_code = response.status_codeif status_code == 200: content = resp
2021-01-19 12:11:26
280
原创 本地文件读写
读取一个文本文件用 file 方法打开一个已有文本文件content 命名 以及打印,关闭 file 方法。file = open('./English.txt',mode='r',encoding='utf-8')content = file.read()print(content)file.close()
2021-01-19 12:11:15
194
原创 re 正则表达式
正则表达式:是一个特殊的字符序列,利用事先定义好的一些特定字符以及他们的组合组成一个“规则”,检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。python中,re模块提供了正则表达式操作所需要的功能。字符串前加r,表明对字符串不进行转义re模块中findall()方法 以列表形式返回所有能匹配的子串。(如果没有则返回空列表)元字符:有些字符比较特殊,他们和自身并不匹配,而是表明应和一些特殊的东西匹配,或者会影响重复次数。这些特殊的字符,称为元字符。元字符:“ . ” 表示除
2020-10-27 10:26:02
132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人