木子拓哉-优快云博客

原创 Ubuntu系统中安装Scala

准备工作：JDK1.5版本或更高版本安装包，以及Scala2.11的安装包。如果是在虚拟机Ubuntu中安装，可以用Xshell等工具连接虚拟机、或VMware tools 等，将压缩包放进虚拟机，再进行安装操作。（如果不是在虚拟机中不需此操作）具体步骤：在安装Scala前需要先安装Java环境，即配置 jdk 。这里我们用准备好的 jdk1.8 的压缩包。1.在Ubuntu中安装jdk环境。解压安装包：tar -zxvf jdk-8u171-linux-x64.tar.gz解压好后为其

2021-10-29 21:18:50 5160 1

原创 R语言txt文件自定义词云图

在R语言中获取txt文件文本，并进行词频统计，然后自定义词云图。先获取txt文本wordfreqs = read.table("E:\\Python实训\\哔哩哔哩弹幕爬取\\dan_mu.txt" ,encoding = "UTF-8")这是事先用python爬虫准备好的B站番剧（排球少年）弹幕文本（当然也可以先自定义文本进行测试）。停止词readLines("E:\\数据处理\\PyDataPreprocessing-master\\Files

2021-10-24 23:19:01 3711

原创站酷网图片爬取

先通过requests库请求网址内容import requestsurl='https://www.zcool.com.cn/work/ZNTAyNTk5NzY=.html'#请求resp = requests.get(url)starus_code = resp.status_codetext = resp.text#print(text)#可通过打印检查获取结果再通过 lxml 里的 etree 解码from lxml import etreedom = etree.HTML

2021-01-19 12:57:21 1636

原创哔哩哔哩番剧列表获取

网页接口请求在bilibili网连载动画里右键检查，查看network里 js 选项下，在进行翻页操作时的动态变量。如图：获取到url后就可以通过代码进行操作了（复制到？前，作为url）import requestsimport jsonurl = 'https://api.bilibili.com/x/web-interface/newlist'headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64

2021-01-19 12:56:57 902

原创爬虫前的准备铺垫

安装第三方库pip install requests控制台或者 pycharm 的 Terminal:local 进行如图换源这里推荐阿里云步骤如图requests库的使用模拟请求，获取网页源代码import requestsresponse = requests.get(url='https://www.baidu.com')status_code = response.status_codeif status_code == 200: content = resp

2021-01-19 12:11:26 280

原创本地文件读写

读取一个文本文件用 file 方法打开一个已有文本文件content 命名以及打印，关闭 file 方法。file = open('./English.txt',mode='r',encoding='utf-8')content = file.read()print(content)file.close()

2021-01-19 12:11:15 194

原创 re 正则表达式

正则表达式：是一个特殊的字符序列，利用事先定义好的一些特定字符以及他们的组合组成一个“规则”，检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。python中，re模块提供了正则表达式操作所需要的功能。字符串前加r，表明对字符串不进行转义re模块中findall（）方法以列表形式返回所有能匹配的子串。（如果没有则返回空列表）元字符：有些字符比较特殊，他们和自身并不匹配，而是表明应和一些特殊的东西匹配，或者会影响重复次数。这些特殊的字符，称为元字符。元字符：“ . ” 表示除

2020-10-27 10:26:02 132

LLLevi的博客