- 博客(45)
- 资源 (5)
- 收藏
- 关注

原创 python爬虫练习-哈尔滨天气信息爬取
写在前面:代码注释写的比较清楚,亲测可直接使用,中间步骤需要截图啥的有点麻烦,没有找到好的截图工具(好吧是我懒了),有空的时候再说吧,如果有问题欢迎评论区提出。一、目的:爬取哈尔滨天气信息二、步骤及实现# _*_ coding :utf-8 _*_#@Time :2021/10/25 16:03#@Author :帅哥#@File :爬虫练习_哈尔滨天气信息爬取#@Project :#导入需要的库函数import requestsfrom bs4 import Beauti
2021-10-25 16:20:49
457

原创 Apriori算法介绍及python代码实现
关联规则挖掘(Apriori算法实现)关联规则挖掘:是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。基于强规则的概念,Rakesh Agrawal等人[引入了关联规则以发现由超市的pos系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则:在消费者去超市购物时,假设消费者在本次的消费过程中买了牛奶,那他本次消费中买面包的概率也很大,此类信息可以作为做出促销定价或产品销售等营销活动决定的根据。Apriori算法是常用的用于
2021-01-02 15:36:14
1515
原创 网易笔试-校招
网易数据分析笔试(0821)一、选择题(10道单选、8道多选)1.git创建仓库指令2.负载均衡调度算法3.window系统中单机最大tcp连接数目4.linux重定向命令5.RAID技术的三大基本功能6.那些raid具有冗余功能7.常见的http状态码错误8.dns所采用的协议9.查看dockee容器指令二、问答题1.内存无限制的计算机可连接多少个tcp2.关系型数据库和非关系型数据库的差别?(HBase与MongoDB和mysql区别)3.网易云音
2024-06-04 19:56:38
277
原创 京东笔试-校招
2022京东数据分析笔试(0821)一、选择题:30道1.解决数据不平衡的方法主要有(pca?)2.等频(等宽)划分问题3.参数估计:矩估计与极大似然估计的用法,问题分布已知的情况下用什么估计方法?4.常见的生成模型与判别模型及生成模型与判别模型的区别5.无限的5g砝码与7g砝码能称出在多大以上的所有重量6.解决样本不均衡问题的常用方法7.n个顶点的连通图有多少条边8.准确率、精确率、召回率的区别及计算9.一个np完全问题经过时间变换后得到的是什么问题10.dnn
2024-06-04 19:55:27
488
原创 拼多多笔试
拼多多2022数据分析笔试(0822)一、选择题1.已知样本量n,样本均值及方差求置信区间2.决策树3.峰度系数4.协方差5.第一、第二熵变6.充分统计量7.xgboost8.方差分析中的多重比较二、编程题1. 一张用户点击路径的表,找出某一日用户路径为店铺页-商详页-下单页的用户数(本人用的是笛卡尔积三张表where限制条件通过)CREATE TABLE log_info ( uid varchar(255) , page_name va...
2024-06-04 19:54:40
1754
原创 explode与lateral view使用详解(spark及hive环境对比)
explode函数能够将array及map类型的数据炸开,实现一行变多行。
2023-12-26 09:51:51
7619
原创 牛客SQL刷题-2021-12-03 day4
1.SQL70 牛客每个人最近的登录日期(五)牛客每天有很多人登录,请你统计一下牛客每个日期新用户的次日留存率。有一个登录(login)记录表,简况如下:解题思路
2021-12-05 14:37:07
870
原创 牛客SQL刷题-2021-11-21 day2
1.SQL34 批量插入数据insert into actor VALUES(1,'PENELOPE','GUINESS','2006-02-15 12:34:33'),(2,'NICK','WAHLBERG','2006-02-15 12:34:33')解题思路:向表中批量插入数据:INSERT INTO table_name VALUES()mysql中常用的三种插入数据的语句: insert into表示插入数据,数据库会检查主键,如果出现重复会报错; replace i.
2021-11-21 16:49:02
864
原创 牛客SQL刷题-2021-11-20 day1
1.SQL2 查找入职员工时间排名倒数第三的员工所有信息select * from employeesORDER by hire_date descLIMIT 2,1注意:limit n,m :含义是大于n的第一个整数,一共m个2.SQL5 请你查找所有已经分配部门的员工的last_name和first_name以及dept_no,也包括暂时没有分配具体部门的员工select e.last_name ,e.first_name ,IFNULL(.
2021-11-20 23:40:27
816
原创 尚硅谷-java基础-面向对象编程(下)
一、static关键字的使用1.static:静态的 2.static可以用来修饰:属性、方法、代码块、内部类 3.使用static修饰属性:静态变量(或类变量) 属性,按是否使用static修饰,又分为:静态属性 vs 非静态属性(实例变量) 实例变量:我们创建了类的多个对象,每个对象都独立的拥有一套类中的非静态属性。当修改其中一个对象中的 非静态属性时,不会导致其他对象中同样的属性值的修改。 静态变量:我们创建了类的多个对象,多个对象共享同一个静态变量。当通过某一个对象修改静.
2021-11-11 13:58:52
370
原创 尚硅谷-java基础-面向对象编程(中)
一、面向对象的特征二-继承性1.继承性的好处:减少了代码的冗余,提高了代码的复用性 便于功能的扩展 为之后多态性的使用,提供了前提2.继承性的格式:class A extends B{} A:子类、派生类、subclass B:父类、超类、基类、superclass3.体现:一旦子类A继承父类B以后,子类A中就获取了父类B中声明的所有的属性和方法。 特别的,父类中声明为private的属性或方法,子类继承父类以后,仍然认为获取了父类中私有的结构。 只有因为封装性的影响,使得..
2021-11-11 09:56:06
216
原创 尚硅谷-java基础-面向对象编程(上)
一、学习面向对象内容的主线1.java类及类的成员:属性、方法、构造器;代码块、内部类2.面向对象的三大特征:封装性、继承性、多态性3.其他关键字:this、super、static、final、abstract、interface、package、import等二、面向对象与面向过程1.面向对象(oop)与面向过程(pop)的区别与联系二者都是一种思想,面向对象是相对于面向过程而言的。面向过程,强调的是功能行为,以函数为最小单位,考虑怎么做。面向对象,将功能封装进对 象,强调具备了
2021-11-10 09:50:00
271
原创 尚硅谷2021版Python爬虫笔记整理
笔记是用心整理的,发出来希望和大家一起学习!有错误欢迎指正!!!尚硅谷python爬虫(一)-Urllib 尚硅谷python爬虫(一)-urllib_D_lullaby的博客-优快云博客 尚硅谷python爬虫(二)-解析方法 尚硅谷python爬虫(二)-解析方法_D_lullaby的博客-优快云博客 尚硅谷python爬虫(三)-selenium 尚硅谷python爬虫(三)-selenium_D_lullaby的博客-优快云博客 尚硅谷python爬虫(四
2021-10-28 10:56:51
3302
原创 尚硅谷python爬虫(五)-scrapy
一、scrapy简介scray是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理 或存储历史数据等一系列的程序中二、scrapy项目的创建及运行1.创建scrapy项目终端输入 scrapy startproject 项目名称2.项目组成spiders__init__.py自定义的爬虫文件.py ‐‐‐》由我们自己创建,是实现爬虫核心功能的文件__init__.pyitems.py ‐‐‐》定义数据结构的地方,是一个继承自scrap
2021-10-28 10:46:21
1390
原创 python爬虫练习-爬取暖心小故事并实现定时邮箱发送
一、练习目的爬取在按网站故事并实现定时邮箱发送二、实现步骤爬取在线网站的小故事 编写邮箱发送程序 添加定时任务三、实现过程1.爬取在线网站的小故事并编写邮箱发送程序# _*_ coding :utf-8 _*_#@Time :2021/10/26 21:05#@Author :帅哥#@File :爬虫练习_爬取故事并实现邮箱定时发送#@Project :import requestsfrom bs4 import BeautifulSoupimport smtplib
2021-10-28 09:00:00
455
原创 python爬虫练习-爬取百度热搜
写在前面:比较简单,就写的也很简单,爬取的内容是标题及热搜指数import requestsfrom bs4 import BeautifulSoupurl = 'http://top.baidu.com/buzz?b=1&fr=topindex'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0
2021-10-27 09:30:00
2421
2
原创 bs4解析select方法
bs4中select方法的学习_最低调的奢华的博客-优快云博客_bs4 selectbs4中select的用法 - 搜索结果 - 知乎
2021-10-25 18:44:44
724
原创 尚硅谷-java基础-java基本语法
一、关键字与保留字1.关键字定义:被Java语言赋予了特殊含义,用做专门用途的字符串(单词) 特点:关键字中所有字母都为小写 2.保留字Java保留字:现有Java版本尚未使用,但以后版本可能会作为关键字使 用。自己命名标识符时要避免使用这些保留字 goto 、const二、标识符1.标识符概念Java 对各种变量、方法和类等要素命名时使用的字符序列称为标识符 技巧:凡是自己可以起名字的地方都叫标识符。2.定义规则由26个英文字母大小写,0-9 ,_或 $ 组成 数字
2021-10-24 16:41:18
1749
原创 python爬虫练习-爬取小说
详细过程及步骤(待补充全站下载)# _*_ coding :utf-8 _*_#@Time :2021/10/23 19:33#@File :爬虫练习_爬取小说剑来#@Project :import requestsimport parselimport timeurl = 'https://www.shuquge.com/txt/8659/2324752.html'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0.
2021-10-24 11:04:43
2193
原创 尚硅谷-java基础-java概述
一、计算机编程语言对比C、Pascal、Fortran面向过程的语言 C++面向过程/面向对象 Java跨平台的纯面向对象的语言 .NET跨语言的平台 Python、Scala…注:面向对象与面向过程的区别面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依次调用就可以了; 面向对象是把构成问题事务分解成各个对象,建立对象的目的不是为了完成一个步骤,而是为了描叙某个事物在整个解决问题的步骤中的行为。二、java语言特点特点一:面向对象 两
2021-10-23 15:38:20
250
原创 尚硅谷python爬虫(四)-requests
一、基本使用1.文档官方文档 http://cn.python‐requests.org/zh_CN/latest/ 快速上手 http://cn.python‐requests.org/zh_CN/latest/user/quickstart.html 2.安装pip install requests3.response的一个类型和六个属性一个类型: Response类型 六个属性: r.text : 获取网站源码 r.encoding :访问或定制编码方式
2021-10-21 15:46:12
940
原创 尚硅谷python爬虫(三)-selenium
一、selenium1.selenium简介Selenium是一个用于Web应用程序测试的工具。 Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。 支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动 真实浏览器完成测试。 selenium也是支持无界面浏览器操作的。2.selenium用途功能模拟浏览器功能,自动执行网页中的js代码,实现动态加载3.selenium的
2021-10-21 11:09:21
889
原创 尚硅谷python爬虫(一)-urllib
一、urlib库1.urlib库的使用urllib.request.urlopen() 模拟浏览器向服务器发送请求 response 服务器返回的数据:一个类型,六个方法 response的数据类型是HttpResponse 字节‐‐>字符串 解码decode 字符串‐‐>字节 编码encode read() 字节形式读取二进制 扩展:rede(5)返回前几个字节 readline() 只能 读取一行 readlines() 一行一行读取 直至结束 getco
2021-10-20 09:50:13
2475
原创 Python补充
一、列表的增删改查1.添加元素append:在末尾添加元素 insert:在指定位置插入元素 extend:合并两个列表2.修改元素通过下表访问列表元素,修改列表是,为指定列表下表赋值就行3.查找元素查找即查看指定元素是否否存在,使用in,not in4.删除元素...
2021-10-17 20:09:53
103
原创 Linux-第十五章 实操篇 RPM和YUM
1.rpm包管理rpm是一种用于互联网下载包的打包及安装工具,包含在某些Linux分发版中,生成具有.RPM扩展名的文件。RPM是RedHat Package Manager(RedHat 软件包管理工具)的缩写,类似windows的setup.exe①rpm包的简单查询指令查询已安装的rpm列表:rpm -qa|grep xx②rpm包名基本格式:一个rpm包名:firefox-45.0.1-1.el6.centos.x86_64.rpm③rpm包的其他查询指令1)rpm -.
2021-10-09 16:23:28
177
原创 Linux-第十四章 实操篇 进程管理
1.进程基本介绍①在Linux中,每个执行的**程序(代码)**都称为一个进程。每个进程都分配一个ID号②每一个进程,都会对应一个父进程,而这个父进程可以复制多个子进程。例如www服务器。③每个进程都可能以两种方式存在。前台和后台。前台进程:用户目前的屏幕上可以进行操作的。后台进程:实际在操作,但由于屏幕上无法看到的进程,通常使用后台方式执行。④一般系统的服务都是以后台进程的方式存在,而且都会常驻在系统中,直到关机才结束。2.显示系统执行的进程1)基本语法:ps (一般来讲,使用
2021-10-09 15:19:14
170
原创 Linux-第十三章 实操篇 网络配置
1.linux网络配置原理图(含虚拟机)目前网络配置采用的是.net2.查看网络的ip和网关①查看虚拟网络编辑器②修改ip地址(修改虚拟网络的ip)③查看网关④查看windows环境中VMnet8网络配置(ipcongfig)1)使用ipconfig查看2)界面查看3.ping指令测试主机之间网络的连通性基本语法:ping 目的主机4.Linux网络环境配置-获取ip①自动获取linux启动后或自动获取ip,缺点是每次自动获取的ip地址..
2021-10-09 10:28:05
184
原创 Linux-第十二章 实操篇 Linux磁盘分区、挂载
1.分区基础知识①分区方式:1)mbr分区:最多支持四个主分区系统只能安装在主分区扩展分区要占一个主分区MBR最大只支持2TB,但拥有最好的兼容性2)gtp分区支持无限多个主分区(但是操作系统可能有限制,比如wimdows下最多128分区)最大支持18EB的大容量(1EB=1024PB,1PB=1024TB)windows7 64位以后支持gtp2.windows下的磁盘分区3.linux分区①原理:1)Linux来说无论有几个分区,分给哪一个目.
2021-10-08 21:57:34
178
原创 Linux-第十一章 实操篇 crontab任务调度
1.crontab进行定时任务原理图2.概述任务调度:是指系统在某个时间执行的特定的命令或程序任务调度分类:①系统工作:有些重要的工作必须周而复始得分执行,如:病毒扫描②个别用户工作:个别用户可能希望执行某些程序,比如对mysql数据库的备份3.基本语法crontab [选项-e 编辑crontab定时任务 -l 查询crontab任务 -f 删除当前用户所有的crontab任务 4.案例1)任务要求2.步骤3.参数说明
2021-10-08 14:12:30
258
原创 Linux-第十章 实操篇 组管理和权限管理
1.Linux组介绍:linux中的每个用户必须属于一个组,不能独立于组外。在Linux中每个文件有所有者、所在组及其他组的概念文件:所有者、所在组、其他组、改变用户所在组2.文件/目录 所有者一般为文件的创建者。①查看文件的所有者语法:ls -ahl②修改文件所有者语法:chown 用户名 文件名3.组的创建语法:groupadd4.文件/目录 所在组当某个用户创建了一个文件后,默认这个文件所在组就是这个用户所在组①查看文件/目录所在组语法:ls
2021-10-08 14:01:37
1833
原创 Linux-第九章 实操篇 实用指令
1. 运行级别[0]关机[1]单用户【找回丢失密码】[2]多用户状态没有网络服务[3]多用户状态有网络服务[4]系统未使用保留给用户[5]图形界面[6]系统重启2.切换运行级别指令语法:init 数字(数字即为运行级别)2.帮助指令当我们对某个指令不熟悉时候,可以使用linux的帮助指令来了解指令使用方法:man/help①man语法: man [命令或配置文件]②help语法:help [命令]3.文件目录类①pwd指令(Print wo
2021-10-07 14:48:11
243
原创 Linux-第八章 实操篇 用户管理
1.基本介绍①Linux是一个多用户、多任务的操作系统,要使用资源,必须先申请一个账号,然后以这个账号的身份进入系统。②Linux的用户至少要属于一个组。2.添加用户①添加用户语法:useradd 【可选项】 用户名②创建用户后,会自动创建和用户同名的家目录,也可以通过:useradd -d 指定目录 新用户名例:useradd -d /home/aaa/usera3.指定用户修改密码修改用户密码语法:passwd 用户名4.删除用户①删除用户但保留家目...
2021-10-06 14:27:53
198
原创 Linux-第七章 实操篇 开机、重启和用户登陆注销
1.关机和重启命令①shutdownshutdown -h now:表示立即关机shutdown -h 1:表示一分钟后关机shutdown -r now:立即重启②halt:直接使用,效果等价于关机③reboot:重启系统④sync:把内存数据同步到磁盘2.用户登录和注销①登录时尽量少用root登录,避免操作失误,因为root有最大的权限。可以用普通用户登录,再su -用户名 切换②在提示符后输入logout(在运行级别3以下才有效)即可注销登录。(root用户输入
2021-10-06 11:06:03
225
原创 Linux-第六章 实操篇 vi和vim编辑器
1.vi与vimlinux系统会内建vi文本编辑器,vim具有程序编辑能力,是vi增强版2.vi与vim的命令模式三种模式:正常模式、插入/编辑模式、命令模式①正常模式(可使用快捷键)以vim打开一个档案就直接进入正常模式,此模式中,可使用上下左右键来移动光标,可使用删除字符和删除整行来处理档案内容,也可以使用复制粘贴②插入/编辑模式在命令模式下按下 i, I, o, O, a, A, r, R 等任何一个字母之后才会进入编辑模式, 一般来说按 i 即可。③命令模式按下:
2021-10-06 10:27:41
296
原创 Linux-第四章 基础篇 linux的目录结构
1.linux目录结构基本介绍Linux的文件系统是采用级层式的树状目录结构,在此结构中的最上层是根目录“/”,然后在此目录下在创建其他文件夹2.目录结构具体介绍2.1 /bin: 是Binary的缩写,这个目录存放着最经常使用的文件2.2 /sbin:s就是super user的意思,这里存放着系统管理员使用的系统管理程序2.3 /home:存放着普通用户的主目录,在linux中的每一个用户都有一个自己的目录,一般该目录是以用户的账号命名的2.4 /root:...
2021-10-06 10:01:57
318
原创 Linux-第二章 基础篇 Linux入门
一、linux介绍:①Linux是一款操作系统;免费、开源、安全、高效、稳定。处理并发能力强。②linux创始人 林纳斯③linux主要发行版本:CentoSE、Redhat、Ubuntu等④主流操作系统:windows、android、ios、linux、车载系统⑤linux与windows比较...
2021-10-05 15:09:32
358
原创 便利蜂笔试
数据分析师 09021.t检验,异常值,剔除后,选择样本量大的还是小的2.服从正态分布x~n(3338,5952),体重小于2719g为轻,选10个,不超过一个偏轻的概率正态分布概率解答3.概率密度函数与概率计算4.离散分布与连续分布常见离散分布:两点分布、几何分布、泊松分布、二项分布①两点分布:只有两种实验结果②几何分布:描述伯努利试验中,第一次成功所进行的试验次数。③二项分布:描述在独立n次实验中成功次数,相当于多次进行伯努利实验。④泊松分布:某一区间
2021-09-14 21:04:15
771
原创 顺丰笔试-0830
大数据分析与挖掘工程师 0830一、填空题1.浮点数的绝对值趋向于无穷会产生什么溢出?算术溢出(arithmetic overflow)是指计算机进行算术运算产生的结果超出机器所能表示的范围。在定点计算机中:从正方向超过了数的表示范围,称为上溢;从负方向超过了数的表示范围,则称为下溢。在浮点计算机中:浮点数的表示范围主要由阶码来决定。不论数的符号是正还是负,若阶码从正的方向超出了阶码的表示范围,称为上溢;若阶码从负的方向超出阶码的表示范围,或者尾数为“0”时,统称为下溢。2.图.
2021-09-03 09:10:54
191
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人