- 博客(139)
- 收藏
- 关注
原创 人脸识别系统 —— OpenCV人脸检测
如果使用OpenCV采集,可以通过cv2.VideoCapture()获取摄像头并捕捉画面中的图片。使用cv2.imshow()在窗口展示图片。在完成图像的一系列操作之后,可以使用cv2.imwrite()将图片保存到本地。其中,传入的参数,指定0时为默认计算机默认摄像头,指定1可以更换来源。第一个参数为图片路径,图片应该在当前的工作路径,或在指定的绝对路径下。第一个参数为图片路径,图片应该在当前的工作路径,或在指定的绝对路径下;也可以,使用数字简约表示以上三种标记,分别为 1, 0或-1。
2024-12-03 15:29:44
1442
原创 招聘信息数据清洗
相关知识为了完成本关任务,你需要掌握:1.Spark 清洗数据的相关方法,2.空值列怎么删除;3.怎么数据切分才能达到想要的数据。Spark清洗数据相关方法一、将含有空值的数据删除1.将含有空值的数据删除;2.如果不传递列名,不会做任何操作;drop 是用来丢弃列的,而na.drop是用来丢弃行的;//drop函数默认参数any,即行中存在任一个null值都要删除此行//参数all, 此行所有值都是null才删除此行//只指定某些列进行空值的删除操作。
2024-08-10 21:40:00
1129
转载 数据结构-二叉查找树的应用
中序遍历inorder traversal是指按照先左节点,再根节点,最后右节点的次序访问二叉树中所有的节点,使得每个节点被访问且仅被访问一次。二叉排序树:即一个二叉树,它的每一个结点的左孩子的data值比当前结点的data值小,而右孩子结点的data值比当前结点的data值大。依次将后面的无序序列依次插入二叉排序树,若比根节点值小,则递归插入左子树,否则递归插入右子树。平台将自动编译补全后的代码,并生成若干组测试数据,接着根据程序的输出判断程序是否正确。在InOrder中,实现二叉排序树的中序遍历。
2024-08-10 21:23:45
782
原创 SparkStreaming--scala
reduce(func) 通过使用函数func(它接受两个参数并返回一个)聚合源DStream的每个RDD中的元素,返回单元素RDD的新DStream。join(otherStream, [numTasks]) 当在(K,V)和(K,W)对的两个DStream上调用时,返回(K,(V,W))对的新DStream与每个键的所有元素对。countByValue() 当在类型为K的元素的DStream上调用时,返回(K,Long)对的新DStream,其中每个键的值是其在源DStream的每个RDD中的频率。
2024-07-14 17:25:42
1492
6
原创 Spark算子综合案例 - Scala篇
补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。测试输入:可查看右侧文件夹中wordcount.txt文件,具体内容为上述文本内容。本关任务:使用 Spark Core 知识编写一个词频统计程序。对文本文件内的每个单词都统计出其出现的次数。按照每个单词出现次数的数量,降序排序。说明:单词与单词之间以空格进行分割。
2024-07-14 17:18:28
504
原创 RDD的创建 -Scala
Spark会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是一个RDD。stuRDD.sortBy(_._2,false,3)//参数1:函数,排序规则有这个函数决定(必填) 参数2:升降序(true为升序,false为降序) 参数3:分区数量。(2) reduceByKey() :对元素为RDD[K,V]对的RDD中Key相同的元素的Value进行聚合。(1)map:对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。(3)sortBy() :对RDD中的元素进行排序。
2024-07-06 14:58:14
1220
原创 Spark RDD编程初级实践
执行sc.textFile()方法以后,Spark从本地文件word.txt中加载数据到内存,在内存中生成一个RDD对象lines,这个RDD里面包含了若干个元素,每个元素的类型是String类型,也就是说,从word.txt文件中读取出来的每一行文本内容,都成为RDD中的一个元素。对于RDD而言,每一次转换操作都会产生新的RDD,供给下一个操作使用。RDD的转换过程是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会触发真正的计算。
2024-07-06 14:52:55
1055
原创 Scala函数
仔细阅读右侧编辑区内给出的代码框架及注释,在 Begin-End 间编写程序代码,定义一个 area 方法,该方法具有三个参数,类型都是 Int 型,分别代表三角形的三条边长,返回值类型为 Double;方法定义由一个 def 关键字开始,接着为该方法的名称,紧接着是可选的参数列表(意味着可写可不写),一个冒号 : 和方法的返回类型,一个等于号 = ,最后是方法的主体。在进入函数内部前,传值调用方式就已经将参数表达式的值计算完毕,而传名调用是在函数内部进行参数表达式的值计算的。
2024-06-18 08:07:18
1232
2
原创 学生成绩评分 - Scala
利用条件运算符的嵌套来完成此题:学习成绩 150 - 90 分的同学成绩评分为: A ,60 - 89 分之间的的同学成绩评分为: B ,60 - 0 分的同学成绩评分为: C ,其他成绩则输出:你输入的成绩错误。根据提示,在右侧编辑器补充代码,利用用 if 语句,对输入的学生成绩进行评分。了解 if-else if-else 语句的使用。掌握 Scala 中运算符嵌套的使用。
2024-06-18 08:02:57
352
原创 泰坦尼克生还预测
在右侧编辑器补充代码,使用matplotlib和seaborn绘制一个点图和一个双特征棒图,内容表示船客的兄弟姐妹妻子丈夫的数量与是否生还之间的关系。图形保存到Task1/img/T1.png。图形保存到Task2/img/T1.png。图形保存到Task3/img/T1.jpg。图形保存到Task4/img/T1.png。预期输出:你的图形与正确答案图形一致。预期输出:你的图形与正确答案图形一致。预期输出:你的图形与正确答案图形一致。预期输出:你的图形与正确答案图形一致。
2024-05-24 09:15:49
1393
原创 美国教育数据分析
根据提示,在右侧编辑器补充代码,填补数据缺失值,且对数据进行MinMaxScaler标准化。程序会调用你实现的方法对数据进行预测,若模型评估指标值大于0.95则视为通关。程序会调用你实现的方法,查看数据属性名称,若与正确结果一致,则视为通关。程序会调用你的方法对数据进行处理,若处理后与正确数据一致,则视为通关。根据提示,在右侧Begin-End区域补充代码,查看数据属性名称。根据提示,在右侧编辑器补充代码,实现数学成绩分数预测方法。开始你的任务吧,祝你成功!开始你的任务吧,祝你成功!
2024-05-24 09:03:51
543
原创 三维图练习
本关的编程任务是补全右侧上部代码编辑区内的相应代码,根据输入数据x、y计算z坐标值,计算方式为np.sin(-x * y)。平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!预期输出:你的答案与正确答案一致。
2024-05-22 11:18:00
541
原创 Matplotlib子图与多子图
根据提示,在右侧编辑器Begin-End处补充代码,根据输入数据绘制一个一行两列的折线图子图。子图一设置输入数据为x轴,输入数据的平方为y轴;在右侧编辑器Begin-End处补充代码,绘制一个2行4列的不规则子图宽高间隔分别为0.4、0.3。图形保存到Task1/img/T1.png。图形的figsize为(12, 12);图形的figsize为(10, 10);图形的figsize为(10, 10);预期输出:你的答案与正确答案一致。预期输出:你的答案与正确答案一致。预期输出:你的答案与正确答案一致。
2024-05-22 11:13:50
1346
原创 Numpy的数组操作
文章目录数组的创建创建全0的二维数组a(3,3)全1的二维数组b(3,4)随机数二维数数组c(2,3)效果截图数组的属性查看b数组的维度查看b数组元素的个数效果截图数组的维度操作将数组c的行变列,返回最后一个元素返回数组c第2到第4个元素返回逆序的数组效果截图数组的合并数组a与数组c的水平合并(可根据需要进行数组转置)数组a与数组c垂直合并(可根据需要进行数组转置)数组c与数组c深度合并效果截图数组运算数组c加2数组c所有元素的和、平均值、标准差效果截图数组的创建创建全0的二维数组a(3,3)imp
2024-05-10 10:31:25
202
原创 Python数据分析实战
编程要求请仔细阅读右侧代码,结合相关知识,在 Begin-End 区域内进行代码补充,完成以下需求:创建一个空字典decade_frequency;遍历decades列表中的每一项。在每次迭代:如果该项不是decade_frequency的键,则将它作为键,值赋为1;如果该项是decade_frequency的键,则将它对应的值加1。打印字典decade_frequency。测试说明平台会对你的代码进行运行测试,如果实际输出结果与预期结果相同,则通关;反之,则 GameOver。
2024-05-09 08:56:43
969
原创 Pandas数据取值与选择
平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!最后筛选值大于100的数据,得到以下目标Series对象;获取2019-01-04号之后的数据(包含该日期);开始你的任务吧,祝你成功!开始你的任务吧,祝你成功!
2024-05-09 08:45:52
1099
原创 c++继承介绍
本篇介绍c++的继承相关知识点讲解,在Java中也有相关继承的介绍,在c++中支持多继承,但在Java中并不支持多继承,本篇将介绍下c++中继承的相关知识点。当创建一个类时,您不需要重新编写新的数据成员和成员函数,只需指定新建的类继承了一个已有的类的成员即可。这个已有的类称为基类(父类),新建的类称为派生类(子类)。再该图中,我们可以看到Person类为基类(父类),Student类和Teacher类为派生类(子类)。
2024-05-08 09:32:38
891
转载 pandas 预处理
等宽离散化将数据的值域分成宽度相同区间,根据数据所在区间取值,实现连续变量的离散化。DataFrame.notnull() 方法识别非缺失值,返回包含True和False的 DataFrame。获得离散化结果后,常用value_counts()方法对离散化结果进行频数统计,以观察离散化数据的分布情况。DataFrame.isnull() 识别缺失值,返回包含True和False的 DataFrame。DataFrame.dropna 方法用于删除含有缺失值的行或列,关键参数:axis 和how。
2024-05-08 08:26:59
718
原创 Pandas合并数据集
我们需要将pop的state/region列与abbrevs的abbreviation列进行合并,还需要通过how='outer’确保数据没有丢失,得到合并后的结果,发现有一个重复列需要删除,所以,删除abbreviation列;我们需要分析不同城市的人对某个网页的点击次数,如果通过普通程序编写逻辑来实现肯定是可以做到的,但是当要连接的表超过十个,甚至百个时,这个方法就不好使了。从上面的结果可以得出缺少的是全美国的面积数据,但是我们的目标数据并不需要全美国的面积数据,所以我们需要删掉这些缺失值;
2024-05-08 08:22:13
1006
原创 Pandas分组聚合与透视表的创建
请按照要求补全右侧代码,使用Pandas中的read_csv()函数读取step1/drinks.csv中的数据,数据的列名如下表所示,请根据continent列进行分组并求每个大洲红酒消耗量的最大值与最小值之差以及啤酒消耗量的和。请按照要求补全右侧代码,使用Pandas中的read_csv函数加载step2/tip.csv文件中的数据集,分别用透视表和交叉表统计顾客在每种用餐时间(time)、每个星期下(day)的小费(tip)总和情况。开始你的任务吧,祝你成功!country 国家名。
2024-05-07 08:25:42
1032
原创 Pandas进阶
使用 Pandas 中的 read_csv() 函数读取 step1/drinks.csv 中的数据,数据的列名如下表所示,请根据 continent 分组并求每个大洲红酒消耗量的最大值与最小值的差以及啤酒消耗量的和。使用 Pandas 中的 read_csv 函数加载 step2/tip.csv 文件中的数据集,分别用透视表和交叉表统计顾客在每种用餐时间(time) 、每个星期下(day) 的 小费(tip)总和情况。total_litres_of_pure_alcohol 纯酒精总量。
2024-05-07 08:21:43
1076
原创 Pandas层级索引
平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!给索引设置等级名称name为[“name”,“project”];最后获取level="name"的均值,并输出;开始你的任务吧,祝你成功!开始你的任务吧,祝你成功!
2024-05-06 13:45:04
1036
原创 Pandas高效化运算与时间序列处理
数据集中经常会出现缺失值,从上面的例子来看,由于周末和节假日股市休市,周末和节假日就会产生缺失值,上面介绍的两种方法默认使用的是向前取样作为缺失值处理。另一种常用的时间序列操作是对数据按时间进行迁移,Pandas有两种解决这类问题的方法:shift()和tshift()。为了能更简便地创建有规律的时间序列,Pandas提供了一些方法:pd.date_range()可以处理时间戳、pd.period_range()可以处理周期、pd.timedelta_range()可以处理时间间隔。
2024-05-06 13:41:05
1310
1
原创 Pandas数值运算与缺失值处理
Pandas可以使用的第一种缺失值标签是None,它是一个Python单体对象,由于None是一个Python对象,所以不能作为任何NumPy / Pandas数组类型的缺失值,只能用于’object’数组类型(即由 Python对象构成的数组)。从上面的例子可以发现,两个对象的行列索引可以是不同顺序的,结果的索引会自动按顺序排列。综合考虑各种方法的优缺点,Pandas最终选择用标签方法表示缺失值,包括两种Python原有的缺失值:浮点数据类型的NaN值,以及 Python的None对象。
2024-05-06 08:55:54
2573
1
原创 Pandas初体验
将列名修改为[‘water_year’,‘rain_octsep’,‘outflow_octsep’,‘rain_decfeb’, ‘outflow_decfeb’, ‘rain_junaug’, ‘outflow_junaug’];创建一个五行三列的名为 df1 的DataFrame数组,列名为 [states,years,pops],行名[‘one’,‘two’,‘three’,‘four’,‘five’]给df1添加新列,列名为 new_add,值为[7,4,5,8,2]
2024-05-06 08:44:18
950
原创 Numpy 统计
numpy中的loadtxt(file,delimiter)方法可以读取文本文件,其中参数file是文件路径,参数delimiter用于指定分隔符,csv文件的分隔符为逗号,,该方法返回一个二维数组。其核心数据结构的 ndarray 数组。本关任务:编写程序,读取iris_sepal_length.csv文件,计算鸢尾花数据集中花萼样本的频度分布。为了完成本关任务,你需要掌握:1.csv文件读取,2.comsum函数应用,3.格式化输出。根据提示,在右侧编辑器Begin-End处补充代码,完成本关任务。
2024-05-05 19:14:58
899
原创 Pandas基本操作
Series 的交互式显示的字符串表示形式是索引在左边,值在右边。DataFrame 是一个表格型的数据结构,是以一个或多个二维块存放的数据表格(层次化索引),DataFrame 既有行索引还有列索引,它有一组有序的列,每列既可以是不同类型(数值、字符串、布尔型)的数据,或者可以看做由 Series 组成的字典。就像数据库中的列数据;如果你有一些数据在一个 Python 字典中,你可以通过传递字典来从这些数据创建一个 Series,只传递一个字典的时候,结果 Series 中的索引将是排序后的字典的键。
2024-05-05 17:45:20
2355
原创 Pandas安装与对象使用
详细的安装方法,请参考 Pandas官方文档。如果将Series类比为带灵活索引的一维数组,那么DataFrame就可以看作是一种既有灵活的行索引,又有灵活列名的二维数组,你也可以把DataFrame看成是有序排列的若干Series对象。Pandas的Series对象是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维数组,可以用一个数组创建Series对象。本关的编程任务是补全右侧上部代码编辑区内的相应代码,要求获取两个Series对象的index对象,然后求交集与并集,并输出。
2024-05-05 17:30:25
923
原创 NumPy数组排序及其结构化数组
a=np.array([(b’Rex’, 9, 81.), (b’Fido’, 7, 77.)],dtype={‘names’😦“name”,“age”,“score”),“formats”😦“<S10”,“<i4”,“<f4”)}) #通过元组定义数据类型。a=np.loadtxt(“data.txt”,skiprows=1,dtype=[(“name”,“S10”),(“age”,“int”),(“score”,“float”)]) #读取文件并设置数据类型,其中skiprows为跳过第一行。
2024-04-30 17:41:50
1491
原创 NumPy 数组的高级操作
花式索引(Fancy Indexing)是 NumPy 用来描述使用整型数组(这里的数组,可以是 NumPy 的数组,也可以是 python 自带的 list)作为索引的术语,其意义是根据索引数组的值作为目标数组的某个轴的下标来取值。广播的原则:如果两个数组的后缘维度(trailing dimension,即从末尾开始算起的维度)的轴长度相符,或其中的一方的长度为1,则认为它们是广播兼容的。如下图所示:(PS:需要注意的是,布尔数组的长度必须与被索引数组对应的轴的长度一致)对于一维数组,它是向量的内积;
2024-04-29 10:24:41
1976
2
原创 Numpy 进阶
默认情况下,nditer 将视待迭代遍历的数组为只读对象(read-only),为了在遍历数组的同时,实现对数组元素值的修改,必须将可选参数 op_flags 指定为 read-write 或者 write-only 的模式。对数组的算术运算通常在相应的元素上进行,当运算中的 2 个数组的形状不同时,numpy 将自动触发广播机制。首先用 arange() 生成一个数组,然后用 reshape() 方法,将数组切换成 4x3 的形状,最后再与 basearray 相加,输出它们的和。
2024-04-29 09:46:37
907
原创 NumPy基础及取值操作
测试用例是一个字典,字典中image部分表示原始图像的像素数据,x部分表示ROI的左上角顶点的行索引,y部分表示ROI的左上角顶点的列索引,w部分表示ROI的宽,h部分表示ROI的高。例如:{‘shape’:[1, 2], ‘data’:[[1, 2]]}表示ndarray对象的形状为1行2列,第1行第1列的值为1,第1行第2列的值为2。平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。shape:为需要实例化出来的ndarray对象的shape;
2024-04-14 21:48:29
1479
原创 Numpy 初体验
splitarraytest.py 文件调用 splitarray 中的三个方法方法,平台获取 splitarraytest.py 的输出,然后将其与预期输出作对比,如果一致,则测试通过;cnmdatest.py 文件调用 cnmda 中的 cnmda 方法,平台获取 cnmdatest.py 的输出,然后将其与预期输出作对比,如果一致,则测试通过;预期输出: [array([[0],[3],[6]]), array([[1],[4],[7]]), array([[2],[5],[8]])]
2024-03-28 18:48:29
1476
原创 Matplotlib接口和常用图形--画图接口
在IPython shell中使用matplotlib可视化非常方便,使用%matplotlib命令启动matplotlib模式。matplotlib的matlab接口许多语法都和MATLAB类似,所以使用过MATLAB的朋友们想必很快就能上手matplotlib。在深入使用matplotlib之前你需要知道几个matplotlib技巧,这些技巧能帮助你更快速掌握matplotlib。本关任务:掌握matplotlib的基本使用技巧,并能简单使用matplotlib进行可视化。导入matplotlib。
2024-03-11 16:26:22
790
原创 Matplotlib图形配置--配置文件与样式表
所有rc设置都存储在一个名为matplotlib.rcParams的类字典变量中,可以通过这个变量来查看我们的配置。matplotlib从1.4版本中增加了一个非常好用的style模块,里面包含了大量的新式默认样式表,还支持创建和打包自己的风格。plt.savefig(“Task4/img/T1.png”):将绘制的直方图保存为PNG格式的图片,文件名为T1.png,保存在Task4/img/目录下。matplotlib在每次加载的时候,都会定义一个运行时配置rc,其中包含了我们创建的图形元素的默认风格。
2024-03-11 14:13:08
1148
原创 Matplotlib图形配置--自定义坐标刻度
虽然matplotlib默认的坐标轴定位器与格式生成器可以满足大部分需求,但是并非对每一幅图都合适。主次要刻度学习前最好先对matplotlib图形的对象层级有深入了解。matplotlib的figure对象是一个盛放图形元素的包围盒。可以将每个matplotlib对象都看成是子对象的容器,每个figure都包含axes对象,每个axes对象又包含其他表示图形内容的对象,比如xaxis/yaxis,每个属性包含构成坐标轴的线条、刻度和标签的全部属性。
2024-03-11 14:07:37
1504
原创 Matplotlib图形配置--设置注释
annotate的第一个参数为注释文本字符串,第二个为被注释的坐标点,第三个为注释文字的坐标位置。xy参数指定了标注点的位置,xytext参数指定了文本标签的位置,arrowprops参数定义了箭头的属性。fontsize设置字体大小,默认12,可选参数xx-small,x-small,small,medium,large,x-large,xx-large。fontweight设置字体粗细,可选参数light,normal,medium,semibold,bold,heavy,black。
2024-03-11 13:58:14
1161
原创 机器学习-4
本篇将介绍数据处理 Numpy 库的一些基本使用技巧,主要内容包括 Numpy 数组的创建、切片与索引、基本运算、堆叠等等。以上就是对机器学习中的分片,切割,遍历的介绍。
2024-03-02 14:25:27
1110
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人