- 博客(92)
- 资源 (7)
- 收藏
- 关注
原创 机器学习——数据标注
定义:半监督学习是一种介于监督学习和无监督学习之间的机器学习方法。它结合了监督学习和无监督学习的特点,能够利用大量未标注数据和少量标注数据来构建学习模型。特点数据利用:半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性。减少成本:半监督学习的主要优点是可以利用未标记数据来提高模型的性能,同时避免过度标记数据集,从而减少人工成本。
2024-11-19 09:01:30
1230
原创 机器学习-web scraping
Web Scraping是指采用技术手段从大量网页中提取结构化和非结构化信息,并按照一定的规则和筛选标准进行数据处理,最终保存到结构化数据库中的过程。它主要依赖于垂直搜索引擎的网络爬虫(或数据采集机器人)、分词系统、任务与索引系统等技术的综合运用。
2024-11-18 10:40:56
922
原创 机器学习的主流数据集
这张图片通过对比学术数据集、竞赛数据集和原始数据的优缺点,以及强调在实际应用中处理原始数据的常见性和数据策展的复杂性,为数据科学家和机器学习工程师提供了有价值的参考。在选择和使用数据集时,需要根据具体的应用场景和需求进行权衡,以确保模型的有效性和可靠性。
2024-11-18 10:02:17
1308
原创 深度学习-11
批量归一化通过减少层输入的内部协变量偏移,有助于深度神经网络的快速稳定训练。它通过规范化输入,并使用可学习的参数进行缩放和平移,以适应数据的特定分布。此外,通过在训练期间维护运行统计量,批量归一化确保了在评估期间模型性能的稳定。(int):输入数据的特征维度,即输入样本的大小。对应input layer(int):输出数据的特征维度,即输出样本的大小。对应到hidden layerbias(bool, 可选):是否包含偏置项。如果设置为False,则该层不会学习偏置。默认值为True。
2024-09-29 16:01:36
1440
原创 深度学习入门-09
卷积操作涉及到一个称为“卷积核”或“滤波器”的小窗口,在输入数据上滑动,并对每个位置上的数据进行加权求和,可能还会加上一个偏置项。nn.LazyConvTranspose1d, nn.LazyConvTranspose2d, nn.LazyConvTranspose3d:这些是带有延迟初始化in_channels参数的转置卷积层版本。nn.LazyConv1d, nn.LazyConv2d, nn.LazyConv3d:这些是带有延迟初始化in_channels参数的卷积层版本。
2024-08-28 14:36:00
1052
原创 深度学习入门-07
timeout (numeric, 可选): 如果为正数,则是从工作进程中收集一个批次的超时值。应该始终是非负数(默认:0)。worker_init_fn (Callable, 可选): 如果不是None,这将在每个工作子进程上以工作进程ID(一个介于0和num_workers - 1之间的整数)作为输入进行调用,在播种之后和数据加载之前。
2024-08-27 14:07:39
1031
原创 深度学习入门-05
多关注官方文档关注每个类的输入和输出确定出数据类型,不确定输出类型的可以用print(img),或者在控制台查看数据的类型关注方法需要什么参数,按照说明文档穿参数不知道返回值的时候,可以使用print。
2024-08-26 15:12:57
912
原创 深度学习入门-04
基于小土堆视频学习Transforms主要对图片进行变换在结构里面可以看到当前Transforms的所有类,及其类的用途以其中一个类作为举例:PILToTensor是将PIL的图像转换为Tensor格式的图像;要将一个PIL Image转换为同类型的tensor,且不进行值的缩放,同时保证tensor的形状为(C x H x W),你可以使用torchvision.transforms模块中的ToTensor类。这个操作不会支持torchscript。
2024-08-26 10:50:17
1054
原创 深度学习入门-04
张量形状为(1, H, W)、(H, W)、(H, W, 3)也是合适的,只要相应地传递dataformats参数,如"CHW"、“HWC”、“HW”。该类型无法满足add_image的要求,所以可以直接用OpenCV,opencv打开的类型基本为numpy类型。add_image(),在pycharm中通过ctrl单击后可以获取详细要求。默认情况下,图像张量的形状应为(3, H, W),表示3个颜色通道,高度和宽度。在TensorBoard中,应该能够看到添加的图像,图像会以指定的标签显示。
2024-08-23 16:35:41
359
原创 深度学习入门-03
Dateset就是我们的目标数据,告诉我们如何获取数据,距离:从多种类型的数据中,提取某一类数据,并且可对数据定义编号;transform在dataset中很常用,他主要用于图像的变换,对图像同一个尺寸。可以通过他,看他的loss的降低情况,模型是不是符合预期,他的训练结果是不是可以。神经网络会对数据迭代多次,通常情况的下,数据集分:验证数据集和训练数据集;使用tensorBoard对模型训练很有用,通过他可以有效的看到模型的输出。可以发现展示不同的图片,124是蜜蜂,123是蚂蚁。再次修改y=2x,3。
2024-08-23 15:46:23
298
原创 深度学习入门-01
它的主要功能是将代码、文本、数学方程式、可视化和其他相关元素组合在一起,创建一个动态文档,用于数据分析、机器学习、科学计算和数据可视化等方面。Jupyter Notebook 提供了一个交互式的界面,使用户能够以增量和可视化的方式构建和执行代码,同时支持 Markdown 格式的文本和 LaTeX 数学符号。在安装Jupyter Notebook之前,可以选择先安装Anaconda,Anaconda就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。在这环境中需要安装的包,选择yes。
2024-08-14 14:14:33
369
原创 python基于pandas求取行列的和与均值
import pandas as pd# DateFrame中,index为行索引,columns为列索引##解决列名输出不对称问题pd.set_option('display.unicode.ambiguous_as_wide',True)pd.set_option('display.unicode.east_asian_width', True)s1 = 'H:\pythonProject\COD1.csv's2 = pd.read_csv(s1, index_col=0) # 指定第一
2021-12-22 10:05:23
3672
原创 python使用pandas对序列进行排序
代码示例:import pandas as pd# DateFrame中,index为行索引,columns为列索引##解决列名输出不对称问题pd.set_option('display.unicode.ambiguous_as_wide',True)pd.set_option('display.unicode.east_asian_width', True)s1 = 'H:\pythonProject\COD1.csv's2 = pd.read_csv(s1, index_col=0)
2021-12-20 08:53:54
647
原创 python基于pandas设置索引
import pandas as pd# DateFrame中,index为行索引,columns为列索引pd.set_option('display.unicode.east_asian_width', True)s1 = 'H:\pythonProject\COD1.csv's2 = pd.read_csv(s1, index_col=0) # 指定第一列为行索引print(s2) # 输出原始数据###Series结构索引s3 = pd.read_csv(s1)print('**
2021-12-16 10:35:05
2907
原创 python基于pandas实现数据的简单异常检查(缺失值处理,缺失值填充、判断是都重复)
import pandas as pd# DateFrame中,index为行索引,columns为列索引pd.set_option('display.unicode.east_asian_width', True)s1 = 'H:\pythonProject\COD1.csv's2 = pd.read_csv(s1, index_col=0) # 指定第一列为行索引print(s2) # 输出原始数据##插入数据s2.loc['s14','b7'] = 34print('*****-
2021-12-15 09:09:34
398
原创 python基于pandas对DataFrame的行与列进行删除、修改、新增
import pandas as pd# DateFrame中,index为行索引,columns为列索引pd.set_option('display.unicode.east_asian_width', True)s1 = 'H:\pythonProject\COD1.csv's2 = pd.read_csv(s1, index_col=0) # 指定第一列为行索引print(s2) # 输出原始数据##直接通过列索引增加数据s2['b6'] = [1, 2, 3, 4, 5, 6,
2021-12-13 09:52:13
1337
原创 python使用pandas抽取表的行列
import pandas as pd# DateFrame中,index为行索引,columns为列索引pd.set_option('display.unicode.east_asian_width', True)s1 = 'H:\pythonProject\COD1.csv's2 = pd.read_csv(s1, index_col=0) # 指定第一列为行索引print(s2)##以下为行的抽取print('***---' * 10)print(s2.iloc[0:2]) #
2021-12-10 10:47:26
1959
原创 python基于pandas读取网页表格数据
import pandas as pd#DateFrame中,index为行索引,columns为列索引pd.set_option('display.unicode.east_asian_width',True)df = pd.DataFrame()url_List = ['http://www.espn.com/nba/salaries/_/seasontype/4']for i in range(0,13): url = 'http://www.espn.com/nba/salari
2021-12-09 10:53:00
978
1
原创 python导入csv
import pandas as pd#DateFrame中,index为行索引,columns为列索引pd.set_option('display.unicode.east_asian_width',True)s1 = r'H:\pythonProject\COD1.csv'p1 = pd.read_csv(s1)#导入第一个表print(p1.head(10))p2 = pd.read_csv(s1,header=0,index_col='b2')print("****--"*10)
2021-12-03 08:40:00
235
原创 python使用pandas导入excel
代码如下:import pandas as pd#DateFrame中,index为行索引,columns为列索引s1 = r'H:\pythonProject\CODE.xlsx'p1 = pd.read_excel(s1,sheet_name = 0)#导入第一个表print(p1.head(10))p2 = pd.read_excel(s1,index_col=0,header=0)#设置第一列为行索引,设置第一行为列索引print('******----'*10)print(p
2021-12-02 08:52:10
1635
基于python分割arcgis字段
2021-04-28
Expression.cal
2021-04-28
gdal-3.1.4.tar.gz
2020-11-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人