自然环境资源数据集分享——资源环境数据云平台

  由于工作需要,最近我在搜集自然环境下的公开文字图片数据集。在网页搜索时,偶然发现一个关于资源环境方向的数据平台,也就是今天要说的资源环境数据云平台。平台是由中国科学院地理科学与资源研究所和中国科学院资源环境科学数据中心一起运营支撑的,主要的数据方向是中国的资源环境数据,当然,也有全球的部分有关数据。下面简单介绍这个平台数据集目录和下载说明。

一、数据集目录

1、中国行政区划数据

行政村边界数据

中国乡镇行政边界数据

中国县级行政边界数据

中国地市行政边界数据

中国省级行政边界数据

2、自然地理分区数据

中国气候区划1

中国九大流域片

黄土高原空间范围

青藏高原空间范围数据

中国林业工程空间分布数据

中国生态功能保护区

中国生态地理分区

3、中国气象数据

中国气象站点分布数据

中国气象要素站点观测逐日数据集

中国1980年以来逐年年降水量空间插值数据集

中国1980年以来逐年年平均气温空间插值数据集

4、中国土地利用数据

中国1980年代100万土地利用数据

1970年代末期(1980年)中国土地利用现状遥感监测数据

2015年中国土地利用现状遥感监测数据

1980年代末期(1990年)中国土地利用现状遥感监测数据

1995年中国土地利用现状遥感监测数据

2000年中国土地利用现状遥感监测数据

2005年中国土地利用现状遥感监测数据

2010年中国土地利用现状遥感监测数据

5、中国陆地生态系统宏观结构数据

1970年代末期(1980年)中国陆地生态系统类型空间分布数据<

### 如何在恒源云平台上使用LM-O数据集进行训练 #### 使用环境准备 为了能够在恒源云平台上利用LM-O数据集进行训练,首先需要确保计算资源已经配置完毕并满足需求。通常情况下,这涉及设置GPU实例或者TPU支持的虚拟机,并安装必要的依赖库,比如PyTorch或TensorFlow等深度学习框架[^1]。 #### 数据加载与处理 LM-O数据集可能包含了大量文本信息,这些信息需经过预处理才能被模型有效吸收。具体来说,可以采用分词器(tokenizer)将原始文本转化为适合输入神经网络的形式——即一系列整数索引组成的序列。如果按照某些特定任务的要求,则还需要进一步构建对应的标签体系。例如,在情感分析场景下,可以通过定义模板方式引导大语言模型(LLM)生成带有明显情绪倾向的回答作为分类依据[^2]。 对于更复杂的多类别预测问题而言,一种常见做法是把各个类别映射成独立向量空间中的点位坐标(e_c),并通过优化算法调整它们之间的相对位置关系以便更好地反映实际语义差异性。值得注意的是,这里提到的任务特异性嵌入e_T同样扮演着重要角色因为它可以帮助区分不同应用场景下的特征表达模式[^3]。 #### 实验评估标准设定 当完成初步建模之后,就需要借助标准化评测指标来衡量所得到的结果质量好坏程度如何。以GLUE基准测试为例,它涵盖了多种自然语言理解方面的子任务如CoLA、MRPC等等;每项都有各自独特的评分准则组合而成最终综合得分情况供比较参考之用[^4]。 以下是简单的Python脚本示例展示如何读取本地存储路径内的CSV文件内容并将其中字段转换为张量形式: ```python import pandas as pd from transformers import AutoTokenizer, DataCollatorWithPadding import torch tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') def preprocess_function(examples): return tokenizer(examples['text'], truncation=True) data_collator = DataCollatorWithPadding(tokenizer=tokenizer) df = pd.read_csv("/path/to/lm-o-dataset.csv") texts = df["sentence"].tolist() labels = df["label"].tolist() encoded_texts = list(map(preprocess_function, texts)) input_ids = [item['input_ids'] for item in encoded_texts] attention_masks = [[1]*len(ids) for ids in input_ids] tensor_input_ids = torch.tensor(input_ids) tensor_attention_masks = torch.tensor(attention_masks) tensor_labels = torch.tensor(labels) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值