参考框架 系统 基准_大约一百万个数据集和一个用于自然语言的基准框架

参考框架 系统 基准

In this article, I will show how to retrieve close to one million public text or PDF documents. Some of these documents are raw text, some are clean text, and some include categorical labelling. I will also introduce KILT, a benchmark framework for natural language models.

在本文中,我将展示如何检索接近一百万个公共文本或PDF文档。 这些文档中有些是原始文本,有些是纯文本,有些则包含分类标签。 我还将介绍KILT, 自然语言模型的基准框架。

公共NLP数据集列表列表。 (List of Lists of Public NLP Datasets.)

The following are non-inclusive lists of lists of NLP datasets:

以下是NLP数据集列表的非包含列表

原始文字 (Raw text)

  1. Awesome-Public-Datasets;

    真棒公共数据集

  2. Project Gutenberg: File Repository;

    古腾堡计划:文件存储库

  3. Project Gutenberg: Top 100 EBooks as of 8/15/2020;

    古腾堡计划:截至2020年8月15日的前100名电子书;

  4. Google Books API for Python;

    适用于Python的Google图书API ;

  5. Google Books Ngram Viewer;

    Google图书Ngram Viewer

  6. Google datasets;

    Google数据集;

  7. textacy datasets;

    文本数据集;

  8. Kaggle datasets;

    Kaggle数据集;

  9. fast.ai datasets;

    fast.ai数据集;

  10. USC Machine Learning Repository datasets;

    USC机器学习存储库数据集;

  11. pyquora: A Python module to fetch and parse data from Quora;

    pyquora:一个Python模块,用于从Quora中获取和解析数据;

  12. Zillow: Real Estate and Mortgage Data;

    Zillow:房地产和抵押数据;

  13. readthedocs.org;

    readthedocs.org ;

联邦 (Federal)

  1. Federal Register Documents | U.S. Department of Education;

    联邦登记文件| 美国教育部;

  2. IRS Documents;

    国税局文件;

  3. Patent Tables;

    专利表;

  4. 10-K Filing Rules;

    10-K归档规则

  5. SEC EDGAR Database;

    SEC EDGAR数据库;

  6. SBIR Award Data and Abstracts;

    SBIR奖数据和摘要;

  7. U. S. Census Data.

    美国人口普查数据。

偏压 (Bias)

  1. StereoSet is a dataset of 17,000 sentences that measures model preferences across gender, race, religion, and profession. StereoSett is used to measure bias in NLP models.

    StereoSet是一个包含17,000个句子的数据集,用于测量跨性别,种族,宗教和职业的模型偏好。 StereoSett用于测量NLP模型中的偏差。

COVID-19,医学和NIH原始文本 (COVID-19, Medical and NIH Raw Text)

  1. What to Do If You Are Sick;

    如果你生病怎么办;

  2. https://www.cdc.gov/coronavirus/2019-ncov/downloads/10Things.pdf;

    https://www.cdc.gov/coronavirus/2019-ncov/downloads/10Things.pdf ;

  3. COVID-19 Open Research Database. COVID-19 is a resource of over 200,000 scholarly articles, including over 97,000 with full text, about COVID-19, SARS-CoV-2, and related coronaviruses.

    COVID-19开放研究数据库。 COVID-19的资源超过200,000篇学术文章,其中包括97,000篇以上的全文,涉及COVID-19,SARS-CoV-2和相关冠状病毒。

  4. CDC Guidance Documents;

    CDC指导文件;

  5. Biosafety in Microbiological and Biomedical Laboratories;

    微生物和生物医学实验室的生物安全;

  6. National Institutes of Health (NIH) Funding: FY1995-FY2021 (search NIH PDF);

    美国国立卫生研究院(NIH)资助:1995-FY2021 (研究NIH PDF);

  7. WebMD text.

    WebMD文本吨。

非英语自然语言 (Non-English Natural Language)

  1. 25 Best Parallel Text Datasets for Machine Translation Training;

    25种机器翻译培训的最佳并行文本数据集;

  2. 20 Best German Language Datasets for Machine Learning;

    机器学习的20种最佳德语语言数据集;

  3. 20 Best French Language Datasets for Machine Learning;

    2 0最佳机器学习法语语言数据集;

专门的NLP数据集 (Specialized NLP datasets)

1.

1。

2..

2 ..

最终元数据集 (The Ultimate Meta-Dataset)

Goggle Dataset Search: Finding Millions of Datasets on the Web

Goggle数据集搜索在Web上查找数百万个数据集

Goggle Dataset Search was released into public publication in January, 2020 [1].

Goggle数据集搜索已于2020年1月公开发布[1]

Instead of grepping or web scraping a dataset of interest, you can filter many candidate PDFs, Word text, image, sound, structured data, and somebody-already-created-it-for-you datasets from Goggle Dataset Search.

相反grepping或网页抓取感兴趣的数据集,您可以过滤许多候选人的PDF,Word中文字,图像声音,结构化数据有人-已经创建的,它适合你护目镜数据集搜索数据集

标杆管理 (Benchmarking)

短裙(KILT)

Challenging problems such as open-domain question answering, fact checking, slot filling and entity linking require access to large, external knowledge sources. While some models do well on individual tasks, developing general models is difficult as each task might require computationally expensive indexing of custom knowledge sources, in addition to dedicated infrastructure. [2].

诸如开放域问题解答,事实检查,空位填充和实体链接之类的具有挑战性的问题需要访问大量外部知识资源。 尽管某些模型可以很好地完成单个任务,但是开发通用模型却很困难,因为除了专用的基础结构之外,每个任务都可能需要计算昂贵的自定义知识源索引。 [2]。

KILT (knowledge-intensive language tasks) is a benchmark for an Artificial natural language models. The KILT benchmark is for a wide range of knowledge-intensive tasks.

KILT (知识密集型语言任务)是人工自然语言模型的基准。 KILT基准测试适用于各种知识密集型任务。

Admittedly it is “specialized” to Natural Language Processing (NLP) models.

诚然,它是“专用于”自然语言处理( NLP )模型的。

However, the Turing test, the widely accepted AGI (Artificial General Intelligence) test, is a natural language-based [3].

但是,图灵测验是一种被广泛接受的AGI(人工通用情报)测验,是基于自然语言的[3]

… solving knowledge-intensive tasks requires (even for humans) access to a large body of information [].

…解决知识密集型任务需要(甚至对于人类)访问大量信息[]。

KILT uses 5.9 million Wiki pages for its knowledge base [2,4].

KILT使用590万个Wiki页面作为其知识库[2,4]。

Using a large corpus to start and then keep feeding more text to KILT, the researchers at Facebook hope that KILT is a benchmark for any NLP model for any domain.

Facebook的研究人员希望使用大型语料库来开始然后继续向KILT提供更多文本因此希望KILT是任何域的任何NLP模型的基准。

Being able to benchmark any domain is a lofty goal. Below are domain-specific NLP tasks:

能够对任何领域进行基准测试是一个崇高的目标。 以下是特定于域的NLP任务:

  1. Business-specific entities, like artifacts, events, and actors;

    特定于业务的实体,例如工件,事件和参与者;
  2. Relationships between entities;

    实体之间的关系;
  3. Business processes.

    业务流程。
  4. Meta-knowledge. Knowledge about what knowledge you know.

    元知识。 有关您所知道的知识的知识。

概要 (Summary)

You are presented with 33 lists of datasets.

您会看到33个数据集列表。

Fast.ai probably has datasets most common to researchers.

Fast.ai可能具有研究人员最常用的数据集。

Kaggle has datasets of text, Q&A, structured data audio, and 2D- and 3-D images.

Kaggle具有文本,问题与解答,结构化数据音频以及2D和3D图像的数据集。

You were presented with a formal NLP benchmark framework: Kate.

您将看到一个正式的NLP基准框架: Kate

Finally, you were introduced to an awesome dataset search engine: Goggle Dataset Search.

最后,向您介绍了一个很棒的数据集搜索引擎: Goggle数据集搜索。

Compiling lists of datasets has helped me. I hope it helps you.

编译数据集列表对我有所帮助。 希望对您有帮助。

翻译自: https://medium.com/swlh/approximately-one-million-datasets-and-one-benchmark-framework-for-your-natural-language-e4541fa217b2

参考框架 系统 基准

<think>好的,我现在需要帮助用户了解如何配置Zynq从eMMC启动。根据用户提供的引用内容,特别是引用[3],其中提到了在ZYNQ开发中使用eMMC固化程序的方法,适用于需要高稳定性或量产的设备。我需要结合这些信息,给出一个结构清晰的步骤教程。 首先,我应该明确用户的需求。用户可能是在进行嵌入式系统开发,特别是使用Xilinx的Zynq系列芯片,想要将系统或应用程序固化到eMMC存储中,以便设备能够从eMMC启动。这可能涉及到Uboot的配置、镜像文件的生成以及启动参数的设置。 接下来,我需要回忆Zynq启动流程的基本知识。Zynq的启动过程通常分为多个阶段:首先是BootROM,然后是FSBL(First Stage Boot Loader),接着可能由SSBL(如U-Boot)接管,最后加载Linux内核或应用程序。从eMMC启动的话,需要确保启动镜像正确写入eMMC,并且Uboot的环境变量正确指向eMMC中的位置。 根据引用[2],用户提到了修改Uboot启动参数,这可能涉及到设置bootcmd和bootargs,例如指定根文件系统在eMMC中的位置。引用[3]提到了eMMC固化的步骤,可能需要生成BOOT.BIN和镜像文件,并通过工具将其写入eMMC。 现在,我需要将这些信息整理成步骤。首先,生成启动镜像,包括FSBL、比特流和U-Boot。然后,准备根文件系统,可能使用tar解压到某个目录,如引用[2]中的命令。接着,使用dd命令或专用工具将镜像写入eMMC的分区。之后,配置Uboot的环境变量,设置正确的启动命令和参数,确保从eMMC加载内核和根文件系统。最后,测试启动过程。 需要注意的是,用户可能不熟悉如何具体操作这些步骤,比如如何生成BOOT.BIN,如何确定eMMC的设备节点,如何正确分区和格式化eMMC。因此,步骤中需要详细说明这些关键点,可能涉及使用Xilinx的Vivado和Petalinux工具链,以及Linux下的命令如mkfs和dd。 同时,用户提供的引用[1]提到了分区信息,如“Device Boot Start End Blocks Id System”,这可能涉及eMMC的分区布局,需要确保启动分区和根文件系统分区的正确划分。例如,第一个分区可能用于存放BOOT.BIN和镜像,而第二个分区用于根文件系统。 在编写步骤时,要确保逻辑清晰,每个步骤都有明确的目的和操作命令。例如,生成启动镜像可能需要使用Petalinux的构建命令,配置Uboot参数可能涉及修改环境变量或设备树。此外,要提醒用户注意备份数据,因为写入eMMC可能会覆盖原有内容。 可能遇到的问题包括eMMC设备识别不正确、镜像文件路径错误、Uboot参数设置不当等。需要给出一些常见问题的解决方法,或者建议查阅相关文档。 最后,生成相关问题,可能涉及如何验证启动配置、如何优化eMMC的读写速度、在量产中如何批量固化等。</think>### 如何配置Zynq从eMMC启动 以下是配置Zynq从eMMC启动的详细步骤: --- #### **1. 生成启动镜像(BOOT.BIN)** - **步骤说明**:使用Xilinx工具链(Vivado/PetaLinux)生成包含FSBL(First Stage Boot Loader)、硬件比特流(Bitstream)和U-Boot的镜像文件。 - **操作命令**(PetaLinux环境): ```bash petalinux-package --boot --fsbl <fsbl.elf> --fpga <system.bit> --u-boot --force ``` 生成的`BOOT.BIN`将保存在`images/linux/`目录下[^3]。 --- #### **2. 准备根文件系统(RootFS)** - **步骤说明**:将根文件系统打包为`rootfs.tar.gz`,并通过命令解压到目标目录。 - **操作示例**: ```bash tar -xzvf /xxx/images/linux/rootfs.tar.gz -C /xxx/nfs/rootfs/ [^2] ``` 确保文件系统包含Linux内核(`Image`)和设备树(`system.dtb`)。 --- #### **3. 将镜像写入eMMC** - **分区要求**:通常将eMMC分为两个区: - **分区1(FAT32)**:存放`BOOT.BIN`、`Image`、`system.dtb`。 - **分区2(EXT4)**:存放根文件系统。 - **操作命令**(Linux主机): ```bash sudo dd if=BOOT.BIN of=/dev/mmcblk0p1 # 将BOOT.BIN写入eMMC启动分区 sudo mkfs.ext4 /dev/mmcblk0p2 # 格式化根文件系统分区 sudo cp -r rootfs/* /mnt/mmcblk0p2/ # 复制根文件系统 ``` --- #### **4. 配置U-Boot启动参数** - **关键变量**:在U-Boot中设置`bootcmd`和`bootargs`,指定从eMMC加载内核和根文件系统。 - **示例配置**: ```bash setenv bootcmd 'mmc dev 0; fatload mmc 0 0x8000 Image; fatload mmc 0 0x1000 system.dtb; booti 0x8000 - 0x1000' setenv bootargs 'root=/dev/mmcblk0p2 rw rootwait earlyprintk' saveenv ``` 其中`mmc dev 0`选择eMMC设备。 --- #### **5. 固化验证** - **操作步骤**:重启Zynq设备,观察U-Boot日志是否从eMMC加载镜像,并确认Linux成功挂载根文件系统。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值