数据采集助力AI大模型训练

引言

   AI技术在今天已经是我们工作生活中不可或缺的工具,很多小伙伴也在致力于训练AI模型。高质量的数据是训练强大AI模型的核心驱动力,无论是自然语言处理、计算机视觉还是推荐系统,数据的规模、多样性和准确性直接决定了模型的性能和泛化能力。然而,在实际的数据采集过程中,往往面临着目标网站限制、IP封锁、数据碎片化等挑战,导致数据获取效率低下,甚至影响模型训练效果。

   要解决这些问题,IP代理服务无疑是最佳选择。通过专业的代理IP服务配合高效的数据采集工具,能够为AI大模型训练提供稳定、可靠且合规的数据支持。亮数据作为全球领先的代理服务与数据采集解决方案提供商,覆盖195个国家/地区,提供海量优质IP资源,同时配备智能化的数据采集工具和丰富的现成数据集。无论是数据采集新手还是资深开发者,都能快速上手,高效获取所需数据。接下来,我们将通过两个实际案例,分别体验亮数据的抓取浏览器和AI训练数据集,看看它们如何简化数据采集流程,助力AI模型训练。

使用抓取浏览器采集ebay商品页面

   在数据采集过程中,许多开发者常常遇到令人头疼的反爬机制问题。验证码拦截、动态数据加载、内容隐藏等技术手段让不少小伙伴束手无策,一旦遇到这些阻碍,整个数据采集工作就会陷入停滞。针对这些痛点,亮数据的抓取浏览器提供了完美的解决方案。通过内置的智能算法,抓取浏览器会模拟真实用户行为,自动处理各种反爬挑战,最终将完整的页面内容以HTML格式返回,我们在这个结果上继续操作即可,是不是很简单呢?
  接下来我们一起配置一下抓取浏览器服务。登录之后,在控制面板中选择抓取浏览器,开始配置亮数据抓取浏览器。
在这里插入图片描述

   对于普通的网站,只需要配置名字即可,而对于一些保护机制比较复杂的网站则需要选购高级域名。
在这里插入图片描述

   确定之后,就得到了访问抓取浏览器的参数,包括主机名、端口号、用户名和密码,后面需要用这些参数连接浏览器。注意这里一定要将自己的本机IP添加到白名单。
在这里插入图片描述

   之后就可以通过抓取浏览器访问网站,并将结果发送至本地。接下来我们来编写爬虫程序。首先,我们定义AUTH变量,用来存储了身份验证凭据,并通过该凭据构造SBR_WS_CDP,它用于连接到一个远程的Scraping Browser代理。将目标爬取的网址保存在url中,并留出查询关键词的空位。

AUTH = 'brd-customer-hl_a0a48734-zone-scraping_browser3:jt4e2m7roz4f' 
SBR_WS_CDP = f'wss://{AUTH}@brd.superproxy.io:9222' 
url = f'https://www.ebay.com/sch/i.html?_nkw='

  之后,在run函数中,使用async_playwright连接到远程的Scraping Browser,创建一个新的浏览器页面,并导航到指定的URL。之后,获取网页的内容并返回。最后浏览器会在操作完成后关闭,以释放资源。

async def run(pw, url):
    print('Connecting to Scraping Browser...')
    browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
    try:
        page = await browser.new_page()
        print('Connected! Navigating to webpage')
        await page.goto(url)
        html = await page.content()
        return html     finally:
        await browser.close()

  再之后定义parse_page函数,目的是解析获取到的HTML内容。它使用lxml库来解析网页,并试图提取包含商品信息的li元素列表。在每个li元素中提取商品的图片链接、标题和价格,并将它们存储到一个字典列表中作为结果返回。

def parse_page(html):
    root = etree.parse(html)
    lis = root.xpath('//ul[@class="srp-list"/li')
    result = []
    for li in lis:
        img = li.xpath('.//div[@class="s-item__image"]/a/div/img/@src]')
        title = li.xpath('.//div[@class="s-item__title"]/span/text()')
        price = li.xpath('.//span[@class="s-item__price"]/text()')
        result.append({"img": img, "title": title, "price": price})
    return result

  最后定义整个程序的入口点。先使用async_playwright进行异步处理,并将url变量添加一个关键词"电脑",用来搜索eBay上的相关产品。然后,调用run函数获取网页内容,并使用parse_page解析页面数据。解析后的数据被写入本地文件。

async def main():
    global url     async with async_playwright() as playwright:
        url += '电脑'         page = await run(playwright, url)
        r = parse_page(page)
        with open('电脑.txt', 'w') as f:
            f.write(str(r))

完整代码如下:

import asyncio from playwright.async_api import async_playwright from lxml import etree

AUTH = 'brd-customer-hl_a0a48734-zone-scraping_browser3:jt4e2m7roz4f' SBR_WS_CDP = f'wss://{AUTH}@brd.superproxy.io:9222' url = f'https://www.ebay.com/sch/i.html?_nkw='


async def run(pw, url):
    print('Connecting to Scraping Browser...')
    browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
    try:
        page = await browser.new_page()
        print('Connected! Navigating to webpage')
        await page.goto(url)
        html = await page.content()
        return html     finally:
        await browser.close()


def parse_page(html):
    root = etree.parse(html)
    lis = root.xpath('//ul[@class="srp-list"/li')
    result = []
    for li in lis:
        img = li.xpath('.//div[@class="s-item__image"]/a/div/img/@src]')
        title = li.xpath('.//div[@class="s-item__title"]/span/text()')
        price = li.xpath('.//span[@class="s-item__price"]/text()')
        result.append({"img": img, "title": title, "price": price})
    return result


async def main():
    global url     async with async_playwright() as playwright:
        url += '电脑'         page = await run(playwright, url)
        r = parse_page(page)
        with open('电脑.txt', 'w') as f:
            f.write(str(r))


if __name__ == '__main__':
    asyncio.run(main())

选购亮数据AI训练数据

  在AI模型训练过程中,数据采集往往是最耗时耗力的环节。不同网站采用不同的技术架构和反爬策略,开发者需要针对每个网站单独编写采集脚本,处理各种异常情况,整个过程既复杂又低效。针对这一痛点,亮数据创新性地推出了预置数据集服务,为AI开发者提供了开箱即用的数据解决方案。亮数据的数据集市场汇集了全球主流网站的结构化数据,覆盖电商、社交媒体、新闻资讯等12个垂直领域。所有数据都经过专业的清洗和结构化处理,确保可直接用于模型训练,大幅提升AI项目的开发效率。

  接下来我们一起选购AI数据集。登录后在控制面板选择网页数据集,即可进入数据集市场,这里有120个域名超过200种数据集可以直接使用。

在这里插入图片描述

  比如说我们选择youtube评论数据,可以在过滤器中设置条件筛选数据集。这里我们选择最近一个月的数据。
在这里插入图片描述

  配置好之后点击右上角就可以购买,当然也可以下载一个样本先看一下是否符合我们的要求。
在这里插入图片描述

  数据以CSV或JSON格式交付,可以看到还是比较全面的。
在这里插入图片描述

总结

  本文通过两个具体案例展示了亮数据的实际应用:一是利用抓取浏览器动态采集eBay商品数据,从配置到代码实现全程演示;二是直接选购YouTube评论数据集,快速获取结构化数据。这两种方式各具优势,既能满足个性化需求,又能提供开箱即用的高质量数据。未来,随着AI技术的不断发展,对数据规模和质量的要求将愈发严格。亮数据这类专业服务商的出现,不仅解决了数据采集的技术难题,更为AI研发者提供了更多可能性。无论是学术研究还是商业应用,高效合规的数据采集工具都将成为推动AI进步的重要助力。现在亮数据还有一系列免费试用的活动,欢迎大家注册。

评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洁洁!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值