Textractor 技术文档

Textractor 技术文档

Textractor 一个高效的从HTML中提取正文的类库。An efficient class library for extracting text from HTML. Textractor 项目地址: https://gitcode.com/gh_mirrors/tex/Textractor

1. 安装指南

1.1 安装包文件

首先,使用 Composer 安装 Textractor 包:

composer require "mylukin/textractor:dev-master"

1.2 添加 ServiceProvider

ServiceProvider 添加到您项目的 config/app.php 文件中的 providers 部分:

Lukin\Textractor\TextractorServiceProvider::class,

1.3 创建配置文件

运行以下命令创建配置文件:

php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"

然后,根据需要修改 config/textractor.php 文件中的配置项。

2. 项目使用说明

2.1 基本使用

以下是一个基本的使用示例,展示了如何从指定的 URL 中提取正文内容:

<?php
$url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';

// 创建提取实例
$textractor = new \Lukin\Textractor\Textractor();

// 下载并解析文章
$article = $textractor->download($url)->parse();

// 输出提取的内容
printf('<div id="url">URL: %s</div>' . PHP_EOL, $url);
printf('<div id="title">Title: %s</div>' . PHP_EOL, $article->getTitle());
printf('<div id="published">Publish: %s</div>' . PHP_EOL, $article->getPublishDate());
printf('<div id="text">Text: <pre>%s</pre></div>' . PHP_EOL, $article->getText());
printf('<div id="html">Content: %s</div>' . PHP_EOL, $article->getHTML());

2.2 功能说明

  • 标签无关:Textractor 提取正文内容时不依赖于特定的 HTML 标签。
  • 支持压缩的 HTML 文档:可以从压缩的 HTML 文档中提取正文内容。
  • 带标签输出:支持输出带有原始标签的正文内容。
  • 高效提取:核心算法简洁高效,平均提取时间在 30ms 左右。

3. 项目 API 使用文档

3.1 Textractor

3.1.1 download($url)
  • 参数
    • $url (string): 要下载的 HTML 文档的 URL。
  • 返回值
    • 返回 Textractor 实例,以便进行链式调用。
3.1.2 parse()
  • 返回值
    • 返回一个 Article 对象,包含提取的正文内容。

3.2 Article

3.2.1 getTitle()
  • 返回值
    • 返回提取的文章标题。
3.2.2 getPublishDate()
  • 返回值
    • 返回文章的发布日期。
3.2.3 getText()
  • 返回值
    • 返回提取的纯文本正文内容。
3.2.4 getHTML()
  • 返回值
    • 返回带有原始标签的正文内容。

4. 项目安装方式

Textractor 可以通过 Composer 进行安装,具体步骤如下:

  1. 在终端中运行以下命令:

    composer require "mylukin/textractor:dev-master"
    
  2. ServiceProvider 添加到 config/app.php 文件中的 providers 部分:

    Lukin\Textractor\TextractorServiceProvider::class,
    
  3. 创建配置文件:

    php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"
    
  4. 根据需要修改 config/textractor.php 文件中的配置项。

通过以上步骤,您可以成功安装并配置 Textractor 项目。

Textractor 一个高效的从HTML中提取正文的类库。An efficient class library for extracting text from HTML. Textractor 项目地址: https://gitcode.com/gh_mirrors/tex/Textractor

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

萧航肖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值