Textractor 技术文档

萧航肖

于 2024-10-18 11:11:13 发布

阅读量685

点赞数 8

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01230/article/details/143040787

Textractor 技术文档

Textractor 一个高效的从HTML中提取正文的类库。An efficient class library for extracting text from HTML. 项目地址: https://gitcode.com/gh_mirrors/tex/Textractor

1. 安装指南

1.1 安装包文件

首先，使用 Composer 安装 Textractor 包：

composer require "mylukin/textractor:dev-master"

1.2 添加 ServiceProvider

将 ServiceProvider 添加到您项目的 config/app.php 文件中的 providers 部分：

Lukin\Textractor\TextractorServiceProvider::class,

1.3 创建配置文件

运行以下命令创建配置文件：

php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"

然后，根据需要修改 config/textractor.php 文件中的配置项。

2. 项目使用说明

2.1 基本使用

以下是一个基本的使用示例，展示了如何从指定的 URL 中提取正文内容：

<?php
$url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';

// 创建提取实例
$textractor = new \Lukin\Textractor\Textractor();

// 下载并解析文章
$article = $textractor->download($url)->parse();

// 输出提取的内容
printf('<div id="url">URL: %s</div>' . PHP_EOL, $url);
printf('<div id="title">Title: %s</div>' . PHP_EOL, $article->getTitle());
printf('<div id="published">Publish: %s</div>' . PHP_EOL, $article->getPublishDate());
printf('<div id="text">Text: <pre>%s</pre></div>' . PHP_EOL, $article->getText());
printf('<div id="html">Content: %s</div>' . PHP_EOL, $article->getHTML());

2.2 功能说明

标签无关：Textractor 提取正文内容时不依赖于特定的 HTML 标签。
支持压缩的 HTML 文档：可以从压缩的 HTML 文档中提取正文内容。
带标签输出：支持输出带有原始标签的正文内容。
高效提取：核心算法简洁高效，平均提取时间在 30ms 左右。

3. 项目 API 使用文档

3.1 `Textractor` 类

3.1.1 `download($url)`

参数：
- $url (string): 要下载的 HTML 文档的 URL。
返回值：
- 返回 Textractor 实例，以便进行链式调用。

3.1.2 `parse()`

返回值：
- 返回一个 Article 对象，包含提取的正文内容。

3.2 `Article` 类

3.2.1 `getTitle()`

返回值：
- 返回提取的文章标题。

3.2.2 `getPublishDate()`

返回值：
- 返回文章的发布日期。

3.2.3 `getText()`

返回值：
- 返回提取的纯文本正文内容。

3.2.4 `getHTML()`

返回值：
- 返回带有原始标签的正文内容。

4. 项目安装方式

Textractor 可以通过 Composer 进行安装，具体步骤如下：

在终端中运行以下命令：

composer require "mylukin/textractor:dev-master"

将 ServiceProvider 添加到 config/app.php 文件中的 providers 部分：
```
Lukin\Textractor\TextractorServiceProvider::class,
```

创建配置文件：

php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"

根据需要修改 config/textractor.php 文件中的配置项。

通过以上步骤，您可以成功安装并配置 Textractor 项目。

Textractor 一个高效的从HTML中提取正文的类库。An efficient class library for extracting text from HTML. 项目地址: https://gitcode.com/gh_mirrors/tex/Textractor

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Textractor 技术文档

Textractor 技术文档

1. 安装指南

1.1 安装包文件

1.2 添加 ServiceProvider

1.3 创建配置文件

2. 项目使用说明

2.1 基本使用

2.2 功能说明

3. 项目 API 使用文档

3.1 Textractor 类

3.1.1 download($url)

3.1.2 parse()

3.2 Article 类

3.2.1 getTitle()

3.2.2 getPublishDate()

3.2.3 getText()

3.2.4 getHTML()

4. 项目安装方式

3.1 `Textractor` 类

3.1.1 `download($url)`

3.1.2 `parse()`

3.2 `Article` 类

3.2.1 `getTitle()`

3.2.2 `getPublishDate()`

3.2.3 `getText()`

3.2.4 `getHTML()`