Textractor 技术文档
1. 安装指南
1.1 安装包文件
首先,使用 Composer 安装 Textractor 包:
composer require "mylukin/textractor:dev-master"
1.2 添加 ServiceProvider
将 ServiceProvider
添加到您项目的 config/app.php
文件中的 providers
部分:
Lukin\Textractor\TextractorServiceProvider::class,
1.3 创建配置文件
运行以下命令创建配置文件:
php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"
然后,根据需要修改 config/textractor.php
文件中的配置项。
2. 项目使用说明
2.1 基本使用
以下是一个基本的使用示例,展示了如何从指定的 URL 中提取正文内容:
<?php
$url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';
// 创建提取实例
$textractor = new \Lukin\Textractor\Textractor();
// 下载并解析文章
$article = $textractor->download($url)->parse();
// 输出提取的内容
printf('<div id="url">URL: %s</div>' . PHP_EOL, $url);
printf('<div id="title">Title: %s</div>' . PHP_EOL, $article->getTitle());
printf('<div id="published">Publish: %s</div>' . PHP_EOL, $article->getPublishDate());
printf('<div id="text">Text: <pre>%s</pre></div>' . PHP_EOL, $article->getText());
printf('<div id="html">Content: %s</div>' . PHP_EOL, $article->getHTML());
2.2 功能说明
- 标签无关:Textractor 提取正文内容时不依赖于特定的 HTML 标签。
- 支持压缩的 HTML 文档:可以从压缩的 HTML 文档中提取正文内容。
- 带标签输出:支持输出带有原始标签的正文内容。
- 高效提取:核心算法简洁高效,平均提取时间在 30ms 左右。
3. 项目 API 使用文档
3.1 Textractor
类
3.1.1 download($url)
- 参数:
$url
(string): 要下载的 HTML 文档的 URL。
- 返回值:
- 返回
Textractor
实例,以便进行链式调用。
- 返回
3.1.2 parse()
- 返回值:
- 返回一个
Article
对象,包含提取的正文内容。
- 返回一个
3.2 Article
类
3.2.1 getTitle()
- 返回值:
- 返回提取的文章标题。
3.2.2 getPublishDate()
- 返回值:
- 返回文章的发布日期。
3.2.3 getText()
- 返回值:
- 返回提取的纯文本正文内容。
3.2.4 getHTML()
- 返回值:
- 返回带有原始标签的正文内容。
4. 项目安装方式
Textractor 可以通过 Composer 进行安装,具体步骤如下:
-
在终端中运行以下命令:
composer require "mylukin/textractor:dev-master"
-
将
ServiceProvider
添加到config/app.php
文件中的providers
部分:Lukin\Textractor\TextractorServiceProvider::class,
-
创建配置文件:
php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"
-
根据需要修改
config/textractor.php
文件中的配置项。
通过以上步骤,您可以成功安装并配置 Textractor 项目。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考