AI在现有平台上的应用:Textract与Kinesis数据处理管道
1. Textract的应用
Textract是一种强大的工具,可用于从文档中提取文本信息。分析完成后,Textract会返回一个包含结果的JSON块。其结果结构包含一个根PAGE元素,它链接到子LINE元素,每个LINE元素又链接到多个子WORD元素。每个WORD和LINE元素都有一个关联的置信区间(0到100之间的数字),表示Textract对每个元素分析的准确程度。此外,每个LINE和WORD元素还有一个Geometry部分,包含元素周围边界框的坐标信息,这对于需要人工验证的应用很有用。
以下是Textract输出JSON的示例结构:
{
"Blocks": [
{
"BlockType": "PAGE",
"Id": "",
"Relationships": [
{
"Type": "CHILD",
"Ids": [
…
]
}
]
},
{
"BlockType": "LINE",
"Confidence": 99.8,
"Geometry": {
"Boun
超级会员免费看
订阅专栏 解锁全文
1093

被折叠的 条评论
为什么被折叠?



