Amazon Textract 代码示例教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00449/article/details/141247992

Amazon Textract 代码示例教程

amazon-textract-code-samplesAmazon Textract Code Samples项目地址:https://gitcode.com/gh_mirrors/am/amazon-textract-code-samples

项目介绍

Amazon Textract 是一个从扫描文档中自动提取文本和数据的服务。amazon-textract-code-samples 是一个开源项目，提供了多种使用 Amazon Textract 的代码示例，帮助开发者理解和实现文档处理功能。

项目快速启动

环境准备

安装 AWS CLI：确保你已经安装并配置了 AWS CLI。

克隆项目：

git clone https://github.com/aws-samples/amazon-textract-code-samples.git
cd amazon-textract-code-samples

运行示例代码

以下是一个简单的示例，展示如何使用 Amazon Textract 从本地文件中检测文本：

import boto3

def detect_text(photo, bucket):
    client = boto3.client('textract')
    response = client.detect_document_text(
        Document={'S3Object': {'Bucket': bucket, 'Name': photo}})
    
    for item in response['Blocks']:
        if item['BlockType'] == 'LINE':
            print ('\033[1m' + item['Text'] + '\033[0m')
    return len(response['Blocks'])

def main():
    photo = 'path_to_your_document.jpg'
    bucket = 'your_s3_bucket_name'
    block_count = detect_text(photo, bucket)
    print("Blocks detected: " + str(block_count))

if __name__ == "__main__":
    main()