Use um perfil de inferência entre regiões (definido pelo sistema)

Aumente a produtividade com inferência entre regiões

A inferência entre regiões seleciona automaticamente o ideal Região da AWS em sua região para processar sua solicitação de inferência. Isso melhora a experiência do cliente ao maximizar os recursos disponíveis e a disponibilidade do modelo.

Ao executar a inferência de modelos no modo sob demanda, as solicitações podem ser restringidas por cotas de serviço ou em horários de pico de uso. A inferência entre regiões permite que você gerencie perfeitamente picos de tráfego não planejados, utilizando computação em diferentes regiões. Regiões da AWS Com a inferência entre regiões, você pode distribuir o tráfego entre várias Regiões da AWS, permitindo maior taxa de transferência.

Você também pode aumentar o throughput de um modelo comprando throughput provisionado. Atualmente, os perfis de inferência não comportam throughput provisionado.

Para ver as regiões e os modelos com os quais você pode usar perfis de inferência para executar a inferência entre regiões, consulte. Regiões e modelos compatíveis para perfis de inferência

Os perfis de inferência entre regiões (definidos pelo sistema) são nomeados de acordo com o modelo que eles suportam e definidos pelas regiões que eles suportam. Para entender como um perfil de inferência entre regiões lida com suas solicitações, analise as seguintes definições:

Região de origem — A região a partir da qual você faz a solicitação de API que especifica o perfil de inferência.
Região de destino — Uma região para a qual o serviço Amazon Bedrock pode encaminhar a solicitação da sua região de origem.

Você invoca um perfil de inferência entre regiões de uma região de origem e o serviço Amazon Bedrock encaminha sua solicitação para qualquer uma das regiões de destino definidas no perfil de inferência.

nota

Alguns perfis de inferência são roteados para diferentes regiões de destino, dependendo da região de origem da qual você os chama. Por exemplo, se você ligar us.anthropic.claude-3-haiku-20240307-v1:0 do Leste dos EUA (Ohio), ele poderá encaminhar solicitações para us-east-1us-east-2,us-west-2, ou, mas se você ligar do Oeste dos EUA (Oregon), ele poderá encaminhar solicitações somente para us-east-1 e. us-west-2

Para verificar as regiões de origem e destino de um perfil de inferência, você pode fazer o seguinte:

Expanda a seção correspondente na lista de perfis de inferência entre regiões compatíveis.
Envie uma GetInferenceProfilesolicitação com um endpoint do plano de controle Amazon Bedrock de uma região de origem e especifique o Amazon Resource Name (ARN) ou o ID do perfil de inferência no campo. inferenceProfileIdentifier O models campo na resposta é mapeado para uma lista de modelos ARNs, na qual você pode identificar cada região de destino.

nota

Os perfis de inferência são imutáveis, o que significa que não adicionamos novas regiões a um perfil de inferência existente. No entanto, podemos criar novos perfis de inferência que incorporem novas regiões. Você pode atualizar seus sistemas para usar esses perfis de inferência alterando a IDs configuração para os novos.

Observe as seguintes informações sobre a inferência entre regiões:

Não há custo adicional de roteamento para usar a inferência entre regiões. O preço é calculado com base na região a partir da qual você chama um perfil de inferência. Para obter mais informações sobre preços, consulte Preços do Amazon Bedrock.
Ao usar a inferência entre regiões, sua taxa de transferência é maior do que chamar um modelo em uma única região. Para ver as cotas padrão para a taxa de transferência entre regiões, consulte as InvokeModel solicitações do modelo entre regiões por minuto e os valores de InvokeModel tokens entre regiões por minuto nas cotas do serviço Amazon Bedrock no. Referência geral da AWS
As solicitações de inferência entre regiões são mantidas dentro dos Região da AWS s que fazem parte da geografia em que os dados residem originalmente. Por exemplo, uma solicitação feita nos EUA é mantida Região da AWS nos EUA. Embora os dados permaneçam armazenados somente na região de origem, suas solicitações de entrada e resultados de saída podem sair da região de origem durante a inferência entre regiões. Todos os dados serão transmitidos criptografados pela rede segura da Amazon.

Use um perfil de inferência entre regiões (definido pelo sistema)

Para usar a inferência entre regiões, você inclui um perfil de inferência ao executar a inferência do modelo das seguintes maneiras:

Inferência de modelo sob demanda — especifique o ID do perfil de inferência como o modelId ao enviar uma solicitação InvokeModel InvokeModelWithResponseStream, Converse ou. ConverseStream Um perfil de inferência define uma ou mais regiões para as quais ele pode encaminhar solicitações de inferência provenientes da sua região de origem. O uso da inferência entre regiões aumenta a taxa de transferência e o desempenho ao rotear dinamicamente as solicitações de invocação do modelo nas regiões definidas no perfil de inferência. Fatores de roteamento no tráfego, na demanda e na utilização de recursos do usuário. Para obter mais informações, consulte Envie prompts e gere respostas com a inferência de modelo.
Inferência em lote — envie solicitações de forma assíncrona com a inferência em lote especificando o ID do perfil de inferência como o ao enviar uma solicitação. modelId CreateModelInvocationJob O uso de um perfil de inferência permite que você utilize a computação em vários Regiões da AWS e obtenha tempos de processamento mais rápidos para seus trabalhos em lotes. Depois que o trabalho for concluído, você poderá recuperar os arquivos de saída do bucket do Amazon S3 na região de origem.
Agentes — Especifique o ID do perfil de inferência no foundationModel campo em um CreateAgent solicitação. Para obter mais informações, consulte Criar e configurar o agente manualmente.
Geração de respostas da base de conhecimento — Você pode usar a inferência entre regiões ao gerar uma resposta após consultar uma base de conhecimento. Para obter mais informações, consulte Testar a base de conhecimento com consultas e respostas.
Avaliação do modelo — Você pode enviar um perfil de inferência como modelo para avaliação ao enviar um trabalho de avaliação do modelo. Para obter mais informações, consulte Avalie o desempenho dos recursos do Amazon Bedrock.
Gerenciamento de solicitações — você pode usar a inferência entre regiões ao gerar uma resposta para uma solicitação criada no Gerenciamento de solicitações. Para obter mais informações, consulte Construir e armazenar prompts reutilizáveis com o Gerenciamento de Prompts do Amazon Bedrock.
Fluxos de prompt — você pode usar a inferência entre regiões ao gerar uma resposta para um prompt definido em linha em um nó de prompt em um fluxo de prompt. Para obter mais informações, consulte Crie um fluxo de trabalho end-to-end generativo de IA com o Amazon Bedrock Flows.

Para saber como usar um perfil de inferência para enviar solicitações de invocação de modelo entre regiões, consulte. Use um perfil de inferência na invocação de modelos

Para saber mais sobre a inferência entre regiões, consulte Introdução à inferência entre regiões no Amazon Bedrock.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pré-requisitos para usar o Bedrock Data Automation

Taxa de transferência provisionada: aumente a taxa de transferência do modelo