Gunakan profil inferensi lintas wilayah (ditentukan sistem)

Tingkatkan throughput dengan inferensi lintas wilayah

Inferensi Lintas Wilayah secara otomatis memilih yang optimal Wilayah AWS dalam geografi Anda untuk memproses permintaan inferensi Anda. Ini meningkatkan pengalaman pelanggan dengan memaksimalkan sumber daya yang tersedia dan ketersediaan model.

Saat menjalankan inferensi model dalam mode sesuai permintaan, permintaan Anda mungkin dibatasi oleh kuota layanan atau selama waktu penggunaan puncak. Inferensi Lintas Wilayah memungkinkan Anda mengelola semburan lalu lintas yang tidak direncanakan dengan mulus dengan memanfaatkan komputasi di berbagai tempat. Wilayah AWS Dengan inferensi lintas wilayah, Anda dapat mendistribusikan lalu lintas di beberapa Wilayah AWS, memungkinkan throughput yang lebih tinggi.

Anda juga dapat meningkatkan throughput untuk model dengan membeli Provisioned Throughput. Profil inferensi saat ini tidak mendukung Provisioned Throughput.

Untuk melihat Wilayah dan model yang dapat digunakan untuk menggunakan profil inferensi untuk menjalankan inferensi lintas wilayah, lihat. Wilayah dan model yang Didukung untuk profil inferensi

Profil inferensi lintas wilayah (ditentukan sistem) dinamai menurut model yang mereka dukung dan didefinisikan oleh Wilayah yang mereka dukung. Untuk memahami cara profil inferensi lintas wilayah menangani permintaan Anda, tinjau definisi berikut:

Wilayah Sumber — Wilayah tempat Anda membuat permintaan API yang menentukan profil inferensi.
Wilayah Tujuan — Wilayah tempat layanan Amazon Bedrock dapat merutekan permintaan dari Wilayah sumber Anda.

Anda memanggil profil inferensi lintas wilayah dari Wilayah sumber dan layanan Amazon Bedrock merutekan permintaan Anda ke salah satu Wilayah tujuan yang ditentukan dalam profil inferensi.

catatan

Beberapa profil inferensi merutekan ke daerah tujuan yang berbeda tergantung pada sumber Wilayah dari mana Anda menyebutnya. Misalnya, jika Anda menelepon us.anthropic.claude-3-haiku-20240307-v1:0 dari US East (Ohio), itu dapat merutekan permintaan keus-east-1,, atau us-east-2us-west-2, tetapi jika Anda memanggilnya dari US West (Oregon), itu hanya us-east-1 dapat merutekan permintaan ke dan. us-west-2

Untuk memeriksa Wilayah sumber dan tujuan untuk profil inferensi, Anda dapat melakukan salah satu hal berikut:

Perluas bagian yang sesuai dalam daftar profil inferensi lintas wilayah yang didukung.
Kirim GetInferenceProfilepermintaan dengan titik akhir bidang kontrol Amazon Bedrock dari Wilayah sumber dan tentukan Nama Sumber Daya Amazon (ARN) atau ID profil inferensi di bidang. inferenceProfileIdentifier modelsBidang dalam respons memetakan daftar model ARNs, di mana Anda dapat mengidentifikasi setiap Wilayah tujuan.

catatan

Profil inferensi tidak dapat diubah, artinya kami tidak menambahkan Wilayah baru ke profil inferensi yang ada. Namun, kami mungkin membuat profil inferensi baru yang menggabungkan Wilayah baru. Anda dapat memperbarui sistem Anda untuk menggunakan profil inferensi ini dengan mengubah pengaturan Anda ke yang baru. IDs

Perhatikan informasi berikut tentang inferensi lintas wilayah:

Tidak ada biaya perutean tambahan untuk menggunakan inferensi lintas wilayah. Harga dihitung berdasarkan Wilayah tempat Anda memanggil profil inferensi. Untuk informasi tentang harga, lihat harga Amazon Bedrock.
Saat menggunakan inferensi lintas wilayah, throughput Anda lebih tinggi daripada memanggil model dalam satu Wilayah. Untuk melihat kuota default untuk throughput Lintas wilayah, lihat InvokeModel permintaan model Lintas Wilayah per menit dan nilai InvokeModel token Lintas Wilayah per menit dalam kuota layanan Amazon Bedrock di kuota layanan. Referensi Umum AWS
Permintaan inferensi lintas wilayah disimpan dalam Wilayah AWS s yang merupakan bagian dari geografi tempat data awalnya berada. Misalnya, permintaan yang dibuat di AS disimpan dalam Wilayah AWS s di AS. Meskipun data tetap disimpan hanya di Wilayah sumber, permintaan input dan hasil keluaran Anda mungkin bergerak di luar Wilayah sumber Anda selama inferensi Lintas wilayah. Semua data akan dikirimkan dienkripsi di seluruh jaringan aman Amazon.

Gunakan profil inferensi lintas wilayah (ditentukan sistem)

Untuk menggunakan inferensi lintas wilayah, Anda menyertakan profil inferensi saat menjalankan inferensi model dengan cara berikut:

Inferensi model sesuai permintaan — Tentukan ID profil inferensi sebagai modelId saat mengirim,, Converse InvokeModel InvokeModelWithResponseStream, atau permintaan. ConverseStream Profil inferensi mendefinisikan satu atau beberapa Wilayah tempat ia dapat merutekan permintaan inferensi yang berasal dari Wilayah sumber Anda. Penggunaan inferensi lintas wilayah meningkatkan throughput dan kinerja dengan merutekan permintaan pemanggilan model secara dinamis di seluruh Wilayah yang ditentukan dalam profil inferensi. Faktor routing dalam lalu lintas pengguna, permintaan dan pemanfaatan sumber daya. Untuk informasi selengkapnya, lihat Kirim petunjuk dan hasilkan tanggapan dengan inferensi model
Inferensi Batch — Kirim permintaan secara asinkron dengan inferensi batch dengan menentukan ID profil inferensi sebagai saat mengirim permintaan. modelId CreateModelInvocationJob Menggunakan profil inferensi memungkinkan Anda memanfaatkan komputasi di beberapa Wilayah AWS dan mencapai waktu pemrosesan yang lebih cepat untuk pekerjaan batch Anda. Setelah pekerjaan selesai, Anda dapat mengambil file output dari bucket Amazon S3 di Wilayah sumber.
Agen — Tentukan ID profil inferensi di foundationModel bidang di CreateAgentpermintaan. Untuk informasi selengkapnya, lihat Buat dan konfigurasikan agen secara manual.
Pembuatan respons basis pengetahuan — Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons setelah menanyakan basis pengetahuan. Untuk informasi selengkapnya, lihat Uji basis pengetahuan Anda dengan pertanyaan dan tanggapan.
Evaluasi model — Anda dapat mengirimkan profil inferensi sebagai model untuk mengevaluasi saat mengirimkan pekerjaan evaluasi model. Untuk informasi selengkapnya, lihat Evaluasi kinerja sumber daya Amazon Bedrock.
Manajemen cepat - Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons untuk prompt yang Anda buat di Manajemen Prompt. Untuk informasi selengkapnya, lihat Buat dan simpan petunjuk yang dapat digunakan kembali dengan manajemen Prompt di Amazon Bedrock
Alur prompt - Anda dapat menggunakan inferensi lintas wilayah saat menghasilkan respons untuk prompt yang Anda tentukan sebaris dalam simpul prompt dalam alur prompt. Untuk informasi selengkapnya, lihat Bangun alur kerja AI end-to-end generatif dengan Amazon Bedrock Flows.

Untuk mempelajari cara menggunakan profil inferensi untuk mengirim permintaan pemanggilan model di seluruh Wilayah, lihat. Gunakan profil inferensi dalam pemanggilan model

Untuk mempelajari lebih lanjut tentang inferensi lintas wilayah, lihat Memulai inferensi lintas wilayah di Amazon Bedrock.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Prasyarat untuk menggunakan Otomasi Data Batuan Dasar

Throughput yang Disediakan: Meningkatkan throughput model