Red Hat Hadirkan Inferensi AI Terdistribusi untuk Beban Kerja AI di Level Produksi melalui Red Hat AI 3

  EKSEKUTIF.com — Platform AI hybrid cloud-native dari Red Hat menyederhanakan alur kerja AI dan menawarkan kemampuan inferensi baru yang kuat, membangun fondasi bagi Agentic AI dalam skala besar, serta memberdayakan tim IT dan engineer AI untuk berinovasi dengan lebih cepat dan lebih efisien

 

Red Hat, penyedia solusi open source terkemuka di dunia, telah mengumumkan Red Hat AI 3, evolusi besar dari platform enterprise AI Red Hat. Menggabungkan inovasi terbaru dari Red Hat AI Inference Server, Red Hat Enterprise Linux AI (RHEL AI), dan Red Hat OpenShift AI, platform ini membantu menyederhanakan kompleksitas inferensi AI berkinerja tinggi dalam skala besar, membantu organisasi memindahkan beban kerja dari tahap uji coba ke tahap produksi secara lebih mudah, serta meningkatkan kolaborasi dalam pengembangan aplikasi berbasis AI.

Seiring perusahaan bergerak melampaui tahap eksperimen AI, mereka menghadapi tantangan besar, seperti privasi data, pengendalian biaya, dan mengelola sejumlah model yang berbeda-beda. Laporan “The GenAI Divide: State of AI in Business” dari proyek NANDA di Massachusetts Institute of Technology, menyoroti realitas AI di tingkat produksi, di mana sekitar 95% organisasi gagal meraih keuntungan finansial  yang terukur dari investasi perusahaan senilai sekitar US$40 miliar.

Red Hat fokus untuk secara langsung menjawab tantangan tersebut dengan menghadirkan pengalaman yang lebih konsisten dan terpadu bagi para CIO dan pemimpin IT untuk memaksimalkan investasi mereka dalam teknologi komputasi yang akseleratif.

Platform ini memungkinkan organisasi untuk meningkatkan dan mendistribusikan beban kerja AI di lingkungan hybrid dan multi-vendor, sekaligus memperkuat kolaborasi lintas tim pada beban kerja AI generasi berikutnya, seperti agentic AI, semuanya dilakukan di platform umum yang sama.

Dengan berlandaskan pada open standard, Red Hat AI 3 siap mendukung organisasi di setiap tahap perjalanan AI mereka, mendukung model apa pun di akselerator hardware apa pun, dari pusat data ke public cloud, dan dari lingkungan sovereign AI hingga ke edge yang terjauh.

“Saat perusahaan meningkatkan AI dari fase eksperimen ke produksi, mereka menghadapi gelombang tantangan baru seperti kompleksitas, biaya, dan control, “ kata Joe Fernandes, vice president dan general manager, AI Business Unit, Red Hat, Senin ( 27/10/2025).

“Dengan Red Hat AI 3, kami menyediakan platform open source kelas enterprise yang akan meminimalkan hambatan-hambatan tersebut. Dengan kemampuan baru seperti inferensi terdistribusi dengan llm-d dan fondasi untuk agentic AI, kami membuat tim IT mengoperasionalkan AI generasi berikutnya dengan lebih percaya diri, dengan cara mereka sendiri, di infrastruktur apa pun,” jelas Joe .

Dari melatih ke “menjalankan”: Peralihan ke inferensi enterprise AI

Saat organisasi mulai memindahkan inisiatif AI ke tahap produksi, fokusnya kini bergeser dari pelatihan dan penyesuaian model menuju inferensi, yaitu fase “menjalankan” enterprise AI. Red Hat AI 3 menekankan inferensi yang bisa ditingkatkan dan hemat biaya, dengan mengembangkannya dari proyek komunitas vLLM yang sangat sukses dan llm-d, serta kemampuan pengoptimalan model Red Hat untuk memberikan layanan large language model (LLM) tingkat produksi.

Untuk membantu para CIO memaksimalkan nilai dari hardware mereka yang bernilai tinggi, Red Hat OpenShift AI 3.0 memperkenalkan ketersediaan umum llm-d, yang mengubah cara kerja LLM di Kubernetes.

Llm-d memungkinkan inferensi terdistribusi yang cerdas dengan memanfaatkan orkestrasi Kubernetes dan performa vLLM, digabungkan dengan teknologi open source yang penting seperti Kubernetes Gateway API Inference Extension, NVIDIA Dynamo low latency data transfer library (NIXL), dan DeepEP Mixture of Experts (MoE) communication library,  yang memungkinkan organisasi untuk:

  • Mengurangi biaya dan meningkatkan waktu respon melalui penjadwalan model berbasis inferensi yang cerdas dan penyajian yang terpisah
  • Menyederhanakan operasional dan keandalan yang maksimal dengan langkah-langkah yang jelas, untuk memudahkan pengaplikasian model-model dalam skala besar di Kubernetes.
  • Memaksimalkan fleksibilitas dengan dukungan lintas platform untuk menjalankan inferensi LLM di berbagai akselerator hardware, termasuk NVIDIA dan AMD.

llm-d dikembangkan di atas vLLM, berevolusi dari mesin inferensi single node dan berperforma tinggi, menjadi sistem penyajian yang terdistribusi, konsisten dan skalabel, serta terintegrasi kuat dengan Kubernetes, yang dirancang untuk performa yang bisa diprediksi, ROI yang terukur, dan perencanaan infrastruktur yang efektif. Semua peningkatan tersebut secara langsung menjawab tantangan dalam menangani beban kerja LLM dengan variabel tinggi dan menyajikan model masif seperti model Mixture-of-Experts (MoE).

Platform terintegrasi untuk AI kolaboratif

Red Hat AI 3 menghadirkan pengalaman terpadu dan fleksibel yang disesuaikan dengan tuntutan kolaboratif dalam membangun solusi AI generatif yang siap untuk produksi. Platform ini dirancang untuk memberikan nilai nyata melalui kolaborasi dan alur kerja terpadu di satu platform tunggal bagi platform engineer dan AI engineer untuk mengeksekusi strategi AI mereka. Kemampuan baru ini difokuskan untuk memberikan produktivitas dan efisiensi yang dibutuhkan untuk maju dari fase uji coba ke fase produksi, di antaranya:

  • Kemampuan Model as a Service (MaaS) yang dikembangkan di inferensi terdistribusi dan memungkinkan tim IT menjadi penyedia MaaS mereka sendiri, menyajikan model bersama secara terpusat, dan memberikan akses sesuai permintaan pengembang AI dan aplikasi AI. Hal ini memungkinkan pengelolaan biaya yang lebih baik dan mendukung use case yang tidak bisa dijalankan di layanan AI publik karena alasan privasi atau data.
  • AI hub memberdayakan para platform engineer untuk mengeksplorasi, menjalankan, dan mengelola aset-aset AI yang penting. Ia menyediakan central hub dengan katalog model yang terkurasi, termasuk model gen AI yang telah divalidasi dan dioptimalkan, registry untuk mengelola lifecycle model dan lingkungan penerapan untuk mengkonfigurasi dan mengawasi semua aset AI yang berjalan di OpenShift AI.
  • Gen AI Studio menyediakan lingkungan uji coba untuk para engineer AI di mana mereka dapat berinteraksi dengan model dan membuat prototipe aplikasi gen AI baru dengan cepat. Dengan fitur AI asset endpoint, para engineer bisa menemukan dan menggunakan model dan server MCP yang tersedia secara mudah, yang dirancang untuk melancarkan interaksi model dengan tools Playground terintegrasi ini menghadirkan lingkungan yang interaktif dan stateless untuk bereksperimen dengan model, menguji prompt, dan mengatur parameter untuk use case seperti chat dan retrieval-augmented generation (RAG).
  • Termasuk model Red Hat baru yang telah divalidasi dan dioptimalkan, untuk menyederhanakan pengembangan. Pilihan yang telah terkurasi meliputi model open source yang popular seperti gpt-oss dari OpenAI, DeepSeek-R1, dan model khusus seperti Whisper untuk speech-to-text dan Voxtral Mini untuk agen AI berbasis suara.

Membangun fondasi untuk agen AI generasi berikutnya

Agen AI akan mengubah cara aplikasi dibangun dan alur kerjanya yang kompleks dan otonom akan membutuhkan kemampuan inferensi yang besar. Perilisan Red Hat OpenShift AI 3.0 menjadi langkah yang penting untuk menghadirkan sistem agentic AI yang skalabel, tidak hanya melalui kemampuan inferensi tapi juga melalui fitur-fitur baru dan peningkatan yang difokuskan pada pengelolaan agen.

Untuk mempercepat kreasi dan penerapan agen, RedHat telah memperkenalkan Unified API layer berbasis Llama Stack, yang membantu menyelaraskan pengembangan dengan standar industri seperti protokol interface LLM yang kompatibel dengan OpenAI. Selain itu, untuk mengembangkan ekosistem yang lebih terbuka dan interoperable, Red Hat menjadi pengadopsi awal Model Context Protocol (MCP), sebuah standar baru yang kuat untuk menyederhanakan cara model AI berinteraksi dengan tools eksternal, fitur yang sangat penting bagi agen AI modern.

Red Hat AI 3 memperkenalkan toolkit modular dan dapat diperluas untuk kustomisasi model, dibangun di atas fungsi InstructLab. Ia menyediakan libraries Python khusus yang memberikan fleksibilitas dan kontrol yang lebih besar kepada para pengembang.

Toolkit ini ditenagai oleh proyek open source seperti Docling untuk pemrosesan data, yang menyederhanakan proses ingestion dokumen yang tidak terstruktur menjadi format yang bisa dibaca oleh AI. Ia juga termasuk framework fleksibel untuk menghasilkan data sintetis dan sebuah training hub untuk melatih LLM.

Pusat evaluasi yang terintegrasi ini membantu engineer AI memonitor dan memvalidasi hasil, mendorong mereka jadi lebih percaya diri dalam memanfaatkan proprietary data untuk mendapatkan outcomes AI yang lebih akurat dan relevan.

Dan McNamara, senior vice president dan general manager, Server and Enterprise AI, AMD, mengatakan,“Saat Red Hat menghadirkan inferensi AI terdistribusi ke tingkat produksi, AMD bangga menjadi fondasi yang kuat di baliknya.”

“Bersama, kami telah mengintegrasikan efisiensi dari prosesor AMD EPYC™, skalabilitas GPU AMD Instinct™, dan keterbukaan software stack AMD ROCm™ untuk membantu perusahaan bergerak dari fase eksperimen dan mengoperasionalkan AI generasi berikutnya, mengubah performa dan skalabilitas menjadi dampak bisnis yang nyata di lingkungan on-prem, cloud, maupun edge,” jelasnya.

Tinggalkan Balasan

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses