8/5(火)
category ブレイクアウト
D1-INF-03

Google Kubernetes Engine と TensorRT-LLM による LLM の大規模・高速推論環境の構築

schedule
14:00 - 14:30

本セッションでは、Google Kubernetes Engine (GKE)と TensorRT-LLM、および Triton Inference Server を活用し、LLM の大規模かつ高速な推論環境をどのように構築するかをご紹介します。 自社開発の会話型友だち AI アプリ「HAPPY RAT」のバックエンドとして運用している LLM 推論環境の事例を交えながら、推論環境の具体的な構築方法を解説します。 取り上げる主な Google Cloud 製品 / サービス ・Google Kubernetes Engine (GKE)

中級者向け
インフラ エンジニア / システム運用管理者
データ エンジニア / アナリスト / サイエンティスト
開発エンジニア
ML エンジニア
AI / AI エージェント
コンピューティング
コスト最適化
ゲーム
メディア、エンターテインメント
情報通信業
スタートアップ