セッションの詳細: Google Cloud Next Tokyo 25

8/5（火)

ブレイクアウト

D1-INF-03

Google Kubernetes Engine と TensorRT-LLM による LLM の大規模・高速推論環境の構築

Room 7

14:00 - 14:30

本セッションでは、Google Kubernetes Engine （GKE）と TensorRT-LLM、および Triton Inference Server を活用し、LLM の大規模かつ高速な推論環境をどのように構築するかをご紹介します。
自社開発の会話型友だち AI アプリ「HAPPY RAT」のバックエンドとして運用している LLM 推論環境の事例を交えながら、推論環境の具体的な構築方法を解説します。

取り上げる主な Google Cloud 製品 / サービス
・Google Kubernetes Engine (GKE)

中級者向け

インフラエンジニア / システム運用管理者

データエンジニア / アナリスト / サイエンティスト

開発エンジニア

ML エンジニア

AI / AI エージェント

コンピューティング

コスト最適化

ゲーム

メディア、エンターテインメント

情報通信業

スタートアップ