Sign in

Warteschlangenanalyse von GPU-basierten Inferenzservern mit dynamischem Batching: Eine geschlossene Charakterisierung

By Yoshiaki Inoue
GPU-beschleunigtes Computing ist eine Schlüsseltechnologie, um Hochgeschwindigkeits-Inferenzserver mit tiefen neuronalen Netzen (DNNs) zu realisieren. Ein wichtiges Merkmal der GPU-basierten Inferenz ist, dass die Recheneffizienz in Bezug auf Verarbeitungsgeschwindigkeit und Energieverbrauch drastisch steigt, wenn mehrere Jobs zusammen in einem Stapel verarbeitet werden. In diesem Papier formulieren wir GPU-basierte Inferenzserver als Batch-Service-Warteschlangenmodell... Show more
December 21, 2020
=
0
Loading PDF…
Loading full text...
Similar articles
Loading recommendations...
=
0
x1
Queueing Analysis of GPU-Based Inference Servers with Dynamic Batching: A Closed-Form Characterization
Click on play to start listening