Белорусский национальный технический университет
Repository of the Belarusian National Technical University
ISSN: 2310-7405
Repository of the Belarusian National Technical University
View Item 
  •   Repository BNTU
  • Сериальные издания
  • Системный анализ и прикладная информатика
  • 2026
  • № 1
  • View Item
  •   Repository BNTU
  • Сериальные издания
  • Системный анализ и прикладная информатика
  • 2026
  • № 1
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Стратегии параллелизма как ключевой фактор развертывания Large Language Models на базе потребительских GPU

Thumbnail
DOI
10.21122/2309-4923-2026-1-54-59
Authors
Курочка, К. С.
Башаримов, Ю. С.
Ёвженко, Ю. Д.
Date
2026
Publisher
БНТУ
Another Title
Parallelism strategies as a key factor for deploying Large Language Models on consumer gpus
Bibliographic entry
Курочка, К. С. Стратегии параллелизма как ключевой фактор развертывания Large Language Models на базе потребительских GPU = Parallelism strategies as a key factor for deploying Large Language Models on consumer gpus / К. С. Курочка, Ю. С. Башаримов, Ю. Д. Ёвженко // Системный анализ и прикладная информатика. – 2026. – № 1. – С. 54-59.
Abstract
Экспоненциальный рост размеров больших языковых моделей (LLM) создает существенные барьеры для их локального развертывания, обусловленные нехваткой видеопамяти (VRAM) на одиночных устройствах. Целью работы является выявление и обоснование наиболее эффективной стратегии параллелизма для инференса LLM на кластерах из потребительских графических процессоров (GPU), объединенных медленной шиной PCIe. Методы исследования включали проведение серии вычислительных экспериментов для сравнения монолитной архитектуры (NVIDIA RTX A6000) и распределенной системы (2x NVIDIA RTX 3090) с использованием фреймворка vLLM. Анализировалось влияние тензорного (Tensor Parallelism) и конвейерного (Pipeline Parallelism) параллелизма на ключевые метрики: пропускную способность, задержку (TTFT, TPOT) и стабильность энергопотребления при запуске модели DeepSeek-R1-DistillLlama-14B. Результаты однозначно указывают на непригодность тензорного параллелизма для систем без NVLink из-за критических задержек синхронизации. Доказано, что конвейерный параллелизм является единственной жизнеспособной стратегией для PCIe-кластеров, обеспечивая высокую пропускную способность, несмотря на наличие периодов простоя («пузырей») и менее стабильный профиль энергопотребления по сравнению с монолитным решением. В заключении сформулированы рекомендации по использованию мульти-GPU конфигураций: они являются оптимальным экономическим выбором для задач, критичных к объему памяти, таких как Retrieval-Augmented Generation (RAG), позволяя масштабировать VRAM значительно дешевле профессиональных аналогов.
Abstract in another language
The exponential growth in the size of Large Language Models (LLMs) creates significant barriers to their local deployment, primarily due to Video RAM (VRAM) shortages on single devices. The aim of this work is to identify and substantiate the most effective parallelism strategy for LLM inference on consumer Graphics Processing Unit (GPU) clusters connected via a slow PCIe bus. Research methods included a series of experiments comparing a monolithic architecture (NVIDIA RTX A6000) and a distributed system (2x NVIDIA RTX 3090) using the vLLM framework. The impact of Tensor Parallelism (TP) and Pipeline Parallelism (PP) on key metrics – throughput, latency (TTFT, TPOT), and power consumption stability – was analyzed while running the DeepSeek-R1-Distill-Llama-14B model. The results unequivocally indicate the unsuitability of Tensor Parallelism for systems without NVLink due to critical synchronization delays. It is proven that Pipeline Parallelism is the only viable strategy for PCIe clusters, ensuring high throughput despite the presence of idle periods («bubbles») and a less stable power consumption profile compared to the monolithic solution. In conclusion, recommendations for using multi-GPU configurations are formulated: they represent the optimal economic choice for memory-critical tasks, such as Retrieval-Augmented Generation (RAG), allowing VRAM scaling at a significantly lower cost than professional analogs.
URI
https://rep.bntu.by/handle/data/166928
View/Open
54-59.pdf (1.682Mb)
Collections
  • № 1[10]
Show full item record
CORE Recommender

Belarusian National Technical University | Science Library | About Repository | Размещение в Репозитории | Contact Us
Яндекс.МетрикаIP Geolocation by DB-IP
Science Library | About Repository | Размещение в Репозитории | Contact Us
 

Browse

All of Repository BNTUCommunities & CollectionsAuthorsTitlesBy Issue DatePublisherBy Submit DateTypeThis CollectionAuthorsTitlesBy Issue DatePublisherBy Submit DateType

My Account

LoginRegister

Belarusian National Technical University | Science Library | About Repository | Размещение в Репозитории | Contact Us
Яндекс.МетрикаIP Geolocation by DB-IP
Science Library | About Repository | Размещение в Репозитории | Contact Us