Сравнительный анализ методов оптимизации нейронных сетей

Гаврик, Д. Н.

doi:10.21122/2309-4923-2026-1-49-53

dc.contributor.author	Гаврик, Д. Н.
dc.coverage.spatial	Минск	ru
dc.date.accessioned	2026-04-22T11:25:45Z
dc.date.available	2026-04-22T11:25:45Z
dc.date.issued	2026
dc.identifier.citation	Гаврик, Д. Н. Сравнительный анализ методов оптимизации нейронных сетей = Comparative analysis of neural network optimization methods / Д. Н. Гаврик // Системный анализ и прикладная информатика. – 2026. – № 1. – С. 49-53.	ru
dc.identifier.uri	https://rep.bntu.by/handle/data/166927
dc.description.abstract	Проведено прикладное сравнительное тестирование ускорений вывода Stable Video Diffusion (image-to-video). Для всех методов использован фиксированный вход и параметры (1024×576, 25 кадров), базовый вариант FP16/25 шагов. Описано восемь сравниваемых подходов: стандартный запуск SVD в FP16, INT8 weight-only квантование UNet, torch.compile+TF32, снижение шагов, подстановка дистиллированных весов (AnimateLCM), 2:4 разреженность, LCM-режим, а также генерация ключевых кадров с последующей интерполяцией RIFE. Измерялись время и VRAM, качество / плавность оценивались прокси-метриками CLIP similarity, tSSIM, tLPIPS. Ключевые кадры+RIFE дает наибольшее ускорение при сохранении сильной привязки к исходнику, LCM обеспечивает сбалансированное ~2× ускорение; агрессивное снижение шагов ухудшает динамику.	ru
dc.language.iso	ru	ru
dc.publisher	БНТУ	ru
dc.title	Сравнительный анализ методов оптимизации нейронных сетей	ru
dc.title.alternative	Comparative analysis of neural network optimization methods	ru
dc.type	Article	ru
dc.identifier.doi	10.21122/2309-4923-2026-1-49-53
local.description.annotation	We benchmark practical ways to accelerate Stable Video Diffusion (SVD) inference for image-to-video. All methods use a fixed setup (1024×576 input, 25 frames) with an FP16 baseline at 25 denoising steps. We compare eight techniques: UNet INT8 weight-only quantization, torch.compile+TF32, step reduction, distilled weights (AnimateLCM), semi-structured 2:4 sparsity, LCM mode/scheduler, and keyframe generation with RIFE interpolation as post-processing. We measure latency and peak VRAM, and track quality/motion via CLIP similarity, tSSIM, and tLPIPS. Keyframes+RIFE achieves the highest speedup while preserving strong conditioning to the input. LCM provides a balanced ~2× speedup, whereas aggressive step cuts (and untuned 2:4) can degrade motion.	ru

Files in this item

Name:: 49-53.pdf
Size:: 1.657Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

№ 1[10]

Show simple item record