| dc.contributor.author | Гаврик, Д. Н. | |
| dc.coverage.spatial | Минск | ru |
| dc.date.accessioned | 2026-04-22T11:25:45Z | |
| dc.date.available | 2026-04-22T11:25:45Z | |
| dc.date.issued | 2026 | |
| dc.identifier.citation | Гаврик, Д. Н. Сравнительный анализ методов оптимизации нейронных сетей = Comparative analysis of neural network optimization methods / Д. Н. Гаврик // Системный анализ и прикладная информатика. – 2026. – № 1. – С. 49-53. | ru |
| dc.identifier.uri | https://rep.bntu.by/handle/data/166927 | |
| dc.description.abstract | Проведено прикладное сравнительное тестирование ускорений вывода Stable Video Diffusion (image-to-video). Для всех методов использован фиксированный вход и параметры (1024×576, 25 кадров), базовый вариант FP16/25 шагов. Описано восемь сравниваемых подходов: стандартный запуск SVD в FP16, INT8 weight-only квантование UNet, torch.compile+TF32, снижение шагов, подстановка дистиллированных весов (AnimateLCM), 2:4 разреженность, LCM-режим, а также генерация ключевых кадров с последующей интерполяцией RIFE. Измерялись время и VRAM, качество / плавность оценивались прокси-метриками CLIP similarity, tSSIM, tLPIPS. Ключевые кадры+RIFE дает наибольшее ускорение при сохранении сильной привязки к исходнику, LCM обеспечивает сбалансированное ~2× ускорение; агрессивное снижение шагов ухудшает динамику. | ru |
| dc.language.iso | ru | ru |
| dc.publisher | БНТУ | ru |
| dc.title | Сравнительный анализ методов оптимизации нейронных сетей | ru |
| dc.title.alternative | Comparative analysis of neural network optimization methods | ru |
| dc.type | Article | ru |
| dc.identifier.doi | 10.21122/2309-4923-2026-1-49-53 | |
| local.description.annotation | We benchmark practical ways to accelerate Stable Video Diffusion (SVD) inference for image-to-video. All methods use a fixed setup (1024×576 input, 25 frames) with an FP16 baseline at 25 denoising steps. We compare eight techniques: UNet INT8 weight-only quantization, torch.compile+TF32, step reduction, distilled weights (AnimateLCM), semi-structured 2:4 sparsity, LCM mode/scheduler, and keyframe generation with RIFE interpolation as post-processing. We measure latency and peak VRAM, and track quality/motion via CLIP similarity, tSSIM, and tLPIPS. Keyframes+RIFE achieves the highest speedup while preserving strong conditioning to the input. LCM provides a balanced ~2× speedup, whereas aggressive step cuts (and untuned 2:4) can degrade motion. | ru |