Show simple item record

dc.contributor.authorRulko, E. V.
dc.coverage.spatialМинскru
dc.date.accessioned2025-12-31T07:24:06Z
dc.date.available2025-12-31T07:24:06Z
dc.date.issued2025
dc.identifier.citationRulko, E. V. Actor complexification in TD3 and curriculum learning with structural composition for drone countering = Усложнение акторов в TD3 и обучение по куррикулумому со структурной композицией на примере задачи отражения атак беспилотных летательных аппаратов / E. V. Rulko // Системный анализ и прикладная информатика. – 2025. – № 4. – С. 41-48.ru
dc.identifier.urihttps://rep.bntu.by/handle/data/161985
dc.description.abstractThe work suggests complexifying actors within the framework of TD3 which involves the usage of different state vectors for actors and critics in order to assure convergence of the algorithm. It also describes a process of aggregating models, separately trained on datasets or in simulation on tasks with increasing difficulty, stitching everything together step by step into a single end-to-end system. It allows utilizing existing algorithms, such as YOLO, in reinforcement learning systems, performing sensor fusion and gradually adding functionality without losing convergence. Assistance providing allows training systems in simulation from hardcoded algorithms that use simplified states. These techniques are demonstrated on a particular task of building an anti-drone system for armored vehiclesru
dc.language.isoenru
dc.publisherБНТУru
dc.titleActor complexification in TD3 and curriculum learning with structural composition for drone counteringru
dc.title.alternativeУсложнение акторов в TD3 и обучение по куррикулумому со структурной композицией на примере задачи отражения атак беспилотных летательных аппаратовru
dc.typeArticleru
dc.identifier.doi10.21122/2309-4923-2025-4-41-48
local.description.annotationВ работе предложены усложняющиеся акторы в рамках алгоритма двойного отсроченного глубокого детерминированного градиента политики (TD3), что предполагает использование различных векторов состояний для акторов и критиков с целью обеспечения сходимости алгоритма. Работа также описывает процесс агрегирования моделей, раздельно натренированных на датасетах или в симуляции на задачах с увеличивающейся сложностью, соединяя их вместе шаг за шагом в единую систему. Это позволяет использовать существующие алгоритмы, такие как YOLO, в системах обучения с подкреплением, осуществляя процесс объединения данных датчиков и постепенно увеличивая функциональность без потери сходимости. Предоставление ассистирования позволяет тренировать в симуляции системы машинного обучения на основе жестко запрограммированных алгоритмов, использующих упрощенные вектора состояний. Данные техники продемонстрированы на задаче построения системы защиты бронемашин от БПЛА.ru


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record