CT - TCC - Engenharia de Computação
URI Permanente para esta coleçãohttps://repositorio.ufrn.br/handle/123456789/33188
Navegar
Navegando CT - TCC - Engenharia de Computação por Assunto "Action Branching"
Agora exibindo 1 - 1 de 1
- Resultados por página
- Opções de Ordenação
TCC Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto(Universidade Federal do Rio Grande do Norte, 2022-07-21) Alves, Luiz Paulo de Carvalho; Madeira, Charles Andryê Galvão; http://lattes.cnpq.br/2381782879955327; http://lattes.cnpq.br/9968066104677553; Oliveira, Luiz Affonso Henderson Guedes de; http://lattes.cnpq.br/7987212907837941; Araújo, Daniel Sabino Amorim de; http://lattes.cnpq.br/4744754780165354Action Branching é um tipo de arquitetura de Redes Neurais Profundas que utiliza múltiplas saídas, em que cada uma representa uma dimensão do espaço de ações, para reduzir o tamanho final da saída. A arquitetura Action Branching foi proposta e utilizada para solucionar problemas com espaços de ação contínuos, especificamente problemas de controle contínuo em ambientes virtuais. No entanto, os autores dessa arquitetura afirmam que ela também poderia ser utilizada para problemas com espaço de ações discreto, contanto que esses problemas tivessem alta dimensionalidade de ações. Um problema de alta dimensionalidade com espaço de ações discreto é o problema de escolher uma posição (x, y) em um ambiente bidimensional, já que a quantidade de posições possíveis cresce quadraticamente com o aumento do tamanho máximo de x e y. Esse problema de escolha de posições se faz tangível em contextos como o de jogos de estratégia em tempo real, nos quais existem milhares de posições possíveis para realização de ações a cada instante do jogo. O objetivo deste trabalho é utilizar uma arquitetura Action Branching para reduzir a dimensionalidade da saída de Redes Neurais Profundas com espaços de ação discretos, e avaliar o efeito dessa modificação arquitetural no treinamento e aprendizado das redes. Os espaços de ações discretos utilizados neste trabalho representam posições em um ambiente bidimensional, ou seja, uma ação ou uma combinação de ações representa a escolha de uma posição espacial específica no ambiente. Os ambientes utilizados para realizar o treinamento e avaliação das redes neurais foram dois ambientes virtuais. O primeiro é StarCraft II, um jogo eletrônico de estratégia em tempo real, publicado pela Blizzard Entertainment. O segundo é o ambiente Clickgame, desenvolvido pelo autor a fim de realizar experimentos em ambientes mais simples. Como parte da realização deste trabalho, foram desenvolvidos pelo autor dois algoritmos de Aprendizagem por Reforço profundo com uma arquitetura de Action Branching, o algoritmo DDQNmo e o algoritmo BDQKeras. Foram, então, realizados diversos experimentos aplicando esses algoritmos em alguns minigames do StarCraft II, e também no ambiente Clickgame. Através dos experimentos foi possível constatar que os algoritmos implementados conseguem treinar redes menores, mais rápidas e mais eficientes que algoritmos tradicionais para os ambientes propostos. No entanto, foram identificados problemas de escalabilidade e de estabilidade nesses algoritmos quando aplicados em problemas mais complexos, indicando a necessidade de investigações e melhorias futuras.