Algoritmos de aprendizagem por reforço para problemas de otimização multiobjetivo

dc.contributor.advisorDoria Neto, Adrião Duarte
dc.contributor.advisorIDpt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1987295209521433pt_BR
dc.contributor.authorOliveira, Thiago Henrique Freire de
dc.contributor.authorIDpt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/0465224964961501pt_BR
dc.contributor.referees1Araújo, Aluizio Fausto Ribeiro
dc.contributor.referees1IDpt_BR
dc.contributor.referees1Latteshttp://lattes.cnpq.br/8715023255304328pt_BR
dc.contributor.referees2Araújo, Daniel Sabino Amorim de
dc.contributor.referees2IDpt_BR
dc.contributor.referees2Latteshttp://lattes.cnpq.br/4744754780165354pt_BR
dc.contributor.referees3Lima Júnior, Francisco Chagas de
dc.contributor.referees3IDpt_BR
dc.contributor.referees3Latteshttp://lattes.cnpq.br/9342041276186254pt_BR
dc.contributor.referees4Melo, Jorge Dantas de
dc.contributor.referees4IDpt_BR
dc.contributor.referees4Latteshttp://lattes.cnpq.br/7325007451912598pt_BR
dc.contributor.referees5Fernandes, Marcelo Augusto Costa
dc.contributor.referees5IDpt_BR
dc.contributor.referees5Latteshttp://lattes.cnpq.br/3475337353676349pt_BR
dc.date.accessioned2021-06-22T16:49:50Z
dc.date.available2021-06-22T16:49:50Z
dc.date.issued2021-01-11
dc.description.abstractMulti-objective optimization problems depict real situations and therefore, this class of problems is extremely important. However, even though it has been studied for decades, this class of problems continues to provide challenging situations, especially with the increasing complexity of problems that arise over time. Among all the difficulties that we can find in the optimization of multiple objectives simultaneously, whether conflicting or not, one of the main ones with which existing algorithms and approaches possess is the need for a priori knowledge of the problem, causing a predefined importance for each of the objectives, seeking to establish an isomorphic between weighting and a solution. When dealing with this class of problems through reinforcement learning, two approaches are predominant: single policy (single-policy) and multiple policies (multi-policy). Algorithms and techniques that use the first approach suffer from the need for prior knowledge of the problem, an inherent characteristic of multi-objective problems. The second approach has other difficulties, such as: limiting the set of solutions and high computational cost. Given this presented context, the work proposes two hybrid algorithms, called Q-Managed with reset and Q-Managed without reset. Both are a hybridization of the Q-learning algorithm and the econstraint approach, respectively techniques belonging to reinforcement learning and multi-objective optimization. In summary, the proposed algorithms work as follows: Q-Learning is used for environment exploration, while the econstraint approach is used for the environment dynamic delimitation — restriction in the solution space search —, allowing to keep intact the essence of how the algorithm Q-Learning works. This delimitation has the following purpose: to impose the learning agent can learn other solutions by blocking actions that lead to solutions already learned and without improving them, that is, solutions to which the learning agent has already converged. This blocking actions feature is performed by the figure of a manager, where it is responsible for observing everything that occurs in the environment. Regarding the difference between the proposed algorithms, basically it is the choice of whether or not to take advantage of the knowledge already acquired of the environment after a solution is considered to be learned, that is, the learning agent has converged to a particular solution. As a way of testing the effectiveness of Q-Managed two versions, traditional benchmarks were used, which were also adopted in other works, thus allowing a fairer comparison. Thus, two comparative approaches were adopted, the first of which was through the implementation of third-party algorithms for direct comparison, while the second was done through a common metric to everyone who used the same benchmarks. In all possible tests, the algorithms proposed here proved to be effective, always finding the entire Pareto Front.pt_BR
dc.description.resumoProblemas de otimização multiobjetivo retratam situações reais e por isso, esta classe de problemas é extremamente importante. No entanto, mesmo já sendo estudada há décadas, esta classe de problemas continua a proporcionar situações desafiadoras, ainda mais com a crescente complexidade dos problemas que surgem ao longo do tempo. Dentre todas as dificuldades que podemos encontrar na otimização de múltiplos objetivos simultaneamente, sejam eles conflitantes ou não, uma das principais com que os algoritmos e abordagens existentes se possuem é a necessidade de conhecimento a priori do problema, ocasionando uma predefinição de importância para cada um dos objetivos, buscando estabelecer isomórfica entre a ponderação e uma solução. Já quando tratamos esta classe de problemas por meio da aprendizagem por reforço, duas abordagens são predominantes: política única (single-policy) e múltiplas políticas (multi-policy). Algoritmos e técnicas que utilizam a primeira abordagem sofrem com a necessidade de conhecimento prévio do problema, característica inerente dos problemas multiobjetivo. Já a segunda abordagem possui outras dificuldades, tais como: limitação do conjunto de soluções e elevado custo computacional. Diante deste contexto apresentado, o trabalho propõe dois algoritmos híbridos, chamados de Q-Managed with reset e Q-Managed without reset. Ambos são uma hibridização do algoritmo Q-Learning e a abordagem econstraint, respectivamente técnicas pertencentes a aprendizagem por reforço e otimização multiobjetivo. De forma resumida, os algoritmos propostos atuam da seguinte forma: o Q-Learning é utilizado para a exploração do ambiente, enquanto que a abordagem econstraint é utilizada para a delimitação dinâmica do ambiente — restrição da busca no espaço de soluções —, permitindo manter intacta a essência de como o algoritmo Q-Learning atua. Essa delimitação tem a seguinte finalidade: impor que o agente de aprendizagem possa aprender outras soluções por meio do bloqueio de ações que o levem a soluções já aprendidas e sem melhoria das mesmas, ou seja, soluções para qual o agente de aprendizagem já convergiu. Tal característica do bloqueio de ações é realizada pela figura de um supervisor (Manager), onde o mesmo é responsável por observar tudo o que ocorre no ambiente. Com relação a diferença entre os algoritmos propostos, basicamente trata-se da escolha de aproveitar ou não o conhecimento já adquirido do ambiente após uma solução ser considerada aprendida, ou seja, o agente de aprendizado ter convergido para uma determinada solução. Como forma de testar a eficácia das duas versões do Q-Managed, foram utilizados benchmarks tradicionais, os quais também foram adotados em outros trabalhos, permitindo assim uma comparação mais justa. Assim, duas abordagens comparativas foram adotadas, sendo a primeira delas por meio da implementação dos algoritmos de terceiros para uma comparação direta, enquanto que a segunda se deu por meio de uma métrica comum a todos que utilizaram os mesmos benchmarks. Em todos os testes possíveis, os algoritmos aqui propostos se mostraram eficazes, sempre encontrando toda a Fronteira de Pareto.pt_BR
dc.identifier.citationOLIVEIRA, Thiago Henrique Freire de. Algoritmos de aprendizagem por reforço para problemas de otimização multiobjetivo. 2021. 86f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2021.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/32753
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃOpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectOtimização multiobjetivopt_BR
dc.subjectQ-Learningpt_BR
dc.subjectε−constraintpt_BR
dc.subjectFronteira de Paretopt_BR
dc.subjectHypervolumept_BR
dc.subjectAbordagem de política únicapt_BR
dc.titleAlgoritmos de aprendizagem por reforço para problemas de otimização multiobjetivopt_BR
dc.typedoctoralThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Algoritmosaprendizagemreforco_Oliveira_2021.pdf
Tamanho:
1.31 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar