Compressão consciente de modelos de redes neurais profundas baseada em poda seguida de quantização

dc.contributor.advisorFernandes, Marcelo Augusto Costa
dc.contributor.advisor-co1Silva, Sérgio Natan
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/3735623063336406pt_BR
dc.contributor.advisorIDhttps://orcid.org/0000-0001-7536-2506pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/3475337353676349pt_BR
dc.contributor.authorGoldbarg, Mateus Arnaud Santos de Sousa
dc.contributor.authorLatteshttp://lattes.cnpq.br/5393775937989569pt_BR
dc.contributor.referees1Martins, Allan de Medeiros
dc.contributor.referees2Nascimento, Flávia Maristela Santos
dc.contributor.referees3Coutinho, Maria Gracielly Fernandes
dc.date.accessioned2024-05-07T13:32:00Z
dc.date.available2024-05-07T13:32:00Z
dc.date.issued2024-02-20
dc.description.abstractDeep learning techniques, particularly deep neural networks (DNNs), have been successfully utilized in many problems. However, these types of algorithms require significant computational effort due to the large number of parameters and mathematical operations involved, which can be problematic for applications with limited computational resources, low latency requirements, or low power consumption. Therefore, this work proposes the application of a new training strategy for aware compression of DNN models based on pruning, quantization, and pruning followed by quantization, capable of reducing processing time and memory footprint. The compression strategy was applied in two domains. In the first domain, for automatic modulation classification, it was possible to reduce the model size by 13 times while maintaining an accuracy only 1.8% lower than that of the uncompressed model. In the second domain, the same technique was applied to an image classification model to validate its performance in microservices environments. The results showed a significant reduction in the model size, reaching approximately 7.6 times smaller, while the accuracy remained comparable to that of the uncompressed model. The application of this technique in such an environment proved effective in reducing inference time, memory consumption, and CPU usage. Additionally, it contributed to the efficiency of the system, enhancing its scalability.pt_BR
dc.description.resumoTécnicas de aprendizado profundo, particulamente as redes neurais profundas (Deep Neural Networks- DNNs), têm sido utilizadas com êxito em muitos problemas. Porém, esses tipos de algoritmos exigem um grande esforço computacional, devido a grande quantidade de parâmetros e de operações matemáticas realizadas, e isto pode ser um problema para aplicações onde os recursos computacionais são limitados, aplicações que requerem baixa latência ou baixo consumo energético. Assim, este trabalho propõe a aplicação de uma nova estratégia de treinamento para compressão consciente de modelos de DNNs baseados em poda, quantização e poda seguida de quantização capaz de reduzir o tempo de processamento e seu tamanho em memória. A estratégia de compressão foi aplicada em dois domínios, o primeiro para classificação automática de modulações, onde foi possível reduzir o tamanho do modelo em 13 vezes, e manter uma acurácia apenas 1,8% menor que a do modelo não comprimido. No segundo domínio, a mesma técnica foi aplicada a um modelo de classificação de imagens, com o objetivo de validar sua performance em ambientes de microserviços. Os resultados demonstraram uma redução significativa no tamanho do modelo, chegando a cerca de 7,6 vezes menor, enquanto a acurácia permaneceu comparável à do modelo não comprimido. A aplicação dessa técnica em tal ambiente revelou-se eficaz na redução do tempo de inferência, no consumo de memória e na utilização da CPU. Além disso, contribuiu na eficiência do sistema, melhorando sua escalabilidade.pt_BR
dc.identifier.citationGOLDBARG, Mateus Arnaud Santos de Sousa. Compressão consciente de modelos de redes neurais profundas baseada em poda seguida de quantização. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2024. 61f. Dissertação (Mestrado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2024.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/58271
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃOpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectAprendizagem profundapt_BR
dc.subjectQuantização conscientept_BR
dc.subjectEscalabilidadept_BR
dc.subjectMicroserviçospt_BR
dc.subjectClassificação automática de modulaçãopt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA ELETRICApt_BR
dc.titleCompressão consciente de modelos de redes neurais profundas baseada em poda seguida de quantizaçãopt_BR
dc.typemasterThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Compressaoconscientemodelos_Goldbarg_2024.pdf
Tamanho:
1.35 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar