Mineração de dados educacionais e machine learning para análise e prevenção da evasão escolar em um curso de graduação

dc.contributor.advisorSantana Júnior, Orivaldo Vieira de
dc.contributor.advisor-co1Matamoros, Efrain Pantaleon
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0002-4052-5739pt_BR
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/5336356193599447pt_BR
dc.contributor.advisorIDhttps://orcid.org/0000-0003-4918-3162pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/5050555219716698pt_BR
dc.contributor.authorLima, Anderson Costa
dc.contributor.authorLatteshttp://lattes.cnpq.br/7175138864569004pt_BR
dc.contributor.referees1Freitas, André Lage
dc.contributor.referees2Rodrigues, Kelly Kaliane Rego da Paz
dc.date.accessioned2024-09-11T19:33:56Z
dc.date.available2024-09-11T19:33:56Z
dc.date.issued2024-07-25
dc.description.abstractUniversities face the challenge of transforming a large amount of student data into actionable insights to enhance academic management and reduce dropout rates in higher education. A promising approach to identify factors influencing academic performance is Educational Data Mining (MDE) and Machine Learning (ML). This research aims to develop a method to uncover key characteristics related to dropout in the Interdisciplinary in Science and Technology (C&T) program at the Federal University of Rio Grande do Norte (UFRN), focusing on students enrolled between 2014 and 2023. Through a literature review, suitable ML algorithms were identified for a hybrid approach, combining Random Forest (classification) and Self-Organizing Maps (clustering), with SHapley Additive exPlanations (SHAP) for explainability analysis. The process involved Knowledge Discovery in Databases adapted with stages (data collection, preprocessing, feature mapping, training and testing, explainability analysis). As a result, a predictive model using Random Forest was developed, achieving an initial accuracy of 93% in identifying at-risk students, and subsequently 91% and 89% for unknown data, demonstrating consistency and generalization capability. The research revealed that dropout is influenced by various factors, including curriculum, socioeconomic, and demographic aspects. Analysis with Self-Organizing Maps created a feature map illustrating the relationship between attributes and students' educational status. Combining with SHAP provided comprehensive insights into attribute influences on model predictions, highlighting the importance of variables such as academic performance, age at enrollment, hometown, and socioeconomic status. Finally, a Minimum Viable Product (MVP) was developed as a proof of concept to showcase prediction results and the explainability of findings, with descriptive and predictive analyses of patterns affecting student retention.pt_BR
dc.description.resumoAs universidades enfrentam o desafio de como transformar uma grande quantidade de dados de seus estudantes em informações que possam gerar conhecimento para aprimorar a gestão acadêmica e diminuir os índices de evasão escolar no ensino superior. Uma abordagem promissora para identificar os fatores que influenciam o desempenho acadêmico é a mineração de dados educacionais (MDE) e Machine Learning (ML). Objetiva-se com esta pesquisa desenvolver um método que permita encontrar as principais características relacionadas à evasão no curso Interdisciplinar em Ciências e Tecnologia (C&T) na Universidade Federal do Rio Grande do Norte (UFRN), considerando os alunos ingressantes entre os anos de 2014 a 2023. Por meio de uma revisão da literatura, foram identificados algoritmos de ML adequados para uma abordagem híbrida, combinando o Random Forest (classificação) e Self-Organizing Maps (clustering), com análises de explicabilidade SHapley Additive exPlanations (SHAP), o processo incluiu Knowledge Discovery in Databases adaptado com etapas (coleta de dados, pré-processamento, mapeamento de características, treinamento e teste, análise de explicabilidade). Como resultados, tem-se um modelo preditivo usando Random Forest que alcançou uma acurácia inicial de 93% na identificação de alunos em risco de evasão, e posteriormente acurácia de 91% e 89% para dados desconhecidos, mostrando consistência e capacidade de generalização. A pesquisa revelou que a evasão escolar é influenciada por diversos fatores, incluindo aspectos curriculares, socioeconômicos e demográficos. A análise com Self-Organizing Maps permitiu criar um mapa de características que mostra a relação entre diversos atributos e a situação educacional dos alunos. A combinação com SHAP possibilitou entender de forma abrangente a influência dos atributos nas previsões do modelo, destacando a importância de variáveis como desempenho acadêmico, idade de ingresso, cidade de origem e condição socioeconômica. Por fim, desenvolveu-se um Minimum Viable Product (MVP) como prova de conceito para demonstrar os resultados das predições e a explicabilidade das descobertas, com análises descritivas e preditivas dos padrões que podem influenciar na permanência dos alunos no curso.pt_BR
dc.identifier.citationLIMA, Anderson Costa. Mineração de dados educacionais e machine learning para análise e prevenção da evasão escolar em um curso de graduação. Orientador: Dr. Orivaldo Vieira de Santana Júnior. 2024. 110f. Dissertação (Mestrado Profissional em Ciência, Tecnologia e Inovação) - Escola de Ciências e Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2024.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/60118
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA, TECNOLOGIA E INOVAÇÃOpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectEvasão escolarpt_BR
dc.subjectAnálise preditivapt_BR
dc.subjectRandom Forestpt_BR
dc.subjectSelf-organizing Mapspt_BR
dc.subjectSHapley Additive exPlanationspt_BR
dc.subject.cnpqCNPQ::OUTROS::CIENCIASpt_BR
dc.titleMineração de dados educacionais e machine learning para análise e prevenção da evasão escolar em um curso de graduaçãopt_BR
dc.typemasterThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Mineracaodadoseducacionais_Lima_2024.pdf
Tamanho:
4.98 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar