Análise de modelos de processamento de linguagem natural para classificação de notícias da UFRN

dc.contributor.advisorSilva, Ivanovitch Medeiros Dantas da
dc.contributor.advisorLatteshttp://lattes.cnpq.br/3608440944832201pt_BR
dc.contributor.authorOliveira, José Augusto Agripino de
dc.contributor.authorLatteshttps://lattes.cnpq.br/3441954136559410pt_BR
dc.contributor.referees1Viegas, Carlos Manuel Dias
dc.contributor.referees1Latteshttp://lattes.cnpq.br/3134700668982522pt_BR
dc.contributor.referees2Gendriz, Ignacio Sánchez
dc.contributor.referees2Latteshttp://lattes.cnpq.br/6338710569530857pt_BR
dc.date.accessioned2025-01-23T11:09:22Z
dc.date.available2025-01-23T11:09:22Z
dc.date.issued2025-01-17
dc.description.abstractArtificial Intelligence (AI) is transforming various sectors, reshaping what we understand as “technology” on a daily basis. Its application in natural language analysis is of utmost importance, with this field evolving exponentially every day. In this developmental context, this work aims to analyze and compare different approaches to Natural Language Processing (NLP) and text classification applied to the news found on the website of the Federal University of Rio Grande do Norte (UFRN). The classification is performed among the themes of “sciences,” “events,” “job openings,” and “announcements,” while also providing interfaces with the best models. The adopted methodology encompasses everything from the choice of technologies to the implementation of interfaces. In this sense, Data Version Control (DVC) was used for data storage and versioning during the development of the models, GitHub for code versioning, Weight and Biases for versioning and generating graphs related to model training, the data used alongside the interfaces, OpenAI’s API for embedding the texts, and Gradio, in conjunction with Hugging Face, to build and deploy the models. Finally, the results show that most models achieved high accuracy; however, the one utilizing the XGBoost algorithm delivered the best performance, successfully classifying natural language texts with precision. Considering that AI is continuously growing and new approaches are constantly emerging, the discussion on which is the best approach for a given context is indispensable.pt_BR
dc.description.resumoA Inteligência Artificial (IA) está transformando diversos setores, remodelando diariamente o que entendemos por “tecnologia”. Sua aplicação na análise da linguagem natural é de suma importância, com essa área se desenvolvendo exponencialmente todos os dias. Neste contexto de desenvolvimento, este trabalho tem por objetivo analisar e comparar diferentes abordagens para o Processamento de Linguagem Natural (PLN) e classificação de texto aplicadas às notícias encontradas no site da Universidade Federal do Rio Grande do Norte (UFRN), classificando-as entre os temas de “ciências”, “eventos”, “vagas” e “informes”, além de disponibilizar interfaces com os melhores modelos. A metodologia adotada abrange desde a escolha das tecnologias até a implementação das interfaces. Nesse sentido, o Data Version Control (DVC) foi utilizado para o armazenamento e versionamento dos dados no desenvolvimento dos modelos, o GitHub para o versionamento de código, o Weight and Biases para versionamento e obtenção de gráficos relacionados ao treinamento dos modelos, além dos dados utilizados em conjunto com as interfaces, a API da OpenAI para realizar os embeddings dos textos, e o Gradio, em conjunto com o Hugging Face, para construir e disponibilizar os modelos. Por fim, os resultados obtidos demonstram que a maioria dos modelos apresentam uma alta acurácia, entretanto, aquele que utiliza o algoritmo de XGBoost apresentou um melhor resultado, conseguindo classificar, com precisão, os textos em linguagem natural. Visto que a IA está em constante crescimento e surgem cada vez mais abordagens para um certo fim, a discussão sobre qual é a melhor, a partir de um dado contexto, é imprescindível.pt_BR
dc.identifier.citationOLIVEIRA, José Augusto Agripino de. Análise de modelos de processamento de linguagem natural para classificação de notícias da UFRN. 2025. 61 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal do Rio Grande do Norte, Natal, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/61713
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento de Engenharia de Computação e Automaçãopt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programEngenharia de Computaçãopt_BR
dc.subjectXGBoostpt_BR
dc.subjectK-Meanspt_BR
dc.subjectRedução de Dimensionalidadept_BR
dc.subjectDimensionality Reductionpt_BR
dc.subjectProcessamento de Linguagem Naturalpt_BR
dc.subjectNatural Language Processingpt_BR
dc.subjectClassificação de Textopt_BR
dc.subjectText Classificationpt_BR
dc.titleAnálise de modelos de processamento de linguagem natural para classificação de notícias da UFRNpt_BR
dc.title.alternativeAnalysis of natural language processing models for classifying news from UFRNpt_BR
dc.typebachelorThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
AnalisedeModelos_Oliveira_2025.pdf
Tamanho:
3.87 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.45 KB
Formato:
Item-specific license agreed upon to submission
Nenhuma Miniatura disponível
Baixar