Análise de modelos de processamento de linguagem natural para classificação de notícias da UFRN
dc.contributor.advisor | Silva, Ivanovitch Medeiros Dantas da | |
dc.contributor.advisorLattes | http://lattes.cnpq.br/3608440944832201 | pt_BR |
dc.contributor.author | Oliveira, José Augusto Agripino de | |
dc.contributor.authorLattes | https://lattes.cnpq.br/3441954136559410 | pt_BR |
dc.contributor.referees1 | Viegas, Carlos Manuel Dias | |
dc.contributor.referees1Lattes | http://lattes.cnpq.br/3134700668982522 | pt_BR |
dc.contributor.referees2 | Gendriz, Ignacio Sánchez | |
dc.contributor.referees2Lattes | http://lattes.cnpq.br/6338710569530857 | pt_BR |
dc.date.accessioned | 2025-01-23T11:09:22Z | |
dc.date.available | 2025-01-23T11:09:22Z | |
dc.date.issued | 2025-01-17 | |
dc.description.abstract | Artificial Intelligence (AI) is transforming various sectors, reshaping what we understand as “technology” on a daily basis. Its application in natural language analysis is of utmost importance, with this field evolving exponentially every day. In this developmental context, this work aims to analyze and compare different approaches to Natural Language Processing (NLP) and text classification applied to the news found on the website of the Federal University of Rio Grande do Norte (UFRN). The classification is performed among the themes of “sciences,” “events,” “job openings,” and “announcements,” while also providing interfaces with the best models. The adopted methodology encompasses everything from the choice of technologies to the implementation of interfaces. In this sense, Data Version Control (DVC) was used for data storage and versioning during the development of the models, GitHub for code versioning, Weight and Biases for versioning and generating graphs related to model training, the data used alongside the interfaces, OpenAI’s API for embedding the texts, and Gradio, in conjunction with Hugging Face, to build and deploy the models. Finally, the results show that most models achieved high accuracy; however, the one utilizing the XGBoost algorithm delivered the best performance, successfully classifying natural language texts with precision. Considering that AI is continuously growing and new approaches are constantly emerging, the discussion on which is the best approach for a given context is indispensable. | pt_BR |
dc.description.resumo | A Inteligência Artificial (IA) está transformando diversos setores, remodelando diariamente o que entendemos por “tecnologia”. Sua aplicação na análise da linguagem natural é de suma importância, com essa área se desenvolvendo exponencialmente todos os dias. Neste contexto de desenvolvimento, este trabalho tem por objetivo analisar e comparar diferentes abordagens para o Processamento de Linguagem Natural (PLN) e classificação de texto aplicadas às notícias encontradas no site da Universidade Federal do Rio Grande do Norte (UFRN), classificando-as entre os temas de “ciências”, “eventos”, “vagas” e “informes”, além de disponibilizar interfaces com os melhores modelos. A metodologia adotada abrange desde a escolha das tecnologias até a implementação das interfaces. Nesse sentido, o Data Version Control (DVC) foi utilizado para o armazenamento e versionamento dos dados no desenvolvimento dos modelos, o GitHub para o versionamento de código, o Weight and Biases para versionamento e obtenção de gráficos relacionados ao treinamento dos modelos, além dos dados utilizados em conjunto com as interfaces, a API da OpenAI para realizar os embeddings dos textos, e o Gradio, em conjunto com o Hugging Face, para construir e disponibilizar os modelos. Por fim, os resultados obtidos demonstram que a maioria dos modelos apresentam uma alta acurácia, entretanto, aquele que utiliza o algoritmo de XGBoost apresentou um melhor resultado, conseguindo classificar, com precisão, os textos em linguagem natural. Visto que a IA está em constante crescimento e surgem cada vez mais abordagens para um certo fim, a discussão sobre qual é a melhor, a partir de um dado contexto, é imprescindível. | pt_BR |
dc.identifier.citation | OLIVEIRA, José Augusto Agripino de. Análise de modelos de processamento de linguagem natural para classificação de notícias da UFRN. 2025. 61 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal do Rio Grande do Norte, Natal, 2025. | pt_BR |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/61713 | |
dc.language | pt_BR | pt_BR |
dc.publisher | Universidade Federal do Rio Grande do Norte | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Departamento de Engenharia de Computação e Automação | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.publisher.program | Engenharia de Computação | pt_BR |
dc.subject | XGBoost | pt_BR |
dc.subject | K-Means | pt_BR |
dc.subject | Redução de Dimensionalidade | pt_BR |
dc.subject | Dimensionality Reduction | pt_BR |
dc.subject | Processamento de Linguagem Natural | pt_BR |
dc.subject | Natural Language Processing | pt_BR |
dc.subject | Classificação de Texto | pt_BR |
dc.subject | Text Classification | pt_BR |
dc.title | Análise de modelos de processamento de linguagem natural para classificação de notícias da UFRN | pt_BR |
dc.title.alternative | Analysis of natural language processing models for classifying news from UFRN | pt_BR |
dc.type | bachelorThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- AnalisedeModelos_Oliveira_2025.pdf
- Tamanho:
- 3.87 MB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.45 KB
- Formato:
- Item-specific license agreed upon to submission
Nenhuma Miniatura disponível