Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica

dc.contributor.advisorSilva, Ivanovitch
dc.contributor.advisorIDhttps://orcid.org/0000-0002-0116-6489
dc.contributor.advisorLatteshttp://lattes.cnpq.br/3608440944832201
dc.contributor.authorSilva, Larissa Kelmer de Menezes
dc.contributor.authorIDhttps://orcid.org/0000-0002-7330-5089
dc.contributor.authorLatteshttp://lattes.cnpq.br/6109370782431913
dc.contributor.referees1VIEGAS, Carlos Manuel Dias
dc.contributor.referees1IDhttps://orcid.org/0000-0001-5061-7242
dc.contributor.referees1Latteshttp://lattes.cnpq.br/3134700668982522
dc.contributor.referees2SANTOS, Breno Santana
dc.contributor.referees2IDhttps://orcid.org/0000-0002-8790-2546
dc.contributor.referees2Latteshttp://lattes.cnpq.br/1477295656421537
dc.contributor.referees3Silva, Ivanovitch
dc.contributor.referees3IDhttps://orcid.org/0000-0002-0116-6489
dc.contributor.referees3Latteshttp://lattes.cnpq.br/3608440944832201
dc.date.accessioned2025-07-14T14:23:53Z
dc.date.available2025-07-14T14:23:53Z
dc.date.issued2025-07-07
dc.description.abstractThis study presents an experimental evaluation of Agent Laboratory, a tool based on agents powered by Large Language Models (LLMs), specifically designed to support scientific research tasks in the field of machine learning. Four experiments were conducted across two thematic domains — Edge AI and Smart Cities — each explored under two different settings: a constrained one with detailed instructions and an open-ended one emphasizing creativity. Each experiment was structured into three phases: literature review, research planning, and execution with result interpretation. The agent’s output was evaluated using a human rubric grounded in established benchmarks such as LEADER, MT-Bench, and AgentEval, considering six dimensions: scientific relevance, originality, clarity, practical feasibility, fidelity to the literature, and thematic synthesis. The goal of this research is to assess the viability of LLM-based agents in assisting machine learning research workflows and to identify both their strengths and limitations in automating this process. The results indicate that the tool performs well in generating coherent and original research proposals, especially in guided scenarios. However, critical limitations were observed during implementation, including the unjustified substitution of models and datasets, failure to meet planned metrics, and lack of justification for technical choices. Literature reviews were often shallow and lacked transparency, while final reports frequently omitted key sections or overstated findings. Despite these issues, the tool demonstrated potential for automating early-stage components of the ML research workflow — particularly idea generation and structural planning. This work contributes a reproducible, benchmark-based methodology for evaluating LLM-guided research agents and underscores the ongoing need for human oversight to ensure scientific rigor and reliability.
dc.description.resumoEste trabalho apresenta uma avaliação experimental do Agent Laboratory, uma ferramenta baseada em agentes orientados a Large Language Model (LLM), projetada para apoiar tarefas de pesquisa científica com aprendizado de máquina. Quatro experimentos foram conduzidos em dois domínios temáticos — Edge AI e Smart Cities — explorando dois cenários distintos: um restrito com instruções detalhadas e um aberto, priorizando a criatividade. Cada experimento foi decomposto em três fases: revisão da literatura, planejamento da pesquisa e execução com interpretação dos resultados. A avaliação da saída do agente foi realizada por meio de uma rubrica humana, baseada em benchmarks como LEADER, MT-Bench e AgentEval, considerando seis dimensões: relevância científica, originalidade, clareza, viabilidade prática, fidelidade à literatura e síntese temática. O objetivo dessa pesquisa é avaliar a viabilidade de agentes de LLM no auxílio à pesquisa científica e identificar os pontos de confiabilidade e as limitações no processo automatizado. A análise dos resultados indica que a ferramenta apresenta bom desempenho na estruturação de propostas de pesquisa coerentes e originais, particularmente em cenários guiados. No entanto, limitações críticas surgiram durante a implementação, incluindo a substituição de modelos e conjuntos de dados, falha em atender às métricas planejadas e a ausência de justificativas para escolhas técnicas. Notou-se que as revisões da literatura foram superficiais e careceram de transparência, e os relatórios finais frequentemente omitiram seções importantes ou superestimaram os resultados. Porém, apesar desses problemas, a ferramenta demonstrou potencial para automatizar partes do fluxo de trabalho científico — especialmente a ideação e a estruturação em estágio inicial. Este estudo contribui com uma metodologia reprodutível e baseada em benchmarking para avaliar agentes de pesquisa orientados por LLM e reforça a necessidade de supervisão humana para garantir o rigor metodológico e a confiabilidade científica.
dc.identifier.citationSILVA, Larissa Kelmer de Menezes . Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica. 2025. 124 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2025.
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/64314
dc.language.isopt_BR
dc.publisherUniversidade Federal do Rio Grande do Norte
dc.publisher.countryBrazil
dc.publisher.departmentDepartamento de Computação e Automação
dc.publisher.initialsUFRN
dc.publisher.programEngenharia da Computação
dc.rightsAttribution-ShareAlike 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-sa/3.0/br/
dc.subjectAgentes de IA
dc.subjectModelos de Linguagem
dc.subjectPesquisa Automatizada
dc.subjectAvaliação de LLMs
dc.subjectEdge AI
dc.subjectCidades Inteligentes
dc.subject.cnpqOUTROS
dc.subject.cnpqENGENHARIAS
dc.titleAvaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica
dc.title.alternativeExperimental evaluation of the use of LLM-based agents as scientific research assistants
dc.typebachelorThesis

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
tcc_larissa_kelmer
Tamanho:
987.48 KB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.53 KB
Formato:
Item-specific license agreed upon to submission
Nenhuma Miniatura disponível
Baixar