Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica

Silva, Larissa Kelmer de Menezes

Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica

Página do item simplificado Estatísticas

dc.contributor.advisor	Silva, Ivanovitch
dc.contributor.advisorID	https://orcid.org/0000-0002-0116-6489
dc.contributor.advisorLattes	http://lattes.cnpq.br/3608440944832201
dc.contributor.author	Silva, Larissa Kelmer de Menezes
dc.contributor.authorID	https://orcid.org/0000-0002-7330-5089
dc.contributor.authorLattes	http://lattes.cnpq.br/6109370782431913
dc.contributor.referees1	VIEGAS, Carlos Manuel Dias
dc.contributor.referees1ID	https://orcid.org/0000-0001-5061-7242
dc.contributor.referees1Lattes	http://lattes.cnpq.br/3134700668982522
dc.contributor.referees2	SANTOS, Breno Santana
dc.contributor.referees2ID	https://orcid.org/0000-0002-8790-2546
dc.contributor.referees2Lattes	http://lattes.cnpq.br/1477295656421537
dc.contributor.referees3	Silva, Ivanovitch
dc.contributor.referees3ID	https://orcid.org/0000-0002-0116-6489
dc.contributor.referees3Lattes	http://lattes.cnpq.br/3608440944832201
dc.date.accessioned	2025-07-14T14:23:53Z
dc.date.available	2025-07-14T14:23:53Z
dc.date.issued	2025-07-07
dc.description.abstract	This study presents an experimental evaluation of Agent Laboratory, a tool based on agents powered by Large Language Models (LLMs), specifically designed to support scientific research tasks in the field of machine learning. Four experiments were conducted across two thematic domains — Edge AI and Smart Cities — each explored under two different settings: a constrained one with detailed instructions and an open-ended one emphasizing creativity. Each experiment was structured into three phases: literature review, research planning, and execution with result interpretation. The agent’s output was evaluated using a human rubric grounded in established benchmarks such as LEADER, MT-Bench, and AgentEval, considering six dimensions: scientific relevance, originality, clarity, practical feasibility, fidelity to the literature, and thematic synthesis. The goal of this research is to assess the viability of LLM-based agents in assisting machine learning research workflows and to identify both their strengths and limitations in automating this process. The results indicate that the tool performs well in generating coherent and original research proposals, especially in guided scenarios. However, critical limitations were observed during implementation, including the unjustified substitution of models and datasets, failure to meet planned metrics, and lack of justification for technical choices. Literature reviews were often shallow and lacked transparency, while final reports frequently omitted key sections or overstated findings. Despite these issues, the tool demonstrated potential for automating early-stage components of the ML research workflow — particularly idea generation and structural planning. This work contributes a reproducible, benchmark-based methodology for evaluating LLM-guided research agents and underscores the ongoing need for human oversight to ensure scientific rigor and reliability.
dc.description.resumo	Este trabalho apresenta uma avaliação experimental do Agent Laboratory, uma ferramenta baseada em agentes orientados a Large Language Model (LLM), projetada para apoiar tarefas de pesquisa científica com aprendizado de máquina. Quatro experimentos foram conduzidos em dois domínios temáticos — Edge AI e Smart Cities — explorando dois cenários distintos: um restrito com instruções detalhadas e um aberto, priorizando a criatividade. Cada experimento foi decomposto em três fases: revisão da literatura, planejamento da pesquisa e execução com interpretação dos resultados. A avaliação da saída do agente foi realizada por meio de uma rubrica humana, baseada em benchmarks como LEADER, MT-Bench e AgentEval, considerando seis dimensões: relevância científica, originalidade, clareza, viabilidade prática, fidelidade à literatura e síntese temática. O objetivo dessa pesquisa é avaliar a viabilidade de agentes de LLM no auxílio à pesquisa científica e identificar os pontos de confiabilidade e as limitações no processo automatizado. A análise dos resultados indica que a ferramenta apresenta bom desempenho na estruturação de propostas de pesquisa coerentes e originais, particularmente em cenários guiados. No entanto, limitações críticas surgiram durante a implementação, incluindo a substituição de modelos e conjuntos de dados, falha em atender às métricas planejadas e a ausência de justificativas para escolhas técnicas. Notou-se que as revisões da literatura foram superficiais e careceram de transparência, e os relatórios finais frequentemente omitiram seções importantes ou superestimaram os resultados. Porém, apesar desses problemas, a ferramenta demonstrou potencial para automatizar partes do fluxo de trabalho científico — especialmente a ideação e a estruturação em estágio inicial. Este estudo contribui com uma metodologia reprodutível e baseada em benchmarking para avaliar agentes de pesquisa orientados por LLM e reforça a necessidade de supervisão humana para garantir o rigor metodológico e a confiabilidade científica.
dc.identifier.citation	SILVA, Larissa Kelmer de Menezes . Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica. 2025. 124 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2025.
dc.identifier.uri	https://repositorio.ufrn.br/handle/123456789/64314
dc.language.iso	pt_BR
dc.publisher	Universidade Federal do Rio Grande do Norte
dc.publisher.country	Brazil
dc.publisher.department	Departamento de Computação e Automação
dc.publisher.initials	UFRN
dc.publisher.program	Engenharia da Computação
dc.rights	Attribution-ShareAlike 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by-sa/3.0/br/
dc.subject	Agentes de IA
dc.subject	Modelos de Linguagem
dc.subject	Pesquisa Automatizada
dc.subject	Avaliação de LLMs
dc.subject	Edge AI
dc.subject	Cidades Inteligentes
dc.subject.cnpq	OUTROS
dc.subject.cnpq	ENGENHARIAS
dc.title	Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica
dc.title.alternative	Experimental evaluation of the use of LLM-based agents as scientific research assistants
dc.type	bachelorThesis

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: tcc_larissa_kelmer
Tamanho:: 987.48 KB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.53 KB
Formato:: Item-specific license agreed upon to submission

Baixar

Coleções

CT - TCC - Engenharia de Computação

SIGAA

Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica

Arquivos

Pacote Original

Licença do Pacote

Coleções