Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica
dc.contributor.advisor | Silva, Ivanovitch | |
dc.contributor.advisorID | https://orcid.org/0000-0002-0116-6489 | |
dc.contributor.advisorLattes | http://lattes.cnpq.br/3608440944832201 | |
dc.contributor.author | Silva, Larissa Kelmer de Menezes | |
dc.contributor.authorID | https://orcid.org/0000-0002-7330-5089 | |
dc.contributor.authorLattes | http://lattes.cnpq.br/6109370782431913 | |
dc.contributor.referees1 | VIEGAS, Carlos Manuel Dias | |
dc.contributor.referees1ID | https://orcid.org/0000-0001-5061-7242 | |
dc.contributor.referees1Lattes | http://lattes.cnpq.br/3134700668982522 | |
dc.contributor.referees2 | SANTOS, Breno Santana | |
dc.contributor.referees2ID | https://orcid.org/0000-0002-8790-2546 | |
dc.contributor.referees2Lattes | http://lattes.cnpq.br/1477295656421537 | |
dc.contributor.referees3 | Silva, Ivanovitch | |
dc.contributor.referees3ID | https://orcid.org/0000-0002-0116-6489 | |
dc.contributor.referees3Lattes | http://lattes.cnpq.br/3608440944832201 | |
dc.date.accessioned | 2025-07-14T14:23:53Z | |
dc.date.available | 2025-07-14T14:23:53Z | |
dc.date.issued | 2025-07-07 | |
dc.description.abstract | This study presents an experimental evaluation of Agent Laboratory, a tool based on agents powered by Large Language Models (LLMs), specifically designed to support scientific research tasks in the field of machine learning. Four experiments were conducted across two thematic domains — Edge AI and Smart Cities — each explored under two different settings: a constrained one with detailed instructions and an open-ended one emphasizing creativity. Each experiment was structured into three phases: literature review, research planning, and execution with result interpretation. The agent’s output was evaluated using a human rubric grounded in established benchmarks such as LEADER, MT-Bench, and AgentEval, considering six dimensions: scientific relevance, originality, clarity, practical feasibility, fidelity to the literature, and thematic synthesis. The goal of this research is to assess the viability of LLM-based agents in assisting machine learning research workflows and to identify both their strengths and limitations in automating this process. The results indicate that the tool performs well in generating coherent and original research proposals, especially in guided scenarios. However, critical limitations were observed during implementation, including the unjustified substitution of models and datasets, failure to meet planned metrics, and lack of justification for technical choices. Literature reviews were often shallow and lacked transparency, while final reports frequently omitted key sections or overstated findings. Despite these issues, the tool demonstrated potential for automating early-stage components of the ML research workflow — particularly idea generation and structural planning. This work contributes a reproducible, benchmark-based methodology for evaluating LLM-guided research agents and underscores the ongoing need for human oversight to ensure scientific rigor and reliability. | |
dc.description.resumo | Este trabalho apresenta uma avaliação experimental do Agent Laboratory, uma ferramenta baseada em agentes orientados a Large Language Model (LLM), projetada para apoiar tarefas de pesquisa científica com aprendizado de máquina. Quatro experimentos foram conduzidos em dois domínios temáticos — Edge AI e Smart Cities — explorando dois cenários distintos: um restrito com instruções detalhadas e um aberto, priorizando a criatividade. Cada experimento foi decomposto em três fases: revisão da literatura, planejamento da pesquisa e execução com interpretação dos resultados. A avaliação da saída do agente foi realizada por meio de uma rubrica humana, baseada em benchmarks como LEADER, MT-Bench e AgentEval, considerando seis dimensões: relevância científica, originalidade, clareza, viabilidade prática, fidelidade à literatura e síntese temática. O objetivo dessa pesquisa é avaliar a viabilidade de agentes de LLM no auxílio à pesquisa científica e identificar os pontos de confiabilidade e as limitações no processo automatizado. A análise dos resultados indica que a ferramenta apresenta bom desempenho na estruturação de propostas de pesquisa coerentes e originais, particularmente em cenários guiados. No entanto, limitações críticas surgiram durante a implementação, incluindo a substituição de modelos e conjuntos de dados, falha em atender às métricas planejadas e a ausência de justificativas para escolhas técnicas. Notou-se que as revisões da literatura foram superficiais e careceram de transparência, e os relatórios finais frequentemente omitiram seções importantes ou superestimaram os resultados. Porém, apesar desses problemas, a ferramenta demonstrou potencial para automatizar partes do fluxo de trabalho científico — especialmente a ideação e a estruturação em estágio inicial. Este estudo contribui com uma metodologia reprodutível e baseada em benchmarking para avaliar agentes de pesquisa orientados por LLM e reforça a necessidade de supervisão humana para garantir o rigor metodológico e a confiabilidade científica. | |
dc.identifier.citation | SILVA, Larissa Kelmer de Menezes . Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica. 2025. 124 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2025. | |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/64314 | |
dc.language.iso | pt_BR | |
dc.publisher | Universidade Federal do Rio Grande do Norte | |
dc.publisher.country | Brazil | |
dc.publisher.department | Departamento de Computação e Automação | |
dc.publisher.initials | UFRN | |
dc.publisher.program | Engenharia da Computação | |
dc.rights | Attribution-ShareAlike 3.0 Brazil | en |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/br/ | |
dc.subject | Agentes de IA | |
dc.subject | Modelos de Linguagem | |
dc.subject | Pesquisa Automatizada | |
dc.subject | Avaliação de LLMs | |
dc.subject | Edge AI | |
dc.subject | Cidades Inteligentes | |
dc.subject.cnpq | OUTROS | |
dc.subject.cnpq | ENGENHARIAS | |
dc.title | Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica | |
dc.title.alternative | Experimental evaluation of the use of LLM-based agents as scientific research assistants | |
dc.type | bachelorThesis |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- tcc_larissa_kelmer
- Tamanho:
- 987.48 KB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.53 KB
- Formato:
- Item-specific license agreed upon to submission
Nenhuma Miniatura disponível