Uma metodologia para criação de grandes bases de voz para linguagens com recursos escassos, e inclusão social por conversão de sotaques para PT-BRal

dc.contributor.advisorAbreu, Marjory Cristiany da Costa
dc.contributor.advisorIDhttps://orcid.org/0000-0001-7461-7570pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/2234040548103596pt_BR
dc.contributor.authorLima, Thales Aguiar de
dc.contributor.authorLatteshttp://lattes.cnpq.br/1282015882147803pt_BR
dc.contributor.referees1Carvalho, Bruno Motta de
dc.contributor.referees1Latteshttp://lattes.cnpq.br/0330924133337698pt_BR
dc.contributor.referees2Maia, Silvia Maria Diniz Monteiro
dc.contributor.referees3Santin, Altair Olivo
dc.contributor.referees4Simplício Júnior, Marcos Antônio
dc.date.accessioned2023-06-19T21:31:02Z
dc.date.available2023-06-19T21:31:02Z
dc.date.issued2022-12-16
dc.description.abstractSpeech is a crucial part of our way to communicate as a species and combined with the evolution of instant messaging in voice format as well as automated chatbots, its importance has become even greater. While the majority of speech technologies have achieved high accuracy, they fail when tested for accents that deviate from the “standard” of a language. This becomes more concerning for languages that lack on datasets and have scarce literature, like Brazilian Portuguese. In a parallel development, artificial intelligence(AI)-based tools are an accepted increasingly present in people’s lives, even if not always noticeable. The use of and “standard accent” combined with the advancement of AI in speech systems and the lack of resources for PT-BR, have inspired the three objectives of this work. Thus, this thesis proposes to explore new ways for Accent Conversion for this language, adapting existing models, which must convert from Paulistano to Nordestino. The second is to provide an acoustic analysis of Brazilian Portuguese accents, covering a wide area of the national territory, finding and formalising possible differences between them. Finally, to collect and release a speech dataset for Brazilian Portuguese. With a method that explores the availability of data and information in video platforms, the method automatically downloads the videos from TEDx Talks. Those short presentations are a source of reliable and clean audio with human and automatically generated transcriptions.pt_BR
dc.description.resumoA voz é parte crucial na nossa forma de comunicação como uma espécie e combinada com a constante evolução das mensagens instantâneas no formato de voz, assim como os chatbots, sua importância se torna ainda maior. Enquanto a maioria das tecnologias de voz alcançaram altos valores de acurácia, eles falham quando testados em sotaques que desviam do “padrão” de uma linguagem. Isso se torna ainda mais preocupante para linguagens que possuem poucos dados e uma pesquisa escassa, como o Português Brasileiro. Em paralelo, o desenvolvimento de ferramentas baseadas em Inteligência Artificial são cada vez mais aceitos e estão mais presentes nas nossas vidas, mesmo que nem sempre sejam notados. O uso de um sotaque “padrão” combinado com o avanço da Inteligência Artificial para sistemas baseados em voz, além da insuficiência de dados para o Português Brasileiro inspiraram os três objetivos desse trabalho. Portanto, propomos explorar novas formas de Conversão de Sotaques para o Português Brasileiro ao adaptar modelos para converter do sotaque paulistano para o nordestino. O segundo é realizar uma análise acústica dos sotaques, de forma abrangente cobrindo o território nacional, encontrando e formalizando possíveis diferenças entre eles. Finalmente, propomos coletar e disponibilizar uma base de dados em voz para o Português Brasileiro. A partir de um método que explora a disponibilidade de dados e informações em plataformas de vídeo, a base faz o download automático de vídeos do TEDx Talks. Essas pequenas apresentações são uma fonte confiável e limpa de dados as quais possuem transcrições automaticamente geradas e humanaspt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.identifier.citationLIMA, Thales Aguiar de. A methodology to create large speech datasets for lowresource languages, and improving social equity by accent conversion for PT-BR. Orientador: Márjory Cristiany da Costa Abreu. 2022. 86f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2022.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/52764
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectComputaçãopt_BR
dc.subjectBiometria por vozpt_BR
dc.subjectInclusão de sotaquespt_BR
dc.subjectPortuguês brasileiropt_BR
dc.subjectCorpuspt_BR
dc.subjectBase de dadospt_BR
dc.subjectMachine learningpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.titleUma metodologia para criação de grandes bases de voz para linguagens com recursos escassos, e inclusão social por conversão de sotaques para PT-BRalpt_BR
dc.title.alternativeA methodology to create large speech datasets for lowresource languages, and improving social equity by accent conversion for PT-BRpt_BR
dc.typedoctoralThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Methodologycreatelarge_Lima_2022.pdf
Tamanho:
4.76 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar