Uma metodologia para criação de grandes bases de voz para linguagens com recursos escassos, e inclusão social por conversão de sotaques para PT-BRal
dc.contributor.advisor | Abreu, Marjory Cristiany da Costa | |
dc.contributor.advisorID | https://orcid.org/0000-0001-7461-7570 | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/2234040548103596 | pt_BR |
dc.contributor.author | Lima, Thales Aguiar de | |
dc.contributor.authorLattes | http://lattes.cnpq.br/1282015882147803 | pt_BR |
dc.contributor.referees1 | Carvalho, Bruno Motta de | |
dc.contributor.referees1Lattes | http://lattes.cnpq.br/0330924133337698 | pt_BR |
dc.contributor.referees2 | Maia, Silvia Maria Diniz Monteiro | |
dc.contributor.referees3 | Santin, Altair Olivo | |
dc.contributor.referees4 | Simplício Júnior, Marcos Antônio | |
dc.date.accessioned | 2023-06-19T21:31:02Z | |
dc.date.available | 2023-06-19T21:31:02Z | |
dc.date.issued | 2022-12-16 | |
dc.description.abstract | Speech is a crucial part of our way to communicate as a species and combined with the evolution of instant messaging in voice format as well as automated chatbots, its importance has become even greater. While the majority of speech technologies have achieved high accuracy, they fail when tested for accents that deviate from the “standard” of a language. This becomes more concerning for languages that lack on datasets and have scarce literature, like Brazilian Portuguese. In a parallel development, artificial intelligence(AI)-based tools are an accepted increasingly present in people’s lives, even if not always noticeable. The use of and “standard accent” combined with the advancement of AI in speech systems and the lack of resources for PT-BR, have inspired the three objectives of this work. Thus, this thesis proposes to explore new ways for Accent Conversion for this language, adapting existing models, which must convert from Paulistano to Nordestino. The second is to provide an acoustic analysis of Brazilian Portuguese accents, covering a wide area of the national territory, finding and formalising possible differences between them. Finally, to collect and release a speech dataset for Brazilian Portuguese. With a method that explores the availability of data and information in video platforms, the method automatically downloads the videos from TEDx Talks. Those short presentations are a source of reliable and clean audio with human and automatically generated transcriptions. | pt_BR |
dc.description.resumo | A voz é parte crucial na nossa forma de comunicação como uma espécie e combinada com a constante evolução das mensagens instantâneas no formato de voz, assim como os chatbots, sua importância se torna ainda maior. Enquanto a maioria das tecnologias de voz alcançaram altos valores de acurácia, eles falham quando testados em sotaques que desviam do “padrão” de uma linguagem. Isso se torna ainda mais preocupante para linguagens que possuem poucos dados e uma pesquisa escassa, como o Português Brasileiro. Em paralelo, o desenvolvimento de ferramentas baseadas em Inteligência Artificial são cada vez mais aceitos e estão mais presentes nas nossas vidas, mesmo que nem sempre sejam notados. O uso de um sotaque “padrão” combinado com o avanço da Inteligência Artificial para sistemas baseados em voz, além da insuficiência de dados para o Português Brasileiro inspiraram os três objetivos desse trabalho. Portanto, propomos explorar novas formas de Conversão de Sotaques para o Português Brasileiro ao adaptar modelos para converter do sotaque paulistano para o nordestino. O segundo é realizar uma análise acústica dos sotaques, de forma abrangente cobrindo o território nacional, encontrando e formalizando possíveis diferenças entre eles. Finalmente, propomos coletar e disponibilizar uma base de dados em voz para o Português Brasileiro. A partir de um método que explora a disponibilidade de dados e informações em plataformas de vídeo, a base faz o download automático de vídeos do TEDx Talks. Essas pequenas apresentações são uma fonte confiável e limpa de dados as quais possuem transcrições automaticamente geradas e humanas | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | pt_BR |
dc.identifier.citation | LIMA, Thales Aguiar de. A methodology to create large speech datasets for lowresource languages, and improving social equity by accent conversion for PT-BR. Orientador: Márjory Cristiany da Costa Abreu. 2022. 86f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2022. | pt_BR |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/52764 | |
dc.language | pt_BR | pt_BR |
dc.publisher | Universidade Federal do Rio Grande do Norte | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.publisher.program | PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Computação | pt_BR |
dc.subject | Biometria por voz | pt_BR |
dc.subject | Inclusão de sotaques | pt_BR |
dc.subject | Português brasileiro | pt_BR |
dc.subject | Corpus | pt_BR |
dc.subject | Base de dados | pt_BR |
dc.subject | Machine learning | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO | pt_BR |
dc.title | Uma metodologia para criação de grandes bases de voz para linguagens com recursos escassos, e inclusão social por conversão de sotaques para PT-BRal | pt_BR |
dc.title.alternative | A methodology to create large speech datasets for lowresource languages, and improving social equity by accent conversion for PT-BR | pt_BR |
dc.type | doctoralThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Methodologycreatelarge_Lima_2022.pdf
- Tamanho:
- 4.76 MB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível