• Flickr Governo de São Paulo
  • Linkedin Governo de São Paulo
  • TikTok Governo de São Paulo
  • Twitter Governo de São Paulo
  • Youtube Governo de São Paulo
  • Instagram Governo de São Paulo
  • Facebook Governo de São Paulo
  • /governosp

Identificação de autoria de contos usando técnicas de processamento de linguagem natural

dc.contributor.advisorDEZANI, Henrique
dc.contributor.authorGARCIA, Igor Brito dos Santos
dc.contributor.authorRAMOS, Pâmela Coca dos Santos
dc.contributor.otherSIMONATO, Adriano Luís
dc.contributor.otherRIBEIRO, Matheus Gonçalves
dc.date.accessioned2024-06-12T18:33:51Z
dc.date.available2024-06-12T18:33:51Z
dc.date.issued2023-11-28
dc.description.abstractEste artigo apresenta o estudo do processamento de linguagem natural para a identificação de autoria em contos de Márcia Denser e Sônia Coutinho. O trabalho de diferenciação de autoria por meio da NLP se faz relevante por fazer parte da área de Digital Humanities e por se tratar do estudo da NLP aplicada em textos literários e em português. Para a sua realização, foram digitalizados os contos das autoras e construído um dataset com os contos divididos em parágrafos. Após isso, os dados foram pré-processados e usados para a treino de um modelo rede neural convolucional – nesta etapa o treino foi realizado com 80% dos parágrafos. Após o treino, analisou-se a acurácia da identificação de autoria com o modelo apresentado e comparou-se estes resultados com a acurácia da identificação realizada por meio do ChatGPT, que também foi treinado com os parágrafos presentes no dataset na mesma proporção em que a rede foi treinada. Com base nessa comparação, pode-se concluir que, para a identificação de autoria com o dataset escolhido, a rede convolucional tem um melhor desempenho do que o ChatGPT.pt_BR
dc.description.abstractThis paper aims the study of natural language processing for authorship identification in short stories of the Brazilian authors Márcia Denser and Sônia Coutinho. The authorship identification done through NLP techniques is relevant because is part of the Digital Humanities field and, in this paper, because it studies NLP applied to literary texts in Brazilian Portuguese. To use NLP in such texts, the published short stories of the authors were digitalized and divided into paragraphs, and a dataset was built with the result of this process. After this step, the data was preprocessed and used to train a convolutional neural network – using 80% of the paragraphs. Then, after the training, the accuracy of the identification was analyzed and its results were compared to the accuracy obtained through the identification done using ChatGPT, also trained using the same proportions used in the CNN training. Based on this comparison, this paper arrives at the conclusion that the CNN presents a better performs better than ChatGPT in the authorship identification of the dataset used for the tests.pt_BR
dc.description.sponsorshipCurso Superior de Tecnologia em Informática para Negóciospt_BR
dc.identifier.citationGARCIA, Igor Brito dos Santos; RAMOS, Pâmela Coca dos Santos. Identificação de autoria de contos usando técnicas de processamento de linguagem natural. 2023. Trabalho de Conclusão de Curso (Curso Superior de Tecnologia em Informática para Negócios) – Faculdade de Tecnologia de São José do Rio Preto, São José do Rio Preto, 2023.pt_BR
dc.identifier.urihttps://ric.cps.sp.gov.br/handle/123456789/19745
dc.language.isopt_BRpt_BR
dc.publisher121pt_BR
dc.subjectProcessamento de dadospt_BR
dc.subjectProcessamento de textopt_BR
dc.subjectAutorpt_BR
dc.subject.otherInformação e Comunicaçãopt_BR
dc.titleIdentificação de autoria de contos usando técnicas de processamento de linguagem naturalpt_BR
dc.title.alternativeShort story authorship identification using natural language processing techniquespt_BR
dc.typeArtigo científicopt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
informaticanegocios_2023_2_igorbritodossantosgarcia_identificacaodeautoriadecontosusandotecnica.pdf
Tamanho:
1.67 MB
Formato:
Adobe Portable Document Format
Descrição:

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
365 B
Formato:
Item-specific license agreed upon to submission
Descrição:
Governo do Estado de SP