• Flickr Governo de São Paulo
  • Linkedin Governo de São Paulo
  • TikTok Governo de São Paulo
  • Twitter Governo de São Paulo
  • Youtube Governo de São Paulo
  • Instagram Governo de São Paulo
  • Facebook Governo de São Paulo
  • /governosp

Visão computacional: abordagem prática de modelo para construção de detector de linguagem libras utilizando IA

Resumo

Este artigo apresenta uma aplicação prática da Visão Computacional voltada à tradução da Língua Brasileira de Sinais (LIBRAS) para a Língua Portuguesa. O projeto foi desenvolvido em Python utilizando o Google Colab, com o apoio das bibliotecas OpenCV e Caffe. A proposta consiste em implementar um sistema capaz de identificar gestos estáticos de LIBRAS por meio da extração dos pontos-chave da mão (keypoints) utilizando um modelo de rede neural convolucional treinado com base na arquitetura do OpenPose e na base de dados COCO. Após a identificação dos keypoints, o sistema aplica regras heurísticas para interpretar altura, curvatura e proximidade dos dedos, inferindo a letra correspondente por comparação com vetores semânticos previamente definidos. Foram realizados testes com dois grupos de imagens: um de referência (alta qualidade) e outro produzido por estudantes, com resultados significativamente distintos (65,51% e 6,97% de acurácia, respectivamente). Os achados revelam a efetividade do modelo para dados padronizados, mas também destacam a necessidade de melhorias no reconhecimento de sinais feitos por usuários leigos. A pesquisa evidencia o potencial da Visão Computacional como ferramenta inclusiva, contribuindo para o avanço de tecnologias voltadas à acessibilidade comunicacional das pessoas surdas. O estudo reforça a importância de bases de dados diversificadas e da incorporação de técnicas de aprendizado por transferência e análise temporal para aprimorar o desempenho em ambientes reais.
This paper presents a practical application of Computer Vision aimed at translating the Brazilian Sign Language (LIBRAS) alphabet into the Portuguese alphabet. The project was developed in Python using Google Colab, with support from the OpenCV and Caffe libraries. The proposal consists of implementing a system capable of identifying static LIBRAS gestures through the extraction of hand keypoints using a convolutional neural network (CNN) model trained based on the OpenPose architecture and the COCO dataset. After keypoint detection, the system applies heuristic rules to interpret finger height, curvature, and proximity, inferring the corresponding letter by comparing the extracted pattern with predefined semantic vectors. Two image groups were tested: one with high-quality reference data and another produced by students, showing significantly different results (65.51% and 6.97% accuracy, respectively). The findings reveal the model’s effectiveness with standardized data but also highlight the need for improvements in recognizing signs performed by untrained users. The study demonstrates the potential of Computer Vision as an inclusive tool, contributing to the development of technologies that enhance communication accessibility for the deaf community. It reinforces the importance of diverse training datasets and the incorporation of transfer learning and temporal analysis techniques to improve performance in real-world scenarios.

Descrição

Artigo apresentado na VII Jornada Acadêmica, Científica e Tecnológica, 2025, Jales-SP.

Citação

PERDIGOTO, B. A.; NAVARRO, É.; PASSERINI, J. A. R. Visão computacional: abordagem prática de modelo para construção de detector de linguagem libras utilizando IA. 2025. Artigo de Graduação (Tecnologia em Sistemas para Internet) – Faculdade de Tecnologia Prof. José Camargo, Jales, 2025.

Avaliação

Revisão

Suplementado Por

Referenciado Por

Governo do Estado de SP