Inteligência Artificial chinesa interpreta textos em 50 línguas e é compatível com dispositivos móveis

Definição: Um novo software de inteligência artificial desenvolvido na China, chamado PaddleOCR, lançou recentemente uma versão atualizada que possui a capacidade de “ler” textos em imagens em 50 idiomas distintos. A tecnologia de Reconhecimento Óptico de Caracteres (OCR) permite a conversão de fotos de documentos, placas ou telas em texto editável no computador. O novo modelo é denominado PP-OCRv6 e está disponível em três tamanhos diferentes, podendo ser utilizado desde celulares até grandes servidores.

A introdução do PP-OCRv6 eleva o padrão do ecossistema de reconhecimento óptico de caracteres, representando a mais nova geração dos modelos universais da série PaddleOCR. Este lançamento foi projetado para funcionar em situações do mundo real, incluindo documentos, capturas de tela, imagens multilíngues, displays digitais e etiquetas industriais. O que se destaca nesse modelo é a impressionante combinação entre alta precisão e eficiência computacional, com variações que possuem entre 1,5 milhão e 34,5 milhões de parâmetros.

A nova estrutura do modelo, que foi detalhada em um artigo técnico publicado no blog da Hugging Face, apresenta um avanço notável em comparação à sua versão anterior. Nos testes internos realizados pelo PaddleOCR, a versão média do PP-OCRv6 obteve 86,2% de precisão na detecção de texto e 83,2% na acurácia do reconhecimento — isso representa uma melhoria de 4,6 pontos percentuais na detecção e 5,1 pontos percentuais no reconhecimento quando comparado ao PP-OCRv5_server.

A relevância do PP-OCRv6 reside na sua abordagem multilíngue integrada. As versões pequena e média suportam 50 idiomas diferentes, abrangendo chinês simplificado e tradicional, inglês, japonês além de 46 línguas com escrita latina. Isso elimina a necessidade de manter modelos separados para cada idioma nas aplicações que requerem processamento internacional de texto.

O núcleo da arquitetura utiliza o PPLCNetV4 como backbone unificado para as funções de detecção e reconhecimento textual. Para a fase de detecção, os engenheiros implementaram o RepLKFPN — uma rede piramidal leve otimizada para identificar textos em escalas variadas. Essa tecnologia é capaz de lidar com caracteres pequenos e densos ou textos rotacionados que estão inseridos em fundos complexos sem comprometer a eficiência da inferência.

No módulo responsável pelo reconhecimento, o EncoderWithLightSVTR combina modelagem contextual local com atenção global, aumentando a qualidade do reconhecimento mesmo em recortes desafiadores. Esse aprimoramento é crucial para textos multilíngues e caracteres industriais ou símbolos especiais presentes em áreas ruidosas das imagens — situações frequentes nos sistemas empresariais voltados à digitalização documental e automação de processos.

A flexibilidade na implementação é outro aspecto importante dessa nova versão. O PP-OCRv6 pode operar com diversos backends por meio da interface unificada do PaddleOCR 3.7. Isso inclui o motor nativo Paddle Inference, o ONNX Runtime e um backend baseado em Transformers especificamente para usuários do ecossistema Hugging Face. Para utilizá-lo, basta instalar o pacote utilizando pip install paddleocr e alternar o parâmetro engine entre paddle, onnxruntime ou transformers, conforme as exigências do ambiente produtivo.

Os resultados gerados pelo OCR podem ser salvos tanto como imagens para visualização quanto como arquivos JSON estruturados. Isso facilita a integração com sistemas downstream como análise documental, motores de busca e plataformas analíticas. Essa padronização na saída dos dados reduz significativamente o tempo necessário para equipes que precisam transformar documentos escaneados em informações acionáveis.

A comunidade do software livre acolhe o PP-OCRv6 com uma variedade de formatos disponíveis no Hugging Face Hub, incluindo safetensors e modelos ONNX. O pacote também disponibiliza uma demonstração online interativa e documentação abrangente para uma rápida avaliação e integração — apresentando-se como uma ferramenta robusta, leve e adequada para projetos envolvendo digitalização patrimonial ou automação administrativa.

Fonte: HUGGINGFACE.