Como digitalizar e extrair texto de uma imagem com OCR?

Um portátil branco aberto numa secretária a ser utilizado para obter texto de uma imagem com OCR.

Precisa de extrair texto de uma imagem com OCR? Saiba como utilizar a tecnologia de OCR para converter texto de ficheiros de imagem em documentos PDF editáveis.

É possível digitalizar documentos em vários formatos, incluindo imagens. Os ficheiros de imagem são fáceis de partilhar e úteis em muitas situações. No entanto, extrair texto de uma imagem é um desafio, mas não é uma missão impossível.

Felizmente, é possível converter uma imagem num ficheiro de texto editável sem ter de reescrever todo o documento. Saiba como pode utilizar a tecnologia de OCR como um leitor de imagens.

O que é a tecnologia de OCR?

OCR é a sigla de Optical Character Recognition e consiste numa tecnologia de reconhecimento ótico de carateres que permite digitalizar ficheiros não editáveis, identificar os elementos de texto numa página e utilizar esses dados para criar um ficheiro de texto editável, como um ficheiro PDF. O OCR pode operar de duas formas distintas.

Algumas soluções de software de edição de PDF conseguem ler ficheiros de imagem e reconhecer as formas dos carateres para depois reconstruir a imagem como um ficheiro PDF. Idealmente, pode até conseguir identificar e reproduzir o tipo de letra original.

Alguns digitalizadores conseguem ler texto de documentos físicos e convertê-los automaticamente em ficheiros de texto, permitindo facilmente a conversão de documentos impressos em ficheiros PDF, sem necessidade de reescrever o texto.

Como a extração de texto de uma imagem pode facilitar o seu trabalho?

Pode ter necessidade de atualizar, editar ou reutilizar texto de um documento em papel, como uma brochura antiga, um contrato ou instruções de utilização. Se não existir uma cópia digital, a única hipótese é recorrer ao método antigo e transcrever as informações manualmente.

Por vezes, os clientes ou os colegas apenas lhe facultam cópias em papel ou ficheiros de imagem. Se conseguir extrair texto de ficheiros de imagem, pode torná-los editáveis e pesquisáveis. Para além da possibilidade de fazer correções ou atualizações, poderá ainda pesquisar o documento por palavras-chave e até indexar essas palavras para organizar informações numa base de dados. Esta funcionalidade é relevante para otimizar a gestão de documentos em grande escala, especialmente em contextos legais ou de investigação, e garantir o sucesso do trabalho.

Extrair texto de imagens de forma fácil.

Ao contrário do que se possa pensar, não é necessário adquirir software caro ou complicado para ler uma imagem e reconhecer o texto na mesma. O software OCR tornou-se bastante comum e existem várias opções e métodos disponíveis para extrair texto de uma imagem.

Como utilizar o OCR num PDF?

Pode utilizar o OCR para extrair texto de ficheiros de imagem de várias formas. O método mais simples consiste em utilizar uma aplicação de OCR para PDF. Muitas aplicações modernas possuem funcionalidades de OCR e conseguem ler ficheiros de imagem em poucos segundos. Siga estes passos para aplicar OCR a um PDF:

  1. Aceda à página da ferramenta para reconhecer texto usando OCR.
  2. Selecione um ficheiro ou arraste e largue o PDF que pretende digitalizar.
  3. Aguarde que o Acrobat aplique a tecnologia OCR e reconheça o texto no documento.
  4. Inicie sessão para transferir ou partilhar o ficheiro PDF pesquisável.

Outra possibilidade é converter uma imagem em PDF. Alguns conversores de PDF possuem a funcionalidade de OCR e conseguem ler e converter texto. Nem todos os conversores o fazem, mas vale a pena experimentar.

Por último, pode utilizar um digitalizador com funcionalidade de OCR ou uma aplicação de digitalização gratuita para documentos originais em papel. Desta forma, poupa tempo e converte documentos físicos diretamente em ficheiros PDF legíveis eletronicamente.

Extrair texto de uma única imagem.

Às vezes, só precisa do texto de uma imagem ou de uma página de um ficheiro PDF. Para obter o texto da imagem, siga estes passos para aplicar o OCR:

  1. Abra um ficheiro PDF que contenha uma imagem digitalizada no Adobe Acrobat para Mac ou PC.
  2. Clique na ferramenta Editar PDF, no painel à direita. O Acrobat aplica automaticamente o OCR ao documento e converte-o numa cópia totalmente editável.
  3. Clique no elemento de texto que pretende editar e comece a escrever. O novo texto vai assumir os tipos de letra originais da imagem digitalizada.
  4. Selecione Arquivo > Salvar Como e introduza um novo nome para o documento editável.

Extrair texto de imagens de um ficheiro com várias páginas.

Os passos para extrair texto de várias imagens num ficheiro com várias páginas são os mesmos. Se o PDF não reconhecer o texto das imagens, pode utilizar o Adobe Acrobat Pro para extrair o texto de todas as páginas e imagens de uma só vez da seguinte forma:

  1. Abra o Adobe Acrobat Pro.
  2. Selecione Ferramentas > Exportar PDF.
  3. Exporte para um documento do Word ou um ficheiro RTF.
  4. Nas opções avançadas, selecione Incluir Imagens.

Existem situações em que a conversão de imagem em texto por OCR pode não funcionar?

Quando o OCR não funciona, geralmente, isso deve-se à má qualidade das imagens. Quando fotografar um documento, certifique-se de que o coloca numa superfície plana e utiliza uma boa iluminação.

Pode receber uma mensagem de erro se o documento contiver texto renderizável. Se o texto não for renderizável, mas, mesmo assim, receber a mensagem de erro, pode tentar converter o PDF em TIFF e abrir o ficheiro TIFF como PDF para executar novamente o OCR.

Outra razão para o OCR não funcionar corretamente pode ser a presença de uma mistura ou distorção significativa de texto e gráficos que dificulte a separação entre elementos visuais e texto. O OCR funciona melhor com linhas de texto bem definidas.

É possível extrair texto de uma imagem de qualquer tipo de ficheiro?

Existem diversos conversores online concebidos para reconhecer texto de diferentes tipos de ficheiros, mas pode também converter praticamente qualquer ficheiro em PDF. Basta efetuar a conversão em PDF, abrir o ficheiro no Acrobat e clicar no texto para o editar.

Extrair texto de uma imagem é o mesmo que obter texto de uma imagem?

Extrair texto de ficheiros de imagem é o mesmo que obter texto de uma imagem. Para editar o texto no formato original, pode converter o ficheiro de imagem num PDF editável, mas, para extrair o texto para um novo tipo de ficheiro, pode também copiar e colar o texto editável num outro documento.

Mais recursos para documentos e ficheiros PDF.

Agora que sabe extrair texto de imagens com OCR, explore outras formas de trabalhar com documentos e ficheiros PDF:

Explore tudo o que pode fazer com os serviços online do Acrobat para converter, editar e partilhar ficheiros.

Ferramentas online do Acrobat
Extraia texto de ficheiros PDF com OCR.