Ferramentas online do Acrobat
Extraia texto de ficheiros PDF com OCR.
Precisa de extrair texto de uma imagem com OCR? Saiba como utilizar a tecnologia de OCR para converter texto de ficheiros de imagem em documentos PDF editáveis.
É possível digitalizar documentos em vários formatos, incluindo imagens. Os ficheiros de imagem são fáceis de partilhar e úteis em muitas situações. No entanto, extrair texto de uma imagem é um desafio, mas não é uma missão impossível.
Felizmente, é possível converter uma imagem num ficheiro de texto editável sem ter de reescrever todo o documento. Saiba como pode utilizar a tecnologia de OCR como um leitor de imagens.
OCR é a sigla de Optical Character Recognition e consiste numa tecnologia de reconhecimento ótico de carateres que permite digitalizar ficheiros não editáveis, identificar os elementos de texto numa página e utilizar esses dados para criar um ficheiro de texto editável, como um ficheiro PDF. O OCR pode operar de duas formas distintas.
Algumas soluções de software de edição de PDF conseguem ler ficheiros de imagem e reconhecer as formas dos carateres para depois reconstruir a imagem como um ficheiro PDF. Idealmente, pode até conseguir identificar e reproduzir o tipo de letra original.
Alguns digitalizadores conseguem ler texto de documentos físicos e convertê-los automaticamente em ficheiros de texto, permitindo facilmente a conversão de documentos impressos em ficheiros PDF, sem necessidade de reescrever o texto.
Pode ter necessidade de atualizar, editar ou reutilizar texto de um documento em papel, como uma brochura antiga, um contrato ou instruções de utilização. Se não existir uma cópia digital, a única hipótese é recorrer ao método antigo e transcrever as informações manualmente.
Por vezes, os clientes ou os colegas apenas lhe facultam cópias em papel ou ficheiros de imagem. Se conseguir extrair texto de ficheiros de imagem, pode torná-los editáveis e pesquisáveis. Para além da possibilidade de fazer correções ou atualizações, poderá ainda pesquisar o documento por palavras-chave e até indexar essas palavras para organizar informações numa base de dados. Esta funcionalidade é relevante para otimizar a gestão de documentos em grande escala, especialmente em contextos legais ou de investigação, e garantir o sucesso do trabalho.
Ao contrário do que se possa pensar, não é necessário adquirir software caro ou complicado para ler uma imagem e reconhecer o texto na mesma. O software OCR tornou-se bastante comum e existem várias opções e métodos disponíveis para extrair texto de uma imagem.
Pode utilizar o OCR para extrair texto de ficheiros de imagem de várias formas. O método mais simples consiste em utilizar uma aplicação de OCR para PDF. Muitas aplicações modernas possuem funcionalidades de OCR e conseguem ler ficheiros de imagem em poucos segundos. Siga estes passos para aplicar OCR a um PDF:
Outra possibilidade é converter uma imagem em PDF. Alguns conversores de PDF possuem a funcionalidade de OCR e conseguem ler e converter texto. Nem todos os conversores o fazem, mas vale a pena experimentar.
Por último, pode utilizar um digitalizador com funcionalidade de OCR ou uma aplicação de digitalização gratuita para documentos originais em papel. Desta forma, poupa tempo e converte documentos físicos diretamente em ficheiros PDF legíveis eletronicamente.
Às vezes, só precisa do texto de uma imagem ou de uma página de um ficheiro PDF. Para obter o texto da imagem, siga estes passos para aplicar o OCR:
Os passos para extrair texto de várias imagens num ficheiro com várias páginas são os mesmos. Se o PDF não reconhecer o texto das imagens, pode utilizar o Adobe Acrobat Pro para extrair o texto de todas as páginas e imagens de uma só vez da seguinte forma:
Quando o OCR não funciona, geralmente, isso deve-se à má qualidade das imagens. Quando fotografar um documento, certifique-se de que o coloca numa superfície plana e utiliza uma boa iluminação.
Pode receber uma mensagem de erro se o documento contiver texto renderizável. Se o texto não for renderizável, mas, mesmo assim, receber a mensagem de erro, pode tentar converter o PDF em TIFF e abrir o ficheiro TIFF como PDF para executar novamente o OCR.
Outra razão para o OCR não funcionar corretamente pode ser a presença de uma mistura ou distorção significativa de texto e gráficos que dificulte a separação entre elementos visuais e texto. O OCR funciona melhor com linhas de texto bem definidas.
Existem diversos conversores online concebidos para reconhecer texto de diferentes tipos de ficheiros, mas pode também converter praticamente qualquer ficheiro em PDF. Basta efetuar a conversão em PDF, abrir o ficheiro no Acrobat e clicar no texto para o editar.
Extrair texto de ficheiros de imagem é o mesmo que obter texto de uma imagem. Para editar o texto no formato original, pode converter o ficheiro de imagem num PDF editável, mas, para extrair o texto para um novo tipo de ficheiro, pode também copiar e colar o texto editável num outro documento.
Agora que sabe extrair texto de imagens com OCR, explore outras formas de trabalhar com documentos e ficheiros PDF:
Explore tudo o que pode fazer com os serviços online do Acrobat para converter, editar e partilhar ficheiros.