manual do gImageReader

 

Conteúdo

Sobre

gImageReader é um frontent leve para tesseract-ocr escrito em Python usando as ligações GTK +. 
Principais características:

  • Permite ao usuário selecionar a parte da imagem que eles querem ser reconhecidos diretamente ou reconhecer a imagem inteira.
  • Suporta documentos PDF.
  • Permite ao usuário adquirir imagens de dispositivos de digitalização.
  • Texto reconhecido diretamente junto à imagem.
  • Edição básica de texto de saída, incluindo search / replace e quebras de linha removendo sobre o texto selecionado.
  • Verificação ortográfica habilitado para o idioma selecionado no campo de texto de saída, se dicionário correspondente instalado.
  • O usuário é solicitado a instalar idiomas ausentes verificação ortográfica (requer PackageKit ou apt-file).
  • Alternar facilmente entre vários arquivos abertos.
  • Tenta detectar automaticamente todos os programas necessários, caso contrário, mostra um prompt de configuração para o usuário, consulte Configuração para obter detalhes.

 

Os programas de terceiros e configuração

  • Dependências : gImageReader depende dos seguintes programas de terceiros:
    • tesseract-ocr : este é o mecanismo de OCR que gImageReader usa para executar reconhecimento de texto.
  • Instalação :
    • Linux : Se você instalou o programa de um pacote deb ou rpm, as dependências foram instalados automaticamente. Se você instalou o programa a partir da fonte, você pode instalá-los através do gerenciador de pacotes das distribuições.
    • Do Windows : Você pode baixar os programas a partir dos seguintes links:tesseract .
  • Configurações de caminho : as tentativas gImageReader para detectar automaticamente os caminhos necessários. Se não tiver êxito, você deve inseri-los manualmente – para obter mais informações passe o mouse sobre os ícones de ajuda ao lado das entradas de entrada com o mouse.

Uso

Pontos principais:

  • Formatos de arquivos suportados são atualmente JPEG, GIF, PNG, TIFF e PDF.Para melhores resultados, a resolução da imagem deve ser normalmente entre 200 e 300 dpi para normal, texto pt 10-12.
  • As imagens podem ser adquiridos a partir dos scanners chosing a Adquirir imagem botão. Para essa funcionalidade esteja disponível, python-imaging-sane (Linux) resp. as ligações Python twain deve ser instalado (Windows).
  • O programa tenta localizar automaticamente todos os necessários programas de terceiros, procurando caminhos comuns, bem como a variável de ambiente PATH.Esses caminhos, bem como outras opções, pode ser personalizado através do arquivo → Configurar .
  • O idioma do menu drop-down na barra de ferramentas principal define o idioma para os reconhecimentos seguintes, bem como o idioma de verificação ortográfica para o textarea saída.
  • Para ajudar a formatar o texto, o programa oferece localizar / substituir, bem como uma “quebra de linha tira” funcionalidade (que se encontra na barra de ferramentas acima da textarea saída) para remover automaticamente as quebras de linha de acordo com alguns critérios, por padrão, todas as quebras de linha, exceto aqueles precedido por um ponto. Os critérios podem ser personalizados utilizando o menu ao lado do botão.

FAQ

  • Alguns dicionários tesseract não são detectados
    Dicionários são pesquisados com base em uma lista de uns conhecidos (infelizmente os dicionários tesseract não fornecem informações suficientes para a automatização do procedimento). Se você quiser usar um dicionário que não está incluído na lista padrão, você deve adicionar uma entrada correspondente emArquivo → Configurar → Dicionários .
  • Onde está a configuração programa armazenado?
    A configuração é armazenado em $ HOME / .config / gimagereader em plataformas do tipo UNIX e em % APPDATA% \ gimagereader no Windows.
  • Verificação ortográfica não funciona!
    Se você estiver usando Windows, GTKSpell agora vem com o programa – se você estiver usando seu próprio conjunto de bibliotecas GTK, você deve compilá-lo em seu próprio país. Nas plataformas do tipo UNIX, GTKSpell deve ser fácil de instalar através da sua distribuição do sistema de gerenciamento de pacotes – os dicionários necessários não pode no entanto ser instalado.
  • O programa deixa de reconhecer a minha imagem!
    Tesseract por vezes, não de uma forma muito feio ao tentar executar o OCR em uma imagem. Há geralmente são dois tipos de falhas, ou formato de arquivo ruim ou uma falha no processo de reconhecimento de si mesmo. Quanto ao primeiro tipo, gImageReader tenta o melhor é passar a imagem para tesseract no formato exato aceita (ou seja, TIFF), se você encontrar esse erro por favor contacte-me com a imagem de mau comportamento. No que respeita ao segundo tipo de erros, não há nada gImageReader pode fazer sobre aqueles, um pode tentar de repetição variando a imagem de alguma forma.

Instalando dicionários de ortografia

  • Distribuições Linux usando PackageKit : o programa deve oferecer automaticamente para instalar dicionários de ortografia em falta.
  • Baseado em Debian Linux não usando PackageKit : se você estiver usando uma distro baseada no Debian e tem apt-file instalado, o programa deve oferecer automaticamente para instalar faltando dicionários de ortografia. Caso contrário, use o Synaptic para instalar o myspell / hunspell dicionários.
  • Outras distribuições Linux : usar o gerenciador de pacotes local para instalar dicionários myspell / hunspell ortografia.
  • Do Windows : baixar o desejado ortografia dicionáriohttp://wiki.services.openoffice.org/wiki/Dictionaries , e extrair o . *. DIC e * affarquivos para Iniciar → Todos os Programas → → gImageReader dicionários de ortografia .

Solução de problemas

Alguns problemas observa ao executar o programa no Windows:

  • Nada acontece: Dê uma olhada em C: \ Arquivos de programas \ gimagereader \ gimagereader.exe.log (ou similar, se você instalou em outro lugar), ele pode conter algumas informações valiosas. O problema típico é o GTK não está instalado no sistema e optou-se por não instalar o GTK empacotado junto com gImageReader.
  • Alguns ícones estão faltando : se você usou a sua própria instalação GTK, verifique se você tem o gnome tema de ícones instalado e configurado no arquivo etc/gtk-2.0/gtkrc.
  • Digitalização falha : o Python TWAIN módulo (? ou talvez TWAIN si) se comporta de uma maneira muito estranho algumas vezes, até o ponto em que consegue travar o interpretador python em si. Normalmente, a forma mais robusta para adquirir imagens está usando os drivers WIA (ao contrário dos drivers TWAIN), os dispositivos são normalmente identificados em conformidade, a lista de dispositivos. Quando eu fiz o meu melhor para implementar TWAIN suporte de acordo com a documentação fornecida, ainda estou ansioso para melhorar a sua robustez no futuro – as dicas são bem-vindos!

Contribuir

No caso de contribuições de qualquer natureza, relatórios de bugs, etc, por favor contacte-me em manisandro@gmail.com . Eu mais aprecio traduções – aqui estão os principais passos para a criação de uma tradução:

  1. Criar uma nova tradução: edit localize.sh e acrescentar o código nova linguagem para a variável LANGS
  2. Atualizar as traduções: correr (sem aspas) “/ localize.sh atualização.”
  3. Edite os arquivos em po po /
  4. Teste a tradução: run (sem aspas) e executar bin / gimagereader “/ compile localize.sh.”
  5. Enviar a tradução: por favor envie o po arquivo paramanisandro@gmail.com~~HEAD=NNS , muito obrigado!
Advertisements

About josberto

Mi ŝatas traduki librojn pri matematiko kaj komputilaj teknologio. Mi esperas ke miaj tradukadoj estus utila kaj agrabla por vi.
This entry was posted in Uncategorized. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s