reCAPTCHA ajuda a digitalizar milhões de textos antigos


O PROBLEMA: Spammers

Serviços de email grátis como Google, Yahoo! e Microsoft estavam sofrendo ataques de hackers/spammers que haviam criado programas capazes de obter milhões de contas de email todos os dias. Por que os spammers precisavam de tantos emails? Porque os serviços de email permitiam que usuários enviassem somente um número específico de emails por dia (Yahoo permitira 100 envios de email por dia), então para que a tática de spam pudesse funcionar efetivamente, os spammers precisavam de um número gigantesco de endereços de email.

A SOLUÇÃO: CAPTCHA
Desenvolver um programa que protege os websites contra os robôs por meio da aplicação de um teste que os humanos podem passar, mas os robôs não. Por exemplo, humanos podem ler textos distorcidos como estes abaixo, mas os programas de computador não.


um examplo típico de um CAPTCHA

Em 2000, Luis von Ahn e Manuel Blum conceberam o termo ‘CAPTCHA’. Eles inventaram múltiplos exemplos de CAPTCHAS, incluindo os primeiros CAPTCHAs que seriam usados amplamente, os que foram adotados pelo Yahoo.

A REVELAÇÃO
– Aproximadamente 200 milhões de CAPTCHAs são digitados todos os dias ao redor do mundo
– Cada CAPTCHA leva aproximadamente 10 segundos para o preenchimento;
– 500.000 horas de tempo humano perdidas todos os dias digitando CAPTCHAs

O DESAFIO
Existe alguma maneira de este esfoço humano ser utilizado para o bem da humanidade?

A SOLUÇÃO REAVALIADA: reCAPTCHA
– Digitalizar livros uma palavra de cada vez. reCAPTCHA é um serviço grátis do CAPTCHA que ajuda a digitalizar livros, jornais e shows de rádio antigos.

exemplo de recaptcha

Como isso funciona
Digitalizar livros consiste do processo de tirar fotos de páginas do livro e em seguida usar OCR (reconhecimento óptico de caracteres) para descobrir o que as palavras são. Entretanto, em textos antigos, o OCR é bastante impreciso – para os livros escritos antes de 1900, OCR perde cerca de 30% das palavras.

exemplo de problema com OCR

O reCAPTCHA melhora o processo de digitalização de livros enviando para a web palavras que os humanos são capazes de decifrar, mas que não conseguem ser lidas por computadores na forma de CAPTCHAs. Cada palavra que não pode ser lida corretamente por OCR é colocada em uma imagem e usada como CAPTCHA. Isso é possível porque a maioria dos programas emite um alerta quando uma palavra não pôde ser lida corretamente.

Mas se um computador não pode ler tal CAPTCHA, como o sistema é capaz de conhecer a resposta correta?

A resposta: o reCAPTCHA oferece aos usuários duas palavras distorcidas. O sistema sabe o que uma delas é – se você identificá-la corretamente, ele assume que você provavelmente está respondendo a segunda (a ordem é aleatória) usando o melhor da sua capacidade e supõe que a sua resposta seja correta também para a nova palavra. O sistema então oferece essa nova imagem para um grupo de outras pessoas para determinar, com maior precisão, se a resposta original estava correta. Quando este grupo identifica a palavra desconhecida da mesma forma, é muito provável que o reconhecimento seja exato.

As duas palavras do reCAPTCHAs são tão velozes quanto digitar seqüências aleatórias de 6-8 caracteres, de modo que von Ahn não está nos fazer trabalhar mais.

É assim que os textos digitalizados vão sendo corrigidos, palavra por palavra. A maior parte desses textos são provenientes dos arquivos do New York Times e do projeto de digitalização do Google. E o Google gostou da tecnologia que acabou comprando o reCAPTCHA.


por

Tags:

Comentários

8 respostas para “reCAPTCHA ajuda a digitalizar milhões de textos antigos”

  1. Avatar de Gustavo

    Genial.

  2. Avatar de Fábio
    Fábio

    Supremo! Simplesmente fantástico!

  3. Avatar de Ivan Luizio Magalhães

    Excelente iniciativa que vem a somar as diferentes técnicas de redução do custo dos serviços de TI.

    1. Avatar de luciano
      luciano

      isso realmente faz sentido? isso funciona como uma senha para você ganhar acesso em algum lugar, certo? o computador já não tem que saber a resposta certa de antemão para validar o que você digitou? e sendo assim ele já não tem o log das respostas… alguém desenha a explicação p/ mim pf rs

      1. Avatar de mexicano21

        Já está “desenhado” no artigo, antepenúltimo parágrafo:

        “(…) o reCAPTCHA oferece aos usuários duas palavras distorcidas. O sistema sabe o que uma delas é – se você identificá-la corretamente, ele assume que você provavelmente está respondendo a segunda (a ordem é aleatória) usando o melhor da sua capacidade e supõe que a sua resposta seja correta também para a nova palavra.”

  4. Avatar de Marcileia
    Marcileia

    oi, preciso desse programa, trabalho em museu e estamos digitalizando os livros, mas estamos tendo problemas coma a visualização das imagens.

  5. Avatar de Luciano Masan

    Confesso que ainda não havia tido acesso a estas informações. Achei muito interessante e relevante este artigo. Obrigado.

Deixe uma resposta

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.