Sejam Bem Vindos!

Espaço voltado para discussão de aspectos teóricos e praticos da estrutura e funcionamento dos recursos de informação baseadas nas novas mídias; e das implicações inerentes à adopção tecnológica em unidades de informação.

quinta-feira, 22 de setembro de 2011

Base de dados de texto completo

INTRODUÇÃO

A base de dados textuais é um processo gradativo, aonde os conhecimentos vão se acrescentando e progredindo, baseados numa metodologia. Portanto, ela não é um facto isolado, em sua história estão conceitos desenvolvidos anteriormente e superados com o avanço das pesquisas. Sendo assim, os cientistas modernos chegaram ao ponto que estão em decorrência das pesquisas feitas anteriormente. Ao se referir à ciência, propõe-se a valorização do conhecimento científico como recurso impulsionador de inovações e do desenvolvimento social, salientando-se que esse conhecimento não é neutro, pois sofre influência da sociedade de modo geral e da comunidade científica de onde se originou.

Dentro desse processo evolutivo da ciência, tem-se o destaque da comunicação científica, tanto entre os pares, quanto para o público leigo. Também se salienta a comunicação formal e informal entre os cientistas e como elas se constituem, tendo na comunicação um aspecto importante para o desenvolvimento do conhecimento científico (LEITE, 2001).

O enfoque deste trabalho de pesquisa é o acesso público as bases de dados textuais disponíveis na internet, esclarecendo conceitos, funcionalidade, serviços, e acesso.


Base de dados textual Integral

Base de dados:é o Conjunto de dados interrelacionados, organizados de forma a permitir a recuperação da informação. Armazenadas por meios ópticos ou magnéticos como discos e acessadas local ou remotamente.

Banco de dados: é o conjunto de Bases de Dados.

Objectivo de uma base de dados:

Fornecer informação actualizada (recursos estruturais), precisa e confiável (não dar a informação pela metade) e de acordo com a demanda (oferecer o que o usuário necessita).

Suportes:

Impresso: sub-produtos das bases de dados. Ex.: Index Medicus

CD-ROM: disco óptico, acesso local e remoto. Ex.: MEDLINE/CD-ROM

On-Line :

a ) acesso directo

b) acesso via provedor/servidor/hospedeiro/
c)acesso via ferramentas de busca ("search engines").

Classificação das bases de dados (CUNHA, ROWLEY)

1) Bases de dados referênciais - remetem às fontes primárias.

2) Bases de dados de fontes - contém os dados originais e textos completos; constituem um tipo de documento eletrônico. É nesta base de dados que encontramos as bases de Dados de Texto Completo.

Bases de Dados de Texto Completo

As Bases de Dados de Texto Completo são aquelas que contém notícias de jornal, especificações técnicas, artigos de periódicos, dicionários. Ex.: RCI/IBICT (artigos da revista Ciência da Informação)etc. Algumas bases de dados textuais incluem dados numéricos, como os relatórios anuais de empresas, enciclopédias, etc, e o acesso é feito directo no próprio endereço ou através de programas específicos (gratuíto ou por assinatura). Exemplos: revista eletrônica com artigos de advogados, promotores e juízes. Cobre notícias OAB.

· Texto dos artigos da revista publicada pelo IBICT, Brasília.

· coleção eletrônica de revistas científicas com textos completos dos artigos, disponíveis online.

· Banco de dados com textos e reproduções de bandeiras de países e estados. Possui dicionário de termos relacionados ao tema.

2. Sistema de Recuperacao de Informacao

Um sistema de Recuperação de informação (SRI) é um sistema desenvolvido para encontrar objectos (normalmente documentos) de uma natureza não estruturada (geralmente texto) que satisfazem uma informação precisa dentro de grandes colecções (geralmente armazenados em computadores).

Um sistema de recuperação tradicional possui geralmente duas bases de dados distintas: uma armazena o conjunto de documentos, dos quais se deseja obter informações, e a outra contém as entradas que representam os documentos do sistema (indexação). O processo de indexação envolve a criação de estruturas de dados associados à parte textual dos documentos, por exemplo, as estruturas de arranjos de sufixos e arquivos invertidos. Estas estruturas podem conter dados sobre características dos termos na colecção de documentos, tais como a frequência de cada termo num documento. As fases normalmente encontradas no processo de indexação são a identificação de termos (simples ou compostos), a remoção de stopwords (palavras irrelevantes), a normalização morfológica (stemming) e a selecção de termos.

Com base na informação do processo de indexação, e dos termos fornecidos na consulta é efectuada a análise de relevância através da função de similaridade, mas esta comparação entre termos consultados e documentos em geral traz documentos irrelevantes. Para melhorar estes resultados foram propostos modelos conceptuais de recuperação, posteriormente adaptados às ferramentas de pesquisa: o modelo booleano, o vectorial, o probabilístico, entre outros.

Ainda assim, o desempenho dos sistemas de recuperação de informação depende primordialmente da organização e estrutura da base de dados de referência. Se ela reflectir melhor o contexto do o que universo pesquisado, ela resulta numa melhor precisão e revogação do sistema.

Passos da recuperação: definir os termos; relacionar os termos; mostrar estratégias

Recursos de recuperação: básicos (help, janelas, comandos); seleção de termos de busca (índice de palavras); entrada de termos de busca (vocabulário controlado); combinação de termos; escolha de campos; truncamentos; expressões de proximidade; limitações de amplitude; gerenciamento de buscas; opções avançadas de exibição (texto completo); busca de múltiplos arquivos; exibição de tesaouro; hipertextos (links com outros registros).

Técnicas de busca por frases em bancos de dados textuais

Um banco de dados textual é uma coleção de documentos, que pode também ser visto como um largo conjunto de registos, em que cada registo contém apenas uma lista de palavras de tamanho arbitrário. Os dois métodos principais de busca por frases em bancos de dados textuais de larga escala, utilizando indexação de textos, são os arquivos invertidos com contadores de posição e índices para a próxima palavra. Um arquivo invertido possui duas partes principais: uma estrutura de busca, chamada de vocabulário, contendo todos os termos distintos existentes no texto indexados e, para cada termo, uma lista invertida que armazena os identificadores dos registros contendo o termo. Consultas são feitas tomando-se a lista invertida correspondente ao termo procurado. As consultas booleanas são feitas obtendo-se a conjunção ou disjunção entre as listas relativas ao termos presentes na consulta. Arquivos invertidos podem ser utilizados para busca de frases, através da adição de mais informações a lista invertida. Basicamente, adiciona-se os deslocamentos no texto em que ocorrem as palavras.



Para a recuperação da frase ``the man who is'', inicialmente devemos determinar os pares a serem pesquisados. Uma vez que o número de palavras na frase é par, podemos agrupar em pesquisas ao índice de próxima palavra. Dessa forma, realizamos a recuperação do par ``the man'', juntamente com a recuperação do par ``who is''. Analisando a figura 5, notamos que o par ``the man'' ocorre no documento 5, na posição 235. Fazendo o mesmo para o par ``who is'', podemos constatar sua ocorrência no mesmo documento 2 posições subseqüentes. Isso significa que os pares se sucedem no texto. Pares distintos são sucessivos se ocorrem com diferença de 2 posições. Pares compostos são sucessivos se possuem diferença de 1 posição. Se a consulta desejada fosse a frase ``the man who'', estaríamos impossibilitados de dividir a frase em pares distintos. Nesse caso, teríamos que procurar o par ``the man'' e o par ``man who''. Esses pares, para serem considerado sucessivos, devem ocorrer com uma diferença de 1 posição nos índices. Existem diversas técnicas para otimizar a pesquisa por frases. Na seção 3.2 discutimos essas alternativas.

A técnica de índice para a próxima palavra pode auxiliar não apenas na pesquisa por frases. Dentre suas outras utilidades destacamos:

  • Navegação em frases. Dado uma palavra w, o índice pode ser utilizado para identificar todas as palavras seguintes. Esta funcionalidade não pode ser alcançada pelos arquivos invertidos.
  • O índice pode ser utilizado para a complementação de frases e complementação de palavras dentro de uma frase.

BD Probabilísticas

Apesar da área da recuperação de informação ter tido grandes progressos, onde a indexação e classificação são os instrumentos mais comuns para responder às necessidades de um utilizador, existem ainda alguns problemas quando pretendemos recuperar OD na forma não textual.

Uma das grandes desvantagens dos sistemas tradicionais de RI, deve-se ao facto deste tipo de sistemas ser balanceado sobretudo para a recuperação de objectos digitais de informação na forma textual, não existindo actualmente um sistema capaz de captar, por exemplo, o contexto de uma imagem ou de descrever o assunto narrado num vídeo de forma automática.

A recuperação de objectos na forma não textual, é normalmente efectuada com recurso a metadados descritivos. Esta técnica guarda em si o problema do preenchimento dos metadados que em muitos casos não é possível de ser feito de forma automática necessitando de intervenção humana. Neste cenário, a imprecisão da informação fornecida, é um problema que não tem solução prevista numa base de dados relacional (composta por esquemas de relações, colecção dos operadores e restrições da integridade).

Referências bibliográfica

Gilland-Swetland (2000), A. J. Introduction to Metadata: Setting the Stage. Kent State University's School of Library and Information Science.

Marco, D. (2000). Repository, Building and Managing the Meta Data. Wiley

Christopher D. Manning (2007). An Introduction to Information Retrieval. Cambridge University Press.

Frakes, W. B. & Baeza-Yates, R. (1992) Information Retrieval Data Structures & Algorithms. Prentice Hall.

Nierman, A. and Jagadish, H. V. (2002). ProTDB: probabilistic data in XML. Proceedings of the 28th international Conference on Very Large Data Bases

Nenhum comentário:

Postar um comentário