Recupero del documento

Il recupero del documento è definito come la corrispondenza di alcune query utente dichiarate con una serie di record a testo libero . Questi documenti potrebbero essere qualsiasi tipo di testo principalmente non strutturato , come articoli di giornali , registri immobiliari o paragrafi di un manuale. Le query utente possono variare da una descrizione completa di più frasi di un’esigenza di informazione a poche parole.

Il recupero del documento viene a volte indicato come, o come un ramo di, il recupero di testo . Il recupero del testo è un ramo del recupero delle informazioni in cui le informazioni vengono memorizzate principalmente sotto forma di testo . I database di testo sono diventati decentralizzati grazie al personal computer e al CD-ROM . Il recupero del testo è oggi un’area critica di studio, poiché è la base fondamentale di tutti i motori di ricerca su Internet .

Descrizione

I sistemi di recupero dei documenti trovano le informazioni secondo i criteri dati facendo corrispondere i record di testo ( documenti ) alle query utente, al contrario dei sistemi esperti che rispondono alle domande inferendo su un database di conoscenza logica . Un sistema di recupero documenti consiste in un database di documenti, un algoritmo di classificazione per creare un indice di testo completo e un’interfaccia utente per accedere al database.

Un sistema di recupero dei documenti ha due compiti principali:

  1. Trova i documenti rilevanti per le query degli utenti
  2. Valutare i risultati corrispondenti e ordinarli in base alla pertinenza, utilizzando algoritmi come PageRank .

I motori di ricerca di Internet sono le applicazioni classiche di recupero dei documenti. La stragrande maggioranza dei sistemi di recupero attualmente in uso vanno da semplici sistemi booleani a sistemi che utilizzano tecniche di elaborazione del linguaggio statistico o naturale .

Variazioni

Esistono due classi principali di schemi di indicizzazione per i sistemi di recupero dei documenti: basati su moduli (o basati su parole ) e indicizzazione basata sul contenuto . Lo schema di classificazione del documento (o algoritmo di indicizzazione ) in uso determina la natura del sistema di recupero del documento.

Basato su modulo

Il recupero del documento basato su modulo si rivolge alle proprietà sintattiche esatte di un testo, paragonabile alla corrispondenza della sottostringa nelle ricerche di stringa. Il testo è generalmente non strutturato e non necessariamente in un linguaggio naturale, il sistema potrebbe ad esempio essere utilizzato per elaborare grandi insiemi di rappresentazioni chimiche in biologia molecolare. Un algoritmo di albero di suffisso è un esempio per l’indicizzazione basata su moduli.

Basato sul contenuto

L’approccio basato sul contenuto sfrutta le connessioni semantiche tra documenti e parti di esse e le connessioni semantiche tra query e documenti. La maggior parte dei sistemi di recupero di documenti basati sul contenuto utilizzano un algoritmo di indice invertito .

Un file di firma è una tecnica che crea un filtro rapido e sporco , ad esempio un filtro Bloom , che manterrà tutti i documenti che corrispondono alla query e, si spera, alcuni che non lo fanno. Il modo in cui questo viene fatto è creare per ogni file una firma, tipicamente una versione codificata hash. Un metodo è la codifica sovrapposta. Viene fatto un passo di post-elaborazione per scartare i falsi allarmi. Poiché nella maggior parte dei casi questa struttura è inferiore ai file invertiti in termini di velocità, dimensioni e funzionalità, non viene utilizzata ampiamente. Tuttavia, con i parametri corretti, può battere i file invertiti in determinati ambienti.

Esempio: PubMed

L’ interfaccia del modulo PubMed [1] presenta la ricerca “articoli correlati” che funziona attraverso un confronto di parole dai termini del titolo, dell’estratto e di MeSH dei documenti utilizzando un algoritmo ponderato in base alla parola. [2] [3]

Vedi anche

  • Elaborazione di termini composti
  • Classificazione del documento
  • Ricerca aziendale
  • Ricerca a testo integrale
  • Recupero delle informazioni
  • Indicizzazione semantica latente
  • Motore di ricerca

Riferimenti

  1. Salta su^ Kim W, Aronson AR, Wilbur WJ (2001). “Assegnazione automatica dei termini MeSH e valutazione della qualità” . Proc Symchia AMIA : 319-23. PMC  2243528  . PMID  11825203 .
  2. Salta su^ “Calcolo delle citazioni correlate” .
  3. Salta su^ Lin J1, Wilbur WJ (30 ottobre 2007). “Articoli correlati a PubMed: un modello basato su argomenti probabilistici per la somiglianza dei contenuti” . Bioinformatica BMC . 8 : 423. doi : 10.1186 / 1471-2105-8-423 . PMC  2212667  . PMID  17971238 .