Estrazione automatica di parole chiave

Scritto da Ana Canteli il 3 aprile 2019

Il riepilogo automatico, è il processo mediante il quale un software riesce a sintetizzare un documento che condensa il contenuto di detta scrittura. Le soluzioni tecnologiche in grado di creare riepiloghi validi tengono conto di variabili come lunghezza, stile o sintassi.

L'estrazione automatica delle parole chiave è uno dei 2 approcci principali nel campo del riepilogo automatico, che ruota tra estrazione e astrazione. I metodi estrattivi si concentrano sulla selezione di un insieme di parole o frasi dal testo originale per creare il riepilogo. Mentre i metodi astratti costruiscono una rappresentazione semantica interna, per la quale è necessario l'uso di tecniche di generazione del linguaggio naturale, per creare una sintesi il più vicino possibile a ciò che un umano potrebbe scrivere. In questo articolo, ci concentreremo sull'approccio estrattivo, che è una tecnica ampiamente utilizzata oggi; I motori di ricerca sono solo un esempio.

Parole chiave o frasi chiave sono ampiamente utilizzate nella gestione di grandi archivi documentali. Sono in grado di descrivere il contenuto dei file e fornire utili metadati semantici per una moltitudine di scopi. Nel caso di contenuti accademici, gli autori includono manualmente una selezione di parole chiave che rappresentano il contenuto dell'articolo, che aiuta il recupero di informazioni. Per questo, l'identificazione delle parole rilevanti all'interno di un insieme di documenti è essenziale per poter indicizzare i contenuti; con l'obiettivo di guidare l'utente nella ricerca di informazioni e migliorare la propria esperienza sia nella ricerca che nel recupero dei contenuti. Questo compito è chiamato indicizzazione per parole chiave. Tuttavia, la maggior parte dei testi non ha questa informazione.

Gli utenti della rete utilizzano motori di ricerca giornalieri, come google o bing tra gli altri. Probabilmente senza rendercene conto, quando effettuiamo ricerche nei motori di ricerca; infatti, stiamo consultando informazioni che sono state precedentemente analizzate e in cui è stato precedentemente identificato i'argomento trattato.

I motori di ricerca hanno potenti algoritmi di apprendimento automatico che applicano il data mining (big data). Questi, usano gli algoritmi per identificare, filtrare e valutare quali parole chiave sono rilevanti a seconda del tipo di ricerca; che ti permette di avere un'idea del contenuto, che a sua volta aiuta ad accedervi.

In breve, il processo attraverso il quale i motori di ricerca, che utilizzano quotidianamente milioni di utenti, stabiliscono l'oggetto di una pagina web sotto forma di parole chiave e frasi è una parte fondamentale del processo di indicizzazione, che successivamente ci aiuterà a localizzare l'informazione attraverso i motori di ricerca.

Una corretta indicizzazione faciliterà l'identificazione e l'ubicazione delle informazioni che soddisfano immediatamente i due obiettivi principali del processo:

fornire un meccanismo per identificare e localizzare le informazioni sulla posizione

risparmio di tempo

Per le organizzazioni, è un investimento importante in termini di risorse umane, tempo e denaro per organizzare, classificare e facilitare il recupero di informazioni all'interno dell'entità. Pertanto, l'estrazione di parole chiave fa parte della soluzione per la migliore gestione delle informazioni nelle aziende.

Il sistema di gestione documentale OpenKM offre l'ambiente giusto in cui la gestione dei dati e delle informazioni è incorporata in modo trasparente nei processi aziendali. Quando inseriamo un documento, il sistema invierà automaticamente il file a un processo di estrazione del testo. Il software, che tramite l'API REST include il servizio di riepilogo automatico KEA (Keyphrase Extraction Algorithm) è in grado di identificare ed estrarre parole chiave significative dal documento. Inoltre, questo servizio di riepilogo ci permetterà di scegliere e implementare il modello di estrazione delle parole chiave che più ci interessa.

L'estrazione automatica delle parole chiave può essere utilizzata in varie fasi della gestione dei documenti:

Classificazione dei documenti: OpenKM consente l'assegnazione di categorie a documenti, registri, cartelle ed e-mail (inclusi gli allegati) contemporaneamente al file system selezionato. Ad esempio, possiamo organizzare la directory delle cartelle in ordine alfabetico. Ma a sua volta, assegnare la categoria Tipo di documento, Dipartimento, Progetto o Località, alla documentazione memorizzata in una tassonomia alfabeticamente organizzata. Questo ci dà una navigazione alternativa sul repository di documenti. Dal menu categorie, possiamo spostarci tra la documentazione utilizzando questo criterio. E nel motore di ricerca possiamo cercare tutta la documentazione relativa al reparto marketing e vendite e il sistema ci fornirà tutti i contenuti che soddisfano questa condizione,

Indicizzazione di documenti: l'estrazione automatica delle parole chiave assegnerà automaticamente i termini di indicizzazione per facilitare il recupero. I termini che provengono dal corpo del documento descrivono il contenuto indicizzato. Il motore di ricerca del gestore documenti consente di recuperare le informazioni in base all'assegnazione delle parole chiave. E attraverso la funzionalità Keyword Cloud, possiamo vedere il set di termini del repository, a cui i nodi sono collegati (le parole chiave possono indicizzare, file, cartelle, documenti di tutti i tipi, e-mail ...) e combinarli per ottenere diversi insiemi di contenuti.

Dizionari, lessico e tesauri: In OpenKM è possibile creare e compilare tesauri; Sono elenchi di parole o termini controllati, che vengono utilizzati per rappresentare i concetti dell'ambito a cui appartengono i file. I tesauri sono intimamente legati al web semantico. E 'noto come web semantico a tutte le attività sviluppate dal W3C per la creazione di contenuti strutturati in modo che possano essere elaborati da macchine (oggi gran parte delle informazioni online è informazioni non strutturate). Bene, i tesauri contengono un linguaggio documentario formato da termini standardizzati e le relazioni semantiche e funzionali che si stabiliscono tra questi termini. Le relazioni semantiche possono essere equivalenza, associazione o gerarchia. I tesauri sono molto utili per il recupero di informazioni in archivi documentali chiusi.

Troverai maggiori informazioni sul riepilogo automatico e sull'estrazione automatica delle parole chiave nella documentazione di OpenKM e su http://community.nzdl.org/kea/index.html