Scritto da Ana Canteli il 3 aprile 2019
Il riepilogo automatico, è il processo mediante il quale un software riesce a sintetizzare un documento che condensa il contenuto di detta scrittura. Le soluzioni tecnologiche in grado di creare riepiloghi validi tengono conto di variabili come lunghezza, stile o sintassi.
L'estrazione automatica delle parole chiave è uno dei 2 approcci principali nel campo del riepilogo automatico, che ruota tra estrazione e astrazione. I metodi estrattivi si concentrano sulla selezione di un insieme di parole o frasi dal testo originale per creare il riepilogo. Mentre i metodi astratti costruiscono una rappresentazione semantica interna, per la quale è necessario l'uso di tecniche di generazione del linguaggio naturale, per creare una sintesi il più vicino possibile a ciò che un umano potrebbe scrivere. In questo articolo, ci concentreremo sull'approccio estrattivo, che è una tecnica ampiamente utilizzata oggi; I motori di ricerca sono solo un esempio.
Parole chiave o frasi chiave sono ampiamente utilizzate nella gestione di grandi archivi documentali. Sono in grado di descrivere il contenuto dei file e fornire utili metadati semantici per una moltitudine di scopi. Nel caso di contenuti accademici, gli autori includono manualmente una selezione di parole chiave che rappresentano il contenuto dell'articolo, che aiuta il recupero di informazioni. Per questo, l'identificazione delle parole rilevanti all'interno di un insieme di documenti è essenziale per poter indicizzare i contenuti; con l'obiettivo di guidare l'utente nella ricerca di informazioni e migliorare la propria esperienza sia nella ricerca che nel recupero dei contenuti. Questo compito è chiamato indicizzazione per parole chiave. Tuttavia, la maggior parte dei testi non ha questa informazione.
Gli utenti della rete utilizzano motori di ricerca giornalieri, come google o bing tra gli altri. Probabilmente senza rendercene conto, quando effettuiamo ricerche nei motori di ricerca; infatti, stiamo consultando informazioni che sono state precedentemente analizzate e in cui è stato precedentemente identificato i'argomento trattato.
I motori di ricerca hanno potenti algoritmi di apprendimento automatico che applicano il data mining (big data). Questi, usano gli algoritmi per identificare, filtrare e valutare quali parole chiave sono rilevanti a seconda del tipo di ricerca; che ti permette di avere un'idea del contenuto, che a sua volta aiuta ad accedervi.
In breve, il processo attraverso il quale i motori di ricerca, che utilizzano quotidianamente milioni di utenti, stabiliscono l'oggetto di una pagina web sotto forma di parole chiave e frasi è una parte fondamentale del processo di indicizzazione, che successivamente ci aiuterà a localizzare l'informazione attraverso i motori di ricerca.
Una corretta indicizzazione faciliterà l'identificazione e l'ubicazione delle informazioni che soddisfano immediatamente i due obiettivi principali del processo:
Per le organizzazioni, è un investimento importante in termini di risorse umane, tempo e denaro per organizzare, classificare e facilitare il recupero di informazioni all'interno dell'entità. Pertanto, l'estrazione di parole chiave fa parte della soluzione per la migliore gestione delle informazioni nelle aziende.
Il sistema di gestione documentale OpenKM offre l'ambiente giusto in cui la gestione dei dati e delle informazioni è incorporata in modo trasparente nei processi aziendali. Quando inseriamo un documento, il sistema invierà automaticamente il file a un processo di estrazione del testo. Il software, che tramite l'API REST include il servizio di riepilogo automatico KEA (Keyphrase Extraction Algorithm) è in grado di identificare ed estrarre parole chiave significative dal documento. Inoltre, questo servizio di riepilogo ci permetterà di scegliere e implementare il modello di estrazione delle parole chiave che più ci interessa.
L'estrazione automatica delle parole chiave può essere utilizzata in varie fasi della gestione dei documenti:
Troverai maggiori informazioni sul riepilogo automatico e sull'estrazione automatica delle parole chiave nella documentazione di OpenKM e su http://community.nzdl.org/kea/index.html
Orario d'ufficio:
Lunedì - Venerdì: 09:00 - 18:00 CEST. Attualmente è Saturday 05:14 am in Roma - Italy.
OpenKM in tutto il mondo: