[THESIS REQUEST AVAILABLE]
With the advent of Big Data, Data Driven Artificial Intelligence techniques, and in particular Machine Learning (ML) algorithms, have provided more and more effective solutions to solve different problems, especially in the health domain: clinical Decision Support Systems (DSS), network medicine, epidemics spread prediction, etc. All the cited applications require a Knowledge Base (KB) that is often coded in the shape of a “graph”. Thus, graph mining techniques, and in particular machine learning algorithms on graphs, are more and more diffusing to support the different types of analytics. Leveraging the recent developments of Natural Language Processing (NLP) techniques (e.g. BERT, GPT-2, T5), we aim to build a Knowledge Graph (KG) from Italian unstructured EHR data by training a language model able to recognize entities and relations from medical texts. On the top of the generated KG, we will be then able to develop different analytics for the plethora of cited e-health applications. Eventually, the generated KG will be also made available to the entire Italian medical community, providing new opportunities and tools for improving research in the e-health domain.
Available thesis topics
Machine translation for Italian Biomedical Named Entity Recognition
L’enorme sviluppo tecnologico che si è avuto nell’ambito del Natural Language Processing (NLP) è un fattore abilitante della medicina di precisione. È possibile estrarre concetti di interesse (ad esempio, malattie e sintomi) dal testo non strutturato delle cartelle cliniche in maniera tale da non solo tracciare la storia medica di un paziente, ma anche predirne possibili sviluppi futuri. Tuttavia, i linguaggi diversi dall’inglese sono enormemente svantaggiati in questo, a causa delle scarse prestazioni dei modelli di NLP attuali e della mancanza di dati. Infatti, molti dataset annotati per il task di Named Entity Recognition (NER) sono pubblicamente disponibili, ma sono in lingua inglese. Cosa succede se sfruttiamo dei sistemi di Machine Translation (traduzione del testo) per tradurre i dataset pubblicamente disponibili e quindi addestrare sistemi NER in lingua italiana?
Development of an annotation tool for Italian Biomedical Named Entity Recognition
L’enorme sviluppo tecnologico che si è avuto nell’ambito del Natural Language Processing (NLP) è un fattore abilitante della medicina di precisione. È possibile estrarre concetti di interesse (ad esempio, malattie e sintomi) dal testo non strutturato delle cartelle cliniche in maniera tale da non solo tracciare la storia medica di un paziente, ma anche predirne possibili sviluppi futuri. Tuttavia, i linguaggi diversi dall’inglese sono enormemente svantaggiati in questo, a causa delle scarse prestazioni dei modelli di NLP attuali e della mancanza di dati. Infatti, molti dataset annotati per il task di Named Entity Recognition (NER) sono pubblicamente disponibili, ma sono in lingua inglese. Per facilitare la produzione di dataset annotati in lingua italiana, sarà sviluppato un tool di annotazione. Tale tool non solo faciliterà l’”annotatore” nel processo di labelling dei dati, ma sarà integrato con un framework di Active Learning che fa sì che sia il modello stesso a decidere quali dati è opportuno annotare.
Clustering EHR Knowledge Graph embeddings for (next disorder prediction) / (risk prediction)
L’enorme sviluppo tecnologico che si è avuto nell’ambito del Natural Language Processing (NLP) è un fattore abilitante della medicina di precisione. È possibile estrarre concetti di interesse (ad esempio, malattie e sintomi) dal testo non strutturato delle cartelle cliniche in maniera tale da non solo tracciare la storia medica di un paziente, ma anche predirne possibili sviluppi futuri. La storia clinica di un paziente sarà modellata tramite uno o più “grafi della conoscenza” (Knowledge Graphs). Tecniche di “graph embeddings” saranno utilizzate per ottenere rappresentazioni numeriche, che consentiranno l’utilizzo di tecniche di clustering e machine learning con scopi predittivi (ad esempio, predizione della prossima malattia o trattamento)
Publications
- D'Auria, D., Moscato, V., Postiglione, M., Romito, G., & Sperlí, G. (2022). Improving graph embeddings via entity linking: a case study on Italian clinical notes. Intelligent Systems with Applications.
- Vincenzo Moscato, Marco Postiglione, Giancarlo Sperlì: Biomedical Spanish Language Models for entity recognition and linking at BioASQ DisTEMIST. CLEF (Working Notes) 2022: 315-324
- Ilaria Bartolini, Vincenzo Moscato, Marco Postiglione, Giancarlo Sperlì, Andrea Vignali: COSINER: COntext SImilarity data augmentation for Named Entity Recognition. SISAP 2022: 11-24
- Marco Postiglione: Towards an Italian Healthcare Knowledge Graph. SISAP 2021: 387-394
Previous thesis works
- E-Health Records and BERT transformers enabling precision medicine: building and analyzing a Biomedical Knowledge Graph [pdf], 2022, Berenice D'Antonio, Laurea Magistrale in Ingegneria Informatica
- An active learning and similarity based augmentation approach for few-shot NER applications [pdf], 2022, Andrea Vignali, Laurea Magistrale in Ingegneria Informatica
- Multi-task named entity recognition in applicazioni biomediche few-shot [pdf], 2022, Gianluca Sorrentino, Laurea Magistrale in Ingegneria Informatica
- Improving Biomedical Knowledge Graph Embeddings with Entity Linking [pdf], 2021, Giuseppe Romito, Laurea Magistrale in Ingegneria Informatica
- Multi-task Learning for Biomedical Relation Extraction [pdf], 2021, Giuseppe Napolano, Laurea Magistrale in Ingegneria Informatica
- Machine Learning on Knowledge Graphs for Health applications [pdf], 2021, Dorotea Scala, Laurea Magistrale in Ingegneria Biomedica
- A Benchmark Analysis of Few-Shot Biomedical Named Entity Recognition [pdf], 2021, Ivano Iodice, Laurea Magistrale in Ingegneria Informatica
Project & Collaborations
The project has been partially funded by a donation from Oracle America to DIETI.
References
- Vincenzo Moscato, Associate Professor (This email address is being protected from spambots. You need JavaScript enabled to view it.)
- Marco Postiglione, PhD student (This email address is being protected from spambots. You need JavaScript enabled to view it.)