Analiza pe text din articole stiintifice (biologie) pentru extragere de informatii (data mining).

Splaiul Independenţei 296, București, Romania

Responsabilități

Proiectul isi propune analiza unui set de “abstracte” de articole stiintifice, si selectarea articolelor relevante pentru un anumit topic. Pentru validare, se vor cauta articole care descriu gene asociate longevitatii (vezi baza de date GenAge), gene care daca sunt modulate prin tehnici de biologie moleculara au ca rezultat o modificare a duratei de viata.

Pentru aceasta, proiectul va folosi elemente de text mining, procesarea limbajului natural si machine learning pentru a cataloga automat articole ce contin informatii despre gene asociate longevitatii si alte articole. Algoritmul implementat se va folosi de un set de exemple positive (articole deja asociate cu gene din baza de date GenAge) si un set mai larg de articole neetichetate (obtinute printr-un query pubmed). Este sugerata folosirea unui metode de invatare PU.

Link-uri utile:

GenAge – http://genomics.senescence.info/genes/

Proiectul va fi realizat in colaborare cu Computational Biology of Aging Group,
Institute of Biochemistry, Romanian Academy.