Information Enrichment through Natural Language Processing

Research

우리 연구실의 BioNLP 연구팀에서는 자연언어와 자연언어를 통한 사고 방식의 이해에 기반을 둔 자연언어처리 기술 및 추론 기법을 활용하여 생물학 지식 발견을 도움을 주는 여러 가지 기술 및 도구를 개발하고 있습니다. 생물학 분야에서는 세부 분야의 새로운 지식이 다른 세부 분야의 큰 진보의 밑거름이 될 수 있을 정도로 세부 분야들 간에 밀접한 관계가 있습니다. 예를 들면, 1986년에 Don Swanson은 어류 생물학에서의 발견과 의학에서의 발견을 결합하여 생선 기름이 레이노병 환자에게 도움을 준다는 사실을 발견한 사례가 유명합니다. 그러나 생물학자 개개인이 생물학 전체의 방대한 지식을 익히거나 빠른 속도로 증가하는 지식들을 따라가기에는 사실상 불가능합니다. 다행히도 생물학 지식, 특히 새로 발견되는 생물학 지식의 대부분은 논문으로 출판되고 있으며 이들의 초록 정도는 인터넷에서 쉽게 얻을 수 있기 때문에 우리 연구실의 전문 기술인 자연언어처리 기술을 활용하여 논문들에 산재된 이들 지식을 수집할 수 있으며, 자연언어 사고 방식의 이해를 토대로 이들 정보 간의 관계를 파악하여 새로운 가설을 세울 수 있을 것입니다. 이것이 BioNLP 연구팀의 목표입니다. 구체적으로 말하면, 우리 BioNLP 연구팀은 (1) 이들 자연언어문장으로 표현된 정보들을 논문에서 찾아내고 가공하기 용이한 구조로 변환하여 데이터베이스나 온톨로지의 형태로 된 리소스로 축적을 하는 텍스트마이닝 기술과 (2) 이렇게 축적된 리소스의 질을 높이는 품질 관리 기술과 (3) 이들 축적된 정보로부터 새로운 정보를 추론하는 추론 기술을 연구하고 있습니다.

현재는 (a) 생물학 문헌에서 실험에 관련한 정보를 추출하는 텍스트마이닝 기술과 (b) 온톨로지 내에 표현된 정보들 간의 모순성을 찾아내는 품질 관리 기술과 (c) 이들 온톨로지 내에 표현된 정보를 활용하여 새로 등장할 생물학 개념들의 후보를 찾아내거나 (d) 기존에 알려진 단백질 간의 관계들을 활용하여 새로운 단백질 간의 관계에 대한 가설을 만드는 추론 기술에 중점을 두고 연구하고 있습니다. 중장기 목표는 이러한 세 종류의 기술들을 활용하여 언어 장애나 감성 장애 등 뇌 내 신경 전달 및 조직의 이상으로 발생하는 장애에 관한 연구에 특화된 도구를 개발하는 것입니다.

1. Text-Mining Techniques

본 연구실에서 기존에 개발한 IE 도구로는 생물학 상호작용 추출을 위한 도구인 BioIE, 단백질에 대한 대조 정보를 추출하는 BioContrasts, 단백질 파괴에 관해 중요한 작용을 하는 Ubiquitin에 특화된 정보를 추출하는 E3Miner가 있습니다. 또한 단백질 상호작용(Protein-Protein Interaction, PPI) 정보를 해석하는 데 있어서 중요한 정보인 환경 정보(biological context)를 추출하기 위해서, PPI 검출 실험 관련 정보를 추출하기 위한 연구를 진행하였습니다. 최근에는 유전자와 암 간의 관계를 자동으로 파악하는 OncoSearch도 개발하였습니다. 현재는 우울증과 유전자 사이의 상관관계, 더 나아가 인과관계와 조건관계와 같은 심화된 관계를 찾고자 노력하고 있습니다. 이를 위해 먼저 생물학 문헌에서 자동으로 우울증 관련 유전자를 찾는 작업을 진행하였고 이들 사이의 인과관계와 조건관계를 밝히고 있는 중입니다. 추후에는 이를 이용해 우울증에 대한 유전자 pathway를 구축하는 연구를 진행할 예정입니다.

2. Resource Management Techniques

유전자의 생물학적 역할을 기술하는데 필요한 용어들을 제공하고 있는 Gene Ontology (GO)는 생물학의 빠른 변화와 다양한 정보를 기술하기 위하여 커져가는 GO 자체의 규모 때문에 관리에 어려움을 겪고 있습니다. 본 연구실에서는 GO의 관리 문제를 다루기 위하여 생물학의 변화를 GO에 반영하는 기술과 GO 내의 잘못된 부분을 찾아내는 기술을 개발하고 있습니다. 생물학의 변화를 반영하기 위한 연구로는 생물학 문헌에서 시간에 따른 GO 용어들의 사용 빈도의 변화를 시각화하는 기술(BioTermViz)과 GO의 두 버전 사이에 일어난 변화의 파악할 수 있도록 두 버전 간의 차이점을 시각화하는 기술을 개발하였습니다. 잘못된 부분을 찾아내기 위한 연구로는 GO의 용어 자체 또는 용어의 정의문에 내포된 정보를 자연언어처리 기술로 식별하고 이 정보를 바탕으로 서로 모순된 부분을 찾아내는 연구를 수행하고 있습니다.

3. Inference Techniques

본 연구실에서 개발한 자동 추론 도구로는 유전자의 생물학적 역할을 기술하는데 필요한 용어들을 제공하고 있는 Gene Ontology (GO)에 새롭게 추가될 용어들의 후보들을 찾아내는 AutoGO가 있습니다. 이 연구에서는 GO의 용어와 용어들 간의 관계에서 동일한 패턴들을 등장한다는 것을 발견을 하였고, 발견한 몇 가지 패턴들을 활용하여 새로운 용어들과 이 용어들의 GO 내의 용어들 간의 관계를 유도하는 것에 성공하였습니다. 현재는 자연언어의 이해를 바탕으로 패턴들을 자동으로 찾아내는 기술들을 개발하고 있습니다. 이 기술이 개발되면 다양한 새롭게 등장할 생물학 관련 용어들의 후보들을 찾아낼 수 있을 것으로 기대됩니다.본 연구실에서 개발한 또 다른 도구로는 BioDetective가 있습니다. BioDetective는 IE도구에 의해 추출된 정보들을 입력으로 사용하여서 알려진 단백질간의 새로운 관계가 있는지를 추정해 내는 도구 입니다. Biological Context에 관한 정보를 실험 관련 정보를 통해 추출하게 되면 좀 더 정확도 있는 자동 추론 시스템 개발이 가능해 질 것으로 기대하고 있습니다.