Research

Vision

Research

We seek to provide a human oriented service for human-human and human-computer interaction by creative fusion of diverse disciplines and methodologies through linguistic investigations.




History

Research

Overall



2010's



2000's



1990's



Information Enrichment through Natural Language Processing

Research

우리 연구실의 BioNLP 연구팀에서는 자연언어와 자연언어를 통한 사고 방식의 이해에 기반을 둔 자연언어처리 기술 및 추론 기법을 활용하여 생물학 지식 발견을 도움을 주는 여러 가지 기술 및 도구를 개발하고 있습니다. 생물학 분야에서는 세부 분야의 새로운 지식이 다른 세부 분야의 큰 진보의 밑거름이 될 수 있을 정도로 세부 분야들 간에 밀접한 관계가 있습니다. 예를 들면, 1986년에 Don Swanson은 어류 생물학에서의 발견과 의학에서의 발견을 결합하여 생선 기름이 레이노병 환자에게 도움을 준다는 사실을 발견한 사례가 유명합니다. 그러나 생물학자 개개인이 생물학 전체의 방대한 지식을 익히거나 빠른 속도로 증가하는 지식들을 따라가기에는 사실상 불가능합니다. 다행히도 생물학 지식, 특히 새로 발견되는 생물학 지식의 대부분은 논문으로 출판되고 있으며 이들의 초록 정도는 인터넷에서 쉽게 얻을 수 있기 때문에 우리 연구실의 전문 기술인 자연언어처리 기술을 활용하여 논문들에 산재된 이들 지식을 수집할 수 있으며, 자연언어 사고 방식의 이해를 토대로 이들 정보 간의 관계를 파악하여 새로운 가설을 세울 수 있을 것입니다. 이것이 BioNLP 연구팀의 목표입니다. 구체적으로 말하면, 우리 BioNLP 연구팀은 (1) 이들 자연언어문장으로 표현된 정보들을 논문에서 찾아내고 가공하기 용이한 구조로 변환하여 데이터베이스나 온톨로지의 형태로 된 리소스로 축적을 하는 텍스트마이닝 기술과 (2) 이렇게 축적된 리소스의 질을 높이는 품질 관리 기술과 (3) 이들 축적된 정보로부터 새로운 정보를 추론하는 추론 기술을 연구하고 있습니다.

현재는 (a) 생물학 문헌에서 실험에 관련한 정보를 추출하는 텍스트마이닝 기술과 (b) 온톨로지 내에 표현된 정보들 간의 모순성을 찾아내는 품질 관리 기술과 (c) 이들 온톨로지 내에 표현된 정보를 활용하여 새로 등장할 생물학 개념들의 후보를 찾아내거나 (d) 기존에 알려진 단백질 간의 관계들을 활용하여 새로운 단백질 간의 관계에 대한 가설을 만드는 추론 기술에 중점을 두고 연구하고 있습니다. 중장기 목표는 이러한 세 종류의 기술들을 활용하여 언어 장애나 감성 장애 등 뇌 내 신경 전달 및 조직의 이상으로 발생하는 장애에 관한 연구에 특화된 도구를 개발하는 것입니다.

1. Text-Mining Techniques

본 연구실에서 기존에 개발한 IE 도구로는 생물학 상호작용 추출을 위한 도구인 BioIE, 단백질에 대한 대조 정보를 추출하는 BioContrasts, 단백질 파괴에 관해 중요한 작용을 하는 Ubiquitin에 특화된 정보를 추출하는 E3Miner가 있습니다. 또한 단백질 상호작용(Protein-Protein Interaction, PPI) 정보를 해석하는 데 있어서 중요한 정보인 환경 정보(biological context)를 추출하기 위해서, PPI 검출 실험 관련 정보를 추출하기 위한 연구를 진행하였습니다. 최근에는 유전자와 암 간의 관계를 자동으로 파악하는 OncoSearch도 개발하였습니다. 현재는 우울증과 유전자 사이의 상관관계, 더 나아가 인과관계와 조건관계와 같은 심화된 관계를 찾고자 노력하고 있습니다. 이를 위해 먼저 생물학 문헌에서 자동으로 우울증 관련 유전자를 찾는 작업을 진행하였고 이들 사이의 인과관계와 조건관계를 밝히고 있는 중입니다. 추후에는 이를 이용해 우울증에 대한 유전자 pathway를 구축하는 연구를 진행할 예정입니다.

2. Resource Management Techniques

유전자의 생물학적 역할을 기술하는데 필요한 용어들을 제공하고 있는 Gene Ontology (GO)는 생물학의 빠른 변화와 다양한 정보를 기술하기 위하여 커져가는 GO 자체의 규모 때문에 관리에 어려움을 겪고 있습니다. 본 연구실에서는 GO의 관리 문제를 다루기 위하여 생물학의 변화를 GO에 반영하는 기술과 GO 내의 잘못된 부분을 찾아내는 기술을 개발하고 있습니다. 생물학의 변화를 반영하기 위한 연구로는 생물학 문헌에서 시간에 따른 GO 용어들의 사용 빈도의 변화를 시각화하는 기술(BioTermViz)과 GO의 두 버전 사이에 일어난 변화의 파악할 수 있도록 두 버전 간의 차이점을 시각화하는 기술을 개발하였습니다. 잘못된 부분을 찾아내기 위한 연구로는 GO의 용어 자체 또는 용어의 정의문에 내포된 정보를 자연언어처리 기술로 식별하고 이 정보를 바탕으로 서로 모순된 부분을 찾아내는 연구를 수행하고 있습니다.

3. Inference Techniques

본 연구실에서 개발한 자동 추론 도구로는 유전자의 생물학적 역할을 기술하는데 필요한 용어들을 제공하고 있는 Gene Ontology (GO)에 새롭게 추가될 용어들의 후보들을 찾아내는 AutoGO가 있습니다. 이 연구에서는 GO의 용어와 용어들 간의 관계에서 동일한 패턴들을 등장한다는 것을 발견을 하였고, 발견한 몇 가지 패턴들을 활용하여 새로운 용어들과 이 용어들의 GO 내의 용어들 간의 관계를 유도하는 것에 성공하였습니다. 현재는 자연언어의 이해를 바탕으로 패턴들을 자동으로 찾아내는 기술들을 개발하고 있습니다. 이 기술이 개발되면 다양한 새롭게 등장할 생물학 관련 용어들의 후보들을 찾아낼 수 있을 것으로 기대됩니다.본 연구실에서 개발한 또 다른 도구로는 BioDetective가 있습니다. BioDetective는 IE도구에 의해 추출된 정보들을 입력으로 사용하여서 알려진 단백질간의 새로운 관계가 있는지를 추정해 내는 도구 입니다. Biological Context에 관한 정보를 실험 관련 정보를 통해 추출하게 되면 좀 더 정확도 있는 자동 추론 시스템 개발이 가능해 질 것으로 기대하고 있습니다.

Prediction and Augmentation of the Credibility Distribution via Linguistic Analysis and Automated Evidence Document Collection

Research

본 연구는 주어진 문서를 읽을 때 독자가 의식적 또는 무의식적으로 진행하는 신뢰도 판단 과정에 대한 심층적인 언어학적 분석과 함께 주어진 문서와 관련된 증거자료의 자동 수집 및 대조 분석을 통해 주어진 문서가 얼마나 신뢰할 수 있는 문서인지를 자동으로 판단하기 위한 연구입니다. 또한, 이런 신뢰도 판단에 그치지 않고, 주어진 문서가 왜 일반적으로 신뢰할 수 있는지/없는지에 대한 분석 결과를 기반으로 주어진 문서가 보다 더 신뢰받기 위해서는 어떻게 내용이 바뀌어야 하는지를 자동으로 파악하여 보다 신뢰할 수 있는 문서로 자동으로 첨삭/변형시켜주는 신뢰도 자동 증강을 도모하는 시스템 구축을 목표로 합니다.

  본 연구팀은 주어진 문서를 얼마나 신뢰해야 하는지를 자동으로 파악하는 것이 현재 전세계적으로 큰 관심을 끌고 있는 가짜 뉴스 문제에 대한 궁극적인 해결안이 될 것이라 예상합니다. 진짜/가짜의 문제는 단순한 흑백 논리로 접근될 수 없으며, 주관적인 신념으로부터 명확하게 분리되어 개념화될 수 없습니다. 이는 독자 개개인은 주어진 정보를 “거부”할 자유를 가지며, 이런 거부의 과정은 “이것은 가짜이다”라는 개인적 판단과 동시에 또는 별개로 진행될 수 있기 때문입니다. 이런 판단의 과정은 획일화된 방법론과 이론을 통해 정의할 수 없는, 주관적인 신념과 관련된 요소들을 포함합니다.
  “신뢰”라는 개념은 이런 주관적인 신념과 관련된 개념들을 내포하고 있으며, 또한 문서의 질과 설득력에 대한 개념 역시 내포하고 있습니다. 또한 “신뢰”라는 개념은 참/거짓을 판단하는 인지적 과정과 밀접한 관련을 갖는데, 주어진 말의 참/거짓을 판단하는 과정은 전통적인 언어학 중 의미론(semantics)의 근간을 이루는 개념입니다. 일례로, 전통적인 의미론에서 “문장의 해석”은 “사람이 참/거짓 값을 판단할 수 있을 정도로 상세화된 정보 도출”로 정의됩니다. 또한 “신뢰” 혹은 “참/거짓”을 인식하는 과정과 사람이 의사소통을 하는 데 있어 암묵적으로 동의하는 화용론적 규칙(pragmatic rules)들은 밀접한 관련을 가지는데, 구체적으로 언급하지 않았더라도 내포하고 있는 의미의 전달, 어떤 정보를 강조하거나 생략하였다면 그 이면에 내재된 이유는 무엇인지, 어떤 정보를 상세하게 기술하였다면 그 이유는 무엇인지 등에 대한 추론 과정 등은 대화 상대 혹은 문서의 저자에 대한 신뢰도를 판단하는 과정과 밀접하게 관련됩니다.
  이에 있어 본 연구는 깊은 언어학적 이해를 바탕으로 문헌 분석, 증거자료 수집, 신뢰도 예측, 신뢰도 증강을 수행하는 자동 시스템을 구축합니다. 또한 주관적인 신념의 작용과 객관적인 증거 자료들의 상호작용과 관련된 인간-컴퓨터 상호작용을 분석함과 동시에, 사용자에게 최적화된 신뢰도 판단/증강 보조도구를 개발합니다.
  본 연구를 통해, 상대방이 말하는 것을 듣거나 누군가가 작성해놓은 글을 읽을 때에 신뢰도 판단과 관련한 일련의 인지 과정을 보다 편안하게 느낄 수 있도록 하는 것을 하나의 목적으로 하고, 이와 함께 상대방에게 보다 더 신뢰를 줄 수 있는 말을 하도록 자동화된 시스템의 기계적 보조를 받는 것을 또 하나의 목적으로 삼습니다. 궁극적으로 본 연구는 이를 통해 문서/말/대화와 관련된 일상 생활 중 일어나는 삶의 질을 향상시키고자 합니다.
  본 연구를 통해서 구축될 자동화된 시스템을 통해, 더 편안하고 더 빠르고 더 확실하게 상대방이 전달하는 정보에 대한 신뢰도를 파악하고 더 편안하고 더 빠르고 더 확실하게 상대방에게 신뢰할 수 있는 정보를 전달할 수 있도록 하는 것이 가능해질 것이라 기대합니다.

홈페이지

http://credon.kaist.ac.kr/

An automatic feedback system for the prevention and early treatment of depressive symptoms through language use analysis

Research

우울증은 현대인에게서 흔히 발견되는 정신질환 중 하나로서, 개인의 일상 기능을 저하시킬 뿐만 아니라, 더 나아가 해당 증상이 장기화될 때 다양한 사회적 문제를 야기할 수 있습니다. 우리는 우울증이 일으킬 수 있는 문제들을 사전에 예방하기 위해 사용자의 심층적인 언어학적 패턴을 분석하여 소셜 미디어 사용자의 우울증 여부를 자동적으로 예측하는 시스템을 연구합니다.

특히 최근에는 소셜 미디어 상의 텍스트를 이용한 사용자의 우울증 조기 진단 시도가 많아지고 있습니다. 이는 소셜 미디어 텍스트가 정신질환 증상을 보이는 사용자들의 다양한 언어 사용 양상 발견 기회를 제공한다는 점에 착안하였습니다.
반면 대부분의 기존 연구는 텍스트 상에 나타나는 우울증 관련 증상과 수반되는 감정에 관련된 어휘(예시: 자살, 무기력, 우울감)를 중심으로 사용자의 우울증 여부를 예측해왔습니다. 이러한 어휘 기반 모델은 어느 정도 만족스러운 성능을 보였지만, 예측 정확도 향상에 있어 다음과 같은 문제를 가집니다. 첫째, 소셜 미디어 텍스트는 비정형적(informal)인 텍스트이며 우울증 및 감정 관련 어휘가 신조어 혹은 사전 미등록 어휘(out-of-vocabulary) 형태로 나타날 가능성이 많기 때문에, 우울증 관련 어휘들을 모두 포착하기 어려울 수 있습니다. 둘째, 대부분의 우울증 증상 관련 어휘들은 우울증을 겪고 있지 않는 사용자들의 텍스트에서도 종종 발견될 수 있기 때문에, 특정 어휘의 출현 여부만으로는 사용자의 우울증 여부를 판단하기 어렵다는 문제가 있습니다.
우리 연구팀은 어휘 기반 예측 모델이 지닌 문제점을 해결하기 위해 보다 심층적인 언어학적 패턴을 이용하여 소셜 미디어 사용자의 우울증 여부를 예측하는 방법을 연구합니다. 이를 적용한 모델은 사용자의 우울증 예측에 있어 언어학적 패턴 사용의 효과를 검증하며 기존 어휘 기반 예측 모델보다 효과적임을 확인할 수 있었습니다.

Augmented Communication by Natural Language Processing

Research

자연 언어를 통해 이루어지는 일상 생활에서의 의사 표현을 발화자/수신자의 유형 및 환경에 따라 변형하거나 증강하여 보다 효과적인 의사 전달을 가능하게 하는 기술을 연구합니다. 또한 정확하고 자연스러운 표현을 위하여 전달 내용을 심층 분석하는 기술을 연구합니다.

  • 텍스트(문자)의 내용을 음성, 수화, 애니메이션 등의 다양한 형태로 표현하는 기술
  • 내용에 관련된 배경 음악과 그림 등의 효과를 삽입하여 표현을 증강하는 기술
  • 텍스트의 내용에 대한 심층 분석을 통하여 문형, 의미, 감정 등의 정보를 정확하게 파악하고 이를 응용하는 기술
  • 치매 및 언어장애 환자의 말과 글에서 언어 사용 특성을 자동으로 파악하고 문제점을 진단하여 언어재활 및 적응을 도와주는 기술

대표 연구

수화 자동 번역 연구

TV, 인터넷과 같은 대중 매체에서 전달하는 텍스트 형태의 정보를 농인(청각장애인)을 위한 수화 형태로 변형하기 위해, 주어진 문헌의 감정, 문형 등을 파악하여 보다 자연스러운 수화로 생성하는 기술을 연구합니다. 특히 음성 언어와 다른 수화의 고유한 특징인 공간성, 동시성 등을 고려하여 한국어 문장을 적절한 수화 표현으로 대응시키는 연구를 진행하고 있습니다.

언어 장애 진단 및 재활 연구

치매 환자와 같이 언어 사용에 제약이 있는 사람들의 언어 사용 특성을 파악하여 언어 장애를 전산학적으로 진단할 수 있는 기술을 연구합니다. 즉, 이러한 연구에서는 언어 장애가 있는 사람들은 어떤 어휘를 선택하여 문장을 구성하는지 또는 대화 속에 나타나는 내용어들 간의 관계를 제대로 표현하고 있는지 등을 분석하여 이들의 언어 사용 특성을 모형화하고 있습니다. 또, 진단 기술에 의해 파악된 언어 장애 유형에 따라 어떤 언어 자극이 언어 장애 재활에 도움을 주는지도 연구하고 있습니다.

발화문장 상의 감정에 자연스러운 감정 음성 합성 연구

로봇과 사용자간의 상호작용에 있어 발화 의도와 분위기를 살린 로봇의 음성을 합성하기 위하여 감정이 실린 음성을 합성하는 기술을 연구합니다. 로봇이 발화할 내용으로부터 감정 상태를 자동으로 파악하고, 발화문장의 문형과 감정 상태에 따라 기본 음성(Text-to-Speech) 시스템을 통해 합성된 음성이나 미리 녹음된 육성)을 감정이 실린 음성으로 변환하는 연구를 진행하고 있습니다. 합성된 음성은 얼굴표정, 제스처와 같은 모달리티와 동기화되어 로봇의 감정/상황/의도를 자동으로 표현하는 기술을 개발하는 과제에 활용되고 있습니다.

리소스

http://nlp.kaist.ac.kr/resources

A system for offensive language detection and automatic feedback with correction

Research

정보 교환 및 의견 공유를 위한 온라인 소셜 플랫폼의 활성화와 더불어, 인터넷을 매개로 한 언어 폭력이 심각한 사회 문제로 대두되고 있다. 건전한 온라인 소통 문화를 구축하기 위하여 유해 언어를 검열할 수 있는 연구들이 선행되어 왔으나, 성능이나 활용 범위에 있어 여전히 괄목할만한 성과를 나타내고 있지 못하다.

본 연구팀이 목표하는 솔루션은, 개개인이 독자의 입장에 있을 때 특정 플랫폼과 관계없이 스스로 판단하기에 원하지 않는, 그리고 잠재적인 피해를 만들어낼 수 있다고 생각하는 종류의 텍스트를 “읽지 않고자” 선택할 수 있도록 하는 기능을 제공하며, 동시에 개개인이 화자의 입장에 있을 때는 누군가 무고한 희생자를 만들어낼 수 있을 말에 대해 미리 인식할 수 있도록 도움을 받고, 이를 통해 피해를 만들어낼 수 있는 표현을 “쓰지 않고자” 선택할 수 있도록 한다. 개개인이 독자의 위치에서 제공받는 기능과 화자의 위치에서 제공받는 기능을 가능한 한 많은 사용자가 활용하게 되면 어느 시점 이후 상승효과를 가지게 되어 결국 유해 언어로 인한 피해 현상을 근절시킬 수 있을 것이라 판단한다. 그리고 강요없이 제공되는 개개인 중심적 선택지 제공이 인간 심리에 있어 플랫폼 중심적인 검열 방식에 비해 훨씬 더 높은 효과를 보일 것이라 판단한다.
  구체적으로, 제안하는 시스템은 다양한 언어학적 분석 결과에 근거하여 온라인상의 텍스트가 가지는 유해도를 맥락과 화자 독자의 특성을 기반으로 분석하고, 독자 입장에서 불편할 수 있는 콘텐츠를 경고 및 차단하는 것을 사용자가 선택할 수 있도록 하며, 화자 입장에서 작성되고 있는 글로 인해 피해를 받을 수 있는 잠재 집단을 명시하는 방식의 자세한 설명을 사용자가 선택하여 받을 수 있도록 하며 동시에 이를 대체할 수 있는 순화된 표현을 사용자가 선택하여 받을 수 있도록 한다. 제안하는 시스템은 인터넷을 매개로 시민들이 서로 주고받을 수 있는 직간접적인 언어 피해에 대한 방어벽을 사용자가 스스로 자유롭게 만들어낼 수 있도록 한다.
  본 연구팀은 제안하는 연구 기술 개발을 통해 개개인이 콘텐츠의 제공에 있어 독자로서 “보지 않을 권리” 혹은 “읽지 않을 권리”를 보다 적극적으로 행사할 수 있도록 하며 동시에 화자로서 (그리고 나아가 특정 대상의 사람들이 불쾌하게 느낄 수 있는 표현들에 대해서도) 개개인의 “표현할 권리”를 전혀 침해하지 않는 방식으로 동시에 개개인의 동기와 그 결정들이 낳을 수 있는 결과들에 대한 자세한 정보를 적극적으로 제공함을 통해 순화된 표현들을 선택할 수 있도록 적극적으로 독려한다. 그리고 제안하는 시스템은 화자가 본 연구팀이 제작한 시스템의 “선택 보조를 희망한다는 종류의 의사 표현”을 “보지 않을 권리” 혹은 “읽지 않을 권리” 역시 적극적으로 보장한다. 본 연구팀은 인터넷 상에서 유해 언어를 통해, 특히 맥락에 따라 누군가가 의도하지 않았지만 부적절한 의미 전달을 통해 무고한 피해가 발생하는 것을 근본적으로 해결하고자 하는 개개인 주도 방식의 IT 솔루션을 구축하고자 한다.