Inference of Relationships among Biological Entities using a Convolutional Neural Network and Knowledge-Based Models
- Author(s)
- Wonjun Choi
- Type
- Thesis
- Degree
- Doctor
- Department
- 대학원 전기전자컴퓨터공학부
- Advisor
- Lee, Hyunju
- Abstract
- Medicinal plant is the most exclusive source of various types of phytochemicals having diverse chemical structures. These phytochemicals affect many molecular targets, for example they regulate the expression of target genes involved in many diseases. Thus, they continue to be an important therapeutic aid for alleviating human diseases. Today, medicinal plants have been receiving growing attention due to their long empirical history of healing human diseases with relatively no or less side effects, and also many experimental studies have investigated the effectiveness of medicinal plants to develop new drugs for the treatment of diseases. In general, discovering new medicinal plant-based drugs requires laborious experiments with an enormous amount of time and money. In this study, we aim to help researchers improve efficiency and reduce costs in the early stage of drug discovery. Throughout of this dissertation, we propose three parts of our studies for automatically extracting plant-chemical relationships from biomedical articles, and inferring new biological relationships between chemicals, genes, diseases, and symptoms from existing biological knowledge.
In the first part of this dissertation, we propose a text-mining approach for automatically extracting plant-chemical relationships from biomedical literature. In medicinal plant-based drug discovery, it is important to identify active compounds in plants. Recently, many researchers have made a considerable effort to construct public databases containing plant-chemical relationships manually collected from books, empirically widely known facts, and published results. However, the amount of data is limited and not sufficient. Also, as the number of biomedical articles is rapidly growing, manually curating plant-chemical relationships from the text is becoming an increasingly difficult task. Therefore, we developed a convolutional neural network (CNN)-based model with position embeddings for the automated prediction of plant-chemical relationships, and furthermore, manually annotated a plant-chemical corpus for learning and evaluating our model. The results illustrated that our model significantly outperformed a rule-based method and support vector machine (SVM) classifier.
In the second part of this dissertation, we conduct several experiments to prove that a knowledge graph embedding model has a potential to infer new biological relationships such as chemical-gene, disease-gene, chemical-disease, gene-gene, and disease-symptom relationships. The knowledge graph embedding is to encode both entities and relations of knowledge graphs into continuous low-dimensional vector spaces. Since there have been many efforts to produce ontologies encoding biological knowledge, it has become possible to construct large-scale biological knowledge graphs. Thus, we built a heterogeneous biological knowledge graph, and compared the performance of four different types of knowledge graph embedding models. We also showed that the reliability of knowledge graph embedding model was higher than an existing statistical model in inferring biological relationships. Our experimental results indicated that it was useful for the inference of biological relationships.
In the third part of this dissertation, we develop a CNN-based knowledge graph embedding model to infer biological relationships. Existing knowledge graph embedding models have been originally designed for the real-world large scale knowledge base (KB) such as FreeBase. In addition, the characteristics of the real-world KB and the biological KB are not identical, for example, transitive relations between two entities can be established in the real-world KB, while not always satisfied in the biological KB. Thus, the performance of existing knowledge graph embedding models is not satisfied when biological data are used. Most existing knowledge embedding models solely learn from entities and relations in knowledge graphs. However, we utilized textual descriptions for biological entities containing rich semantic information by jointly learning embeddings for biological entities and their descriptions in the CNN architecture. In this way, experimental results showed that our proposed approach achieved a considerable improvement in inferring biological relationships.|약용식물은 다양한 종류의 화학 물질들을 포함하고 있으며 이러한 화학성분들은 질병에 밀접하게 연관되어 있는 유전자들의 발현을 조절한다. 따라서, 식물들은 아주 오랜 시간 동안 질병을 치료하기 위한 약재로 사용되어왔으며, 상대적으로 부작용이 적다는 장점이 있다. 이러한 장점에 기반하여 질병 치료에 있어서 새로운 식물기반의 약재들을 밝혀내기 위한 연구들이 활발하게 진행되어오고 있다. 하지만, 일반적으로 특정 질병에 대해서 효과가 있는 식물기반 약재를 찾기까지는 많은 시간과 비용을 필요로한다. 본 연구에서는, 식물 기반 신약개발 초기 단계의 효율성을 증대시키는 것을 목적으로, 식물, 화학성분, 유전자, 질병, 증상 개체들 간에 관계 데이터를 자동으로 추출하는 방법들을 제안한다.
본 연구의 첫 번째 파트에서는 생의학 문헌으로부터 식물-화학성분 관계정보를 자동으로 추출할 수 있는 텍스트마이닝 방법을 제안한다. 식물기반의 신약개발에 있어서 식물 내에 존재하는 화학성분을 찾아내는 것은 매우 중요하다. 최근 책이나 경험적으로 잘 알려진 사실들과 출판된 문헌들로부터 수작업을 통해 수집된 식물-화학성분 관계정보들을 데이터베이스를 통해서 제공하고 있지만, 데이터의 양이 한정적이고 새로운 데이터를 추가하는데 많은 인력과 시간이 필요하다는 문제점을 지닌다. 따라서, 생의학 관련 문헌의 수가 기하급수적으로 증가함에따라 문헌에서 식물-화학성분 관계정보를 자동적으로 추출해주는 위치 임베딩을 사용한 합성곱 신경망 기반의 텍스트마이닝 모델을 개발하였다. 또한, 본 모델을 학습하고 성능을 측정하기 위해 식물-화학성분 코퍼스를 수작업으로 구축하였다. 결론적으로, 제안한 모델은 기존의 규칙 기반 모델, 서포트 벡터 머신 모델, 그리고 본 연구에서 사용한 베이스라인 모델에 비교해서 큰 성능 향상을 이루어내었다.
본 연구의 두 번째 파트에서는 생물학 개체들간에 새로운 관계정보를 추론하는 데 있어서 지식 그래프 임베딩 모델의 유용성을 증명하기 위한 실험 방법들과 그 결과들을 제시한다. 지식 그래프 임베딩 모델은 연속된 저차원 벡터 공간상에서 지식 그래프 내에 개체들과 관계들을 학습한다. 최근에는 이미 전문가로부터 검증된 생물학 지식 베이스들을 다양한 데이터베이스를 통해 배포하고 있기 때문에 거대한 규모의 생물학 지식 그래프를 구축하는 것이 가능해졌다. 따라서, 우리는 다른 종류의 개체와 관계 타입으로 구성된 생물학 지식 그래프를 구축했으며, 이를 기반으로 서로 다른 4가지 기존 지식 그래프 임베딩 모델들의 성능을 측정하였다. 또한, 생물학 관계 정보를 추론하기 위한 지식 기반 모델의 신뢰 정도를 나타내기 위해서 기존의 모델과 추가적인 성능 비교를 하였다. 결론적으로, 본 연구의 실험을 통해서 생물학 관계정보를 추론하는 데 있어서 지식 그래프 임베딩 모델의 유용성을 증명하였다.
본 연구의 세 번째 파트에서는 생물학 관계정보를 추론하기 위한 합성곱 신경망 기반의 지식 그래프 임베딩 모델을 제안한다. 기존의 지식 그래프 임베딩 모델들의 경우 생물학 관련 데이터가 아닌 프리베이스와 워드넷 지식 베이스 데이터를 효율적으로 임베딩 하기 위해 설계가 되었다. 기존의 지식 베이스들과는 다르게 생물학 지식베이스 데이터의 경우에는 개체들 간에 추이 관계가 항상 성립될 수 없는 등의 데이터 특질이 다르기 때문에 기존의 지식 그래프 임베딩 모델에서 생물학 지식베이스 데이터를 사용했을 때 모델의 성능이 저하된다. 따라서, 생물학 지식 베이스 추론 성능을 높이기 위해서 생물학 개체의 개체묘사데이터를 활용하는 합성곱 신경망 기반의 새로운 지식 그래프 임베딩 모델을 개발하였다. 결론적으로, 본 연구에서 제안한 모델은 생물학 지식 베이스 추론에 있어서 기존의 지식 그래프 임베딩 모델에 비교하여 상당한 성능향상을 이루어 내었다.
- URI
- https://scholar.gist.ac.kr/handle/local/33045
- Fulltext
- http://gist.dcollection.net/common/orgView/200000908756
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.