RNN4 CH 04-5. Drug target interaction(DTI) prediction using Sequence model - training and result CH 04-3에서는 DTI prediction을 위한 model 정의를 마쳤다. 이번 시간엔 모델을 만들고 학습시킨 후 결과를 확인해보자.Create deep learning model약물(Drug)과 단백질(Protein)의 특성을 추출하여 결합 친화도를 예측하는 CNN-RNN 모델을 정의할 것이다. 주요 설정값을 먼저 확인해보자.약물(Drug) 설정cnn_drug_filters : CNN 층에서 사용할 필터의 개수이다. 각 층의 필터는 32, 64, 96개로 설정되어 있다.cnn_drug_kernels : CNN의 커널 크기를 설정한다. 각각 4, 6, 8로 설정되어 있다.hidden_dim_drug : GRU/LSTM을 거친 후 약물 임베딩 차원을 의미한다. 현재 설정은 256이다.rnn_drug_.. 의료 AI(딥러닝) 공부 일기 2024. 10. 23. CH 04-4. Drug target interaction(DTI) prediction using Sequence model - model definition using 1DCNN & GRU CH 04-3에서는 DTI prediction을 위한 data processing 과정을 수행하였다. 이제 본격적으로 모델을 훈련하기에 앞서 사용할 모델을 정의하는 과정을 서술한다.Model definitionDataLoader 만들기PyTorch에서 사용되는 Dataset과 DataLoader 클래스를 활용하여 데이터를 모델에 전달할 수 있는 형식으로 변환하고, 배치 단위로 데이터를 처리할 수 있도록 구성할 것이다.Custom Dataset 만들기(data_process_loader)enc_drug와 enc_protein은 각각 데이터 전처리 과정에서 선언했던 One-hot 인코더이다. np.array(x).reshape(-1,1)을 통해 입력을 2차원 배열로 변환한 후, transform으로 One-.. 의료 AI(딥러닝) 공부 일기 2024. 9. 20. CH 04-1. Attention mechanism Attention mechanism이 전 챕터까지 RNN, GNU에 대해서 계속 학습해왔다. 이 모델들의 단점은 sentence가 길어지면 성능이 낮아지는 현상이 나타난다는 것이다. 그리고 이 현상을 너무 많은 정보가 하나의 노드로 들어가다 보니 bottle-neck현상이 일어난 것이 아닐까 보고 있다.기존에 RNN, GNU 등의 성능이 좋지 않았던 이유는 결국 Encoder의 역할이 너무 많아서 Context vector가 모든 정보를 함축하지 못한다는 것이었다(LSTM, GRU를 써도 초기 정보가 희석된다). Context computing을 따로 하자. Encoder의 모든 feature를 사용하자. → Attention mechanism이 제시가 되었다.Input과 output의 관계를 잘 고려하.. 의료 AI(딥러닝) 공부 일기 2024. 8. 1. CH 04-0. Deep Learning for Biomedical sequence Sequence data modalityNLP를 생각하는 것이 가장 쉽게 biomedical sequence data의 modality를 이해하는 방법일 것이다. 그냥 긴~~ 책이라고 생각하자. 이 긴~~ 책 머신러닝적으로 어떻게 처리할 것인가를 다룰 것이다. 초반부터 이런 데이터들을 상당히 많이 접해왔다. DNA, RNA, Protein sequence, Compound SMILES 표현 등등 biomedical 분야에서 상당히 다양한 data가 존재한다.bio, chemi 논문들은 문제가 되는 sequence에 대해서 일일히 엑셀 형태로 정리를 해둔다. 그렇게 모이게된 데이터들을 가지고 문제 해결에 뛰어들게 될 것이다.BERT라는 Transformer 모델을 기반으로 PubMed, PMC 등의 사이트.. 의료 AI(딥러닝) 공부 일기 2024. 7. 9. 이전 1 다음