머신러닝15 CH 04-5. Drug target interaction(DTI) prediction using Sequence model - training and result CH 04-3에서는 DTI prediction을 위한 model 정의를 마쳤다. 이번 시간엔 모델을 만들고 학습시킨 후 결과를 확인해보자.Create deep learning model약물(Drug)과 단백질(Protein)의 특성을 추출하여 결합 친화도를 예측하는 CNN-RNN 모델을 정의할 것이다. 주요 설정값을 먼저 확인해보자.약물(Drug) 설정cnn_drug_filters : CNN 층에서 사용할 필터의 개수이다. 각 층의 필터는 32, 64, 96개로 설정되어 있다.cnn_drug_kernels : CNN의 커널 크기를 설정한다. 각각 4, 6, 8로 설정되어 있다.hidden_dim_drug : GRU/LSTM을 거친 후 약물 임베딩 차원을 의미한다. 현재 설정은 256이다.rnn_drug_.. 의료 AI(딥러닝) 공부 일기 2024. 10. 23. CH 04-4. Drug target interaction(DTI) prediction using Sequence model - model definition using 1DCNN & GRU CH 04-3에서는 DTI prediction을 위한 data processing 과정을 수행하였다. 이제 본격적으로 모델을 훈련하기에 앞서 사용할 모델을 정의하는 과정을 서술한다.Model definitionDataLoader 만들기PyTorch에서 사용되는 Dataset과 DataLoader 클래스를 활용하여 데이터를 모델에 전달할 수 있는 형식으로 변환하고, 배치 단위로 데이터를 처리할 수 있도록 구성할 것이다.Custom Dataset 만들기(data_process_loader)enc_drug와 enc_protein은 각각 데이터 전처리 과정에서 선언했던 One-hot 인코더이다. np.array(x).reshape(-1,1)을 통해 입력을 2차원 배열로 변환한 후, transform으로 One-.. 의료 AI(딥러닝) 공부 일기 2024. 9. 20. CH 04-3. Drug target interaction(DTI) prediction using Sequence model - Data processing DTI?화학 물질(Drug)과 그 물질의 표적이 되는 단백질(Drug target) 사이의 상호작용(DTI) score를 예측함을 목표로 하고 실습을 진행해 보자.데이터 형식주어질 데이터의 형태는 다음과 같다.단백질 ← peptide sequenceDrug ← SMILES 방식 sequence기대 효과임상 전에 약물이 특정 단백질과 상호작용하는 수치를 미리 예측할 수 있고 연구 개발 단계에서 소요되는 시간을 획기적으로 줄일 수 있을 것이다. 이렇게 가상환경에서의 실험 방법을 In-Silico라고 하며 앞으로 주목받을 차세대 연구 개발 항목임에 틀림없다.데이터 준비https://www.nature.com/articles/nbt.1990위 논문 "Comprehensive analysis of kinase i.. 의료 AI(딥러닝) 공부 일기 2024. 9. 7. CH 04-1. Attention mechanism Attention mechanism이 전 챕터까지 RNN, GNU에 대해서 계속 학습해왔다. 이 모델들의 단점은 sentence가 길어지면 성능이 낮아지는 현상이 나타난다는 것이다. 그리고 이 현상을 너무 많은 정보가 하나의 노드로 들어가다 보니 bottle-neck현상이 일어난 것이 아닐까 보고 있다.기존에 RNN, GNU 등의 성능이 좋지 않았던 이유는 결국 Encoder의 역할이 너무 많아서 Context vector가 모든 정보를 함축하지 못한다는 것이었다(LSTM, GRU를 써도 초기 정보가 희석된다). Context computing을 따로 하자. Encoder의 모든 feature를 사용하자. → Attention mechanism이 제시가 되었다.Input과 output의 관계를 잘 고려하.. 의료 AI(딥러닝) 공부 일기 2024. 8. 1. CH 04-0. Deep Learning for Biomedical sequence Sequence data modalityNLP를 생각하는 것이 가장 쉽게 biomedical sequence data의 modality를 이해하는 방법일 것이다. 그냥 긴~~ 책이라고 생각하자. 이 긴~~ 책 머신러닝적으로 어떻게 처리할 것인가를 다룰 것이다. 초반부터 이런 데이터들을 상당히 많이 접해왔다. DNA, RNA, Protein sequence, Compound SMILES 표현 등등 biomedical 분야에서 상당히 다양한 data가 존재한다.bio, chemi 논문들은 문제가 되는 sequence에 대해서 일일히 엑셀 형태로 정리를 해둔다. 그렇게 모이게된 데이터들을 가지고 문제 해결에 뛰어들게 될 것이다.BERT라는 Transformer 모델을 기반으로 PubMed, PMC 등의 사이트.. 의료 AI(딥러닝) 공부 일기 2024. 7. 9. CH 03-2. TCGA_Weakly Supervised Learning for segementation TCGA projectTCGA는 대규모 게놈 시퀀싱을 비롯한 게놈 분석 기술을 적용하여 암의 분자 기반에 대한 이해를 가속화하기 위한 프로젝트이다. 프로젝트에서 생성된 데이터는 20,000개 이상의 주요 암을 분자화하고 33가지 서로 다른 암 유형을 조사하여 데이터화 해두었습니다. 우리는 이 데이터 셋을 이용하여 Rectal cancer(직장암) 데이터를 활용해서 Rectal cancer의 subtype을 구분하도록 학습시킬것이다. 보통 CMS1, 2, 3, 4 type 이렇게 총 네가지로 나뉘는데 오늘 Segmentation을 통해 검사할 subtype은 CMS4이다. 가장 생존률이 낮은 subtype으로 알려져있다.데이터 준비TCGA데이터는 WSI(Whole Slide Image)로 데이터 사이즈가 .. 의료 AI(딥러닝) 공부 일기 2024. 7. 8. CH 03-2. Histology Image & Weakly Supervised Learning Histology?Histology(조직학)는 다양한 질병의 발병기전과 진단을 이해하는 데 사용되는 조직과 세포를 현미경단위로 연구하는 학문이다. 질병의 진단을 받게 되면 기본적으로 찍는 이미지이다. 병리의학적으로 실제 병이 있는지 체크할 수 있다.최근 정밀의료에 대한 관심이 뜨거워지고 있기 때문에 초개인화된 맞춤의학의 시대가 다가오고 있다. 개인의 Mulit-Omics 데이터를 활용하여 정밀의학을 시도하는 것을 Precision medicine이라고 한다. 이쪽으로 cancer나 기타 여러 질병들의 histoloy data들이 모아지고 있다.WSI(Whole Slid Image)Histology data의 특징은 크기가 정말정말 크다는 것이다. 보통 조직이나 세포를 현미경으로 찍어놓은 사진은 WSI(W.. 의료 AI(딥러닝) 공부 일기 2024. 7. 8. CH 03-1. Covid CT image classification 결과 지표는 뭘 어떻게 봐야할까?의료 데이터가 imbalance 한것은 사실 빈번한 문제이다. 예를들어, 단백질에 임의의 한 효과에 대해서 이게 약으로 작용할 지, 아닐지는 최소 1:10,000 정도의 비율을 가진다. 따라서 이런것들을 판단할 때, 단순히 Accruacy만 바라보는 것은 위험하다. 신뢰하기 위해서는 다른 평가 지표들도 함께 볼 수 있어야 한다.일단 기본적으로 Classification의 성능은 Threshold에 의해서 나온다.Classification ThresholdActivation funcion으로 sigmoid나 softmax를 사용하는 이유를 생각해보자. 이 두 함수를 사용하며 output을 도출하는 model은 전부 최종 output은 0에서 1의 값을 가져야 한다. 0에 가.. 의료 AI(딥러닝) 공부 일기 2024. 7. 7. CH 03-0. Deep Learning for Biomedical Image Biomedical Image Training 개요BIT(BT + IT)분야에서 가장 성공적으로 성장한 분야는 vision application 분야이다. 최근 자연어 처리도 각광 받고 있지만 기존에 CS 분야에서 CV가 크게 성장했었기 때문에 딥러닝의 폭발적인 발전이 이루어질 수 있었다.그 대표적인 사례가 Lung cancer에 image deep learning을 접목하여 FDA approved를 받은 사례와 논문이 있다.이를 위해 세가지 도메인이 합쳐지게 된다. “Medical Image data + CV + ML”앞선 챕터에서 자주 등장했듯이 바이오메디컬 분야도 데이터의 양이라는 한계에서 벗어나기 위해 벤치마킹 데이터셋을 위한 노력이 이어지고 있다. 그 예시 중 하나가 “MedMNIST”Conv.. 의료 AI(딥러닝) 공부 일기 2024. 7. 7. CH 02-2. Drug Toxicity Prediction - Classification 사용한 모델의 코드와 파라미터는 아래 github을 참고해주세요.https://github.com/Yg-Hong/drug_toxicity_prediction/blob/main/Deep%20learning%20Classification%20code%20Pattern%20(Drug%20Toxicity%20Prediction)/Deep%20learning%20Classification%20code%20Pattern%20(Drug%20Toxicity%20Prediction).ipynb drug_toxicity_prediction/Deep learning Classification code Pattern (Drug Toxicity Prediction)/Deep learning Classification codeC.. 의료 AI(딥러닝) 공부 일기 2024. 7. 6. CH 02-1. Drug Toxicity Prediction 응용 - Regression CH 02-0.에서 패스트캠퍼스 강의를 보고 코드를 흡수하는 과정을 거쳤다. TDC에서 제공하는 API 형태가 많으니까 나도 한번해보자. 사용한 모델의 코드와 파라미터는 아래 github을 참고해주세요.https://github.com/Yg-Hong/drug_toxicity_prediction/blob/main/Deep%20learning%20Regression%20code%20Pattern%20(Drug%20Toxicity%20Prediction)/Deep%20learning%20Regression%20code%20Pattern%20(Drug%20Toxicity%20Prediction)_hERG%20Central.ipynb drug_toxicity_prediction/Deep learning Regre.. 의료 AI(딥러닝) 공부 일기 2024. 7. 5. CH 02-0. Drug Toxicity Prediction - Regression 사용한 모델의 코드와 파라미터는 아래 github을 참고해주세요.https://github.com/Yg-Hong/drug_toxicity_prediction/blob/main/Deep%20learning%20Regression%20code%20Pattern%20(Drug%20Toxicity%20Prediction)/Deep%20learning%20Regression%20code%20Pattern%20(Drug%20Toxicity%20Prediction).ipynb drug_toxicity_prediction/Deep learning Regression code Pattern (Drug Toxicity Prediction)/Deep learning Regression code PatternContribut.. 의료 AI(딥러닝) 공부 일기 2024. 7. 5. 이전 1 2 다음