인공지능13 CH 04-4. Drug target interaction(DTI) prediction using Sequence model - model definition using 1DCNN & GRU CH 04-3에서는 DTI prediction을 위한 data processing 과정을 수행하였다. 이제 본격적으로 모델을 훈련하기에 앞서 사용할 모델을 정의하는 과정을 서술한다.Model definitionDataLoader 만들기PyTorch에서 사용되는 Dataset과 DataLoader 클래스를 활용하여 데이터를 모델에 전달할 수 있는 형식으로 변환하고, 배치 단위로 데이터를 처리할 수 있도록 구성할 것이다.Custom Dataset 만들기(data_process_loader)enc_drug와 enc_protein은 각각 데이터 전처리 과정에서 선언했던 One-hot 인코더이다. np.array(x).reshape(-1,1)을 통해 입력을 2차원 배열로 변환한 후, transform으로 One-.. 의료 AI(딥러닝) 공부 일기 2024. 9. 20. CH 04-3. Drug target interaction(DTI) prediction using Sequence model - Data processing DTI?화학 물질(Drug)과 그 물질의 표적이 되는 단백질(Drug target) 사이의 상호작용(DTI) score를 예측함을 목표로 하고 실습을 진행해 보자.데이터 형식주어질 데이터의 형태는 다음과 같다.단백질 ← peptide sequenceDrug ← SMILES 방식 sequence기대 효과임상 전에 약물이 특정 단백질과 상호작용하는 수치를 미리 예측할 수 있고 연구 개발 단계에서 소요되는 시간을 획기적으로 줄일 수 있을 것이다. 이렇게 가상환경에서의 실험 방법을 In-Silico라고 하며 앞으로 주목받을 차세대 연구 개발 항목임에 틀림없다.데이터 준비https://www.nature.com/articles/nbt.1990위 논문 "Comprehensive analysis of kinase i.. 의료 AI(딥러닝) 공부 일기 2024. 9. 7. CH 04-1. Attention mechanism Attention mechanism이 전 챕터까지 RNN, GNU에 대해서 계속 학습해왔다. 이 모델들의 단점은 sentence가 길어지면 성능이 낮아지는 현상이 나타난다는 것이다. 그리고 이 현상을 너무 많은 정보가 하나의 노드로 들어가다 보니 bottle-neck현상이 일어난 것이 아닐까 보고 있다.기존에 RNN, GNU 등의 성능이 좋지 않았던 이유는 결국 Encoder의 역할이 너무 많아서 Context vector가 모든 정보를 함축하지 못한다는 것이었다(LSTM, GRU를 써도 초기 정보가 희석된다). Context computing을 따로 하자. Encoder의 모든 feature를 사용하자. → Attention mechanism이 제시가 되었다.Input과 output의 관계를 잘 고려하.. 의료 AI(딥러닝) 공부 일기 2024. 8. 1. CH 04-0. Deep Learning for Biomedical sequence Sequence data modalityNLP를 생각하는 것이 가장 쉽게 biomedical sequence data의 modality를 이해하는 방법일 것이다. 그냥 긴~~ 책이라고 생각하자. 이 긴~~ 책 머신러닝적으로 어떻게 처리할 것인가를 다룰 것이다. 초반부터 이런 데이터들을 상당히 많이 접해왔다. DNA, RNA, Protein sequence, Compound SMILES 표현 등등 biomedical 분야에서 상당히 다양한 data가 존재한다.bio, chemi 논문들은 문제가 되는 sequence에 대해서 일일히 엑셀 형태로 정리를 해둔다. 그렇게 모이게된 데이터들을 가지고 문제 해결에 뛰어들게 될 것이다.BERT라는 Transformer 모델을 기반으로 PubMed, PMC 등의 사이트.. 의료 AI(딥러닝) 공부 일기 2024. 7. 9. CH 03-2. TCGA_Weakly Supervised Learning for segementation TCGA projectTCGA는 대규모 게놈 시퀀싱을 비롯한 게놈 분석 기술을 적용하여 암의 분자 기반에 대한 이해를 가속화하기 위한 프로젝트이다. 프로젝트에서 생성된 데이터는 20,000개 이상의 주요 암을 분자화하고 33가지 서로 다른 암 유형을 조사하여 데이터화 해두었습니다. 우리는 이 데이터 셋을 이용하여 Rectal cancer(직장암) 데이터를 활용해서 Rectal cancer의 subtype을 구분하도록 학습시킬것이다. 보통 CMS1, 2, 3, 4 type 이렇게 총 네가지로 나뉘는데 오늘 Segmentation을 통해 검사할 subtype은 CMS4이다. 가장 생존률이 낮은 subtype으로 알려져있다.데이터 준비TCGA데이터는 WSI(Whole Slide Image)로 데이터 사이즈가 .. 의료 AI(딥러닝) 공부 일기 2024. 7. 8. CH 03-2. Histology Image & Weakly Supervised Learning Histology?Histology(조직학)는 다양한 질병의 발병기전과 진단을 이해하는 데 사용되는 조직과 세포를 현미경단위로 연구하는 학문이다. 질병의 진단을 받게 되면 기본적으로 찍는 이미지이다. 병리의학적으로 실제 병이 있는지 체크할 수 있다.최근 정밀의료에 대한 관심이 뜨거워지고 있기 때문에 초개인화된 맞춤의학의 시대가 다가오고 있다. 개인의 Mulit-Omics 데이터를 활용하여 정밀의학을 시도하는 것을 Precision medicine이라고 한다. 이쪽으로 cancer나 기타 여러 질병들의 histoloy data들이 모아지고 있다.WSI(Whole Slid Image)Histology data의 특징은 크기가 정말정말 크다는 것이다. 보통 조직이나 세포를 현미경으로 찍어놓은 사진은 WSI(W.. 의료 AI(딥러닝) 공부 일기 2024. 7. 8. CH 03-0. Deep Learning for Biomedical Image Biomedical Image Training 개요BIT(BT + IT)분야에서 가장 성공적으로 성장한 분야는 vision application 분야이다. 최근 자연어 처리도 각광 받고 있지만 기존에 CS 분야에서 CV가 크게 성장했었기 때문에 딥러닝의 폭발적인 발전이 이루어질 수 있었다.그 대표적인 사례가 Lung cancer에 image deep learning을 접목하여 FDA approved를 받은 사례와 논문이 있다.이를 위해 세가지 도메인이 합쳐지게 된다. “Medical Image data + CV + ML”앞선 챕터에서 자주 등장했듯이 바이오메디컬 분야도 데이터의 양이라는 한계에서 벗어나기 위해 벤치마킹 데이터셋을 위한 노력이 이어지고 있다. 그 예시 중 하나가 “MedMNIST”Conv.. 의료 AI(딥러닝) 공부 일기 2024. 7. 7. CH 02-2. Drug Toxicity Prediction - Classification 사용한 모델의 코드와 파라미터는 아래 github을 참고해주세요.https://github.com/Yg-Hong/drug_toxicity_prediction/blob/main/Deep%20learning%20Classification%20code%20Pattern%20(Drug%20Toxicity%20Prediction)/Deep%20learning%20Classification%20code%20Pattern%20(Drug%20Toxicity%20Prediction).ipynb drug_toxicity_prediction/Deep learning Classification code Pattern (Drug Toxicity Prediction)/Deep learning Classification codeC.. 의료 AI(딥러닝) 공부 일기 2024. 7. 6. CH 02-1. Drug Toxicity Prediction 응용 - Regression CH 02-0.에서 패스트캠퍼스 강의를 보고 코드를 흡수하는 과정을 거쳤다. TDC에서 제공하는 API 형태가 많으니까 나도 한번해보자. 사용한 모델의 코드와 파라미터는 아래 github을 참고해주세요.https://github.com/Yg-Hong/drug_toxicity_prediction/blob/main/Deep%20learning%20Regression%20code%20Pattern%20(Drug%20Toxicity%20Prediction)/Deep%20learning%20Regression%20code%20Pattern%20(Drug%20Toxicity%20Prediction)_hERG%20Central.ipynb drug_toxicity_prediction/Deep learning Regre.. 의료 AI(딥러닝) 공부 일기 2024. 7. 5. CH 02-0. Drug Toxicity Prediction - Regression 사용한 모델의 코드와 파라미터는 아래 github을 참고해주세요.https://github.com/Yg-Hong/drug_toxicity_prediction/blob/main/Deep%20learning%20Regression%20code%20Pattern%20(Drug%20Toxicity%20Prediction)/Deep%20learning%20Regression%20code%20Pattern%20(Drug%20Toxicity%20Prediction).ipynb drug_toxicity_prediction/Deep learning Regression code Pattern (Drug Toxicity Prediction)/Deep learning Regression code PatternContribut.. 의료 AI(딥러닝) 공부 일기 2024. 7. 5. Ch 01. 인공지능 헬스케어 시장의 움직임인공지능 헬스케어 부분 산업 시장 사이즈는 매년 꾸준히 성장하고 있다. 산업 시장이 커지면서 기업들도 상당히 많이 유입되었다. 그중 대표적으로 구글 헬스가 있다. EMR/ EHR 등 쌓여만 가는 임상 데이터를 구글이 빅데이터와 클라우딩 기술로 선점하면서 산업 시장을 이끄는 중이다.고부가가치 시장난이도가 어렵지만 큰가치를 가진 분야임이 틀림없다. 해외에서는 Google Health가 시장을 주도하고 있고, 국내 시장으로 눈을 돌리면 네이버와 카카오 헬스케어가 시장을 주도하고 있다. 구글처럼 다양한 산업분야보다는 EHR이나 EMR에 집중적으로 투자하면서 산업 사이즈를 키워가고 있다. 산업 시장 자체가 굉장히 블루오션이다. 현재 연구가 진행된 분야는 신약 개발 위주이고 임상 진단 기술에 대해서는 .. 의료 AI(딥러닝) 공부 일기 2024. 7. 5. Ch 프롤로그2. numpy & matplotlib Numpy TutorialNumerical Python의 줄임말. 파이썬에서 산술 계산을 위한 가장 중요한 패키지 중 하나이다. 수학, 과학 계산을 위한 대부분의 패키지는 Numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.ndarrayN차원의 배열 객체. 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조.파이썬의 list와 비교가 자주 되는데 ndarray는 항상 같은 타입의 데이터들만 들어갈 수 있다.물론 파이썬의 list와 마찬가지로 ndarray도 iteration 가능하다.객체에 바로 .append를 지원하지 않음. 데이터 하나 추가하고 싶으면 numpy의 인터페이스 활용해야 한다. 사칙 연산도 체계가 다르다. ndarray의 경우 원소가 추가되는 것이 아닌 broadc.. 의료 AI(딥러닝) 공부 일기 2024. 7. 4. 이전 1 2 다음