모바일 메뉴 닫기
 
  • home
  • 대학원
  • 연구실소개
  • 데이터베이스(CC Lab.)

데이터베이스(CC Lab.)

Database Lab.

지도교수
윤지희
윤지희
  • 학위 : 한양대학교 공학사, 규슈대학교 공학석사, 규슈대학교 공학박사
  • 경력 : UCLA 방문교수
  • 교육분야 : 데이터베이스/파일처리론
  • 연구분야 : Database, Data Mining, Bio Informatics, Cloud Computing
  • 이메일 : jhyoon@hallym.ac.kr
  • 연구실 : 성호관 A1307호
  • 실험실 : 성호관 1314-1호
차세대 시퀀싱 데이터 분석 기술
유전 정보 소개
  • DNA(Deoxyribo Nucleic Acid)
    • Nucleotide라는 단위 물질이 연결된 집합체
    • 세포 내에서 생물의 유전 정보를 보관하는 물질
    • 이중나선구조 : 두 가닥의 사슬이 꼬여 연결
  • Gene(유전자)
    • DNA염기 배열의 특정 영역, 단백질 합성의 유전정보
    • 유전자의 차이로 다양한 단백질이 합성
  • RAN(Ribo Nucleic Acid)
    • Nucleotide 가 Ribose를 기반으로 이루어진 백신의 한 종
    • 하나의 나선이 길게 꼬여 있는 구조로 DNA의 일부가 전사되어 만들어짐
  • Chromosome(염색체)
    • 세포의 핵 속에서 DNA가 존재하는 형태
  • Genome
    • Gene + Chromosome, 한 생물체가 지는 모든 유전정보의 집합체
차세대 시퀀싱(Next Generation Sequencing : NGS) 기술
  • 유전정보를 지닌 혈액과 같은 샘플로부터 시퀀싱 장비를 통해 서열 정보를 읽어오는 방법
  • 생성되는 정보는 짧게는 수십 bp에서 길게는 수백 bp이상의 크기를 갖는 대량의 DNA, mRNA 서열정보인 리드들로 구성
  • 생물 정보학
  • 인간 유전체 분석을 정밀한 수준까지 가능
NGS 데이터를 이용한 분석법
  • Sequence Assembly
    • In bioinformatics, sequence assembly refers to aligning and merging fragment of a much longer DNA sequence
    • 시퀀싱의 발달로 인해 수많은 시퀀싱 데이터가 축적
    • 대량의 시퀀싱 데이터를 통해 Assembly가 가능
    • Reference Assembly, De-novo Assembly로 구분
    • 데이터의 관리와 분석 과정의 컴퓨팅 파워의 문제 발생
NGS 데이터를 이용한 분석법
  • Reference Assembly
    • 기존의 reference sequence와 비교하여 read들을 유사한 영역에 맵핑
    • Variation 및 Eplgenetics 연구에 주로 이용
    • 비교적 적은 컴퓨팅 파워를 요구하여 다양한 연구가 진행
  • De-novo Assembly
    • Read의 유사한 영역을 이어붙여 점차적으로 긴 서열을 만드는 방법
    • 기존에는 BAC library를 이용한 샷건 시퀀싱을 이용
    • Whole geneme sequencing에 이용
    • 높은 컴퓨팅 파워를 요구해 미생물을 제외한 대부분의 종에서의 assembly가 힘듬
유전자 변이 연구
  • Reference sequence에 맵핑과 정렬을 통해 비교 분석하여 SNP, CNV등의 변이를 검출
  • 시퀀싱 데이터가 많을수록 통계적으로 안정적이고 명확한 변이를 분석 할 수 있기 때문에 NGS가 적합
  • SNP(Single Nucleotide Polymorphism)
    • 단일염기 다형성, 유전체 상에 가장 많이 존재하는 형태
    • 유전체상의 특정 염기서열 하나의 변화
  • CNV(Copy Number Variation)
    • Reference 유전체와 비교해 copy number(유전자 복제)의 차이를 보이는 1kbp 이상의 DNA 조각
    • 양이나 많은 질병 감수성과 연관 가능성이 높아 많은 연구가 진행
시퀀싱 데이터 분석 툴 제작
  • 시퀀싱을 통해 사람의 30억 bp의 시퀀스가 짧은 시퀀스 조각으로 산출
  • 시퀀싱 데이터를 통해 사람의 유전적 변이를 판별하기 위한 툴 제작
RNA-seq 데이터 분석 툴 제작
  • 차세대 시퀀싱 기술을 통해 RNA, Exon 시퀀싱 데이터를 산출
  • RNA 시퀀싱 데이터를 통해 coverage 데이터, SNP, Indel 등 의 유전체 변이 정보를 추출하고 추출된 분석 데이터를 유전자 또는 Exon 비교 분석하는 툴을 제작
RNA-seq 데이터 분석 툴
클라우드 컴퓨팅기술을 이용한 바이오 정보 처리
  • 클라우드 컴퓨팅
    • 네트워크상에 다수의 컴퓨터들의 리소스들을 가상화 기술로 통합/제공하는 기술
    • 하돕(HAdoep) : 대량의 자료를 처리할 수 있는 분산 응용프로그램을 지원하는 오픈 소스 프레임워크, Map/Reduce 모델 제공
    • Map/Reduce : Key/Value 창으로 표시할 수 있는 데이처를 병렬처리
  • 클라우드 컴퓨팅 기술을 활용한 변이 검출
노드 증가에 따른 연산 속도 향상상용 클라우드 컴퓨팅 환경에서 연산 속도 향상
연구 내용
  • 시퀀스 검색을 통한 유전자 변이 검색
  • RNA-Seq 데이터 분석 툴 제작
  • 클라우드 컴퓨팅기술을 이용한 바이오 정보 처리
  • De-novo Assembly를 이용한 분석
최근 연구 논문
  • "Shape-based retrieval of CNV regions in read coverage data" International Journal of Data Mining and Bioinformatics, 2012.
  • "Extraction of Informative Genes from Multiple Microarray Data Integrated by Rank-Based Approach," IEICE Transaction on Information and Systems, Vol. E94-D, pp. 841-84, No.4, April 2011