카카오클라우드로 복잡한 유전체 계산…유전체 분석 교육 워크숍
한국생명정보학회 정기학술대회 '바이오인포 2024'
의료 빅데이터 핵심인 유전체 데이터 분석
- 신은빈 기자
(서울=뉴스1) 신은빈 기자 = 카카오엔터프라이즈가 한국생명정보학회 정기학술대회 '바이오인포 2024'에서 카카오클라우드 기반의 유전체 빅데이터 분석 교육 워크숍을 진행했다고 29일 밝혔다.
이번 워크숍은 의료·바이오산업 분야에서 카카오클라우드 사용을 늘리고 연구 기술을 고도화하는 것을 목표로 한다. 병원 관계자와 연구원, 대학생 등 30여 명이 참여했다.
워크숍은 △카카오클라우드 소개 △유전체 분석 툴 키트(GATK) 파이프라인 구성과 개요 △빅데이터 분석 실습으로 구성됐다.
클라우드는 의료 빅데이터의 핵심 자원인 유전체 데이터 분석에 필수적이다. 유전체 데이터는 염기 서열 분석이나 변이 식별 등 계산 과정이 복잡하기 때문이다.
워크숍에서는 미국 국립표준기술연구소 주도의 GIAB 컨소시엄이 제공하는 골드 스탠더드 유전체 'NA12878'을 활용해 유전체 변이의 발생 빈도와 질병 간 관계 등을 분석 실습했다.
분석에는 GATK 파이프라인이 활용됐다. 카카오클라우드의 분산 데이터 처리 프레임워크인 '하둡 에코'를 기반으로 분산과 병렬 연산 구조를 최적화했다.
bean@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.