ATCGATCGATCGATCG TGCATGCATGCATGCA GCTAGCTAGCTAGCTA ATCGATCGATCGATCG TGCATGCATGCATGCA
GCTAGCTAGCTAGCTA ATCGATCGATCGATCG TGCATGCATGCATGCA GCTAGCTAGCTAGCTA ATCGATCGATCGATCG
TGCATGCATGCATGCA GCTAGCTAGCTAGCTA ATCGATCGATCGATCG TGCATGCATGCATGCA GCTAGCTAGCTAGCTA
ATCGATCGATCGATCG TGCATGCATGCATGCA GCTAGCTAGCTAGCTA ATCGATCGATCGATCG TGCATGCATGCATGCA
GCTAGCTAGCTAGCTA ATCGATCGATCGATCG TGCATGCATGCATGCA GCTAGCTAGCTAGCTA ATCGATCGATCGATCG
Chapter 13

scroll to explore
DNA Tokenization

DNA 토크나이제이션 탐색기
서열 입력 (최대 24bp):
핵심 차이: 토크나이제이션 전략이 어휘 크기, 토큰 수, 그리고 어떤 생물학적 패턴을 캡처할 수 있는지를 근본적으로 결정합니다.

Based on: Ji et al. (2021) DNABERT, Bioinformatics 37:2112; Zhou et al. (2023) DNABERT-2, ICLR 2024; Dalla-Torre et al. (2023) Nucleotide Transformer, Nature Methods


Attention Pattern Viewer

뉴클레오타이드 클릭 → 변이 도입. 어텐션 히트맵이 업데이트됩니다.
서열 (클릭하여 변이 도입):
CTCF 모티프 (위치 5-12): 골드 테두리로 표시됨
참조 서열: CTCF 모티프가 온전할 때 어텐션이 모티프 위치들 사이에 집중됩니다.

Based on: Ji et al. (2021) DNABERT Fig. 4 — attention visualization over ChIP-seq validated CTCF binding sites, Bioinformatics 37:2112


Variant Effect Prediction Pipeline

변이를 선택하면 파이프라인이 업데이트됩니다.

Based on: Benegas et al. (2023) "DNA language models are powerful predictors of genome-wide variant effects", PNAS 120:e2311219120; Ji et al. (2021) DNABERT, Bioinformatics