Chapter 12 — Foundation Models for Genomics

Masked Language Modeling

마스킹 서열 예측

뉴클레오타이드를 클릭해 마스킹하세요.

서열 선택:

클릭하여 마스킹:

위치를 클릭하면 해당 뉴클레오타이드가 마스킹됩니다

메커니즘: 마스킹된 위치의 주변 문맥을 보고 예측합니다. 뉴클레오타이드를 클릭하고 Predict를 눌러보세요.

Based on: Ji et al. (2021) DNABERT, Bioinformatics 37:2112; Zhou et al. (2023) DNABERT-2, ICLR 2024

Effect of Fine-tuning

사전학습 임베딩: 서열의 일반적 패턴이 인코딩됩니다. 클러스터가 형성되기 시작하지만 겹침이 있습니다.

Based on: Ji et al. (2021) DNABERT Fig. 3 UMAP; Dalla-Torre et al. (2023) Nucleotide Transformer, Nature Methods

What Each Layer Learns

막대를 클릭해 레이어 특징을 확인하세요

레이어를 클릭하면 감지하는 생물학적 특징이 표시됩니다.

Based on: Dalla-Torre et al. (2023) Nucleotide Transformer, Nature Methods; Ji et al. (2021) DNABERT, Bioinformatics 37:2112. Note: the "biological complexity score" axis is illustrative — actual layer-wise feature distributions are non-linear and model-dependent.