UK Biobank 数据说明

UK Biobank (简称UKB) 是一个大规模的生物医学数据库和研究资源，其中包含来自英国50万参与者的遗传和健康信息。其中入组人员约有 7000+基于各类调研的表型数据，包括但不限于，基础信息，家庭信息，行为习惯，饮食习惯，疾病史(ICD10)，家族病史，MRI图像等。所有入组人员都有使用统一流程获得的基于芯片数据的基因分型信息，包含80w左右的snp位点，以及9600w的基于单倍型推断的snp位点。

1.数据类型

Root path：/data4/uk_biobank/

Type name	Type of data to be retrieved	Format	Link format	Relative path
cal	genotype calls	bed	fam，bim	cal
con	genotype confidences	txt	fam	con
int	genotype intensities	bin	fam
baf	genotype CNV b-allele frequencies	txt	fam
l2r	genotype CNV log2ratios	txt	fam	l2r
imp	imputation	bgen	sample	imp
hap	haplotypes	bgen	sample	hap
exome	exome genotype	bed
Phenotype				gene_resource/Phenotype
others	description and chip info			gene_resource

Type name

Type of data to be retrieved

Format

Link format

Relative path

cal

genotype calls

bed

fam，bim

cal

con

genotype confidences

txt

fam

con

int

genotype intensities

bin

fam

baf

genotype CNV b-allele frequencies

txt

fam

l2r

genotype CNV log2ratios

txt

fam

l2r

imp

imputation

bgen

sample

imp

hap

haplotypes

bgen

sample

hap

exome

exome genotype

bed

Phenotype

gene_resource/Phenotype

others

description and chip info

gene_resource

注意事项：

表型相关信息的使用需单独联系大数据中心进行报备。

禁止在源数据目录进行创建，修改，删除操作。

建议使用软链接(ln -s)形式进行文件使用，使用cp 操作会大量占用系统空间

2.数据

2.1 表型数据

当前(20210413)表型文件为 ukb44440.csv ukb44678.tab，行为样本，列为特征/表型/环境因子等。

（1）表型数据的使用

表型文件中每个人的表型包含样本（行），表型（列）。
行名：eid 是个体标号。列名：是表型及环境特征编号，由三部分构成，例如:X20002.0.1。
- 其中X20002代表第20002个特征，可关联数据字典文件，
- .0 表示第二位是评估中心（一共有四种），这里表示来自初次结果(在X53项中有具体时间)
- .1 表明此处特征可能是多个结果，这是其中某个结果列。具体到表内的数字就可通过编码表得到具体解释。例如这个第二行病人这几列中就汇报了两种病，prolapsed disc/slipped disc（1312）和 scoliosis(1535)

（2）表型注释文件，位于/data4/uk_biobank/gene_resource，包含数据字典，和编码表两部分。实际使用中，数据字典关联表型文件的表头，编码表对应表型文件的实际数据。

title
数据字典：

数据字典用于解释表型表中表头对应的表型特征

包含Field，Participants，Coding，Notes等，可进一步和表型表，coding表关联，也可用作提取图像信息，ECG数据等的数据索引
Notes中也会有ICD10的标号(有特点，可正则对应)，也会有疾病的附加信息，例如家族史等

title
编码表：

编码表用于解释表型表里的具体数值含义
- 例如coding编码19,https://biobank.ndph.ox.ac.uk/ukb/coding.cgi?id=19&nl=1,记录了所有ICD10诊断(也就是表型表的X19)（病史，死亡原因等表型会涉及该coding）

注：(1)实际使用中请注意tsv，csv的使用，以及需要考虑文件中可能出线的引号，逗号等问题。

(2)表型文件暂未压缩，需使用awk等工具切割出需使用的部分，再读入内存，请勿直接读取。

2.2 基因型数据

基因型文件的原始信息常常矩阵形式，由样本(行)，基因型（列）构成，在大型数据集中会被压缩成易于存储的格式。

（1）在实际分析中常要使用到cal目录下文件，该目录下文件为芯片检测得到的数据，配套数据为 .bed .fam .bim，包含80w位点。

（2）在实际分析中常要使用到imp目录下文件，该目录下文件为芯片检测得到数据后，基于LD及单体型imputation得到的数据，配套数据为 .bgen .sample，需注意此处数据数据包含9600w位点，同时数据中存在剂量信息。

下表提供了文件类型和组的摘要：

Data type	Group	Filename(s)
Calls BED	Anon	ukb_cal_chrN_vZ.bed
Calls BIM	Anon	ukb_snp_chrN_vZ.bim
Calls FAM	Link	ukbA_cal_chrN_vZ_sP.fam
Relatedness	Link	ukbA_rel_sP.txt
Imputation BGEN	Anon	ukb_imp_chrN_vZ.bgen
Imputation sample	Link	ukbA_imp_chrN_vZ_sP.sample
Haplotypes BGEN	Anon	ukb_hap_chrN_vZ.bgen
HLA Imputation	Anon	ukb_hla_vZ.txt
Intensity	Anon	ukb_int_chrN_vZ.bin
Confidences	Anon	ukb_con_chrN_vZ.txt
CNV log2r	Anon	ukb_l2r_chrN_vZ.txt
CNV baf	Anon	ukb_baf_chrN_vZ.txt
SNP-posterior	Static	ukb_snp_posterior_chrN.bin

Data type

Group

Filename(s)

How to obtain

Calls BED

Anon

ukb_cal_chrN_vZ.bed

Calls BIM

Anon

ukb_snp_chrN_vZ.bim

Calls FAM

Link

ukbA_cal_chrN_vZ_sP.fam

Relatedness

Link

ukbA_rel_sP.txt

Imputation BGEN

Anon

ukb_imp_chrN_vZ.bgen

Imputation sample

Link

ukbA_imp_chrN_vZ_sP.sample

Haplotypes BGEN

Anon

ukb_hap_chrN_vZ.bgen

HLA Imputation

Anon

ukb_hla_vZ.txt

Intensity

Anon

ukb_int_chrN_vZ.bin

Confidences

Anon

ukb_con_chrN_vZ.txt

CNV log2r

Anon

ukb_l2r_chrN_vZ.txt

CNV baf

Anon

ukb_baf_chrN_vZ.txt

SNP-posterior

Static

ukb_snp_posterior_chrN.bin

在文件名中
- A =应用程序ID（整数）；
- N =染色体= 1，...，22，X，Y，XY，MT;
- Z =数据集的版本（当前所有文件为2）；
- P =数据集中的链接样本数（即当前同意的参与者）。

3.常用格式介绍

3.1. fam，bed，bim

这三类格式通常在一起出现，例如cal文件夹中，分别代表样本介绍文件(fam)，基因型文件(二进制bed)，基因型介绍文件(bim)。

在该组数据中，由于数据量较大，需要分染色体分析，进而在合并结果。

eg：plink调用： plink --bfile aaa-data --keep bbb.sample --pheno bbb.sample --mpheno 4 --extract ccc.txt --export A -out data

在原数据aaa.bed中调取，bbb文件里记录的样本(行限制)，ccc文件里记录的基因型(列限制)，提取这个样本基因型矩阵到 data.raw中，可再进一步观察。

plink的官方文档 https://www.cog-genomics.org/plink/1.9/

3.2.bgen sample

这两类类格式通常在一起出现，例如imp文件夹中，分别代表样本介绍文件(sample)，基因型压缩文件(二进制bgen)。

eg：plink调用 plink1.9 --bgen ***.bgen

注：文本类数据，例如fam，bim，sample，txt，log等，都是记录种类，数量，样本等信息，可以直接读取输出，建议使用head观察格式，然后配合sed awk 等进行操作。

基因型数据，例如.bed .bgen等，记录实际基因型数据，需用plink，vcftools等工具进行提取关注的样本和表型，并转换后在进行观察。

Song Jie 's Blog

1.数据类型

2.数据

2.1 表型数据

2.2 基因型数据

3.常用格式介绍

3.1. fam，bed，bim

3.2.bgen sample

Navigation

Recent Posts

Friend Links