UK Biobank (简称UKB) 是一个大规模的生物医学数据库和研究资源,其中包含来自英国50万参与者的遗传和健康信息。其中入组人员约有 7000+基于各类调研的表型数据,包括但不限于,基础信息,家庭信息,行为习惯,饮食习惯,疾病史(ICD10),家族病史,MRI图像等。 所有入组人员都有使用统一流程获得的基于芯片数据的基因分型信息,包含80w左右的snp位点,以及9600w的基于单倍型推断的snp位点。
1.数据类型
Root path:/data4/uk_biobank/
Type name | Type of data to be retrieved | Format | Link format | Relative path |
---|---|---|---|---|
cal | genotype calls | bed | fam,bim | cal |
con | genotype confidences | txt | fam | con |
int | genotype intensities | bin | fam | |
baf | genotype CNV b-allele frequencies | txt | fam | |
l2r | genotype CNV log2ratios | txt | fam | l2r |
imp | imputation | bgen | sample | imp |
hap | haplotypes | bgen | sample | hap |
exome | exome genotype | bed | ||
Phenotype | gene_resource/Phenotype | |||
others | description and chip info | gene_resource |
注意事项:
表型相关信息的使用需单独联系大数据中心进行报备。
禁止在源数据目录进行创建,修改,删除操作。
建议使用软链接(ln -s)形式进行文件使用,使用cp 操作会大量占用系统空间
2.数据
2.1 表型数据
当前(20210413)表型文件为 ukb44440.csv ukb44678.tab,行为样本,列为特征/表型/环境因子等。
(1)表型数据的使用
- 表型文件中每个人的表型 包含样本(行),表型(列)。
- 行名:eid 是个体标号。列名:是表型及环境特征编号,由三部分构成,例如:X20002.0.1。
- 其中X20002代表 第20002个特征,可关联数据字典文件,
- .0 表示第二位是评估中心(一共有四种),这里表示来自初次结果(在X53项中有具体时间)
- .1 表明此处特征可能是多个结果,这是其中某个结果列。具体到表内的数字就可通过编码表得到具体解释。例如这个第二行病人这几列中就汇报了两种病,prolapsed disc/slipped disc(1312)和 scoliosis(1535)
(2)表型注释文件,位于/data4/uk_biobank/gene_resource,包含数据字典,和编码表两部分。实际使用中,数据字典关联表型文件的表头,编码表对应表型文件的实际数据。
数据字典:
数据字典用于解释表型表中 表头对应的表型特征
- 包含Field,Participants,Coding,Notes等,可进一步和表型表,coding表关联,也可用作提取图像信息,ECG数据等的数据索引
- Notes中也会有ICD10的标号(有特点,可正则对应),也会有疾病的附加信息,例如家族史等
编码表:
- 编码表用于解释表型表里的具体数值含义
- 例如coding编码19,https://biobank.ndph.ox.ac.uk/ukb/coding.cgi?id=19&nl=1,记录了所有ICD10诊断(也就是表型表的X19)(病史,死亡原因等表型会涉及该coding)
- 例如coding编码19,https://biobank.ndph.ox.ac.uk/ukb/coding.cgi?id=19&nl=1,记录了所有ICD10诊断(也就是表型表的X19)(病史,死亡原因等表型会涉及该coding)
注:(1)实际使用中请注意tsv,csv的使用,以及需要考虑文件中可能出线的引号,逗号等问题。
(2)表型文件暂未压缩,需使用awk等工具切割出需使用的部分,再读入内存,请勿直接读取。
2.2 基因型数据
基因型文件的原始信息常常矩阵形式,由样本(行),基因型(列)构成,在大型数据集中会被压缩成易于存储的格式。
(1)在实际分析中常要使用到cal目录下文件,该目录下文件为芯片检测得到的数据,配套数据为 .bed .fam .bim,包含80w位点。
(2)在实际分析中常要使用到imp目录下文件,该目录下文件为芯片检测得到数据后,基于LD及单体型imputation得到的数据,配套数据为 .bgen .sample,需注意此处数据数据包含9600w位点,同时数据中存在剂量信息。
下表提供了文件类型和组的摘要:
Data type | Group | Filename(s) | How to obtain |
---|---|---|---|
Calls BED | Anon | ukb_cal_chrN_vZ.bed | |
Calls BIM | Anon | ukb_snp_chrN_vZ.bim | |
Calls FAM | Link | ukbA_cal_chrN_vZ_sP.fam | |
Relatedness | Link | ukbA_rel_sP.txt | |
Imputation BGEN | Anon | ukb_imp_chrN_vZ.bgen | |
Imputation sample | Link | ukbA_imp_chrN_vZ_sP.sample | |
Haplotypes BGEN | Anon | ukb_hap_chrN_vZ.bgen | |
HLA Imputation | Anon | ukb_hla_vZ.txt | |
Intensity | Anon | ukb_int_chrN_vZ.bin | |
Confidences | Anon | ukb_con_chrN_vZ.txt | |
CNV log2r | Anon | ukb_l2r_chrN_vZ.txt | |
CNV baf | Anon | ukb_baf_chrN_vZ.txt | |
SNP-posterior | Static | ukb_snp_posterior_chrN.bin |
- 在文件名中
- A =应用程序ID(整数);
- N =染色体= 1,...,22,X,Y,XY,MT;
- Z =数据集的版本(当前所有文件为2);
- P =数据集中的链接样本数(即当前同意的参与者)。
3.常用格式介绍
3.1. fam,bed,bim
这三类格式通常在一起出现,例如cal文件夹中,分别代表样本介绍文件(fam),基因型文件(二进制bed),基因型介绍文件(bim)。
在该组数据中,由于数据量较大,需要分染色体分析,进而在合并结果。
eg:plink调用: plink --bfile aaa-data --keep bbb.sample --pheno bbb.sample --mpheno 4 --extract ccc.txt --export A -out data
在原数据aaa.bed中调取,bbb文件里记录的样本(行限制),ccc文件里记录的基因型(列限制),提取这个样本基因型矩阵到 data.raw中,可再进一步观察。
plink的官方文档 https://www.cog-genomics.org/plink/1.9/
3.2.bgen sample
这两类类格式通常在一起出现,例如imp文件夹中,分别代表样本介绍文件(sample),基因型压缩文件(二进制bgen)。
eg:plink调用 plink1.9 --bgen ***.bgen
注:文本类数据,例如fam,bim,sample,txt,log等,都是记录种类,数量,样本等信息,可以直接读取输出,建议使用head观察格式,然后配合sed awk 等进行操作。
基因型数据,例如.bed .bgen等,记录实际基因型数据,需用plink,vcftools等工具进行提取关注的样本和表型,并转换后在进行观察。
No Leanote account? Sign up now.