UK Biobank (简称UKB) 是一个大规模的生物医学数据库和研究资源,其中包含来自英国50万参与者的遗传和健康信息。其中入组人员约有 7000+基于各类调研的表型数据,包括但不限于,基础信息,家庭信息,行为习惯,饮食习惯,疾病史(ICD10),家族病史,MRI图像等。 所有入组人员都有使用统一流程获得的基于芯片数据的基因分型信息,包含80w左右的snp位点,以及9600w的基于单倍型推断的snp位点。
Root path:/data4/uk_biobank/
Type name | Type of data to be retrieved | Format | Link format | Relative path |
---|---|---|---|---|
cal | genotype calls | bed | fam,bim | cal |
con | genotype confidences | txt | fam | con |
int | genotype intensities | bin | fam | |
baf | genotype CNV b-allele frequencies | txt | fam | |
l2r | genotype CNV log2ratios | txt | fam | l2r |
imp | imputation | bgen | sample | imp |
hap | haplotypes | bgen | sample | hap |
exome | exome genotype | bed | ||
Phenotype | gene_resource/Phenotype | |||
others | description and chip info | gene_resource |
注意事项:
表型相关信息的使用需单独联系大数据中心进行报备。
禁止在源数据目录进行创建,修改,删除操作。
建议使用软链接(ln -s)形式进行文件使用,使用cp 操作会大量占用系统空间
当前(20210413)表型文件为 ukb44440.csv ukb44678.tab,行为样本,列为特征/表型/环境因子等。
(1)表型数据的使用
#### TO G DOC FUND
中央高校基本科研业务费
https://scit.nju.edu.cn/f1/3e/c10948a323902/pagem.htm (南京大学遥遥领先版,30w+)
https://xxgk.nwsuaf.edu.cn/xxgkml2015/jbxx2015/gzzd2015/48423.htm (西农坑爹版,没写)
博士科研启动基金
https://yyxy.nwsuaf.edu.cn/tzgg/130588.htm (西农不保真5万版)
陕西省自然科学
https://cie.nwsuaf.edu.cn/docs//2021-06/0c6b41876d194d9fbf00bc0f3c5b7984.pdf (3-5w)
#### TO G LEADER FUND
科技部关于发布国家重点研发计划“物态调控”等重点专项2023年度项目申报指南的通知
https://service2.most.gov.cn/kjjh_tztg_all/20230615/5218.html
深圳市自然科学基金
http://stic.sz.gov.cn/xxgk/tzgg/content/post_10467367.html
国家自然科学基金指南引导类原创探索计划项目 ——“细胞生物学研究中的新发现与新技术 ”项目指南
https://chem.nankai.edu.cn/2021/1008/c24069a400602/page.htm
关于发布国家自然科学基金委员会 生命科学部2023年度专项项目指南的通告 (1.生物育种研究青年专项项目指南 3.生命过程分子语言逻辑结构的AI解析专项项目指南)
https://www.nsfc.gov.cn/publish/portal0/tab948/info90372.htm
公布神舟十六号载人飞船航天育种实验项目清单
https://www.cmse.gov.cn/gfgg/202307/t20230717_54066.html
https://www.cmse.gov.cn/kjkx/htyzdz/
#### TO VC FUND
蓝色彩虹
奇迹论坛
确定研究内容→QC样本→QC缺数据→QC分组→QC基础性质
1.获取数据
vcftools --vcf 1kg.vcf --plink --out raw-GWA-data
,并用脚本将1kg_annotations.txt中的表型信息置入ped文件中plink --file raw-GWA-data --make-bed --out raw-GWA-data
之后就可以用 -bfile
了,且记录会在raw-GWA-data.log中 plink --bfile raw-GWA-data --test-missing --out clean-inds-GWA-data
perl run-diffmiss-qc.pl clean-inds-GWA-data
plink --file raw-PPARG-data --exclude fail-diffmiss-qc.txt –mind 0.1 –-maf 0.01 --geno 0.05 --hwe 0.00001 --recode --out clean-PPARG-data
4 . Identification of individuals with discordant sex information
plink --bfile raw-GWA-data --check-sex
类别 | Python | R |
---|---|---|
MySQL | mysql-connector-python(官方) | RMySQL |
Oracle | cx_Oracle | ROracle |
Redis | redis | rredis |
MongoDB | pymongo | RMongo, rmongodb |
neo4j | py2neo | RNeo4j |
Cassandra | cassandra-driver | RJDBC |
ODBC | pyodbc | RODBC |
JDBC | 未知[Jython Only] | RJDBC |
类别 | Python | R |
---|---|---|
excel | xlsxWriter, pandas.(from/to)_excel, openpyxl | openxlsx::read.xlsx(2), xlsx::read.xlsx(2) |
csv | csv.writer | read.csv(2), read.table |
json | json | jsonlite |
图片 | PIL | jpeg, png, tiff, bmp |
类别 | Python | R |
---|---|---|
描述性统计汇总 | scipy.stats.descirbe | summary |
均值 | scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean | mean |
中位数 | numpy.median, numpy.nanmediam, pandas.Series.median | median |
众数 | scipy.stats.mode, pandas.Series.mode | 未知 |
分位数 | numpy.percentile, numpy.nanpercentile, pandas.Series.quantile | quantile |
经验累积函数(ECDF) | statsmodels.tools.ECDF | ecdf |
标准差 | scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std | sd |
方差 | numpy.var, pandas.Series.var | var |
变异系数 | scipy.stats.variation | 未知 |
协方差 | numpy.cov, pandas.Series.cov | cov |
(Pearson)相关系数 | scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr | cor |
峰度 | scipy.stats.kur |
利用numba进行加速大规模的卡方检验检测交互作用
https://numba.pydata.org/numba-doc/latest/cuda
https://zhuanlan.zhihu.com/p/68846159
目前推测核心的四个环节,将内存数据传输到GPU,GPU进行矩阵统计,GPU进行矩阵运算,使用GPU进行并行运算
1.数据传输
To copy host->device a numpy array:
ary = np.arange(10)
d_ary = cuda.to_device(ary)
stream = cuda.stream()
d_ary = cuda.to_device(ary, stream=stream)
To copy device->host:
hary = d_ary.copy_to_host()
ary = np.empty(shape=d_ary.shape, dtype=d_ary.dtype)
d_ary.copy_to_host(ary)
2.矩阵统计和运算
3.简单实现:
这是使用CUDA内核的矩阵乘法的简单实现,numpy包中的 简单运算都兼容:
@cuda.jit
def matmul(A, B, C):
"""Perform square matrix multiplication of C = A * B
"""
i, j = cuda.grid(2)
if i < C.shape[0] and j < C.shape[1]:
tmp = 0.
for k in range(A.shape[1]):
tmp += A[i, k] * B[k, j]
C[i, j] = tmp
4.并行运算:
利用@njit修饰和prange函数
The example below demonstrates a parallel loop with a reduction (A
is a one-dimensional Numpy array):
from numba import njit, prange
@njit(parallel=True)
def prange_test(A):
s = 0
# Without "
Stomach cancer is the fourth most common cancer and the second most common cause of cancer death. The proportion of early diagnosis is low, and most patients are diagnosed in the advanced stages. In addition to imaging screening, ctDNA in the blood and exfoliated cells in the digestive tract provide new ideas for early screening of stomach tumors.
Small amounts of blood and exfoliated cells shed into the stool from gastrointestinal tumors and the stool DNA test detects abnormal DNA. When cancer or polyps are present in the stomach, they continuously shed cells with abnormal DNA changes into the stool. Stool DNA may predict several cancers a non-invasive screening test using DNA stool samples can detect including stomach, pancreas, biliary and esophageal cancers.
Therefore, the detection and identification of abnormal DNA in feces is a potential research field.
20210316 宋捷
一.成本分析
1.场地成本
场地租赁形式主要为两种:
(以50车位基准)
场地租赁:需要50+停车位,按每车25m^2面积算,需要1250m^2,以每平8~12元计,成本约12~18万元
车位租赁:非商业地区停车场车位约10元/位/日,200~250元/位/月, 统包后以 150000/50位/年 计
2.整备成本
包括初期土地整备,变压器设备购入,充电设备购入,箱房购入等,粗略统计见<二.简化站点盈利模型>
3.冲电设备成本
使用直流电站方案,120kw 双枪可满足一般轿车双车同时快充,简化模型中 不考虑公交车及卡车(此部分如有签约单位,即可成为高运行电站)
4.用电成本及电费盈利
大工业电费在0.2~0.8间以波峰谷电价呈现,但电费一般不是盈利项目,附加服务费为盈利项目,一般收取费用= 电费 + 0.15~0.35 左右浮动,这样车主全天充电成本基本都能在1元以下,车主对充电时间不敏感,平均盈利单度0.25元计
轿车一般单次充电30min~1h30min不等,电池容量在40~80度不等,考虑充电平均效率,单小时单枪可冲50度电,单枪单小时盈利12.5元
5.运营成本
主要包括轮班的场地执勤人员,至少两名。工资6k
设备维护以5.5万为基准(年坏一台)
土地租赁成本等
二.简化站点盈利模型
收益模型(阶段) | 一. 早期/偏远电站 | 二. 常规小型电站(深圳) | 三. 常规中型电站(深圳) | 四. 高运行/合作电站 |
示例 | 坪山聚龙山电站 | 公明宝华充电站 | 观澜深国能电站 | 盐田奥特莱斯充电站 |
平均在线时长(h) | 1.68 | 3h | 4.32h | 6h |
平均在线日比例 | 7% | 12.5% | 18% | 25% |
单时平均充电盈利(度*元) | 50*0.25 | 50*0.25 | 50*0.25 | 50*0.25 |
充电枪数目(台) | 50 | 50 | 100 | 50 |
年化毛收益(万元) | 37.8 | 67.5 | 194.4 | 135 |
运营成本模型 | ||||
人员成本(元) | 6000*2*12 | 6000*2*12 | 6000*2*12 | 6000*2*12 |
设备维护成本(元) | 5.5 | 5.5 | 8 | 5.5 |
场地成本(万元) | 15 | 15 | 25 | 15 |
年化成本(万元) | 34.9 | 34.9 | 47.4 | 34.9 |
年化净收益(万元) | 2.9 | 32.6 | 147 | 100.1 |
初期建设成本(万元) | 20 | 20 | 20 | 20 |
变压器+线路(万元) | 15 | 15 | 20 | 15 |
充电桩(万元)( |
【研究的问题 】 区域内的公共事件是否对城市的空中人口流动造成影响 ?
【发现及结论】通过公共事件命名的信息,可以一定程度影响/反应空中人口流动的趋势,其中会议和音乐都是显著关联的流入流出趋势信号。
【意义】 通过一个探索性的分析,确定不同属性的公共事件的发生和人口流动存在关联属性。进一步的,当尽早了解公共事件的规划时(以及出现新的公共事件),航司可以更好的优化航班和票价信息。
近些年,航空运输业得到了飞速发展,选择航空出行方式的人们也日益增多。今年新兴冠状病毒疫情突然袭来,凸显了公共事件对航空运输的重大影响。因此在得到数据集后,就尝试着探索了区域公共事件的发生,和空中人口流动的关系。通过一定的探索性分析,得到公共事件中关联人口流动的重要的文本因子,以及一个在已知规划时进一步预测未来人口流动趋势的简单模型。
这是参加数据马拉松的决赛说明,留底存档下
2020中国数据马拉松大赛
决赛说明及指导
欢迎您参加2020中国数据马拉松大赛!在此文件中,我们会向您详细阐述此次中国数据马拉松大赛的主题, 比赛中将会使用的数据集概述,以及赛事指导和建议。
(DELAG)Deutsche Luftschiffahrts -Aktiengesellschaft 成立于 1909 年11月,作为第一家客运航空公司,当时的DELAG在政府的协助下开始运营由齐柏林飞艇公司制造的飞艇。随后,虽然更多的航空公司成立了,但是直到第二次世界大战左右,航空公司才开始大量投资包括客运和货运在内的民用航空运输。
如今,航空业已成为世界经济的重要引擎。尽管经历了动荡和危机,航空公司仍然是经济的重要支柱。航空出行不仅有益于全球经济合作,也使人们得以感受截然不同的山川和文化,带来了终身难忘的回忆和欢乐。
商业旅行的晴雨表通常可以用作消费者可自由支配支出和休闲活动的主要指标。 随着世界之间的联系越来越紧密,我们找到了更好的方式来研究个中关联,并将其可视化——航空业一直都是人们活动和兴趣的热点。
目标:根据2017年美国商业航空公司的航班流量数据 (如下所述) ,分析商业航空公司行业发展与消费者大趋势和全球重大事件之间的联系。 我们已经整理了一些补充数据集供参考使用,包括额外的商业航空公司旅行数据、航空公司乘客票价和股票价格的数据、2017年美国重大事件的信息以及来自于美国机场的6小时天气数据。
你最应该关注的:研究的创新性,数据分析的质量,你的洞察力及研究的深度。
你具体的任务:提出自己的问题(即研究的方向),分析现有的数据集(请参看第3部分“数据集”)来回答你设立的问题。您不需要太全面,在提出的问题范围内,质量数据分析更为重要。
你提交的报告可以是预测性的,例如通过机器学习和(或)时间序列分析来预测或建模航空旅行趋势。你提交的报告也可以是启发性的,例如提供可视化数据来展示你的发现,或者用统计检验来验证你的结论。总之,这是一场开放式的竞赛,考验你是否有独立思考和实践自己想法的能力。
可以研究以下示例问题之一 ,或者创建自己的研究题目。 鼓励创造性地提出自己的问题,然而,创新立题也应注重分析的深度、精确度和严谨性,创新和严谨同等重要。
示例问题1:航空公司的总体飞行模式(例如,流量,目的地选择)与
关键词:host,ip,dns,域名
这几个算是前置概念,每人都有ip,因为种种原因要用域名,就是常见的xxx.com来盖一下。
各个运营商的dns服务器,就把ip和域名映射记住,在请求域名的时候就转到对应的ip上进行访问。
由于地球很大有光速和政策限制,或者要被访问的次数很多,一个域名/服务商可能有多个ip可以访问,这时不同的dns记住的映射列表可能还有差别,一般来说,就是换个dns可能会加速网络的原因。(其实和换源的思路有点类似)
host一定程度可以理解为吧本属于dns的映射表拉了一部分到本地,我自己有映射关系,我觉得更快,就不用dns去解析域名。在早期的时候还可以在墙缝多的时候走过墙,现在就不行了。。。(当然还有些dns to https的骚操作)
一般来说,网上的方法就是给个list直接粘贴到/etc/hosts里就行,但是事实上不一定好用(涉及地域的东西都有可能水土不服~),所以可以自己做最适合自己的,这里记录下:
github.com
gist.github.com
(其实这里只用一级域也行)github.com
,获得世界范围内支持这个域名的ip,然后本地用ping去探索这坨ip那个在本地更流畅(页面本身也会提供一些信息)。 sudo /etc/init.d/networking restart