Song Jie 's Blog

2023-11-30 19:38:42 204 0 0

UK Biobank (简称UKB) 是一个大规模的生物医学数据库和研究资源，其中包含来自英国50万参与者的遗传和健康信息。其中入组人员约有 7000+基于各类调研的表型数据，包括但不限于，基础信息，家庭信息，行为习惯，饮食习惯，疾病史(ICD10)，家族病史，MRI图像等。所有入组人员都有使用统一流程获得的基于芯片数据的基因分型信息，包含80w左右的snp位点，以及9600w的基于单倍型推断的snp位点。

1.数据类型

Root path：/data4/uk_biobank/

Type name	Type of data to be retrieved	Format	Link format	Relative path
cal	genotype calls	bed	fam，bim	cal
con	genotype confidences	txt	fam	con
int	genotype intensities	bin	fam
baf	genotype CNV b-allele frequencies	txt	fam
l2r	genotype CNV log2ratios	txt	fam	l2r
imp	imputation	bgen	sample	imp
hap	haplotypes	bgen	sample	hap
exome	exome genotype	bed
Phenotype				gene_resource/Phenotype
others	description and chip info			gene_resource

Type name

Type of data to be retrieved

Format

Link format

Relative path

cal

genotype calls

bed

fam，bim

cal

con

genotype confidences

txt

fam

con

int

genotype intensities

bin

fam

baf

genotype CNV b-allele frequencies

txt

fam

l2r

genotype CNV log2ratios

txt

fam

l2r

imp

imputation

bgen

sample

imp

hap

haplotypes

bgen

sample

hap

exome

exome genotype

bed

Phenotype

gene_resource/Phenotype

others

description and chip info

gene_resource

注意事项：

表型相关信息的使用需单独联系大数据中心进行报备。

禁止在源数据目录进行创建，修改，删除操作。

建议使用软链接(ln -s)形式进行文件使用，使用cp 操作会大量占用系统空间

2.数据

2.1 表型数据

当前(20210413)表型文件为 ukb44440.csv ukb44678.tab，行为样本，列为特征/表型/环境因子等。

（1）表型数据的使用

表型文件中每个人的表型包含样本（行），表型（列）。
行名：eid 是个体标号。列名：是表型及环境特征编号，由三部分构成，例如:X20002.0.1。
- 其中X20002代表第20002个特征，可关联数据字典文件，
- .0 表示第二位是评估中心（一共有四种），这里表示来自初次结果(在X53项中有具体时间)
- .1 表明此处特征可能是多个结果，这是其中某个结果列。具体到表内的数

fund based doc

2023-11-24 10:19:08 21 0 0

#### TO G DOC FUND

中央高校基本科研业务费

https://scit.nju.edu.cn/f1/3e/c10948a323902/pagem.htm （南京大学遥遥领先版，30w+）

https://xxgk.nwsuaf.edu.cn/xxgkml2015/jbxx2015/gzzd2015/48423.htm (西农坑爹版，没写)

博士科研启动基金

https://yyxy.nwsuaf.edu.cn/tzgg/130588.htm (西农不保真5万版)

陕西省自然科学

https://cie.nwsuaf.edu.cn/docs//2021-06/0c6b41876d194d9fbf00bc0f3c5b7984.pdf （3-5w）

#### TO G LEADER FUND

科技部关于发布国家重点研发计划“物态调控”等重点专项2023年度项目申报指南的通知

https://service2.most.gov.cn/kjjh_tztg_all/20230615/5218.html

深圳市自然科学基金

http://stic.sz.gov.cn/xxgk/tzgg/content/post_10467367.html

国家自然科学基金指南引导类原创探索计划项目 ——“细胞生物学研究中的新发现与新技术 ”项目指南

https://chem.nankai.edu.cn/2021/1008/c24069a400602/page.htm

关于发布国家自然科学基金委员会生命科学部2023年度专项项目指南的通告（1.生物育种研究青年专项项目指南　3.生命过程分子语言逻辑结构的AI解析专项项目指南）

https://www.nsfc.gov.cn/publish/portal0/tab948/info90372.htm

公布神舟十六号载人飞船航天育种实验项目清单

https://www.cmse.gov.cn/gfgg/202307/t20230717_54066.html

https://www.cmse.gov.cn/kjkx/htyzdz/

#### TO VC FUND

蓝色彩虹

奇迹论坛

SNP QC based on nature protocol

2022-02-13 14:32:22 134 0 0

SNP QC based on nature protocol

确定研究内容→QC样本→QC缺数据→QC分组→QC基础性质

1.获取数据
- 这里使用千人基因组的示例数据(约为20Mb,基于python hail包),10879 SNPs and 284 individuals. 关注发色研究
- 可使用hail.utils.get_1kg快速获得
- vcftools --vcf 1kg.vcf --plink --out raw-GWA-data，并用脚本将1kg_annotations.txt中的表型信息置入ped文件中
- 制作bed文件（可以加速后面计算） plink --file raw-GWA-data --make-bed --out raw-GWA-data 之后就可以用 -bfile 了，且记录会在raw-GWA-data.log中
  
  ------ (Candidate gene studies) 先做这两步骤，若是GWS研究这两步骤到后面
  2.检查Case control的组间缺失差异
- plink --bfile raw-GWA-data --test-missing --out clean-inds-GWA-data
- perl run-diffmiss-qc.pl clean-inds-GWA-data
- 产生fail-diffmiss-qc.txt文件，由于下载数据样本较少，P <0.00001,此处 run-diffmiss-qc.pl 中阈值改为0.01
  3.基础质控
- plink --file raw-PPARG-data --exclude fail-diffmiss-qc.txt –mind 0.1 –-maf 0.01 --geno 0.05 --hwe 0.00001 --recode --out clean-PPARG-data
  ----- (Candidate gene studies)
4 . Identification of individuals with discordant sex information
- plink --bfile raw-GWA-data --check-sex

python R 的库

2021-12-20 17:05:04 51 0 0

数据库

类别	Python	R
MySQL	mysql-connector-python(官方)	RMySQL
Oracle	cx_Oracle	ROracle
Redis	redis	rredis
MongoDB	pymongo	RMongo, rmongodb
neo4j	py2neo	RNeo4j
Cassandra	cassandra-driver	RJDBC
ODBC	pyodbc	RODBC
JDBC	未知[Jython Only]	RJDBC

IO类

类别	Python	R
excel	xlsxWriter, pandas.(from/to)_excel, openpyxl	openxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csv	csv.writer	read.csv(2), read.table
json	json	jsonlite
图片	PIL	jpeg, png, tiff, bmp

统计类

描述性统计

类别	Python	R
描述性统计汇总	scipy.stats.descirbe	summary
均值	scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean	mean
中位数	numpy.median, numpy.nanmediam, pandas.Series.median	median
众数	scipy.stats.mode, pandas.Series.mode	未知
分位数	numpy.percentile, numpy.nanpercentile, pandas.Series.quantile	quantile
经验累积函数(ECDF)	statsmodels.tools.ECDF	ecdf
标准差	scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std	sd
方差	numpy.var, pandas.Series.var	var
变异系数	scipy.stats.variation	未知
协方差	numpy.cov, pandas.Series.cov	cov
(Pearson)相关系数	scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr	cor
峰度	scipy.stats.kur

利用numba进行加速

2021-12-20 17:04:55 36 0 0

利用numba进行加速大规模的卡方检验检测交互作用

https://numba.pydata.org/numba-doc/latest/cuda

https://zhuanlan.zhihu.com/p/68846159

目前推测核心的四个环节，将内存数据传输到GPU，GPU进行矩阵统计，GPU进行矩阵运算，使用GPU进行并行运算

1.数据传输

To copy host->device a numpy array:

ary = np.arange(10)
d_ary = cuda.to_device(ary)

stream = cuda.stream()
d_ary = cuda.to_device(ary, stream=stream)﻿​

To copy device->host:

hary = d_ary.copy_to_host()

ary = np.empty(shape=d_ary.shape, dtype=d_ary.dtype)
d_ary.copy_to_host(ary)﻿​

2.矩阵统计和运算

3.简单实现:

这是使用CUDA内核的矩阵乘法的简单实现，numpy包中的简单运算都兼容：

@cuda.jit
def matmul(A, B, C):
    """Perform square matrix multiplication of C = A * B
    """
    i, j = cuda.grid(2)
    if i < C.shape[0] and j < C.shape[1]:
        tmp = 0.
        for k in range(A.shape[1]):
            tmp += A[i, k] * B[k, j]
        C[i, j] = tmp﻿​

4.并行运算：

利用@njit修饰和prange函数

The example below demonstrates a parallel loop with a reduction (A is a one-dimensional Numpy array):

from numba import njit, prange

@njit(parallel=True)
def prange_test(A):
    s = 0
    # Without "

Screening the risk of stomach cancer based on exfoliated cells and human DNA in stool

2021-12-20 17:00:55 62 0 0

Overview

　　Stomach cancer is the fourth most common cancer and the second most common cause of cancer death. The proportion of early diagnosis is low, and most patients are diagnosed in the advanced stages. In addition to imaging screening, ctDNA in the blood and exfoliated cells in the digestive tract provide new ideas for early screening of stomach tumors.

　　Small amounts of blood and exfoliated cells shed into the stool from gastrointestinal tumors and the stool DNA test detects abnormal DNA. When cancer or polyps are present in the stomach, they continuously shed cells with abnormal DNA changes into the stool. Stool DNA may predict several cancers a non-invasive screening test using DNA stool samples can detect including stomach, pancreas, biliary and esophageal cancers.

　　Therefore, the detection and identification of abnormal DNA in feces is a potential research field.

Research directions

Screening the risk of stom

lovi充电站简易项目计划V1

2021-12-20 17:00:37 40 0 0

20210316 宋捷

一.成本分析

1.场地成本

场地租赁形式主要为两种：

（以50车位基准）

场地租赁：需要50+停车位，按每车25m^2面积算，需要1250m^2，以每平8~12元计，成本约12~18万元

车位租赁：非商业地区停车场车位约10元/位/日，200~250元/位/月，统包后以 150000/50位/年计

2.整备成本

包括初期土地整备，变压器设备购入，充电设备购入，箱房购入等，粗略统计见<二.简化站点盈利模型>

3.冲电设备成本

使用直流电站方案，120kw 双枪可满足一般轿车双车同时快充，简化模型中不考虑公交车及卡车(此部分如有签约单位，即可成为高运行电站)

4.用电成本及电费盈利

大工业电费在0.2~0.8间以波峰谷电价呈现，但电费一般不是盈利项目，附加服务费为盈利项目，一般收取费用= 电费 + 0.15~0.35 左右浮动，这样车主全天充电成本基本都能在1元以下，车主对充电时间不敏感，平均盈利单度0.25元计

轿车一般单次充电30min~1h30min不等，电池容量在40~80度不等，考虑充电平均效率，单小时单枪可冲50度电，单枪单小时盈利12.5元

5.运营成本

主要包括轮班的场地执勤人员，至少两名。工资6k

设备维护以5.5万为基准(年坏一台)

土地租赁成本等

二.简化站点盈利模型

收益模型（阶段）	一. 早期/偏远电站	二. 常规小型电站(深圳)	三. 常规中型电站(深圳)	四. 高运行/合作电站
示例	坪山聚龙山电站	公明宝华充电站	观澜深国能电站	盐田奥特莱斯充电站
平均在线时长(h)	1.68	3h	4.32h	6h
平均在线日比例	7%	12.5%	18%	25%
单时平均充电盈利(度*元)	50*0.25	50*0.25	50*0.25	50*0.25
充电枪数目(台)	50	50	100	50
年化毛收益(万元)	37.8	67.5	194.4	135

运营成本模型
人员成本(元)	6000212	6000212	6000212	6000212
设备维护成本(元)	5.5	5.5	8	5.5
场地成本(万元)	15	15	25	15
年化成本(万元)	34.9	34.9	47.4	34.9

年化净收益(万元)	2.9	32.6	147	100.1

初期建设成本(万元)	20	20	20	20
变压器+线路(万元)	15	15	20	15
充电桩(万元)（

区域内的公共事件对城市的空中人口流动的影响（数据马拉松）

2020-07-07 02:10:15 80 0 0

参加数据马拉松突击出的报告。。。有机会把代码也补上

概要

【研究的问题 】区域内的公共事件是否对城市的空中人口流动造成影响？
【发现及结论】通过公共事件命名的信息，可以一定程度影响/反应空中人口流动的趋势，其中会议和音乐都是显著关联的流入流出趋势信号。
【意义】通过一个探索性的分析，确定不同属性的公共事件的发生和人口流动存在关联属性。进一步的，当尽早了解公共事件的规划时(以及出现新的公共事件)，航司可以更好的优化航班和票价信息。

内容

近些年，航空运输业得到了飞速发展，选择航空出行方式的人们也日益增多。今年新兴冠状病毒疫情突然袭来，凸显了公共事件对航空运输的重大影响。因此在得到数据集后，就尝试着探索了区域公共事件的发生，和空中人口流动的关系。通过一定的探索性分析，得到公共事件中关联人口流动的重要的文本因子，以及一个在已知规划时进一步预测未来人口流动趋势的简单模型。

获得人口流动信息

整理数据，使用票价的季度数据，统计每个机场的季度飞入人流量，以及飞出人流量和飞入飞出时平均票价信息。人流量之间直接统计买票人数之和，使用区间均数*区间人数/总人数，获得平均票价
- 观察三季度人流量最大的10个机场(下图)，看到人流量是非常可观的，但似乎偏差不大，可能是由于大机场人流量更加稳定，受干扰较少。
- 进一步观察整体的信息，使用飞入飞出的比例信息，在这里可以直观观察到无论是人流量(下左图)/票价(下右图)，在许多机场的飞入飞出的航班中，都是存在较大差异的。猜测可能公共事件发生对其有影响。
- 基于机场的出入信息，获得城市空中出入数据，人流量通过城市机场人流累加得到，并进一步获得飞入飞出比。

对公共事件进行解析

一般来说，公共事件的命名中，已经包含了事件的具体属性，也由于时间原因，没有爬取事件的网络释义。由于存在具体事件的城市和机场城市交集较少，因此引入新的概念，区域事件。这里假定一个事件的发生可以影响到周围100英里(基于经纬度椭圆距离计算，160km筛选)的相关城市，这个区域称为城市区域。因此一个城市关联的事件就拓展为城市区域的关联事件。
三季度发生事件最多(右图),因此使用第三季度数据，关联城市。获得了11

2020中国数据马拉松大赛

2020-07-05 05:35:37 163 0 0

这是参加数据马拉松的决赛说明，留底存档下

2020中国数据马拉松大赛

决赛说明及指导

欢迎您参加2020中国数据马拉松大赛！在此文件中，我们会向您详细阐述此次中国数据马拉松大赛的主题, 比赛中将会使用的数据集概述，以及赛事指导和建议。

1. 背景

（DELAG）Deutsche Luftschiffahrts -Aktiengesellschaft 成立于 1909 年11月，作为第一家客运航空公司，当时的DELAG在政府的协助下开始运营由齐柏林飞艇公司制造的飞艇。随后，虽然更多的航空公司成立了，但是直到第二次世界大战左右，航空公司才开始大量投资包括客运和货运在内的民用航空运输。

如今，航空业已成为世界经济的重要引擎。尽管经历了动荡和危机，航空公司仍然是经济的重要支柱。航空出行不仅有益于全球经济合作，也使人们得以感受截然不同的山川和文化，带来了终身难忘的回忆和欢乐。

商业旅行的晴雨表通常可以用作消费者可自由支配支出和休闲活动的主要指标。随着世界之间的联系越来越紧密，我们找到了更好的方式来研究个中关联，并将其可视化——航空业一直都是人们活动和兴趣的热点。

2. 任务

目标：根据2017年美国商业航空公司的航班流量数据（如下所述），分析商业航空公司行业发展与消费者大趋势和全球重大事件之间的联系。我们已经整理了一些补充数据集供参考使用，包括额外的商业航空公司旅行数据、航空公司乘客票价和股票价格的数据、2017年美国重大事件的信息以及来自于美国机场的6小时天气数据。

你最应该关注的：研究的创新性，数据分析的质量，你的洞察力及研究的深度。

你具体的任务：提出自己的问题（即研究的方向），分析现有的数据集（请参看第3部分“数据集”）来回答你设立的问题。您不需要太全面，在提出的问题范围内，质量数据分析更为重要。

你提交的报告可以是预测性的，例如通过机器学习和（或）时间序列分析来预测或建模航空旅行趋势。你提交的报告也可以是启发性的，例如提供可视化数据来展示你的发现，或者用统计检验来验证你的结论。总之，这是一场开放式的竞赛，考验你是否有独立思考和实践自己想法的能力。

可以研究以下示例问题之一，或者创建自己的研究题目。鼓励创造性地提出自己的问题，然而，创新立题也应注重分析的深度、精确度和严谨性，创新和严谨同等重要。

示例问题1：航空公司的总体飞行模式（例如，流量，目的地选择）与

使用host的进行网络加速（加速github访问）

网络的日常 2020-06-23 09:21:23 159 0 0

使用host的进行网络加速

关键词：host,ip,dns,域名
这几个算是前置概念，每人都有ip，因为种种原因要用域名，就是常见的xxx.com来盖一下。

各个运营商的dns服务器，就把ip和域名映射记住，在请求域名的时候就转到对应的ip上进行访问。

由于地球很大有光速和政策限制，或者要被访问的次数很多，一个域名/服务商可能有多个ip可以访问，这时不同的dns记住的映射列表可能还有差别，一般来说，就是换个dns可能会加速网络的原因。（其实和换源的思路有点类似）

host一定程度可以理解为吧本属于dns的映射表拉了一部分到本地，我自己有映射关系，我觉得更快，就不用dns去解析域名。在早期的时候还可以在墙缝多的时候走过墙，现在就不行了。。。(当然还有些dns to https的骚操作)

一般来说，网上的方法就是给个list直接粘贴到/etc/hosts里就行，但是事实上不一定好用(涉及地域的东西都有可能水土不服～)，所以可以自己做最适合自己的，这里记录下：

想要加速github，目的是加速访问，找到相关域名，比如搜索得到，下载的时候看log文件等，获得域名list github.com gist.github.com （其实这里只用一级域也行）
在 http://ping.chinaz.com 选中海外，输入 github.com ，获得世界范围内支持这个域名的ip，然后本地用ping去探索这坨ip那个在本地更流畅（页面本身也会提供一些信息）。
在本地的hosts里添加个解析地址
140.82.113.3 github.com
140.82.112.3 gist.github.com
然后重启网络服务 sudo /etc/init.d/networking restart
感受流畅就好了～

1/2

Song Jie 's Blog

1.数据类型

2.数据

2.1 表型数据

SNP QC based on nature protocol

数据库

IO类

统计类

描述性统计

Overview

Research directions

参加数据马拉松突击出的报告。。。有机会把代码也补上

概要

内容

获得人口流动信息

对公共事件进行解析

1. 背景

2. 任务

使用host的进行网络加速

Navigation

Recent Posts

Friend Links

Song Jie 's Blog

1.数据类型

2.数据

2.1 表型数据

SNP QC based on nature protocol

数据库

IO类

统计类

描述性统计

Overview

Research directions

参加数据马拉松突击出的报告。。。 有机会把代码也补上

概要

内容

获得人口流动信息

对公共事件进行解析

1. 背景

2. 任务

使用host的进行网络加速

Navigation

Recent Posts

Friend Links

参加数据马拉松突击出的报告。。。有机会把代码也补上