Song Jie 's Blog

FLAG之展示和有趣的项目（持续更新）

2020-05-22 17:17:38 107 0 0

这是一组课外项目内容汇总，及可能存在的进展追踪

总有些小想用于满足兴趣和日常需求，也可以一定程度成为另一个角度的简历，这里列一下，督促自己。

租房位置的推荐系统
- 已接入百度api
- 已完成--选定一个地点，距离两人公司的路程和耗时计算
- 待完成--推荐小区
强化学习及自动机相关
- 初级生命游戏(完成)
- 贪吃蛇的强化学习和可视化系统（头疼可视化中）
疫情可视化系统
车牌识别的混淆版本
数字货币量化交易工具包（开发中，已搁置一段时间）
- 已完成火币和OKEX API接入，数据获取和分析部分
- 已完成一些简单交易工具编写，如三角套利
- 已测试接入实盘(死的一套糊涂)
- 下一步打包
数字货币量化交易可视化工具（基于上个项目的分析部分打算做个shiny版本）

More

有趣生命游戏

2020-05-22 17:12:07 95 0 0

前两天突然在微博上刷到了康威老爷子逝世的消息，突然想起久远的在神经网络原理课上的附录内容，有介绍原胞自动机的，神经鱼之类的有趣项目。

因为逻辑并不难(起码比当时SOM之类的小众网络好理解多)，就一直想复现下。结果拖延到现在。。。。。赶紧睡前试一试。

还遇到了些坑，百度百科上的生命游戏部分，阐述不清楚，对死亡的规则似乎是少了一条，结果我的种群疯狂膨胀。。。。

原理如下：假设世界是个200*200的二维世界，空白的地方都是资源，种群数量到达阈值就可以扩增，多了资源不够就要死亡。一个细胞就是一个格子，他的周围有八个格子。

三条规则：

若一个细胞周围有二~三个细胞则该细胞在下个迭代中则生；
若一个格子周围有三个细胞则该细胞在下个迭代中则出现细胞
若一个细胞周围超过三个细胞，在下个迭代中则死亡

基于这些规则，我使用R复现了这一过程，代码在结尾：

这个东东有趣就有趣在，简单的规则会得到非常复杂和有趣的群落特征。最终也会变成一个固定循环的稳态，在这次实验中大于是一千多个循环到稳态。间接证明了一个生命出现的基本逻辑，只需要简单的规则就可以得到复杂的世界结果，如果能在生死的过程中以概率的形式计算，那可能对更有趣。

大概写了一遍，发现这个项目真的好适合中途想转行coding的人，涉及到很多简单的矩阵操作，逻辑难度不高，结果又很好看，不容易劝退。

slide <- 200
CA <- matrix(0,slide,slide)
set.seed(1234)
n=3000
init_life <- cbind(sample(1:slide,n,replace = T),sample(1:slide,n,replace = T))
#init_life <- matrix(c(2,3,2,3,3,3,2,2),ncol = 2)
#apply(init_life, 1, function(x) {CA[x[1],x[2]] <<- 1}) 
live_id <- (init_life)
for (k in 1:5000) {
  print(k)
  live_id<- t(live_id)
  test_id <- cbind(live_id+c(0,0),
                   live_id+c(1,0),
                   live_id+c(1,1),

More

Access to Information

资源 2020-05-14 08:08:39 164 0 0

在这里整理下常用的神奇资源，可能会更新，感谢这些秉承着知识自由的人。

文献下载

*1.英文文献 scihub https://www.sci-hub.tw/

一般英文资料靠谷歌/谷歌学术找到想要的，然后使用scihub下载（这不是正规途径，一般仅可以下载开放阅读，或者订阅的机构可下载），感谢这个饿罗斯妹子。

偶尔可能会被和谐，在bing上搜scihub，可以找到相关讨论

1.5 有个国内换皮魔改版的 https://www.geenmedical.com ，但需要注册（引流需要吧），提供的搜索比较丰富/实际，还有影响因子啥的

*2.中文文献类似scihub，库间搜索，很好用 http://www.koovin.com

3.一个整理过得谷歌镜像站集合 https://ac.scmor.com/ ，有延迟检测，可以试试，包含谷歌学术和谷歌搜索

*4.思谋学术 http://dir.scmor.com/ 和上面一家，搜索起来更方便，但有时候会挂掉

5.镜像站加1 http://scholar.hedasudi.com/

6. Tips:最常用的语法搜索 site:zhihu.com

7. Tips:由于互联网的信息割裂和反爬虫，微信的公众号搜索也变得好用了起来

bt资源（拖延中....）：

数据集（拖延中.....）：

目前最好用的： https://datasetsearch.research.google.com/ （需FQ）https://toolbox.google.com/datasetsearch （内测时链接）

部分 https://www.zhihu.com/question/53655758?sort=created

https://zhuanlan.zhihu.com/p/25138563

More

上网的方式 _V1

网络的日常 2020-05-11 10:20:34 611 0 0

再次补充 sstap+一个ssr或者ss的账号解决一切win ss相关问题包括吃鸡

这是一个早期的记录版本，大部分内容没啥用了。。。。。

毕竟是阿里云，敏感词先都删掉放挂

key words：ss，hosts，VPS

再前言：如果是敏感时期导致原有的方法无法上网。。。就不用继续往下看了。。。脑补下那个有钱就可以为所欲为的表情包。。。。

前言：###存在是有意义的，对于我来说他也是有价值的，毕竟像什么pornhub，91什么的被随意的搜索到也不太好，但是如何墙，怎么墙，墙什么，这些不是我可以完全苟同的。。。其实感觉绝大多数时候也是睁一只眼，闭一只眼的，开会时期让我才意识到，什么叫做不是你梯子好，而是我我不想管。。。。理解不了这种态度啊[苦笑]，这里大概讲下在眼皮底下怎么过墙把。

有机会补上一个难度，费用，成功率，稳定性的排名。

如果文中出现了### 那么这个链接可能会被神奇防火墙过滤掉，也不会出现在搜索引擎中，所以以下简称SSR代理

补充。。发现蚂蚁笔记的规则是不会被搜索引擎抓取到。。。汗。。。。所以应该可以多说些了

（其实完全是由于来自非洲人怨念，丁磊你等着，这里的ssr不是指的分枝版本）

科学上网不应用作非法用途，作者的本意也是方便科研使用，毕竟许多国外的网站上起来及其不流畅，二且谷歌搜索服务的确是需要的。

另外，不要迷信外媒。。。资本控制下的媒体比某些媒体更不靠谱。。。。。

关于科学上网，选说明情况，大概的几种方式

1 肉身，别小看这个法子，以前xj断网时这个法子应该是唯一能用的了。。。而且很好用，也更安全，就是成本有点。。累

2 改hosts，这主要是通过变更自己的域名解析服务器，早期比较好使，现在不行了，神奇的防火墙厚了（倒不是高了）。

推荐老D的博客， laoD，里面有更改教程，不同地域所需要的最优hosts可能不一样。另外的 https://github.com/txthinking/google-hosts

2.5 为啥要改hosts呢。。。原因是伟大的墙的host污染。。。。。自己搭一个总可以了把搭建无污染DNS服务器

3 VPN 这个一键的方法不多说，其实价格有时候也很合适，但是许多小vpn经常出席不稳定的情况。。。。有些直接弄了个ssr的壳子

4 SSR 算是轻量级的VPN吧。。。。。但是设置方式不轻松。这里主要讲这个

5 蓝灯什么的（我这特别不好使....）

More

记录一下简单的服务器迁移过程

日常 2020-05-09 10:10:25 82 0 0

之前的服务器是学生时代买的，有着很大的福利，但是续费就很价格堪忧了，因此趁活动又买了新的1折服务器。(其实买的时候已经被停机了。。。不想丢数据被迫原价续费两个月，远超一年价格，心痛)

涉及到一些迁移工作。1. leanote的mongodb的数据 2. 一些之前生成的个人项目代码文件 3.博客数据 4.一些收集的数据 4.软件的迁移/重装

以下叙述并不一定是发生顺序：

0.挑选丐版服务器，改安全策略，换绑域名

一.数据迁移

1.把mongo里的数据(主要是leanote的信息)，备份出来

2.乱七八糟一顿scp

3.才发现leannote上传图片不能被一键备份。。。找到路径重新搞下

二.更换博客架构

1.最早使用的Hexo，在github上搞了个，但是域名和网速都很不满意。。。。虽然没啥内容，但是框架却是来回折腾

2.恰巧谢益辉大佬发布了新包blogdown，基于R开发的，非常适合我这种Rmarkdown选手。自己开始改用blogdown搭建博客和发布博文，远程也可以借助Rstudio方便的进行配置和写文。也同时对实验室的workpress彻底的抛弃，完全改用了blogdown，（OS：要老板的需求写复杂的md真是太难受了，还要现查html语法）。

3.最最最终发现了最方便易用的蚂蚁笔记leanote，唯一的良心开源笔记软件，可以写word和md，上传附件和图片也直接粘贴就行，而且可以用mango加密，甚至支持一键转博客，简直完美。不过好久没人维护了，许多功能和方法需要自己探索。。。这个把首页从登录界面换成博客就折腾了一天（https://www.zhihu.com/question/57965062?sort=created）。。。。。

三.安装新软件

1.更新源

2. leanote及相关库（https://github.com/leanote/leanote/wiki/Leanote-source-installation-on-Mac-and-Linux-(En)），然后改改配置

3.mongo

4.编译安装 R 4.0 （https://blog.csdn.net/Edison_N/artic

More

Deep Subspace Clustering Networks

2019-08-23 09:21:05 97 0 0

## Deep Subspace Clustering Networks (DSC) ## 深度子空间聚类 ... ... --- ### --- 实验

More

实习期工作日志

2019-08-09 09:12:20 153 0 0

Job logging

2019.7.22

工作部分：

调研相关文献，记录部分信息(.md)，后期可能整理成文献报告或者文献目录报告。目前sc-data映射研究较新，最早涉及到基于sc-data对bulk-data反卷积的是2015年的一篇Nature method:CIBERSORT,大多数的相关软件和改进方法是基于线性模型进行分析的，也有部分使用机器学习的(未了解其思路)，未见有基于深度学习/CV相关方法进行分析的，也未见讨论中涉及。
目前以 Nature method（2019）的一片文章作为主线，数据都是已经处理好的，方便分析和对比方法。其中用于验证的bulk-data是74组处理好的流感肺部组织时序信息，用到的sc-data是Cell system 的数据，包含9个组织的349个细胞，其中保留了1858个基因的表达信息，(原始数据为分别从流感治疗和对照小鼠分析总共2,034和2,146个细胞)
这篇方法提供的包为scBio，其中用到的方法为 The Cellular Population Mapping (CPM) algorithm ，具体算法未理解明晰，文中表述: CPM is focused on cell alterations within each cell type and not changes in the total number of cells in the cell type.

计划部分：
- 先解决少数几个方法和思路较为明晰的文章，在简单数据集上的结果复现，以及相同数据集上的方法比较问题。搞清楚到底欠缺什么，哪里是处理的棘手部分。
- 如何选mark基因
- 改进的思路
- 在这个项目的不同部分的结合，例如使用bulk-data对sc-data的矫正(有篇GB就介绍了这个事情)，批次效应的矫正，同物种不同时期的数据能否混用等。

2019.7.23

工作笔记：

找到一个刊发在Cell system的一个非常详尽的BSEQ-sc流程，https://shenorrlab.github.io/bseqsc/vignettes/bseq-sc.html#software，同

More

Song Jie 's Blog

这是一组课外项目内容汇总，及可能存在的进展追踪

总有些小想用于满足兴趣和日常需求，也可以一定程度成为另一个角度的简历，这里列一下，督促自己。

Job logging

2019.7.22

2019.7.23

Navigation

Recent Posts

Friend Links