2020-05-22 17:17:38    107    0    0

这是一组课外项目内容汇总,及可能存在的进展追踪

总有些小想用于满足兴趣和日常需求,也可以一定程度成为另一个角度的简历,这里列一下,督促自己。

  • 租房位置的推荐系统

    • 已接入百度api
    • 已完成--选定一个地点,距离两人公司的路程和耗时计算
    • 待完成--推荐小区
  • 强化学习及自动机相关

  • 疫情可视化系统

  • 车牌识别的混淆版本

  • 数字货币量化交易工具包(开发中,已搁置一段时间)

    • 已完成火币和OKEX API接入,数据获取和分析部分
    • 已完成一些简单交易工具编写,如三角套利
    • 已测试接入实盘(死的一套糊涂)
    • 下一步打包
  • 数字货币量化交易可视化工具(基于上个项目的分析部分打算做个shiny版本)

2020-05-22 17:12:07    95    0    0

前两天突然在微博上刷到了康威老爷子逝世的消息,突然想起久远的在神经网络原理课上的附录内容,有介绍原胞自动机的,神经鱼之类的有趣项目。

因为逻辑并不难(起码比当时SOM之类的小众网络好理解多),就一直想复现下。结果拖延到现在。。。。。 赶紧睡前试一试。

还遇到了些坑,百度百科上的生命游戏部分,阐述不清楚,对死亡的规则似乎是少了一条,结果我的种群疯狂膨胀。。。。


原理如下:假设世界是个200*200的二维世界,空白的地方都是资源,种群数量到达阈值就可以扩增,多了资源不够就要死亡。一个细胞就是一个格子,他的周围有八个格子。

三条规则:

  1. 若一个细胞周围有二~三个细胞则该细胞在下个迭代中则生;
  2. 若一个格子周围有三个细胞则该细胞在下个迭代中则出现细胞
  3. 若一个细胞周围超过三个细胞,在下个迭代中则死亡

基于这些规则,我使用R复现了这一过程,代码在结尾:

这个东东有趣就有趣在,简单的规则会得到非常复杂和有趣的群落特征。最终也会变成一个固定循环的稳态,在这次实验中大于是一千多个循环到稳态。间接证明了一个生命出现的基本逻辑,只需要简单的规则就可以得到复杂的世界结果,如果能在生死的过程中以概率的形式计算,那可能对更有趣。


大概写了一遍,发现这个项目真的好适合中途想转行coding的人,涉及到很多简单的矩阵操作,逻辑难度不高,结果又很好看,不容易劝退。

slide <- 200
CA <- matrix(0,slide,slide)
set.seed(1234)
n=3000
init_life <- cbind(sample(1:slide,n,replace = T),sample(1:slide,n,replace = T))
#init_life <- matrix(c(2,3,2,3,3,3,2,2),ncol = 2)
#apply(init_life, 1, function(x) {CA[x[1],x[2]] <<- 1}) 
live_id <- (init_life)
for (k in 1:5000) {
  print(k)
  live_id<- t(live_id)
  test_id <- cbind(live_id+c(0,0),
                   live_id+c(1,0),
                   live_id+c(1,1),
      
资源    2020-05-14 08:08:39    164    0    0

在这里整理下常用的神奇资源,可能会更新,感谢这些秉承着知识自由的人。

 

文献下载

*1.英文文献 scihub https://www.sci-hub.tw/

    一般英文资料靠谷歌/谷歌学术找到想要的,然后使用scihub下载(这不是正规途径,一般仅可以下载开放阅读,或者订阅的机构可下载),感谢这个饿罗斯妹子。

    偶尔可能会被和谐,在bing上搜scihub,可以找到相关讨论

1.5 有个国内换皮魔改版的 https://www.geenmedical.com ,但需要注册(引流需要吧),提供的搜索比较丰富/实际,还有影响因子啥的

*2.中文文献类似scihub,库间搜索,很好用  http://www.koovin.com

3.一个整理过得谷歌镜像站集合 https://ac.scmor.com/  ,有延迟检测,可以试试,包含谷歌学术和谷歌搜索

*4.思谋学术 http://dir.scmor.com/ 和上面一家,搜索起来更方便,但有时候会挂掉

5.镜像站加1 http://scholar.hedasudi.com/

6. Tips:最常用的语法搜索   site:zhihu.com

7. Tips:由于互联网的信息割裂和反爬虫,微信的公众号搜索也变得好用了起来


bt资源(拖延中....):





数据集(拖延中.....):

目前最好用的: https://datasetsearch.research.google.com/ (需FQ)https://toolbox.google.com/datasetsearch (内测时链接)

部分 https://www.zhihu.com/question/53655758?sort=created

https://zhuanlan.zhihu.com/p/25138563



网络的日常    2020-05-11 10:20:34    611    0    0

再次补充 sstap+一个ssr或者ss的账号解决一切win ss相关问题包括吃鸡

这是一个早期的记录版本,大部分内容没啥用了。。。。。

毕竟是阿里云,敏感词先都删掉放挂


key words:ss,hosts,VPS

再前言:如果是敏感时期导致原有的方法无法上网。。。就不用继续往下看了。。。脑补下那个有钱就可以为所欲为的表情包。。。。

前言:###存在是有意义的,对于我来说他也是有价值的,毕竟像什么pornhub,91什么的被随意的搜索到也不太好,但是如何墙,怎么墙,墙什么,这些不是我可以完全苟同的。。。其实感觉绝大多数时候也是睁一只眼,闭一只眼的,开会时期让我才意识到,什么叫做不是你梯子好,而是我我不想管。。。。理解不了这种态度啊[苦笑],这里大概讲下在眼皮底下怎么过墙把。

有机会补上一个难度,费用,成功率,稳定性的排名。


 

如果文中出现了### 那么 这个链接可能会被神奇防火墙过滤掉,也不会出现在搜索引擎中,所以以下简称SSR代理

补充。。发现蚂蚁笔记的规则是不会被搜索引擎抓取到。。。汗。。。。所以应该可以多说些了

(其实完全是由于来自非洲人怨念,丁磊你等着,这里的ssr不是指的分枝版本)

 

科学上网不应用作非法用途,作者的本意也是方便科研使用,毕竟许多国外的网站上起来及其不流畅,二且谷歌搜索服务的确是需要的。

另外,不要迷信外媒。。。资本控制下的媒体比某些媒体更不靠谱。。。。。

 

关于科学上网,选说明情况,大概的几种方式

1 肉身,别小看这个法子,以前xj断网时这个法子应该是唯一能用的了。。。而且很好用,也更安全,就是成本有点。。累

2 改hosts,这主要是通过变更自己的域名解析服务器,早期比较好使,现在不行了,神奇的防火墙厚了(倒不是高了)。

   推荐老D的博客, laoD,里面有更改教程,不同地域所需要的最优hosts可能不一样。另外的  https://github.com/txthinking/google-hosts

2.5 为啥要改hosts呢。。。原因是伟大的墙的host污染。。。。。自己搭一个总可以了把 搭建无污染DNS服务器

3 VPN 这个一键的方法不多说,其实价格有时候也很合适,但是许多小vpn经常出席不稳定的情况。。。。有些直接弄了个ssr的壳子

4 SSR 算是轻量级的VPN吧。。。。。但是设置方式不轻松。这里主要讲这个

5 蓝灯什么的(我这特别不好使....) 

日常    2020-05-09 10:10:25    82    0    0

    之前的服务器是学生时代买的,有着很大的福利,但是续费就很价格堪忧了,因此趁活动又买了新的1折服务器。(其实买的时候已经被停机了。。。不想丢数据被迫原价续费两个月,远超一年价格,心痛)

    涉及到一些迁移工作。1. leanote的mongodb的数据 2. 一些之前生成的个人项目代码文件 3.博客数据 4.一些收集的数据 4.软件的迁移/重装

    以下叙述并不一定是发生顺序:

        0.挑选丐版服务器,改安全策略,换绑域名


    一.数据迁移

        1.把mongo里的数据(主要是leanote的信息),备份出来

        2.乱七八糟一顿scp

        3.才发现leannote上传图片不能被一键备份。。。找到路径重新搞下


    二.更换博客架构

        1.最早使用的Hexo,在github上搞了个,但是域名和网速都很不满意。。。。虽然没啥内容,但是框架却是来回折腾

        2.恰巧谢益辉大佬发布了新包blogdown,基于R开发的,非常适合我这种Rmarkdown选手。自己开始改用blogdown搭建博客和发布博文,远程也可以借助Rstudio方便的进行配置和写文。也同时对实验室的workpress彻底的抛弃,完全改用了blogdown,(OS:要老板的需求写复杂的md真是太难受了,还要现查html语法)。

        3.最最最终发现了最方便易用的蚂蚁笔记leanote,唯一的良心开源笔记软件,可以写word和md,上传附件和图片也直接粘贴就行,而且可以用mango加密,甚至支持一键转博客,简直完美。不过好久没人维护了,许多功能和方法需要自己探索。。。这个把首页从登录界面换成博客就折腾了一天(https://www.zhihu.com/question/57965062?sort=created)。。。。。

 

    三.安装新软件

    1.更新源

    2. leanote及相关库 (https://github.com/leanote/leanote/wiki/Leanote-source-installation-on-Mac-and-Linux-(En)),然后改改配置

    3.mongo 

    4.编译安装 R 4.0 (https://blog.csdn.net/Edison_N/artic

2019-08-23 09:21:05    97    0    0
## Deep Subspace Clustering Networks (DSC) ## 深度子空间聚类 ... ... --- ### --- 实验
2019-08-09 09:12:20    153    0    0

Job logging


2019.7.22

工作部分:

  • 调研相关文献,记录部分信息(.md),后期可能整理成文献报告或者文献目录报告。目前sc-data映射研究较新,最早涉及到基于sc-data对bulk-data反卷积的是2015年的一篇Nature method:CIBERSORT,大多数的相关软件和改进方法是基于线性模型进行分析的,也有部分使用机器学习的(未了解其思路),未见有基于深度学习/CV相关方法进行分析的,也未见讨论中涉及。
  • 目前以 Nature method(2019) 的一片文章作为主线,数据都是已经处理好的,方便分析和对比方法。其中用于验证的bulk-data是74组处理好的流感肺部组织时序信息,用到的sc-data是Cell system 的数据,包含9个组织的349个细胞,其中保留了1858个基因的表达信息,(原始数据为分别从流感治疗和对照小鼠分析总共2,034和2,146个细胞)
  • 这篇方法提供的包为scBio,其中用到的方法为 The Cellular Population Mapping (CPM) algorithm ,具体算法未理解明晰,文中表述: CPM is focused on cell alterations within each cell type and not changes in the total number of cells in the cell type.

计划部分:
- 先解决少数几个方法和思路较为明晰的文章,在简单数据集上的结果复现,以及相同数据集上的方法比较问题。搞清楚到底欠缺什么,哪里是处理的棘手部分。
- 如何选mark基因
- 改进的思路
- 在这个项目的不同部分的结合,例如使用bulk-data对sc-data的矫正(有篇GB就介绍了这个事情),批次效应的矫正,同物种不同时期的数据能否混用等。

2019.7.23

工作笔记:

2/2