一些觉得很好玩的研究

Q1:不断的扩增DNA碱基的种类

6碱基DNAAT、GC、5SICS-NaM多了两个碱基,氨基酸种类从20变成172种

Hachimoji DNA and RNA:A genetic system with eight building blocks https://science_sciencemag.xilesou.top/content/363/6429/884/tab-pdf

8碱基DNA:hachimoji DNAAT GC ZP SB,并设计了一种新的转录酶,可以将这些碱基对应转录成RNA

【更多的碱基组合,意味着可以形成更大、更稳定的数据库,可以在基因组种参入一些奇奇怪怪的标记,可以产生各种新的可能性,但是不知道改变了碱基类型,对应的氨基酸以及相应的tRNA要怎么设计产生】

 Q2:当大肠杆菌有了组蛋白会发生什么?也会形成超螺旋结构吗?

Chromatinization of E.coli with archaeal histones https://www_ncbi.xilesou.top/pmc/articles/PMC6867714/

在E.coli中表达古细菌组蛋白HMfA,HMfB,发现可以结合基因组,并在核酸酶的消化过程中起到保护作用,核小体附近的基因表达受到影响,但是对于生长和细胞形态影响小。

【觉得比较fancy,类似异体移植,觉得这种探索性的为了兴趣的工作很有意思,把原核生物没有的结构引入进去,去看看有没有什么变化。】


Q3:将蛋白结构预测与深度学习联系起来

Cryo-EM structures and dynamics of substrate-engaged human 26S proteasome https://www_nature.xilesou.top/articles/s41586-018-0736-4(人源26s蛋白酶体与底物结合的动态过程)

解决问题:

  • 1.蛋白酶体如何进行泛素识别和去泛素化
  • 2.第五如何与ATPase马达结合
  • 3.底物转运是如何启动的
  • 4.ATPase马达如何将化学能转化为机械能技巧:利用核酸置换法,将ATP替换成ATPγS,降低水解酶活性,捕捉动态过程,结合机器学习,对冷冻电镜图象分析,得到更高分辨率

【当时觉得大家都在做结构,做更精细的结构,但是有人能把机器学习的方法与冷冻电镜结合,去进一步得到更精细的结构,分析不同中间态构象的结构,从一种新的角度来进一步让结构解析变得更加精细。

也去超级粗浅的了解了一下,用深度学习的方法预测蛋白质的结构的两种方法:1.使用已经解析的蛋白质的结构作为模板来预测新的蛋白质的结构 2.从头开始建模目标形状,预测属性:氨基酸对之间的距离,连接氨基酸的化学键以及他们之间的角度,根据物理性质来对结构进行预测】


Q4:定向进化:

Scalable,continuous evolution of genes at mutation rates above genomic error thresholds https://www.biorxiv.org/content/biorxiv/early/2018/05/03/313338.full.pdf

将靶标片段插入到DNA聚合酶-复制子系统中,突变率比宿主基因组快100,000倍,在不增加基因组突变率的情况下,以10-5次方的突变率突变靶标基因,从而可以在特定环境下对特定靶标基因进行定向的筛选。

  • 可以用于更加广泛的研究基因的功能以及基因的影响。优化基因产物的效率。
  • 可以不必将抗原注射到动物体内以分离抗体,只需要将其置于酵母细胞培养物中,通过突变的手段来优化特异性抗体。
  • 也可以用来进化出突变率高的DNA聚合酶,进一步的提高突变的效率。

【觉得这是一种用来研究基因性质的一种有效的手段】


Q5:实现植物无性繁殖(从有性到无性)

A male-expressed rice embryogenic trigger redirected for asexual propagation through seed Clonal seed from hybrid rice by simultaneous genome engineering of meiosis and fertilization genes

通过基因改造,借助种子实现水稻无性繁殖,在不需要受精、不需要雌雄配子融合的情况下,可以产生胚胎。

关键的步骤在于:在有性生殖的过程中,卵子从精子那儿获得了什么对胚胎形成的关键的因子,可以通过突变体来筛,然后在卵子中异源表达;同时让卵子有丝分裂异常,形成二倍体卵子,发育成正常的二倍体胚胎。

根据其同源基因可以推广到其他的禾谷类作物中,快速固定杂种优势。 

Q6:改造生化通路(合成生物学)

Synthetic glycolate metabolism pathways stimulate crop growth and productivity in the field

光呼吸过程:植物光合作用,需要CO2,在这个过程当中,RuBisCO可以结合氧气,会产生有毒的代谢产物,植物需要通过光呼吸的生化通路进行排毒,消耗总生物质的20%-50%。

光呼吸通路涉及9个酶催化步骤,发生在叶绿体、过氧化物酶体、线粒体多个不同部位。

如果对光呼吸通路进行简化,可以避免这种浪费,从减少消耗的方面来实现增产。 手段:合成3种替代路径,同时抑制内源原始通路。可实现40%增重。

而光呼吸在大多数植物中都存在,可能可以用于多种作物的改造。

【需要了解基因网络,和调控表达的网络;需要找到这些pathway的基因,还要比较效率;还需要找到比较好的转化的方法,载体系统】


 Q7:酵母中重构大麻素全合成途径【异源】

Complete biosynthesis of cannabinoids and their unnatural analogues in yeast

在酵母中引入以及改造15个来自不同物种的基因,实现大麻素及其非天然衍生物的生物全合成【类似化学反应找条件,这儿就找酶,得对整个生化过程有充分的了解,充分利用生物信息的方法去挖掘这样的酶,获得不同的效率,合成异源的物质】


Q8:父本、母本染色体在初次分裂的过程中不同步:

Double trouble at the beginning of life https://science.sciencemag.org/content/361/6398/189.long

用不同颜色标记父本、母本的染色体,用light-sheet 去监测分裂的动态过程。发现在受精卵的第一次分裂过程中,这些染色体并非混在一起分离,而是各自分离,形成双重纺锤体。

【不知道这样做有什么好处,两套分离系统,相对于一套分离系统更加容易出现分离不同步,可能会出现问题,但是和教科书上说的完全不一样,觉得能有质疑的态度发现这样一个现象,非常需要勇气】


Q9:关于连接组、细胞类型、发育图谱这样的问题,不要被宏观的所描绘的现象给吸引住,不要被表面所吸引,仔细去想一想能解决什么问题,你的研究问题,需不需要,是不是一定需要这些手段才能够解释,通过这些手段你能发现些什么?

Q10:翻译的起始可以不从AUG开始

Non-AUG translation: a new start for protein synthesis in eukaryotes http://genesdev.cshlp.org/content/31/17/1717.full

有一些内源性的病毒、蛋白仅仅从非AUG起始密码子开始翻译,除了AUG以外,还可以是CUG【相对于AUG以外的,最高效的】, GUG, UUG, AUG,AUU主要是通过 mutational analysis、Ribosome profiling(用小分子抑制翻译的起始和延伸的过程,然后分析核苷酸序列)得到起始密码子的序列

【可以发挥的功能、达到的目的:降低翻译的效率和速度,这种非-AUG的起始密码子,可以产生蛋白质的多样性,漏表达的一个原因】


Q11:CRISPR

CRISPR的几个性质:

可以抓取异源的序列(RNA,DNA)插入到基因组中

可以结合gRNA,对靶标序列进行切割(RNA,DNA)

【最主要的是靶向性、可编辑性,靶向片段的易行可设计性】

可以改造的地方:

  • 1)一个是工具本身的开发、改造,
  • 可能可以用来抓取RNA,描述转录组的状态可以用来编辑单个碱基,实现单个碱基的替换(内源的酶、外源的酶)
  • 可以用来融合调控表观修饰的蛋白,对靶标基因实现激活或者抑制
  • 可以连接逆转录酶,获得大量的同源替换模板,实现高效率的同源重组的编辑
  • 可以融合连接一些配体,将基因组中的片段拉到相近的位置(Reposition)
  • 可以融合荧光标记,看染色质的动态变化的过程
  • 可以融合sensor,响应特定的条件去实现功能与转座子元件结合,介导特异性的转座
  • 2)一个是靶向的序列有哪些特征,可以实现什么样的功能
  • 可以靶向基因组上的重复序列,敲除染色体
  • 利用结合DNA或者RNA之后的非特异性切割,可以检测病毒
  • 可以靶向切割敲低mRNA可以靶向非编码区或者改变翻译起始的密码子,调控内源的蛋白翻译效率
  • 可以通过靶向特定的片段,看突变累积的次数,用来做细胞谱系的追踪
  • 可以靶向剪接的位点,实现exon跳读


Q12:为什么植物每天晒太阳,但是植物不会产生那么多的变异?Q13:免疫除了抵抗,还可以采取的一种方式是耐受、共存


为什么需要这个功能?为什么要采取这样的方式?实现这个功能我们需要什么?存在哪些元件?这些元件是怎么发现的?它的下游的工作机制是什么?可不可以有其他的过程?

广告

fMOST

老师,同学们好,今天我主要想介绍的是fMOST技术相关的原理和应用。


这个系统的前身是MOST技术,micro-optical sectioning tomography,也叫微光断层切片扫描,2010年发表在science上,发明这项技术,最初的目的是为了在全脑水平看神经元的形态、分布,神经元之间的连接关系。

  • 这个系统由以下3个部分组成,
  • 超薄切片系统microtome,light microscope光学显微镜部分,image recorder(图像收集系统),
  • 采用的方法是自动切片的同时进行成像以及数据的采集。
  • 首先是这个切片的系统,将样品包埋好之后放在这个载物台上,然后这个切割刀会慢慢的对样品进行切片,切片的厚度是1微米,在刀与样品之间有个倾角,每切一部分的时候,切出来的部分会和刀片贴合在一起。刀片作为光源的反射装置。The slicing speed is 1.3 mm/s, the slicing width is 0.42 mm, and the slicing thickness is 1 µm.,光学显微镜部分是反射式的明场显微镜,照明光束的光路垂直于刀片,通过刀片的反射后通过line-scan CCD这个装置来收集图像的数据,之后对图像数据进行堆叠,处理,构成完整的鼠脑的神经元的图像。
  • 【其中还有一些包括样品的处理,数据获得后怎么降低噪音,校准】在切片厚度为1微米,40倍镜的条件下,获得一个完整的鼠脑的图像数据大概要花242小时,10天左右,之后可以用Amira软件加载读取数据,对结果进行分析。


由于成像原理用的是光学显微镜成像,分辨率比电镜做要低很多,看不到突触和树突棘,但是快,可以在很短的时间内获得全脑神经元的形态、分布、投射的信息。在之前,如果你想要了解脑区之间的连接,就是通过在脑区注射一些染料或者病毒表达荧光蛋白,然后去切片,切片去之后去看哪些区域有染料,但是这个过程中,一个就是切片、贴片做处理的时候,有时候脑片会破损,脑片的厚度也比较厚,而大脑本身神经元数量就比较多,一点点的变形可能就从一个地方或者偏到另一个地方去了。而且切片的时候,脑片不能完全的和小鼠的脑图谱对上,所以会造成一些误差。而这项技术可以很好的克服形变的这一误差,而且在成像之后会拼接成全脑的数据,所以不用担心对不上图谱。初次之外,就是切片的厚度比较薄,可以获得一些因为脑片厚度原因被忽略的现象。(分辨率是微米级别)


这是通过MOST方法获得的一部分的结果,对鼠脑进行高尔基染色之后,进行成像的矢状切面的结果。可以看到神经元的胞体以及伸出的轴突。还有一些神经元的bundle,可以比较清楚的获得神经元的位置信息以及观察形态。


这个是小脑的浦肯野细胞,在教科书上,关于浦肯野细胞的描述是拥有巨大树状分支的细胞,形态就像图里面描述的这样,通过高尔基染色的方法描绘出来的。

但是通过MOST全脑成像之后,因为切片的厚度很薄,染色后发现小脑的浦肯野细胞是片状的堆叠在一起的,所有的树突突起的分支分布在一个扁平的面上,因为切片的厚度很薄,才可以观察到这个比较特异的现象,虽然目前还不知道这种特殊的形态和分布有什么特殊的意义,控制这种形态发生的分子机制。MOST的方法可以用来去identify一些特殊的结构和形态。

但是在当时这项技术的一个局限是不能够对荧光进行成像,至于为什么一定要对荧光进行成像,是因为,可以看到这个地方,首先虽然高尔基染色一次只染上一部分的神经元,是一种比较稀疏的标记方法,但是由于神经元的基数比较大, 所以还是可以看到很多的神经元。在成像的时候,神经元的突起交错在一起,在比较密的时候,就没有办法区分开来,而连接组或者说看神经元的形态、投射就是要把这些结构区分开。另一方面就是高尔基染色是随机的对神经元进行染色,每一次被标记上的神经元不是相同的,特性也不清楚,(每次染色都是个随机过程就比较tricky),不知道这是不是之前出现过的,进行统计定量分析的时候就不方便。如果可以对荧光进行成像的话,就可以结合各种遗传的方法通过转基因以及病毒注射的方法,实现对特定类型的神经元进行标记,之后进行成像。这样的话,一个是每次标记的都是相同类型的神经元,数量比较少,也可以去定量的分析特定神经元的数量。


前面可以看到的是,切片成像的周期比较长,大概需要10天左右的时间,在这个过程中,荧光会被淬灭。如果想要对荧光进行成像的话,首先就要保证荧光在这个过程中不会被淬灭。所以他们之后又开发了fMOST的技术来实现对小鼠的荧光数据的全脑成像,主要改进的一个方面是样品包埋的处理过程,在处理的过程钟加入了一些碱性的化学试剂,使得荧光在长时间的成像过程中不会被淬灭掉。另外就是对成像的系统的改良,更换一下光源的类型、获取低信噪比的精确数据。

这是fMOST的原理图,由以下几个部分组成,整体的框架和MOST差不多,就是多加了一些降低信噪比,提高稳定性的元件以获得更加精准的数据。首先也是一个ultra-thin sectioning 超薄切片系统组成,这个刀是钻石刀,可以保证nm精度的切割。用了一个AOD 非机械声光偏转器,还有CL柱面镜来提供稳定的扫描激光光源。有个slit,缝,可以用来抑制背景荧光的干扰,最后也是一个信号收集系统。【在数据处理的过程中也会利用一些转化矩阵对数据点进行校准处理(因为每个鼠脑会有一点点细微的差别,所以会选取一些特征明显的脑区和位置对鼠脑进行校准,获得统一的标准的位置信息的数据】在数据可视化方面是用amira软件进行可视化,数据分析用的是visage software获得数据的话,现在大概是两到三天可以获得一个鼠脑的数据。之后就是通过半自动也就是手动的方法对神经元的形态进行重构。最终可以获得(微米级别,mesoscale level)的小鼠全脑的荧光的成像数据。


这是一些成像的结果。这是在Thy1-eYFP-H mouse 的小鼠中的成像结果,Thy1是一种细胞表面抗原,在成熟的神经元表达,这些发白光的部分是荧光。可以看到比较完整的胞体,神经突起的三维结构。右侧看到的是大脑皮层第五层,锥形神经元层的结果,不同的颜色代表重构出来的不同的神经元,可以看到的一个结果是它们的轴突都很长,伸向远端的脑区。

这些是一些其他的神经元的投射。可以看到有一些局部投射的,有一些投射到远端的,有的神经元的投射会伸到脊髓。所以通过fMOST主要能够实现的功能是在全脑层面对荧光信号进行成像。在应用方面主要就是结合遗传学和病毒的方法去标记研究特定类型的神经元,去重构这些被标记的神经元,之后进行定性定量的分析,去看他们在全脑范围内的分布,去观察它们的形态、连接上的差异,看看有没有一些被以前的技术手段忽略的地方。绘制它们的连接图谱。通过形态和投射上的差异去划分神经元的类型。在成像完成之后,也可以通过免疫组化的方面去看看这种形态上的差异和分子水平上的差异有没有什么联系。

【虽然不能看树突棘,以及突触这样的细致的结构,但是也可以作为一个preview,本身的目的也不是为了达到那么精细的结构,只是提供不同水平分辨率上的数据】

【得到一些参数,一些比例,比如占比的这个,说不定可以结合RNA测序上面,某种形态的神经元所占的比例大概是多少,而在测序的时候发现某种类型的神经元的比例刚好是多少,正好两者可以match到一起,just,也可以是某种联想,不一定有用。】

【再就是神经元本身的特性方面的,比如说像师兄以前说的,神经元的大小,长度,看疾病的,看健康的】

【其他的功能还需要想一想,可以干嘛,可以干嘛,如果没有的话,想不出来就算了, 因为这只是一个技术用来解决已有的问题,没有专门为这个技术而生的问题】

之后我介绍一些应用这项技术所取得的一些成果。


这是在2017年,这项技术发明不久后,用这项技术在单细胞水平 去解析胆碱能神经元在全脑的定位分布 以及在基底前脑内胆碱能神经元的精细形态结构,下游投射的脑区。胆碱能神经元在调控感觉、运动、认知行为方面有比较重要的功能。但是如果想要分清楚其功能模块的话,首先需要知道它的形态、分布【形态、分布上的划分–可能对应于功能上的划分 】。

但是像前面说到的,二维组织切片只能大致获取神经元的分布和估算神经元的数目,有的神经元由于切片、染色的原因会被漏掉。另外一点就是当时的手段没有办法对全脑的胆碱能神经元成像,关于它的一些通过远距离投射的方式调节其他脑区的模型没有办法得到验证。


所以研究人员就利用fMOST成像技术结合荧光标记技术,用Chat-ires-Cre小鼠和Ai14报告小鼠系杂交,把全脑的胆碱能神经元用荧光蛋白标记,之后去成像,重构,看胆碱能神经元在小鼠全脑的分布模式。


在重构完胆碱能神经元之后,首先是可以对它的数目,密度,分布进行统计,这些绿色的荧光就是被标记的神经元,可以看到它们分布在几个比较集中对称的脑区,这些在不同脑区分布的胆碱能神经元的胞体在体积上存在比较大的差异,有的体积很大,有的体积很小。从这儿可以看到的是胆碱能神经元在不同脑区之间是存在异质性。


那在同一个脑区,胆碱能神经元存不存在差异,所以他们挑选了其中一个脑区-基底前脑,在Chat-ires-Cre小鼠basal forebrain 注射AAV-FLEX-GFP病毒去标记在基底前脑的Chat神经元,这是在基底前脑50个胆碱能神经元的完整形态通过重构发现这些神经元的结构,发现虽然在空间位置上相近,但是在投射模式上存在很大的差别,下游的主要脑区是海马(HPF),新皮质(isocortex),嗅球(olfactory area),在这些神经元中有的可以投射到下游的一个脑区,有的可以同时投射到下游的不同脑区,部分神经元之间的下游脑区存在交叉。


在解释脑区或者某种类型神经元涉及到的功能的时候, 这种投射上的分析可以提供一定的解释,比如为什么在产生某种行为的时候,可以同时观察到多个脑区有信号,是不是可以解释脑区协同工作的机制,再就是可以看到远距离的投射,跨越很远的距离和一些脑区形成连接。

【可以发现一些有意思的现象,对于解释一些模型和行为有所帮助,划分神经元的类型。其他的没有什么实质性的可以有很大的突破的地方。因为像李老师说的,看是没有办法解释功能的,还要去扰乱,一个是观察,一个是功能的解释。】

【连接组的宏伟蓝图,哈哈,就是东西在那儿,先看到全部的再说,如果看不到的话,有的功能和现象是没法解释的。】

这是在2017年的研究,当时用这项技术主要是去看,初步的看某种类型的神经元的分布、形态差异、投射差异。但是当时只是看到了这种差异,也没有进一步去结合分子标记的方法求看这些投射不同的神经元是不是属于兴奋性、抑制性神经元?没有去研究它们的分子化学特性,就很难解释投射到不同脑区的神经元的功能,是兴奋还是抑制。


在2019年,有两篇相似的工作,一个是3月份发表的,一个是在7月份发表的,它们的研究对象小鼠的内侧前额皮层,一个对于决策、注意力控制有重要功能的脑区,在这个脑区兴奋性神经元占70%-80%,剩下的为抑制性神经元(看电位特性,表达的神经递质的类型,对下游神经元的影响),抑制性的神经元包括生长激素抑制素(VIP阳性神经元)、血管活性肠肽(SST阳性神经元)和小清蛋白抑制性神经元(PV阳性神经元))他们都是想要去看在这个脑区中不同类型的神经元接受来自哪些上游脑区的投射,接受哪些地方的输入。一种是通过传统的免疫组化和原位杂交的方法去看,一种是通过fMOST的方法和免疫组化的方法去看。

首先是3月份的时候,利用的是跨单极突触逆行示踪的方法,在SST-Cre VIP-Cre PV-Cre转基因小鼠mPFC注射病毒以及病毒的helper,兴奋性神经元用CaMKII的启动子来驱动表达。在特定类型的神经元中表达逆向突触传导所需要的元件,去看不同神经元类型的上游的全脑分布的图谱。

之后进行全脑切片,统计,这个是模型的一个概览情况,分别投射到四种类型的神经元的数量,b图是沿着头尾轴的输入的分布情况,输入主要都集中在前端。c图是不同脑区投射到这几种类型的神经元的数量的比例,
由于它接受很多来自新皮层的投射,所以他们继续对isocortex投射到mPFC的神经元进行划分


在这个过程当中,他们发现在前额叶也可以看到被标记上的神经元,说明这些神经元存在局部投射的情况,可能相互之间存在调控。所以他们就去同时label这些不同类型的神经元,Lhx6-EGFP可以标记SST和PV神经元,在SST中特异表达Cre,进而表达ChR2,给光之后,进一步去看激活之后,下游的神经元的电生理特性。


之后就是看和各个脑区的存在的连接了,这四类神经元分别与各个脑区存在的连接关系,上游输入有没有相同的地方,convergences and dissociations in the information transfer to the different cell types,所以在这篇文章就是统计了不同类型的神经元的上游输入的数量、分布,投射之间的交叉,局部投射之间的调控。


在7月份的时候骆清铭团队在小鼠内侧前额叶皮层的两个亚区分别注射病毒,进行逆向示踪,去分别标记三类抑制性神经元的全脑图谱。

分别进行逆向示踪去看上游输入的神经元的数量,分布,去统计他们的比例。mPFC脑区PV阳性神经元接受皮层输入要比SST阳性神经元多,而SST阳性神经元接受皮层下区域的输入要比PV阳性神经元多;IL区SST阳性神经元接受纹状体和苍白球的输入要比PV阳性神经元多,Prl区PV阳性神经元接受前联合皮层和压后扣带皮层的输入要比SST阳性神经元要多。总的来说,不同类型的抑制性神经元接受输入的脑区相同,但是在输入比例上不同。


因为fMOST成像之后的脑片是可以回收的,而且这种荧光的标记是内源性的表达,所以之后可以用免疫组化的方法去看这些被荧光蛋白标记的神经元表达什么类型的marker属于兴奋性的还是抑制性的,所以他们利用免疫组化的方法发现抑制性神经元输入主要是基底前脑的PV神经元、胆碱能神经元和中缝核中的5-羟色胺能神经元支配。激活和抑制位于PFC的抑制性神经元。eaac 谷氨酸转运的 tph 5-HT神经元的marker


前面提到的是mPFC会接受到来自新皮层的投射,(在第一篇文章中是对isocotex进行脑区的细分,去看PFC接受isocortex不同部分的神经元的比例)所以研究人员就用fMOST的方法去重构投射到mPFC的皮层神经元的结构,对86个皮层神经元的形态进行重构发现,首先这些来自皮层的投射的神经元的胞体分别处在不同的皮层层这是投射到SST PV VIP的神经元形态,可以看到它们分布的位置不一样,可以很直观的看到,首先它们的投射的形态很不一样,有的往后投射,有的往对侧投射,有的投射到下部。大多数投射到皮层神经元以非随机的方式和不同的脑区形成神经网路,这就意味着当某一个脑区信息流入到mPFC后,其他脑区可能受到同样地信息。


海马这种差异更加明显一些


如果比较这两篇文章来看的话,结合了该技术之后,不仅像传统方法一样描绘出这些抑制性神经元的上游脑区在哪里,还可以进一步对成像后的脑片进行染色,描述这些输入神经元的神经化学特点、可以很直观的在细胞水平上去描绘这些上游的神经元的形态学特点,它们是通过通过什么样的形式投射到下游的脑区。
所以fMOST的基本应用就是绘制神经元类型和连接图谱,在全脑范围内,可以用比较细致的去看你感兴趣的神经元的形态。在这些图谱绘制完成后,比如说,如果你想要研究胆碱能神经元,你可以首先看它在哪些地方有分布,你想研究哪个脑区的,在这个脑区有多少亚型,表达什么分子标记,下游投射的地方有哪些,结合这些信息,就可以结合逆向病毒,去target更加细致的神经元的亚型去研究它们的功能。还可以在全脑范围内去看正常个体和疾病个体在神经元的数量上的差异,在形态上的差异,投射上的差异,是不是因为这些方面的性质导致了功能方面的障碍。

接下来,我想讲一讲fMOST和其他稀疏标记的结合使用,进一步提高细胞水平的分辨率。因为在某些情况,一次可以转染很多的神经元,但是在这种情况下,一旦被标记的神经元多了之后,有的轴突和树突就纠缠在了一起,没有办法区分谁是谁的,观察到的一些错误的现象,得出错误的结论。通过稀疏标记的方法实现在单细胞精度上对神经元的结构的精细构建。这是2018年发表在nature method上的工作,利用腺相关病毒载体的稀疏高亮标记方法,实现全脑范围单神经元分辨率上的重构。


这套系统由两套元件组成一套是由TRE启动子与Cre依赖的转录模块组成,包含3’-5’反向的FLPo编码序列另一套是由TRE启动子和FLP依赖的转录模块组成,包含3’-5’反向的GFP-IRES-tTA编码序列
具体的工作原理是:将这两种质粒包装成腺相关病毒后,混合后在小鼠脑内注射。当病毒感染Cre阳性神经元后,Cre依赖的转录元件会被翻转。但是由于这个时候神经元内没有tTA的表达,TRE启动子转录活性低,大多数被病毒侵染的Cre阳性神经元中FLPo表达量极低,无法触发中FLP依赖的转录模块的翻转。但是TRE这个元件会发生漏表达,在某些Cre阳性神经元中,当FLPo表达量达到一定的水平,可以触发FLP依赖的转录模块的翻转。翻转后,在第二套元件中,TRE启动子漏表达的时候会表达少量的GFP和tTA。在极少量细胞内tTA的表达量达到一定水平,可以结合TRE启动子并启动下游基因的转录,一方面细胞表达更多的FLPo对剩余的组件进行翻转,另一方面会表达更多的GFP和tTA,标记强度得到不断地增强。

通过这样双重漏表达以及正反馈的机制,在加上控制病毒的滴度和病毒注射的体积,可以实现一次只标记几个或者十几个神经元,并且被标记的神经元会表达大量GFP,使得神经元的轴突、树突被标记的很好,不会发生在末端由于GFP表达不足而无法被标记的情况。另一方面,由于这套系统是依赖于Cre的表达的,所以可以和遗传方面的方法结合起来使用,实现特定的神经元的稀疏标记。


在这篇文章中通过这种稀疏的方法标记后,再结合fMOST的技术在单细胞的精度上去对中缝背核的多巴胺神经元进行成像。发现存在两种投射模式上存在很大差异的神经元一类多巴胺神经元只有单个投射目标,轴突在终点处会形成密集的末端树状分支;另一类投射轴突分布比较广泛,会有多个旁分支投向不同目标,少有末端树状分支。


这项技术的灵活性比较高,一个是在重组酶系统的使用上,一个是在下游表达的元件上。如果将Cre和FLP这两套重组酶换成其他种类的重组酶,可以再引入另外一种颜色的荧光标记。而在下游表达的元件上。可以将其替换为光遗传、分子探针、CRISPR元件,实现在单细胞层面上的激活、抑制、标记,活性测量,基因敲除。以上就是我想要介绍的全部内容了。

以下是所有参考文献以及PPT:

https://pan.baidu.com/s/11j3rH3Yz6IEfQwFQxeOfPA

JC-不是所有的Y染色体都在变短的

写在题头,如果我要是理解错了,请擦亮你雪亮的眼睛直接指出。
这篇文献是10月底发表在nature ecology&evolution上一篇关于Y染色体进化的文章。Title是Massive gene amplification on a recently formed Drosophila Y chromosome

这篇文章的三个作者来自加州伯克利大学,整合生物学研究所,他们的研究方向主要是关于性别重组在进化方面的优势,性染色体剂量补偿效应以及一些功能方面的研究。

这篇文章的研究对象是米兰达果蝇,属于昆虫纲双翅目果蝇属,它的祖先在很久以前有5对常染色体以及一对性染色体,后来,逐步融合之后,变成4对常染色体以及一对性染色体。在150万年前性染色体又和其中的三号染色体进行了融合,形成了新的性染色体,由于这条染色体是近代形成的,所以常被用来研究性染色体在进化过程中的起始现象,进行y染色体的退化研究。在这篇文章中,研究者通过对米兰达果蝇的新形成的性染色体neo-x neo-y测序,发现y染色体上的基因并不像在物种中普遍所观察的那样,基因发生大规模的缩减,长度相对于X短很多。而是在进化初期的阶段长度会增加,会出现很多基因扩增的现象,而且这种差异在个体间也是保守的,不是因为个体的差异导致拷贝数量上的差异。进一步通过转录组、小RNA profile分析,初步的解释Y染色体发生基因扩增的原因。

采用的测序数据是他们2018年通过单分子测序的方法得到的,读长比较长,可以获得很多通过短序列读长无法得到的重复序列的信息。装配完之后,y是110.5Mb,neo-x是25.3Mb,Y的增长主要是由于重复序列、-转座子(50%)以及扩增的基因导致的。之后通过和Chr3进行对比,注释neo-sex 染色体上的基因,去看在进化过程中丢失和获得的neo-sex-linked(chr3)的基因的种类和数量。Y – 6448个基因,X – 3253个基因,在原始的chr3上有3087个基因。【其中1736个同源于chr3的基因 在两条染色体上都是单拷贝的形式存在,】有143个基因在x染色体上存在,在y上不存在,并且在y上也不存在这143个基因的同源片段,143/3087 5%,有17个基因在y染色体上存在,在x上不存在, 17/3087 0.5%所以从基因的种类上来看的话,和以往所观察到的现象一致,Y染色体还是在丢失基因的。

但是从数量上来看,在y染色体上基因的数量是在增加的,发生扩增的基因的种类一共有457个,在原始的pesudo的果蝇中是单拷贝的形式存在,其中有363个编码蛋白的基因,只在y染色体上拷贝数增加,94个编码蛋白的基因在x、y染色体上都发生拷贝数的增加。在y上产生了2036个拷贝,在x上产生了647个拷贝。但是这些基因为什么发生扩增,发生扩增的原因是什么?

首先对于第一类只在Y上发生扩增的基因,其中有6个基因家族拷贝大于30,14个基因家族拷贝大于15,90%的基因的拷贝数小于4。这是取不同的组织做RNA-seq,得到的基因的表达量的结果。可以看到的现象是,对于一些拷贝数高只在Y上发生扩增的基因,几乎都只在睾丸中表达。这种表达的模式,和在其他物种中–通过扩增和育性相关的基因的拷贝提高育性的表达模式相似。【在雌性中他们的同源基因在卵巢中表达量高,所以可以得到一部分的结论是这些基因可以提高育性,所以发生了扩增。】但是这部分高拷贝的基因在做富集分析的时候,没有找到显著的功能注释。

而对于这些低拷贝的基因,它们的表达没有很强的特异性,所以可能是用来抵消剂量效应的。因为如果是剂量补偿相关的话,大概只需要多一个拷贝就行,只要拷贝数和两条X染色体上一样就可以了。与之相关的一个现象是关于MSL,male-specific lethal复合体,如果一个基因在Y上没有,那么就会招募MSL去结合x染色体上的基因的位置,抑制其表达,减轻剂量效应。这幅图展示的是如果某个基因在Y染色体上是单拷贝的话,x染色体上该基因片段被MSL结合的比例,可以发现的一个现象是当在Y染色体上存在多个拷贝的话, x染色体该基因片段被MSL结合的比例会下降,从侧面上印证了,这些存在拷贝的基因是剂量效应敏感的,所以发生拷贝的原因是用来补偿剂量效应。

所以他们根据这个现象提出了一个模型,在这些拷贝数发生扩增的基因中,一部分是高拷贝的基因,对于育性和fitness有益的基因,一部分是低拷贝的基因用来补偿剂量效应的。产生这么多拷贝的一个机制是非同源重组,因为Y染色体存在很多的转座子元件。

因为是非同源重组,所以可以在染色体上观察到很多这种基因串联重复分布的现象。

还有一些基因是中性无害的,或者很少的害处,因他们观察到一些不是完整长度的copy以及提前终止的copy。但是这些基因中也会因为Y染色体上转座子元件很多,发生很多拷贝,但是事实上并不需要这么多,对于这样的元件可以通过转座子元件的表观修饰来降低它们的表达。

对于第二类在X/Y染色体上都发生扩增的这些基因,它们在睾丸中高表达,并且这种表达和发生拷贝的数量不相关,所以对这些基因进行功能富集分析,以及小RNA表达分析去探究它们的功能。

这些扩增的基因编码94个不同的蛋白,在Y上扩增后是2036,在X上共有647个拷贝。通过RNA的表达量可以观察到的一个现象是这些发生拷贝了的基因,不论是位于X上还是Y上,都会在睾丸中高度表达,【但是在祖先当中,这些基因在睾丸和卵巢中表达存在很大的差异,这一点怎么解释?唯一的差别是突然间和性别连锁在了一起】【但是定位在X染色体上的基因在睾丸中高度表达就比较奇怪,一般这些基因都不会定位在X染色体上。后来觉得这是个trick,X染色体上的基因本身就可以在睾丸中表达。】

这种现象可以用基因间的竞争模型来解释。为了增加在后代中X染色体的比例,X可以通过影响减数分裂的过程,也可以编码驱动自身发育得更好得基因,也可以一些打断Y染色体或者含有Y染色体的精子发育不良的基因。所以这些基因就需要在睾丸中高表达,而两一方面,Y染色体可以通过沉默这种元件的表达,来抑制这种性别比例的不平衡,此消彼长的情况下,谁的copy多,谁的抑制效果就更强,谁的优势就比较强。所以这些基因发生了扩增。【还有一些驱动的元件】

为了验证这种模型,它们对基因进行富集,每一个框的大小代表P值得显著程度,发现这些在X/Y上都发生扩增的基因大部分与减数分裂和染色体分离相关,RNAi相关的基因。

在这些发生多个拷贝的基因中,有一些直接与减数分裂相关的基因,比如subito与纺锤体的定向,染色体分离相关,mars和着丝点组装相关,ord 与姐妹染色单体的粘连有关,fest也是与纺锤体装配有关。这些基因在物种中一般都是单拷贝存在的,位于常染色体上,但是定位到y染色体上后,由于竞争关系,拷贝数发生不均等的增加。

在这些基因当中,还有一部分是与piwi-RNA相关,参与到RNAi的过程中,可以通过间接的方式去沉默那些打破性别比例的元件,增加自己的优势。

在这些发生多个拷贝的基因中,有一些Dicer酶,RISC复合物组装,核酸内切酶相关的基因发生不同程度上的拷贝,这些基因在昆虫中中一般也都是单拷贝存在的,定位到性别相关的染色体上后,由于竞争关系,拷贝数发生不均等的增加。

通过RNA profile的数据,也发现这些基因会同时产生正义链和反义链,以及小片段的RNA,反义链的存在一方面可以直接去调控基因的表达,另一方面可以组装为dsRNA,参与到RNAi的过程中,间接的佐证通过RNAide方式去实现基因间的竞争。

总结一下,这篇文章主要讲了三点,第一点是观察到了部分和以往完全相反的现象,Y染色体上的基因发生了扩增,而且长度变长。第二点是对于仅在Y染色体上扩增的基因,大部分是用来提高雄性的育性,还有一部分是用来补偿剂量效应的。第三点是对于在X/Y染色体上都发生扩增的基因,参与到intergenomic conflict model。

几个疑惑的地方,剂量效应只看拷贝数?从RNA的结果来看也不是拷贝数越多RNA表达量就越高。为什么不看Y染色体丢失的基因去看有啥功能?
Ref: Massive gene amplification on a recently formed Drosophila Y chromosomehttps://www.nature.com/articles/s41559-019-1009-9​www.nature.comDe novo assembly of a young Drosophila Y chromosome using single-molecule sequencing and chromatin conformation capturehttps://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.2006348​journals.plos.org

Oral English

最近差不多研究生英语口语课要上完了,剩下的作业几乎都做的差不多,从最初到现在,自己做作业的想法一直在发生改变。应该是往好的方向发展了吧。自己在班级的身份是Class assitant,负责各种信息的登记,联系老师。(理由:因为老师问 who want to Be The CA,没有人举手,场面一度尴尬,我就举手了)


第一次作业是小组一起朗诵诗歌,朗诵的诗歌是Casey at the Bat By Ernest Lawrence Thayer,一首关于讽刺自大的棒球选手,讽刺观众对比赛人员畸形、过度的期待(现在也很常见)的一首诗。

根据网上的音频来判断的话,这是一首类似于体育赛事播报的诗。所以在朗诵的时候,需要速度快一点,而且这是一首四人合作的小诗,需要每个人朗诵一段。更适合两个人来表演,所以四个人的时候,略微有点冗余,但是这是规定,无可避免。

就第一次的结果来看的话,和自己预料的有些差别,因为有几些地方做得不是很好。

  • 1)自己没有提前好好分析这首诗歌,投入不够,因为当时要做汇报的原因,周二的时间用来整理平时的笔记了,所以在这方面花的时间少了,再加上自己看电影了,看电视剧了,但是当时状态的确不是很好,如果不放松一下的话,可能自己状态会更糟糕。
  • 2)没统筹好队伍,没有找一个集中的时间,让大家集合起来练习一下,因为刚上课,大家彼此也不是很了解。最后合作的方式和结果,对自己来说,不是很愉快,大家也没有想一起好好准备的想法,各忙各的,也没有把这个课当成很重要的任务,就随便完成就好了。
  • 3)如果在诗歌的开头,做一段关于棒球规则的介绍,通过肢体演示一下,会让大家更容易理解一些,不会get不到诗里面的点。
  • 4)作为CA,拿这次诗歌的展示来说,在展示完成后,会有讨论环节,如果想要让大家能够提出问题来的话,应该鼓动每个小组,提前把自己理解的关于诗歌的意思发在群里,而不一定是等到课上。在课上那么短的时间内,很难理解故事本身的意思,然后再仔细思考,语文课上中文讲诗歌,一首都得一两节课呢?更何况英文的诗歌。
  • 5)其实可以结合视频来弄,但是自己当时怕麻烦。就只是做了PPT,配了音乐。

做的比较好的地方:

  • 1)找了音频,学习别人的发音和速度以及激情的地方
  • 2)找到了关于这首诗的分析的网站,但是内容过多,没有看完https://www.shmoop.com/casey-at-the-bat/stanza-1-summary.html
  • 3)找到了一些漫画,来表示诗歌的意思
  • 4)提前练习了稿子,脱稿,虽然不是很熟练
省略中间过长的内容


第二次作业,是表演话剧,作为presentor,大致介绍故事的梗概。充分吸取上次的教训,提前告知大家故事的大致剧情,加了一些段子,勉得大家不想看,算是比较合格的表现。比较顺利。

为了避免出现像上次诗歌那样,大家都不知道彼此的诗歌讲的是啥,我把今天下午的话剧的故事简介发一下,大家可以提前看一下,提高下午上课的观影体验。= _ = 这部话剧的主要剧情:

  • 第一部分 是一个有权有势的坏人–鲁斋郎,在路上闲逛的时候看见银匠李司的妻子很漂亮,就想把她抢过来,所以他不怎么好的随从就用计谋,到头来也就是明着抢,帮他去抢李司的妻子【可能一般这种权贵都比较傻,所以身边总是会伴随着一个献谋划策的人】。 被抢了妻子的李司很难受,到郑州去告状,半路上急心疼病发作晕倒了,被官员张圭所救。刚好张圭的妻子也姓李,就认他做了干弟弟,想要拔刀相助。 但是李四说完是鲁斋郎抢了自己的妻子,张圭就怂了,就打发李四回家。在这段时间内,李四的儿女喜童(Happy Boy)、娇儿(Sweet Maid)因为没有人照顾就跑丢了。
  • 第二部分 到了清明节的时候,张圭一家去上坟,不小心碰到了鲁斋郎,鲁斋郎不小心打中了张圭儿子的脑袋,张圭破口大骂,但是看到是鲁斋郎,就怂了,不敢骂了。 这个时候鲁斋郎觉得李司的妻子不好看了,没有张圭的妻子好看,让张圭交出自己的妻子。
  • 第三部分 张圭就将自己的妻子骗到鲁斋郎处,鲁斋郎很开心,便将先前所抢李四之妻赏给张圭,让她去帮忙照顾他的儿子女儿。【上演一场不得已的分别大戏,“你怎么可以这样” “我能怎么办,我也没办法呀”】
  • 稿子: The main story of the wife snatcher is that a powerful bully Lu Zhailang illegally snatch the wife of silversmith Li Si and clerk Zhang Gui, which forced the two family dispersed, and finally Bao Zheng designed a strategy that sucessfully punished Lu Zhailang, the two family eventually reunion. The climax of the play is how BaoZheng used the trick of 鱼齐即 to get Lu Zhailang killed. The whole drama has a total of four folds and one wedge. which is a normal format of player in Yuan danasty.
  • In act I, powerful bully Lu Zhailang occasionally met the attractive wife of Li Si, and then he swindled and snatched Li’s wife by the excuse of repairing silverpot. Li Si was sad and indignant, so he went to Zhengzhou to sue. Since he was too anxious, he got a heart attack. Accidently rescued by clerk Zhang Gui, who wanted to help Lisi to punish the guy who had carried off Li’s wife. However, Zhang Gui feared Lu Zhailang’s power, so he sent Li Si to go home and do nothing. And during this time, Li’s son and daughter got lost. And by accident again, Zhang Gui’s family was sweeping the grave in Qing Ming Festival, and they met Lu Zhailang, who commanded ZhangGui to surrender his wife.
  • In act II, Zhang Gui deceived his wife to Lu Zhailang, and Lu Zhailang was very very very happy, and he was get bored with Lisi’s wife, so he rewarded Zhang Gui with Li Si’s wife.
  • In act III, Li Si happened to visit Zhang Gui, and accidently met his wife. At this time, Zhang Gui’s sons and daughters Jin Lang and Yu Jie were dispersed. With so many disappointment, Zhang Gui decided to return Li Si’s wife, and resigned to be a hermit.
  • In act IV, Bao Zheng, the perfect of Kaifeng, went to Wunan to interview(私服寻访), and he met lost and homeless Xi Tong, Jiao Er and when he went to Lan Zhou,he met Zhanggui’s son and daughter Jin Lang, Yu Jie, so he adopted them and decided to educate them. When he heard that their mothers were both robbed by Lu Zhailang, and since LuZhailang had done many impudent and outrageous things, commited all manner of crimes, he decided to get rid of him. But he was worried that someone would cover up for him, so he reported to the emperor that a man named Yu Qiji* had been injuring good citizens, abducting women and breaking the law time and time again. The emperor was angry and issued an order for his execution(死罪). By this trick, he had Lu Zhailang killed. And finally came the happy ending,when BaoZheng brought jinlang yujie xitong jiaoer toYuntai Taoist Temple to sacrifice their parents, by accident, they met their parents and zhanggui happened to pass by the temper, so the two families reunioned.
  • 总结:大家玩得都很开心的


第三次作业是关于climate change,了解外国人对于climate change的看法,起因,结果,影响,政策,解决措施。一半是调查部分,一半是汇报部分。调查部分:在做之前看了很多资料,应该问什么问题,对于这个问题我的看法是什么,怎么能和被采访的外国人有一个比较好的互动。花了一些时间去看别人的看法,去看联合国部长的宣言,找例子,去官网上找各方面的解释,去看别人的问卷调查问的什么问题,有哪些是可以用来用的。去看Paris Agreement 去看sustainable development goals and targets 找这些文件中和气候变化相关的部分。整理成稿子,和同学一起模拟在和外国朋友交谈,然后上街采访,在校园里溜达,遇到面善的人就凑上去问可不可以接受采访,采访完6个人之后,完成采访部分任务。之后开始整理录音稿,但是按照自己的定性思维,选择把被访者的每个单词都记下来,全部复盘录音稿之后再开始按照老师给的作业要求,开始找稿子中涉及的观点部分,挑选出来。复盘录音稿花的时间很长,但是后来发现其实这种方法是不对的,其实,只需要把问题抓到,然后抓到关键的点就可以,然后自己描述一下,不需要完完全全的把对方的每一个词都记下来。之后开始做PPT,按照自己的逻辑把所有的内容串起来,从采访过程开始介绍,介绍被访者所认为的气候变化和结果是什么,介绍原因,介绍解决措施,介绍我们小组在这个过程中学习的体会。

在听完所有人的报告之后,也意识到了自己的一些问题:1. 从最开始我就是按照我自己的目标来开始完成这个作业的,所以多用了很多很多的时间,想要把它延伸得更多一点,介绍一些可以track气候变化的网站,其实这些部分不是必须的,老师期许的要求,只是通过采访来锻炼口语能力,锻炼不敢说英语,然后锻炼一下我们整理别人的观点的能力。而且所延伸的这部分东西也是给别人提供一个参考,自己对这些网站也只是惊鸿一瞥,没啥实质性的帮助。2. 其中,比较缺乏的一点是根据这些结果,没有做进一步的分析,只是停留在他们中有多少人持有什么观点,但是没有去想为什么他们的观点不同,是不是和他们所在的国家关于气候变化的宣传和教育不同。3. 在PPT制作方面,有些内容是不必须的,不打算讲的页数就不要放在PPT里了,一些不必要的网站链接,都可以完全的省略掉。Be clear, concise,就像写论文一样。PPT 最重要的部分是point,point,point.4. 然后在采访的时候,事后听自己的录音稿,发现自己笑得次数太多,有些地方貌似没有什么笑点,可能是为了让自己不慌张,但是实在是笑得太多。怪怪的。5. 在课堂讨论的时候,问问题不积极,不知道该问什么,但是和自己的期待有关,自己问问题就是想要知道一些新的观点,但是如果我发现这些内容我都看过一点点,我就不会想要问问题。但是其实自己对于有的部分的内容只是非常粗浅的了解,为什么别人有这样的观点,你赞同否,这些都是可以argue的,把它当作练习口语练习,在短时间内组织自己的问题并且问出来。问题本身和回答本身。6. 另外一点就是老师提到的,大家都是一个班级的同学来上课,注意一下别人的发音和PPT展示,你可以提出建议帮别人纠正。这个还是私下来的比较好。


第四次的作业是听一个英文的报告,然后总结这个报告的主要内容,之后做成ppt来展示。这一次,自己还是先花了3个小时把录音稿整理了一下,从北大的图书馆把录像视频调出来,慢慢的截取PPT,然后get 主要的观点【因为第一次听的时候忘记要写这个作业了,又是生物和化学结合的,就没有做很多笔记,所有又重头来了一遍】

开始按照老师的给的要求,来写report,介绍报告的stucture,介绍报告的主要内容,自己对这个报告的评价。之后开始做PPT,讲座是关于2018诺贝尔化学奖-定向进化方面的内容,最开始做汇报的时候,打算把它的每个地方都讲清楚,但是那样算下来,speaker给懂一点的人讲这些东西都花了1h,难道我还期望自己花更短的时间讲清楚,有些不自量力。幸亏自己有拖拉的毛病,一直都拖着没做,在上完第一次课之后才发现原来是要限时的。所以后来就只准备5分钟的内容。顿时觉得,哈,5分钟,能讲啥,那就简单的介绍清楚就好了。开始锻炼尝试删繁就简的技能。

在这个过程当中,自己有些地方没做好的地方是:

  • 1. 没有提前收集大家的PPT,拷PPT浪费了些时间
  • 2. 在给大家排序后,忘记检查了,有的地方分组出现了错误
  • 3. 没有提前问清楚要求(想当然了,觉得大家可以free-style),所以才出现课上才知道原来这是个time limited presentation.
  • 4. 自己做报告的时候时间进一步缩短为3分钟,但是没有调整好,额,没有准备激光笔来辅助幻灯片切换。

做的比较好的地方:

  • 初步学会了简化的技能,断舍离???
  • PPT开始尝试更加简单的风格

记得上课的时候,因为报告没有严格的控制时间,(自己是卡别人时间的人)看有的人没讲完,就偷偷的多给了别人一点时间,被老师发现了,然后被老师批了一下:our time is precious,【后来觉得,虽然想让别人说完是件好事,但是也阻止了别人在规定时间内讲完报告的一个机会,要让别人意识到需要在规定时间内完成,在以后正式的报告中,时间是必须得严格控制的】

然后就是演话剧的时候,很开心,大家一起玩玩的东西,但是排练的时候也会因为来不齐人会有些烦躁,大家都比较忙,都是不同的专业。就真的玩得开心就好,能做到哪一步就做到哪一步,不要坏了自己的心情。

然后就是选队友,合作伙伴,真的是有时候就踩雷,就爆炸,但是还不是得做,做完之后就拜拜,下次找其他觉得靠谱的同学。

然后就是学会了降低期待,不要期待自己要做得有多好,先把符合标准的版本做出来再说,有时间就继续改进,算是不再对自己那么苛刻?有人说我这是放低了追求,我这就是选个平衡点吧,视做的事情的轻重程度来看。

以下是所有内容以及PPT:

https://pan.baidu.com/s/1ezl71T8ErGHIF9gVjHDjGg

GWAS-全基因组关联分析-summary

轮转期间学到的一些关于GWAS的小知识,如何操作完成一个GWAS。
最开始的是要了解个体表型的背景信息,去看怎么定义的,有哪些发表的工作解释了关于这个表型什么样的机制。这样之后在定位到基因上的时候,可以提供一些hint。

  • 原始材料:两个SNP calling之后的vcf文件,加起来总共300个G,
  • 因为是两个批次的测序文件,所以SNP calling的结果不一样,
  • 首先要做的第一步是找到这两个批次当中相同的SNP位点,然后把他们提取出来。
    • 关于vcf文件的解释可以参照这个网站https://blog.csdn.net/u012150360/article/details/70666213
    • 需要做的第一件事情要么就是比较两个测序文件的SNP的名字(第三列),或者比较两个测序文件的位置(第一第二列)来判断相同的SNP位点,
    • 但是由于有一些没有标注的SNP是用“.”表示的,所以前面一种方法不可行。只能根据后面一种方法来,先比较相同的,然后提取出来。

【最开始的思路是想要用R语言,但是R语言会把注释的信息丢掉,而且读起来很慢,然后失败了,而关于vcf文件的操作,其实有很多成熟的工具,在没学过多少代码的情况下,自己写代码真的是太天真,又浪费时间,而且代码也没有优化,跑起来花的时间真的是要命,而且自己对R语言也不是很熟,用的函数越多,在某个环节报错的可能性就越大。】

关于vcftools的操作有很多文件说明,在学的时候觉得比较有用网站是下面几个:

一个大佬写的对我帮助很大的教程,让我学会了怎么操作:https://wlz0726.github.io/2017/04/12/vcftools/

官方文件说明:在操作之前先假想了一下其实只用找自己需要的就好了,但是我习惯全部看完之后再下手,对我有帮助的是下面第一个网站。https://vcftools.github.io/perl_examples.html#isec

http://vcftools.sourceforge.net/man_latest.html

第一步找到共有的SNP,并提取出来,原理就是取交集,并集,反集(因为用的是服务器,所以当然得考虑占用的资源问题,压缩永远是必用的)

bgzip -c coli_239_raw.vcf > coli_239_raw.vcf.gz tabix -p vcf coli_239_raw.vcf.gz bgzip -c colv_198_raw.vcf > colv_198_raw.vcf.gz tabix -p vcf colv_198_raw.vcf.gz

先取个只有我有的,再把只有我有的这部分去掉就是共有的。为什么不直接取共有的,因为我没有找到相关的代码

vcf-isec -f coli_239_raw.vcf.gz colv_198_raw.vcf.gz | bgzip -c > colionly.vcf.gz tabix -p vcf colionly.vcf.gz vcf-isec -f coli_239_raw.vcf.gz colionly.vcf.gz | bgzip -c > coli239cc.vcf.gz tabix -p vcf coli239cc.vcf.gz vcf-isec -f colv_198_raw.vcf.gz coli_239_raw.vcf.gz | bgzip -c > colvonly.vcf.gz tabix -p vcf colvonly.vcf.gz vcf-isec -f colv_198_raw.vcf.gz colvonly.vcf.gz | bgzip -c > colv198cc.vcf.gz tabix -p vcf colv198cc.vcf.gz 取完之后核查一下,看看是不是完全一样的SNP vcf-compare coli239cc.vcf.gz colv198cc.vcf.gz |grep ^VN | cut -f 2- 22563005 coli239cc.vcf.gz (100.0%) colv198cc.vcf.gz (100.0%) 确保没有问题了之后再进行下一步

第二步就是合并两个数据集,然后再挑选你需要用来做GWAS的个体的数据,其中还需要做的一步是过滤掉non-biallelic的位点,因为存在这样的位点的话,用plink做GWAS会报错,我知道这一点的原因是我的程序报错了,然后又重新开始过滤位点,再进行操作。之后再将文件转换为plink所需要的格式。

报错之后的操作就是,把程序报错的信息复制下来,google一下,一般都能找到,那些前辈们都是从坑里踩出来的。如果按照正确的操作来的话,应该是先好好的看paper,看别人的代码,就会发现:嗯?为什么别人的代码多了一个过滤的步骤,再去搜,原来后续操作需要这样,就能避免报错了。

合并文件

vcf-merge coli239cc.vcf.gz colv198cc.vcf.gz | bgzip -c > colicolv_cc.vcf.gz tabix -p vcf colicolv_cc.vcf.gz

挑选个体

vcf-subset -c (个体的id) colicolv_cc.vcf.gz | bgzip -c > colicolvid239198.vcf.gz

过滤non-biallelic的位点

vcftools –gzvcf colicolvid239198.vcf.gz –min-alleles 2 –max-alleles 2 –recode –stdout | bgzip -c > filtered_colicolv_id.vcf.gz

将文件转换为plink所需要的格式 vcftools –gzvcf filtered_colicolv_id.vcf.gz –plink –out filtered_colicolv

【正确的更加快速的手段是,先挑选个体,过滤位点,再合并,能够节约时间,或者把文件拆成几个部分,分别操作完了之后再合并】 【再运行需要很长时间的代码的时候,一定要记得先优化步骤,能节约时间。不要觉得,能跑通就好了】

第三步就是读plink的操作指南,知道map和ped文件的格式,每一行每一列包含什么信息,修改一下文件,看一看需要哪些参数,然后开始做GWAS

  • 1.需要编辑map文件,因为我的文件在转换的过程中,染色体的名字被修改了,需要拆一拆
  • 2.需要生成一个pheno文件,因为需要定义表型,表型的数据本身包含在ped文件中,但是ped文件真的是太大了,刚开始傻不拉几的先读取ped文件,然后再去替换编辑表型,弄了3天都没有跑完,后来发现有一个参数选项可以通过自己编写表型数据来指定表型。
  • 3.检查plink的版本,有一些参数在低版本的情况下没有办法使用。

参考网站:官方网址:http://www.cog-genomics.org/plink2/

别人写的一个关于GWAS的原理解释:https://www.cnblogs.com/leezx/p/9013615.html

testmap11 <- read.table(file="filtered_colicolv.map",header = FALSE,colClasses = "character")
dim(testmap11)
20143535 4
testmap11[1:4,]
chrm <- testmap11[,2]
chrom <- unlist(lapply(chrm, FUN = function(x) {return(strsplit(x, split = ":")[[1]][1])}))
length(chrom)
map <- cbind(chrom,testmap11[,2:4])
write.table(map,file = "filtered_colicolv.map",row.names = FALSE,col.names = FALSE,quote = FALSE)


./plink --noweb --file filtered_colicolv -geno 0.1 -maf 0.05 --allow-extra-chr --recode --out quality_filtered_colicolv
./plink --noweb --allow-no-sex --file quality_filtered_colicolv --allow-extra-chr --pheno pheno.txt --assoc --out quality_filtered_colicolv
  • 上面一个是指定了没有染色体,因为文件中染色体的类型大于22+x+y,
  • 其次是指定表型的时候,需要看是0/1还是0/2还是1/2,最开始的时候没有仔细看这个,在跑的时候,把control和case的数目弄错了最后是质量控制,
  • geno maf可以过滤掉一些假阳性的结果,知道的原因是自己没又操作这一步,出现了假阳性的结果。


第四步,分析GWAS的结果,得到的是assoc的文件,所以去看看这个文件的格式、信息是什么:https://www.cog-genomics.org/plink2/formats

参照常规流程去分析结果,首先是画曼哈顿图,参考网站:https://zhuanlan.zhihu.com/p/72490817

https://www.cnblogs.com/chenwenyan/p/10318685.html

https://cran.r-project.org/web/packages/qqman/vignettes/qqman.html

需要注意的是有的项需要指定为numeric的格式,不然会报错,在这个地方卡了很久。

library("qqman")
gwas <- read.table(file="quality_filtered_colicolv.assoc",header =TRUE)
gwas$CHR <-as.numeric(gwas$CHR)

pdf(file="20191030_quality_plot_colicolvtest.pdf",width=9,height=6)

绘图
manhattan(gwas,main = "Manhattan Plot of Pigeon Piabald", 
          chrlabs=NULL,
          suggestiveline=-log10(1e-5), genomewideline=-log10(5e-8), 
          highlight=NULL, logp=TRUE, annotatePval = NULL, annotateTop = TRUE)
关闭设备
dev.off()

曼哈顿图其实就是视觉上方便看而已。之后看哪个地方有峰,去找有明显的峰的位点有哪些,将这些位点和参考基因组进行对比。对比的话,主要就是先确定染色体相同,再确定SNP的position是不是位于参考基因组注释的区段的start和end之间。之后看找到了哪些基因,再去搜功能,觉得比较重要就看,在原始的文件中还有哪些SNP位点位于这个基因内,这些SNP位点哪些发生了非同义突变,在突变体组和对照组之间的频率差异大不大。

gwas <- read.table(file="quality_filtered_colicolv.assoc",header =TRUE)
q_snp_colicolv_id <- gwas[which(-log10(gwas[,9]) > -log10(5e-8)),]
q_snp_colicolv_id
save(q_snp_colicolv_id,file="q_snp_colicolv_id.Rdata")

mapping
setwd("/home/guest/plink-1.07-x86_64")
ref <-  read.table(file="GCA_000337935.2_Cliv_2.1_genomic.gff",fill=TRUE,colClasses = "character")
(load("q_snp_colicolv_id.Rdata"))

snp_id <- q_snp_colicolv_id

ref$V4 <- as.numeric(ref$V4)
ref$V5 <- as.numeric(ref$V5)
snp_id$BP <- as.numeric(snp_id$BP)

gene <- NULL
for(i in 1:nrow(ref[,]))
{
    snp <- snp_id[which(snp_id[,1]==ref[i,1]),]
    snp <- snp[which(snp[,3]>=ref[i,4]&snp[,3]<=ref[i,5]),]
	if (nrow(snp) != 0)
	{
    for (j in 1: nrow(snp))
	{
	ref_snp <- cbind(snp[j,],ref[i,])
	gene <- rbind(gene,ref_snp)
	}
	cat('\r',j)
	}

	print(i)
}
dim(gene)
save(gene,file="q_snp_ref_gene.Rdata")
write.csv(gene,file="q_snp_ref_gene.csv")

做到这儿,之后的我也不知道该怎么操作了。因为轮转结束了。


总的来说学到一些tip就是:

先搞清楚初始数据是什么,每一步要做什么,实现什么目的,得到的数据对不对,好好的检查一下。不要觉得自己的代码可以实现要操作的目标,就不去网上搜索一些别人怎么做的,搜关键词的话,比如处理vcf文件,就搜索vcf tool/manipulaiton,可以得到优化的代码,还可以解锁一些额外的操作技能。总会有前人留下一些有用的经验的,肯定有教程。

期间还速学了一下python,后来完全没有用上,因为工具包都帮我解决了。我还是太naive了

在进行大规模,尤其是文件比较大的时候,一定要合理的优化处理的流程,可以省下很多时间。

还有就是组会汇报的时候,提前准备一下,串一串逻辑,有好几次讲的语无伦次,说了好多的然后然后然后。第一次开组会的时候,觉得压力好大,原因在于自己太想讲好了,想要把东西讲的完美无缺,每个地方都有逻辑链,后来发现就是慢慢看,慢慢把需要的内容看完,然后整理就行。自己当时选择的方式是给自己找了一大堆的资料,然后看都不想看,后来慢慢看完之后,自己看上面的内容,其实真正有用的信息很少很少,自己需要学会抓取关键信息。然后想清楚自己看的这个东西对解决问题到底有没有帮助,分清主次。

相分离

Ref:转录调控的相分离模型

A Phase Separation Model for Transcriptional Control 【2017】 Coactivator condensation at super-enhancers links phase separation and gene control【2018】

  • 这篇文章是2018年7月发在science上的文章,主要讲的是参与转录过程的一些因子在超级增强子附近发生相分离形成condensates调控转录的过程从实验上来验证他们2017年cell上提出的相分离参与转录调控的理论模型
  • 首先介绍下背景相分离:真核细胞内一些含有特定序列特征的蛋白质或者核酸 通过疏水、静电作用,形成一些微米级别的无膜的,液滴一样的结构的过程。形成的结构叫做condensates 或者puncta这种结构可以将分子富集在一定的区域内,也可以将一些参与反应或者不利于反应发生的分子排除在外,调控细胞内生理反应的发生另一方面,这种结构是高度动态的,可以不断的和周围的分子发生交换,当环境发生变化时,可以进行解离或聚集
  • 增强子,一类DNA调控元件,可以结合转录调控的一些蛋白,促进上下游的基因表达(距离最远1Mb)而超级增强子由许多这样的增强子组成,促进基因表达的效果更明显,在其周围存在许多转录相关的因子,可以激活不同的基因同步表达,它促进的转录过程很容易被转录调控蛋白的blocker扰乱。
  • 而这些性质,可能可以用相分离来解释,比如通过相分离,转录因子和一些互作的辅助因子可以在SE附近富集而这个过程本身也是高度动态的,通过相分离形成condensates或者解聚,来起始或者终止转录过程所以他们认为在超级增强子附近发生了相分离的过程,将转录相关的因子富集在这个局部的区域,高效的促进基因的表达,另一方面,在增强子附近形成相分离的过程,可以将很多gene 拉到这个区域,也可以解释为什么增强子为什么可以促进基因的同步表达
  • 在提出了这个模型之后就开始进行实验验证。这篇文章主要选择的是两个在超级增强子附近富集的转录相关的蛋白,在mESC细胞中进行验证BRD4:可以磷酸化RNA Pol II的CTD,促进RNA Pol II从转录起始位点释放,起始转录MED1:mediator的一个亚基,可以和BRD4一起用来定义SEs(它们都是转录复合物相关的蛋白)文献报道,CHIP数据表明,SE在BRD4和MED1结合的区域富集DNA互作的数据说明,SE中被BRD4和MED1结合的地方,在空间上接近(所以用这两个蛋白来进行验证)(RPM reads per million)(CHIA-PET,配对末端标签测序)(甲醛固定后,用特定的抗体拉蛋白,之后测序,看这些蛋白结合的序列)所以选择这两个蛋白来进行实验
  • 首先,为了验证一下,这两个蛋白在细胞内会不会形成小的puncta,一方面,在固定完细胞后,分别通过BRD4 MED1的抗体进行免疫组化,观察荧光,发现在细胞核中可以观察到很多这种小puncta的结构
  • 另一方面,为了判断在内源情况下,在活细胞内是否可以形成这种puncta,通过CRISPR/Cas9的同源重组,在内源的BRD4和MED1 N端加上荧光标签 (可能是因为IDR主要在C端)也可以观察到核内形成很多puncta,在每个核中大概有1000个左右的BRD4 MED1puncta.
  • 进一步确认这种结构能否在超级增强子的附近形成,通过DNA-FISH、RNA-FISH 靶向Nanog基因和它的SE,验证puncta是不是在SE附近形成(IF也是单一的),有100多个FISH位点的中心存在puncta,而随机挑选序列做FISH,观察不到这种趋势(在除了Nanog以外的几个基因附近的增强子也可以观察到类似的现象,【Mir290 Klf4 Trim28】在没有和SE耦联的基因附近观察不到类似的现象)说明这两个蛋白可以在超级增强子的附近形成puncta
  • 但是puncta具不具备相变的性质?比如在体内
  • 1)是否能和周围环境的分子发生交换
  • 2)可不可以被已知的扰乱相变形成的分子破坏在体外
  • 3)这种puncta的形成是否是浓度依赖的
  • 4)在环境改变过程中,puncta的大小、数量是否会发生变化
  • 首先,在mESC内源带有mEGFP的MED1 BRD4细胞系中进行FRAP荧光漂白恢复,在漂白后,荧光可以在短时间内恢复,说明这种结构是高度动态的,可以和周围环境中的分子发生交换扩散的速率大概在 ~0.37 ± 0.13 and ~0.14 ± 0.04 um2/s,
  • 另一方面这种快速的交换是能量依赖的过程【ATP可以通过能量依赖的过程,或者它自身的疏水活性 促进condensate的流动性】通过葡萄糖饥饿和寡霉素(抑制ATP的合成)去除ATP,进行FRAP,发现BRD4的恢复速率下降,MED1的恢复速率完全消失会下降
  • 之后,验证了一下已知的相变的扰乱剂,1,6- 己二酮可以扰乱liquid-like condensates的形成,在1,6- 己二酮处理之后,mESC中内源的BRD4和MED1的puncta的数目减少,说明形成的puncta可以被这个扰乱剂扰乱
  • 虽然这种puncta的结构被扰乱,但是这些蛋白结合的功能是否受到影响?在超级增强子附近的结合是不是会减少?在用1,6- 己二酮处理之后,通过CHIP-Seq发现,BRD4 MED1在超级增强子附近结合的occupacy下降,说明相变过程的扰乱,会阻止这些转录调控因子在超级增强子附近的结合
  • 另一方面,这种相变的扰乱,是否会影响转录水平,同样通过RNA Pol II在超级增强子附近的occupacy的变化来看,在扰乱之后,RNA Pol II的结合减少,而这些RNAPolII发生下降的地方主要是SE驱动的基因,TE驱动的基因的结合下降比例少,从侧面说明condensates的扰乱导致转录的活性下降
  • 在体内验证完之后,在体外验证一下它们的性质,这种相变的发生是不是由MED1和BRD4的IDR产生,首先通过PONDR(Predictor of Natural Disordered Regions)预测,确认MED1和BRD4的IDR区域,主要集中在C端,在体外分别纯化IDR-mEGFP蛋白,发现在含有10%PEG的buffer中,蛋白溶液会变得浑浊,在显微镜下可以观察到小液滴的形成
  • 在测试的最低浓度时也可以形成puncta
  • (验证一下它们的浓度依赖的性质,受盐浓度影响)进一步确认下,这种过程是否是浓度依赖的过程,随着蛋白质浓度的增加,puncta形成的大小和数目都会增加,而在对照组的GFP组不会观察到这个现象是否会被盐浓度所影响
  • 另一方面,形成的相puncta结构是否是可逆的,直接进行稀释,如果是agg就没办法产生变化,如果是小液滴,就会随着浓度下降,变得小一点(数量和浓度都会下降),用高盐或者等盐浓度的稀释形成的puncta会减小,从A395nm的吸光度【puncta】来看。说明这种结构是可逆的,
  • 这些结果可以说明,相变可以响应环境中浓度的变化,比如拿突触来说的话,在膜附近会产生离子浓度的快速变化,这个时候相变的形成就可以被扰乱但是细胞质和细胞核中会不会有局部的一些变化,未知(因为目前所知道的主要是离子浓度的变化产生的影响,其他分子浓度的变化产生的影响还未知)
  • 接下来看一下,在体内能否形成这样的droplets【optoIDR】CRY2:隐花色素基因,在蓝光诱导下会聚集在一起,所以可以增加在局部的IDR的浓度在蓝光诱导之后,可以观察到小液滴的形成,而且可以观察到小液滴在细胞内逐步的融合,具有流动性,具有动态性
  • 同样的,这种结构在进行荧光漂白后也可以恢复,进一步说明这个过程是高度动态的
  • 接下来他们对这个序列的保守型进行了一下分析首先对MED1的氨基酸组成进行了统计,发现在IDR区域,serine丝氨酸的含量很高,而且这一特征在脊椎动物中保守存在将MED1中所有的serine突变后,发现serine对于IDR相变非常重要,全部突变掉serine MED1 IDR无法形成相变(S to A)
  • 最后,验证了一下功能方面的,在体外,这个droplet能不能富集转录相关的因子摸索了MED1-IDR可以形成相变而BRD4-IDR不能形成相变的条件,看MED1-IDR可不可以富集BRD4
  • ((mCherry–MED1-IDR and mEGFP–BRD4-IDR) 为了防止是因为相变是有孔体系,将葡聚糖连接荧光标记,形成比mEGFP–BRD4-IDR相同分子量小的分子,看这个过程是否是一个主动的过程,而不是被动的有孔特性,可以进入到condensates的内部【验证这是一个分子互作的主动的过程,而不是有孔特性】
  • 接下来看这个droplet能不能富集cell extracts中的其他分子,droplets的密度比细胞提取物的密度要大,所有首先将这个体系加入到细胞提取物中,之后通过离心来看可不可以富集细胞提取物中一些转录相关的蛋白免疫组化的结果表明,可以富集BRD4和RNA Pol II的亚基(RPB1)
  • 在体外转录的体系中加入MED1-IDR的droplet可以终止转录反应,说明它的确可以影响到转录方面的功能合成的RNA具有自放射性,将其作为Readout.
  • 讨论:TF中activation domain中包含有IDR染色质的结构可以被这些condensates影响,将一些元件或者基因富集在一定的空间内Qusetions:condensation是怎么调控转录的输出的(condensation形成的时间?大小?)什么驱动condensation的形成和解离其他转录调控元件的model是不是也是这样,还是有其他的方式为什么有的蛋白参与常染色质condensates的形成,有的蛋白参与异染色质的condensates的形成在疾病过程中,会不会这种转录调控的过程发生了错误的调控(一些疾病是由IDR内的突变导致,在肿瘤细胞中,原癌基因的上游存在特别大的SE)

其他想法:

在这之后,陆续报道了一些关于相分离的文章,比如相分离调控染色质结构、相分离调控转录复合物的switch,相分离参与到核仁蛋白的修复过程。相变在细胞中普遍存在,始终存在说明相变对于生物的功能发挥具有比较重要的作用,相变失调是一些疾病的病理病因,也可以从相变的角度来重新审视相关疾病。

但是对于自己研究的问题有什么帮助,需要自己仔细斟酌。假设这个过程当中的确发生了相变,然后呢?扰乱相变,影响了功能的发挥,对于解释自己的课题提出的假设是否有确确实实真实的推进。


下面是整理的关于相分离的一些内容。阅读文献和结合公众号推文(BioArt)之后的整理。

  • Biomolecular condensates: organizers of cellular biochemistry Biomelocular condensates :真核细胞内形成的微米大小级别、无膜但可以聚集蛋白和核酸的liquid-like结构,分布在相应的地方(不知道在胞质或者细胞核内分布位点是不是有一定的规律),其中一个比较重要的特征是multivalent macromolecular interaction(一个蛋白含有多个互作结构domain,可以是分子间互作也可以是分子互作,intra- and inter-molecular,modular interaction domain (strong),disordered regions provide multiple weakly adhesive sequence elements, intrinsically disordered regions (IDRs,常不含芳香族、脂肪族氨基酸) LCR 低复杂度序列区(序列不复杂,有重复,氨基酸类型少,带电残基 ser、tyr、asp,RGG arg,)),

在condensate内部也可以形成subcompartments,这些结构可以稳定存在几小时、几天,另一方面通过漂白恢复的方法发现它们也可以和周围进行频繁的分子exchanging,也可以进行融合。

可以形成相变的分子:蛋白-蛋白、蛋白-核酸,(一个condenastes可能有10-几百种),仅有一小部分蛋白在生理浓度下可以发生相变从功能方面来看,只要有蛋白或者核酸参与的复杂过程都可能发生相变,所以需要了解相变的大方向的功能,在特定的反应中去思考可能可以怎样工作。另一方面,结合细胞类型来看,不同细胞类型undergo such progress 可以发挥怎样的功能【但是这些结构的组成成分、怎样组装、性质、功能是怎样调控的】

  • 和macromolecular assemblies大分子复合物的不同点在于:
  • 结构上:
  • 1)更大,可被直接观察到
  • 2)大小、体积上可以产生相应的变化
  • 3)组成成分可以发生变化,而大分子复合物的组成和大小比较固定
  • 功能上:
  • 1)大分子复合物的反应时间us-ms timescale,而condensates反应时间可能是minutes regime
  • 2)相变体系内部的结构可能不是均一的,异质性的,
  • 3)大分子复合物的功能主要是通过构象的改变来调节,condensates的活性怎么调控的还不清楚(可能是通过修饰或者分子伴侣的结合来调控)
  • condensates的调控组装:
  • 1)控制浓度,超过浓度阈值才会相变(但是如果用这种方式来调控相变,在功能方面,不能判断是相变形成的影响,浓度的改变造成的影响,所以还是突变,完全破坏相变的性质比较好,但可以作为辅助方法来验证,)【改变蛋白表达,蛋白降解,蛋白定位】
  • 2)可以通过改变valency(改变结构、对蛋白进行修饰),改变环境可溶性来调整形成相变的阈值【也可以作为一种扰乱蛋白正常功能的方式,类似于限制它的分布】
  • 3)遗传方面可以改变互作domain氨基酸的长度、数量、patterning、不同的连接类型【需要你知道其他可以形成相变的蛋白的结构】

调控组成成分:(也可以是一种干扰手段)组成是高度变化的,其中一部分作为组成性成分,一直都在,另一部分是限时的,只在某个特定的阶段参与(scaffolds: resident molecules essential for formation of the structure,clients:dispensable for biomolecular condensate assembly.)可以人为设计支架蛋白polySUMO–polySIM,然后在目标蛋白上加上SUMO、SIM标签,改变支架蛋白SUMO和SIM的比值来调整组成,也可以在目标蛋白上多加几个SUMO,增强结合,调整组成一方面可以突变支架蛋白本身,或者突变client蛋白

物理性质:maturation:fluid to gel to solid另一方面,细胞可能会通过某种方式来限制这种mature,或者通过某种方式来维持这种高度动态的性质,(不能一动不动、完全静止,生物中大部分的过程都是处于高度动态的状态来发挥功能的)可以处于这三种状态中的一种fluid:相对无序,短距离范围内有序分布

多相相变:multiphase biomolecular condensatessecondary condensed phases within the primary condensed phase(不同的表面张力)

功能:细胞保证在正确的时空间内进行合适的生化反应,通过调控它们的定位,将它们富集在一定区域内,或者将它们从某些区域进行排除,(eg,蛋白水解)在有膜结构中,可以通过特定的膜蛋白转运机制,实现上述功能而对于一些无膜的结构,也可以实现上述功能,但如何对分子进行富集、维持、调控,控制内在组成成分的变化,调控内部分子的活性。

1)可能增加浓度(也可能和胞质的浓度一样),加快反应速度,或者完全隔绝反应(特异性很强的反应),但是也可能对于速度效率没什么影响(对于非特异的反应)【比如对于内部的大分子,移动会受到影响】调控反应速度和反应的特异性(反应或者不反应),反应的位置(analogously to classical scaffolding molecules in signalling pathways, which bind multiple, selected pathway components simultaneously to provide spatial proximity and structural organization, thus enhancing flux and selectivity)

2)成为特定的微环境状态,稳定特定的分子,为特定的反应提供条件

3)从调控方面来看,如果有的分子仅在这种相变的条件下反应,可以作为快速响应的一种机制,物质都存在,一个cue来集结它们【switchable】

例子:1830s,核仁 nucleolusP granules (germ cell;2-4 um,比较大的结构;RNA+Protein),可以exchange、flow、deform、fission,fusion(交换、变形、融合、分裂)

异染色质、核孔复合物的膜通道,细胞膜上的膜受体也通过液-液相分离形成https://media.nature.com/original/nature-assets/nrm/journal/v18/n5/extref/nrm.2017.7-s6.pdf​media.nature.com

相变可以实现的功能,通过膜结构也都可以实现,差别之一在于,相变的可变性更高,相对于膜结构更容易拆散,调控更加灵活,方便,也不需要带上特定的膜结构转运标签。膜结构更加稳定,相变在不断的振荡、改变。膜结构可以维持相对稳定的离子环境,而相变主要是大分子,没有一个barrier,小分子没有办法被restrain。这两种方式可以作为互补的方式来organizing cellular contents

【原核不知道有没有?没搜到,如果原核没有,只有真核有,这种机制又有利于发生一些反应的话,为什么不采取这种方式?】


一些pipeline:【具体还是读原文根据自己的需求来获得比较好】 Reference: Considerations and Challenges in Studying Liquid-Liquid Phase Separation and Biomolecular Condensates影响因素:1)大分子本身的性质、浓度2)the environmental conditions including temperature, salt type and concentration, co-solutes, pH, and the volume excluded by other macromolecules.预测结构的算法,分析氨基酸序列的性质,预测无序的结构,以FUS蛋白为例,前250个aa为无序序列,如果不知道结果代表什么,可以对照图例来看富含arg和芳香氨基酸的motif对于相变形成比较重要。

分析预测的工具:

Mutation of interaction domain采取的方式:leave one out(截短体)点突变,mutation prevent/reduce LLPS (影响相变但不影响功能)

体外生化、细胞内判断的一些标准:droplets,spherical shapesaturation concentration (调整浓度,相变的过程变化,concentration dependence of LLPS)(和dimerization,oligomerization,higher-order self-association without phase separation不同)direct observation of fusion (但是有的 undergo liquid-to-solid transition,不融合)

离体观察的时候,避免承载物的影响可以更换成lipid、PEG(no experimentally induced gelation effects)浑浊程度、吸光度可以作为初步判断,Turbidity measurements通过离心的方面可以得到dense phase by centrifugation

  • 一些体外表达的建议:
  • 蛋白纯度、在大肠杆菌、酵母,昆虫细胞,或者体外翻译,BL21 strain一般可以,其他的表达系统也可以尝试;无规律区域容易被蛋白水解,所以需要加入蛋白酶抑制剂,另外得注意迅速操作,避免aggregation(MBP促融标签)。
  • 可以优化形成inclusion bodies,包含体,一方面可以继续溶解,也可以不被酶解。
  • Buffer得是生理条件buffer,变性buffer不行。组成:A typical buffer will contain a buffering component (e.g.pH缓冲体系 50 mM HEPES pH 7.5), a salt component (e.g., 盐离子 300 mM NaCl, 500 mM KCl, or even no salt), and a reducing agent (e.g., 还原剂 1 mM TCEP or 5 mM DTT). To determine whether phase separation occurs under physiological conditions, the salt concentration should be adjusted to 150 mM NaCl or KCl.
  • Crowders(PEG,ficoll,葡聚糖,dextran,右旋糖苷会加速相变的形成,所以在纯化蛋白时要注意,另一方面,这种促进的机制还不清楚,1)可能增加了蛋白的有效浓度?模拟了胞质的浓度环境 2)溶液环境改变)小分子(ATP)也会影响,用没有特定生物功能的衍生物来研究小分子在相变过程中作用

测量相变体系的性质

在看荧光漂白恢复时,结果不仅仅代表droplet和胞质的交换速率,droplet的大小、droplet的可活动性、漂白区域的大小、位置也会对结果有影响。in live cells在体外做的时候可以随时控制到饱和浓度,形成相变,但是在细胞内,可能是在特定的时刻到达饱和浓度,形成相变体系的分子的饱和浓度的时间是错开的,所以需要注意。


Further reading

Phase Separation in Biology and Disease这个地方有一些干货,可以结合自己的研究方向看。

https://www.nyas.org/events/2019/phase-separation-in-biology-and-disease/?tab=agenda

https://nyaspubs.onlinelibrary.wiley.com/toc/17496632/0/0

PPT链接:

https://pan.baidu.com/s/1HstM43BUcNsR6FjSz4W43w

What makes neurons so sepicial ?

某一天听到老师提及这个问题,觉得比较好玩。神经元特有的性质?在其他细胞中存在,在神经元中被强化的结构、过程有哪些?

Ref:https://neuravinci.com/2014/06/02/what-makes-neurons-so-special/https://www.verywellmind.com/what-is-a-neuron-2794890


What makes neurons so sepicial ? (glia and neurons)

1.神经元的不对称性:树突和轴突的分布,unidirectional signaling,特化的膜结构(突触)

2.神经元的可兴奋性:化学刺激和电刺激(两种不同的模式)

3.神经元分类:sensory neurons、interneurons、motor neurons(不同处理模式)(神经元基序,在细胞水平上的正反馈、负反馈循环,在其他组织细胞中好像不存在,发育过程中可能存在)

4.大部分的神经元不再分裂,但是可以彼此之间形成新的连接(为什么需要神经元不再分裂,不再分裂的原因是什么?如果分裂,哪些已有的结构会被破坏?还是说重新形成新的神经元并且建立合适的连接需要发育过程中特定的分子诱导,而这一过程不会再在成体大脑发生,所以分裂更新的能力被抛弃了)(那神经元为什么可以存活那么长的时间,而体内其他细胞会不断的进行更替?因为处在相对封闭的空间内,有BBB的存在,受到stress的几率小一些吗?)

5.神经元具备极大的异质性(有大小上的,形态上的,投射上的多样性,树突的多少,轴突的长短,表达的分子、受体、神经递质不同,空间上相近的神经元,如果和其发生连接的神经元不同,发挥的功能可能会不一样,放电的频率、幅度不同)【而其他的组织、器官,不存在这么极端的异质性】

6.神经递质作用方式:可以是局部作用,小范围调控;也可以是全局作用,对大范围内的神经元的活动状态进行调整

7.基因方面的太过于复杂(有6000多个基因是只在神经系统中特异表达的)

8.神经元具有可塑性,相对于其他细胞的sensitivity,神经元的plasticity好像更特化

9.神经元和神经元之间的连接更多,可以接受来自几百上千个神经元的信号,而在其他的器官貌似不是这样的

10. 神经元之间信息传递的过程就像是分子信号通路一样,一级一级的往下传。

11. 除却神经元本身的性质外,神经元也和别的组织器官联系在一起,存在interaction,接受的信号刺激输入类型多样,能够感知外部世界的信号。神经元之间的互作可以产生意识、思想、计算等高级功能了。