Loading...
墨滴

留胡子的豆腐

2022/01/04  阅读:43  主题:橙心

密码子

mRNA序列设计|如何进行密码子优化

mRNA序列设计,主要包括:密码子优化,5'UTR选择,3'UTR选择。这里面,最简单,最容易上手的便是密码子优化。今天这篇文章,以密码子优化作为主题,介绍基本的原则和操作方法:

  1. 为何密码子优化对蛋白表达非常重要?
  2. 密码子优化的基本原则
  3. 密码子优化的相关网站
  4. 密码子优化的操作步骤

为何密码子优化对蛋白表达非常重要?

大家知道构成蛋白质的常见氨基酸有20种,但是破译出来的密码子有64种(其中,3个终止密码子不编码蛋白质),这就说明存在好几个密码子编码同一种氨基酸的现象,此种现象称为密码子简并性(degeneracy),编码同一种氨基酸的几个密码子称为同义密码子(synonymous Codon)。

对于一段特定的氨基酸序列,由于同义密码子的存在,可能存在难以计数的候选mRNA序列,但是在一个特定物种的特定细胞中,只能从无数可能的候选mRNA序列中选择一条mRNA来翻译出这段特定的氨基酸序列。不同的物种,不同的细胞,选择的候选mRNA序列是不同的,这是因为不同的物种,不同的细胞在编码同一种氨基酸时,选择的同义密码子是不同的(也就是密码子使用频率不同),具有各自的偏向性,此种现象称为密码子偏向性(codon bias)。

每一个宿主细胞会有一套自己的密码子使用频率表,一般来说,在宿主细胞里,使用频率高的密码子(最佳密码子),其对应的tRNA丰度高,由使用频率高的密码子组成的mRNA,其蛋白表达也会很高。异源mRNA的密码子和宿主细胞的最佳密码子使用频率存在偏差,可能会出现异源蛋白mRNA序列里密码子对应的tRNA丰度在宿主细胞中非常低的,此低丰度的tRNA对应的密码子在宿主细胞中稀有密码子(rare codon),稀有密码子会导致核糖体花费很多时间才能找到匹配的低丰度的tRNA,从而导致核糖体在mRNA上的停滞不前,甚至引起mRNA降解。因此异源蛋白表达需要进行密码子优化,选择高丰度的tRNA对应的同义密码子,提升蛋白翻译效率。

mRNA转录和翻译过程
mRNA转录和翻译过程

密码子优化的基本原则

密码子适应指数CAI (codon adaption index ),指异源mRNA序列中密码子和宿主细胞最佳密码子使用频率的相符程度,此数值越接近1,理论上,外源mRNA在宿主细胞中的蛋白表达越高。因此密码子优化最基本的原则就是用宿主细胞中使用频率高的同义密码子去替换外源mRNA序列中的密码子,保证外源mRNA序列中的密码子和宿主细胞的密码子使用偏向性更加契合,避免出现稀有密码子。但是,我们需要知道,密码子并不是影响蛋白表达的唯一因素,还存在其他因素,例如稀有密码子,GC含量,二级结构(自由能)等。

当把外源mRNA序列中的密码子全部更换为宿主细胞的最佳密码子,可能反而导致蛋白无法表达,因为由一些蛋白的表达需要稀有密码子的存在,延缓核糖体前进的速度,为蛋白质的正确折叠来提供足够的时间。

在2006年,Grzegorz Kudla等人发表文章High Guanine and Cytosine Content Increases mRNA Levels in Mammalian Cells,发现在哺乳动物细胞中,富含GC的基因表达效率要比低GC含量的基因高出几倍到一百倍,这种现象是由于富含GC的基因更加高效的mRNA转录或者加工,产生更多的处于稳定状态的mRNA。

在2009年,Grzegorz Kudla等人在Coding-sequence determinants of gene expression in Escherichia coli 中,构建了154个同义密码子随机突变的GFP mRNA,将其置于相同的启动子下,研究同义密码子突变对蛋白表达的影响。结果发现,表征GFP蛋白表达的荧光信号和CAI的相关性没有那么强,有些GFP mRNA的表达荧光信号很高,但是CAI很低。GFP mRNA 5'端的折叠自由能(the folding energy)和GFP蛋白表达的荧光信号有极强的相关性,高表达的GFP mRNA 5'端起始密码子附近的结构包含有很多未配对的核苷酸,折叠自由能低;低表达的GFP mRNA 5'端形成一个典型的长发卡结构,折叠自由能高,对蛋白翻译起始造成了限制(翻译起始时蛋白表达的限速步骤)。

在2019年,David M. Mauger等人发表文章 mRNA structure regulates protein expression through changes in functional half-life,证实mRNA 5'端UTR+CDS区域前十个密码子形成的二级结构越少,其编码的蛋白表达量越高,剩余的CDS区域+3'端UTR形成的二级结构越多,其编码的蛋白表达量越高(SHAPE活性越高表示RNA二级结构越少,也就是越松弛)。

密码子优化的相关网站

当前主流的密码子优化网站基本主要以优化CAI作为指标,主要有:

  • https://climsprod.genewiz.com.cn/Toolbox/CodonOptimization

  • https://www.genscript.com/tools/gensmart-codon-optimization

  • http://www.jcat.de/

2021年10月,张贺等人发表文章LinearDesign: Efficient Algorithms for Optimized mRNA Sequence Design,开发了一种新的算法来更加有效地优化mRNA序列,网站http://rna.baidu.com/,算法兼顾了mRNA的密码子适应指数CAI和折叠自由能MFE,能够获得结构更加稳定的mRNA,延长mRNA半衰期和蛋白表达时间,从而提升细胞内mRNA终产量。

用新冠Spike蛋白来举例说明,横坐标表示每一种氨基酸对应的同义密码子数量,SARS-CoV-2 Spike蛋白总共有1273个氨基酸(包括终止密码子),那么计算得到2.4×10^632^种可能的mRNA序列;纵坐标表示密码子在宿主细胞中出现的频率,粉红色的线,表示野生型的mRNA序列;黑色的虚线表示构成该mRNA序列的所有密码子是由宿主细胞中出现频率最高的同义密码子组成(最佳密码子适应指数CAI);蓝色的线表示该mRNA序列的自由能最小,稳定性最高。

该文章认为,当前传统密码子优化软件算法只能挖掘到橘色箭头覆盖区域的候选mRNA序列,此区域内的mRNA序列同野生型的Spike蛋白mRNA序列相比,CAI获得极大的提升,但是MFE并无太大改变,也就是mRNA结构稳定性未获得实质提升。而LinearDesign可以发掘传统密码子优化软件未曾发掘到的蓝色区域,MFE减少,mRNA结构稳定性获得极大提升,这样带来的一个结果是,在兼顾CAI的条件下,mRNA在细胞内表达持续的时间会更长,从而产生更多的S蛋白,诱导机体产生更多的抗体。

目前LinearDesign 百度研发小组已经同各大药企展开合作,对于单个mRNA的优化价格也在商讨议定中,据笔者和研发人员沟通的信息来看,如果有意向展开合作,百度RNA研发小组愿意提供免费优化,感兴趣的朋友可以尝试联系(RNA微信群中也要百度的研发老师在里面)。

密码子优化的操作步骤

密码子优化一般以氨基酸序列作为原始序列,首先我们需要计算原始氨基酸序列在宿主细胞中的密码子适应指数CAI,一般来说,CAI在0.7以上,蛋白表达都可以较好地进行。然后,我们将原始氨基酸序列输入密码子优化的相关软件可能获得更高CAI指数的mRNA序列(相比原始氨基酸序列)。传统密码子优化算法,有的也会兼顾GC含量,二级结构等,但是总体是以CAI作为最重要的指数。如果想要获得结构上更好的提升,建议尝试Lineardesign。网上相关的密码子优化软件很多,可以选用几个不同算法的软件,获得几个不同的优化序列,然后转染细胞,看看实际的表达效果。

总结

目前对mRNA序列进行密码子优化,只能借助于网上一些开源的密码子优化软件,并无其他更好的方法,实际上是一种非常鸡肋的做法,并无多少确定性可言,只能看运气。期待,未来可以构建一个类似 cell free synthesis算法系统,可以将优化过的候选mRNA序列直接丢进cell free synthesis算法系统中,给出一个模拟的表达量。类似的功能,小熊猫生物已经实现,他们推出了一个超高通量的测试原核载体表达平台,客户可以快速测试蛋白在不同载体以及不同调控元件下的表达量。未来mRNA序列的优化(密码子优化,5'UTR,3'UTR)必将依靠算法系统去解决,只有如此才可以更加迅速有效地获得理想的mRNA序列。

留胡子的豆腐

2022/01/04  阅读:43  主题:橙心

作者介绍

留胡子的豆腐