·科技写作·

医学论文中人类基因符号及相应蛋白符号的正确书写

黄静怡1, 曹 静2, 韩 丹1, 郑 芹1, 沈志超1

(1. 第二军医大学免疫学研究所 中国肿瘤生物治疗杂志编辑部,上海 200433; 2. 中华医学超声杂志(电子版)编辑部,北京 100710)

【摘要】随着生物医学科技的高速发展,基因符号(即基因名称的缩写)在生物医学研究论文中使用频率越来越高,但由于许多作者对基因命名、书写规则缺乏足够的了解,目前医学论文中基因和蛋白符号书写不规范的现象频频出现,如没写成斜体、使用希腊字母和罗马数字及大小写混乱等。针对这些问题,本研究根据国际人类基因命名委员会(Human Gene Nomenclature Committee, HGNC)颁布的“人类基因命名指南”(guideline for human gene nomenclature, HGNG)最新版本(2014年2月网络版)的内容,简要介绍人类基因及其相应蛋白符号的书写规则,对常见的书写不规范现象做出疏理和分析,并提出改进意见,以期帮助作者和读者正确使用基因和蛋白符号,提高医学论文的规范化质量,促进我国医学研究成果的国际交流。

【关键词】基因名称; 基因符号; 蛋白符号; 医学论文

随着生物医学科技的高速发展,基因名称及其符号在生物医学论文中出现的频率越来越高。

基因名称是基因的全称,基因名称的缩写则是基因符号。基因符号与其他科技学术名词和学术符号一样,具有鲜明的专业性、规范性和国际性。在生物医学论文中,只有规范地使用和书写基因符号,才能提高论文规范化质量,促进高质量的学术交流和我国科技创新成果的国际宣传;对于学术期刊来说,正确使用基因符号是期刊规范化建设的基本要求之一[1-2]。因此,我国广大生物医学工作者应熟悉、掌握和正确使用基因符号的书写。

国际上相关学术组织历来都十分重视基因的命名工作,把该工作视为基因相关专业和学科发展中重要的基础性工作[3]。国际人类基因命名委员会(Human Gene Nomenclature Committee, HGNC)专门负责人类基因命名规则的制定和“人类基因命名指南”(quidelines for human gene nomenclature, HGNG)的发布。自1979年始,HGNC在Genomics杂志上先后发布过5个版本的HGNG[4];2002年首次发布了网络版HGNG,至2014年2月,该网络版共经历了14次修改更新[5]

面对当前我国医学论文中不规范书写基因符号的现象,根据HGNG最新网络版(http:∥www.genenames.org/quidelines.html)[5]的内容,对人类基因符号及其相应蛋白符号的书写规则作一简要介绍。

1 人类基因名称的书写规则

1.1 基本原则

基因名称应正体书写、首字母小写,但当该基因名称首字母涉及姓名或缩写或在句首时应大写。例如,生存素基因应写成survivin;Allan-Herndon-Dudley综合征基因,其基因名称为“Allan-Herndon-Dudley syndrome”,基因符号为AHDS;ATP结合盒亚家族A1号成员基因,其名称为“ATP binding cassette, sub-familly A, member 1”,基因符号为ABCA1。

1.2 描述、限制性词写法

基因名称中描述性、限制性的形容词应置于名称主干词的后面,以逗号分开。例如可溶性顺乌头酸酶1基因,其基因名称为“aconitase 1, soluble”,基因符号为ACO1。

1.3 别名写法

基因名称的别名应置于该名称后面的括号中。例如艾杜糖醛酸2-硫酸酯酶(Hunter综合征)基因,其基因名称为“iduronate 2-sulfatase(Hunter syndrome)”,基因符号为IDS

1.4 物种名写法

与其他物种基因同源的人类基因名称,在需要写出物种名时,可将该物种名置于基因名称后面的括号中。例如,肌动蛋白结合蛋白基因(小片段同源,果蝇),其基因名称为anillin,actin binding protein(scraps homolog, Drosphila),基因符号为ANLN

2 人类基因符号的命名和书写总则

2.1 组成和写法

基因符号由斜体的大写拉丁字母和阿拉伯数字组成,符号的第一字符必须是字母,且与基因名称首字母相同。

2.2 字符单一

基因符号不含有希腊字母和罗马数字。早期命名的基因符号中的希腊字母应转换成对应的拉丁字母,如原在基因符号前缀上的希腊字母转换成拉丁字母后应置于符号的末尾;早期命名的符号中的罗马数字应改为对应的阿拉伯数字。

2.3 符号简练

基因符号字符数一般不超过6个;基因符号中无标点、不含上下标、不含字母“G”(gene)或“H/h”(Human),也不使用由某些字母或字母组合组成的前缀和后缀。

2.4 内涵专一

基因符号仅表示基因本身的特性,不代表其他扩展的信息,例如基因在染色体上的位置、组织特异性和分子大小等。

2.5 符号唯一

人类基因符号具有唯一性,它不与已知的其他人类基因符号重复,也不涉及其他物种。

3 某些特殊类型基因符号的书写细则

3.1 基因家族符号

以基因符号为主干,将家庭成员以单个大写字母或阿拉伯数字或其两者的组合置于主干符号的后面。例如,G蛋白偶联受体基因1,2,3,其基因名称为“G protein-coupled receptor 1,2,3”,基因符号为GPR1、GPR2、GPR3;细胞色素P450基因超家族1A1、1A2、2A1、2A2,其基因名称为“cytochrome P450 superfamily 1A1,1A2,2A1,2A2”,基因符号应写成CYP1A1、CYP1A2、CYP2A1、CYP2A2。

3.2 等位基因符号

由原基因突变后产生的等位基因,应以少于3个字符的大写字母或数字或其两者组合来表示,并置于主干基因符号的后面,中间以“*”相隔。例如,PGM1*1;D3S22*A1。

3.3 序列相似的基因符号

通过交叉杂交方法或从数据库中找到一新基因,它与某已知基因的序列相似,但暂时不了解其相关功能的信息,该新基因为某已知基因的“序列相似基因”。该基因符号可在已知基因符号的末尾加上“L”。例如,酰化氨基酸水解酶1基因(aminoacylase 1, ACY1)的相似基因,其相似基因符号可写成ACY1L

3.4 假基因符号

某些基因与已知功能基因高度同源,但自身既不能转录又不能翻译,它们被称为假基因。假基因符号可以在已知功能的基因符号末尾加上序号和“P”(pseudo)来表示。例如,嗅觉受体家族5亚家族B第12号假基因,其基因名称为“olfactory receptor, family 5, subfamily B, memebe 12 pseudogene”,基因符号为OR5B12P

3.5 同源基因符号

(1) 不同脊椎动物中的同源基因应使用相同的名称和基因符号,尤其人类和小鼠间存在着许多同源基因;(2) 当有必要说明同源基因的来源物种时,可将种属名称或其缩写符号放在括号中置于基因符号的前面。例如,起源于人类的同源基因ABCA1,可以写成(HUMAN)ABCA1;起源于小鼠的同源基因Abca1,可以写成(MOUSE)Abca1。

3.6 重组基因符号

(1) 两个人类基因通过重组产生一个融合基因时,该融合基因符号应把此两个(或更多)的基因符号连起来,但要做一些删节。例如,POM121基因和透明带糖蛋白3(zona pellucida glycoprotein 3, ZP3)基因重组形成的融合基因符号应为POMZP3;(2) 人 类基因或其DNA片段和小鼠DNA片段杂交后产生的重组基因符号,可在人类基因符号前加上人类缩写符号“H”,再加上由小鼠染色体缩写符号“C”和其序号组成的前缀。例如,人类基因D21S56和小鼠第16号染色体DNA片段杂交产生的重组基因,其符号可写成C16HD21S56。

3.7 癌基因符号

癌基因分为两大类,一类存在于逆转录病毒中的称为病毒癌基因(viral oncogene, v-onc),另一类存在于细胞中的称为细胞癌基因(cellular oncogene, c-onc)或原癌基因(proto-oncogene)。过去命名的癌基因符号在两类基因符号的前缀部分分别写上“v-”或“c-”,而新的命名规则规定基因符号不应有前缀,故癌基因符号中应取消这两个前缀。

3.8 疾病或症状相关的基因符号

3.8.1 疾病名称有关的基因符号 临床疾病相关基因首次发现时,往往以疾病或症状名称命名;但在深入认识了该基因的编码产物及其功能后,HGNC根据这些功能特性重新命名其名称和符号。最新命名规则规定,应将确切反映该基因特性的名称和符号作为规范的名称和符号。例如,软骨发育不全(achondroplasia,又称致死性侏儒症)基因的早期命名基因符号为ACH,后来认识到该基因是成纤维细胞生长因子受体3(fibroblast growth factor receptor 3)基因,故将该基因符号正式改为FGFR3。

3.8.2 涉及多个基因的临床综合征有关的基因符号 临床综合征常涉及某一染色体区域的多个基因缺失或重复,故临床综合征相关基因名称应写成“综合征名+染色体区域(CR)+变异的候选基因序列号”。例如猫眼综合征染色体区域候选基因1,其基因名称为cat eye syndrome chromosome region, candidate 1,其基因符号应写为CECR1。

3.9 某些不遵守HGNG规则的特殊情况

(1) 编码某些酶蛋白、血浆蛋白和一些特殊蛋白的基因符号,它们应遵照国际生物化学和分子生物学联盟命名委员会制定的规则书写。例如,叶酸多聚谷氨酸合成酶(folylpolyglutamase)的基因符号写成FPGS;血色素alpha1(hemoglobin, alpha 1)的基因符号应写成HBA1。

(2) HLA的基因符号遵照WHO命名委员会关于HLA系统的命名规则书写,免疫球蛋白和T细胞受体基因符号遵照国际免疫遗传学命名委员会的规则书写。这几类基因符号中可以有标点符号。

(3) 出版物基因目录中的基因符号不必用斜体。

4 人类基因符号对应蛋白符号的书写规则

人类基因的表型产物主要是指基因编码的蛋白,基因符号和其对应的蛋白符号两者的字符组成和大小写完全相同,不同的是蛋白符号用正体书写。例如基因符号KRT1、TP53、CDKN2A,其对应的蛋白符号为KRT1、TP53、CDKN2A。

但也有些特殊情况,如等位基因对应的蛋白符号,书写时应去掉基因主干字符和等位基因字符间的“*”号,留一空隙,例如3.2中介绍的等位基因D3S22*A1,其相对应的蛋白符号为D3S22 A1。

5 人类与其他常见物种基因与蛋白符号书写规则的区别

基因符号及其相应蛋白符号的书写涉及所有生物物种,品种繁多、数量浩瀚。早期,各物种基因的命名由多个国际学术组织、各种国际命名小组和某些工作小组各自独立进行,后来经过协商,各物种基因的命名工作归由某物种所属国际学术组织中专门的遗传命名委员会承担[3]。从此,各物种基因的命名工作进入了全球化、专业化和规范化的发展阶段。

全球各物种基因的命名和书写,既必须遵循生物遗传命名普遍性基本规则,又必须体现各物种相应的特性,所以各物种的基因和蛋白符号既复杂多样,又能保持各种基因和蛋白符号的独特性。医学论文中涉及最多的无疑是人类基因符号,故这里以人RAS基因[该基因与大鼠肉瘤病毒基因(rat sarcoma causing gene, Ras)同源]为例,列出了人类与医学论文中较常见物种基因与蛋白符号书写规则的主要区别点[3-7],见表1。

表1 常见物种基因和蛋白符号书写规则的主要区别点

Tab.1 The main differences between writing rules of gene and corresponding protein symbols of common species

物种基因符号蛋白符号正斜体大小写字符数举例正斜体大小写举例人类斜体全大写≤6RAS正体全大写RAS大小鼠斜体首大写3~5Ras正体全大写RAS果蝇斜体全小写3ras正体全大写RAS菌类斜体全小写3ras正体首大写Ras

6 基因及其蛋白符号书写不规范的常见问题

6.1 基因名称未写成正体、首字母未写成小写

通常情况下医学论文中使用的多为基因符号,但某些特殊基因,例如survivin、凋亡抑制因子基因livin,由于其名称很短小,所以没有缩写符号,使用时直接书写基因全称,HGNG要求其正体书写、首字母小写。

6.2 基因符号未斜体书写

基因符号应以斜体书写,以便于基因符号与其对应的蛋白符号相区分。如血管内皮生长因子(vascular endothelial growth factor)的基因符号为VEGF,蛋白符号为VEGF。

6.3 基因符号中阿拉伯数字用正体

构成基因符号的拉丁字母与阿拉伯数字作为一个整体,均应斜体书写。如尾侧同源盒基因CDX2(caudal type homeobox transcription factor 2),不应写为CDX2。

6.4 基因符号中出现希腊字母和罗马数字

基因符号中的希腊字母应翻译为拉丁字母,罗马数字应翻译为阿拉伯数字。如衔接蛋白复合物2的α亚基(adaptor protein complex 2, alpha subunit)的基因符号应写为AP-2alpha,而不是AP-2α

6.5 大小写混乱

多见于不同物种的同源基因,如在书写人类基因符号时使用了其他低等物种(菌类、大小鼠等)的基因符号书写格式。早期对基因的研究多从菌类和果蝇开始,人们对菌类和果蝇基因符号的认识最早,且记忆较为深刻,因而在书写与其同源的人类基因符号时没有与时俱进,往往会把菌类基因符号误用作人类基因符号,造成大小写混乱;同时,大小鼠基因在医学研究中广泛应用,其与人类的同源基因也最多,故在书写时容易发生大小写混淆(表1)。如人抑癌基因P53、P16常见写成p53、p16,人RAS基因写成Rasras的不规范形式。

6.6 人类蛋白符号未全大写

应注意不同物种对于基因符号和蛋白符号书写的要求,人类蛋白符号应采用全大写、正体的格式,如人肺耐药相关蛋白(lung resistance-related protein)的蛋白符号应写为LRP,而非Lrp或lrp。

7 常用的基因符号查询网站

了解基因符号的命名和书写规则能够帮助广大读者、作者更加高效准确地进行科技论文的阅读和写作,提高医学论文的国际规范水平。但要完全掌握所有基因符号的命名及书写规则显然是难以做到的,也没有必要。在使用某个基因时,可以利用网络工具查询其规范的名称及基因符号,以下提供2个权威网站供作者、读者查询: (1) 国际人类基因命名委员会网站,http:∥www.genenames.org;(2) Entrez Gene网站,http:∥www.ncbi.nlm.nih.gov/gene[1]

8 结 语

本文简要介绍了人类基因符号及其相应蛋白符号的书写规则,并对常见基因及其蛋白符号书写错误进行分析,以期帮助生物医学论文作者在写作中正确书写基因、蛋白符号,增加论文的科学性、规范性、可读性;也可帮助读者在阅读论文过程中快速正确地获取相关信息,避免发生基因和蛋白误判,有利于科研成果的传播。同时,在生物医学科技期刊的编校、出版过程中规范人类基因和蛋白符号的书写规则,有利于促进我国生物医学科技期刊的规范化建设,推动学术期刊的专业化、国际化发展。

【参考文献】

[1] 刘华,李秀普.Entrez Gene数据库及其基因书写规范中的应用[J].中国科技期刊研究,2010,21(4): 539-540.

[2] 张翠英.基因及蛋白质符号的规范编排[J].编辑学报,2004,16(4): 262-263.DOI: 10.3969/j.issn.1001-4314.2004.04.013.

[3] 王金发,陈中健,杨琳,等译.遗传学进展(英)编辑部.TIG遗传命名指南[M].北京: 科学出版社,2002.

[4] 方福德,向若兰,杨燕丽.如何命名和书写基因——最新国际人类基因命名和书写规则[J].中国医学科学院学报,2005,27(1): 128-134.

[5] 方福德.人类基因的命名和书写[J].基础医学与临床,2010,30(10): 1010.

[6] Wain HW, Bruford EA, Lovering RC, et al. Guidelines for human gene nomenclature[J/OL]. Genomics, 2002,79(4): 464-470.(2014-02)[2016-04-15].http:∥www.genenames.org/quidlines.htm.

[7] International committee on standardized genetic nomencluture for mice, Rat genome and nomenclature committee. Guidelines for nomenclature of genes, genetic markers, alleles, and mutations in mouse and rat[EB/OL].(2014-08)[2016-04-15].http:∥www.informatics.jax.org./mgihome/nomen/gene.shtm.

Correct writing of gene and corresponding protein symbols in medical articles

HUANG Jing-yi1CAO Jing2HAN Dan1ZHENG Qin1SHEN Zhi-chao1

(1. The Editorial Office of Chinese Journal of Cancer Biotherapy, Second Military Medical University, Shanghai 200433, China; 2. Editorial Office of Chinese Journal of Medical Ultrasound(Electronic Edition), Beijing 100710, China)

【Abstract】The gene and corresponding protein symbols(abbreviations of gene names) are widely used in biomedical research articles, but incorrect writing frequently appears in the literature,e.g. not using italic, using Greek letters and Rome digitals and being inappropriately case-sensitive. This article introduces the Guidelines for Human Gene Nomenclature(HGNG, online edition, February 2014) of Human Gene Nomenclature Committee(HGNC), and also analyzes common mistakes appearing in Chinese medical papers and makes suggestions for authors to correctly write the gene and protein names and symbols.

【Key words】gene name; gene symbol; protein symbol; medical article

doi:10.16118/j.1008-0392.2016.06.025

收稿日期:2016-06-02

基金项目:中国科协精品科技期刊工程项目(2015KJQK003-1)

作者简介:黄静怡(1987—),女,中级编辑,硕士.E-mail: cjcbhjy@126.com

通信作者:沈志超.E-mail: shen_smmu@163.com

【中图分类号】R 735.9

【文献标志码】A

【文章编号】1008-0392(2016)06-0126-05