中国团队首创新算法 使细胞与计算机直接 对话
发布时间:2022-10-11 19:30:14 所属栏目:动态 来源:未知
导读: 细胞内有数以亿计的碱基、表达程序以及运行策略,而且各不相同。单细胞测序技术可解读单个细胞里的这些信息,但人工干预多、过度依赖人为选定的标记基因使得单细胞测序技术对细胞的注释
细胞内有数以亿计的碱基、表达程序以及运行策略,而且各不相同。单细胞测序技术可解读单个细胞里的这些信息,但人工干预多、过度依赖人为选定的标记基因使得单细胞测序技术对细胞的注释稳定性较低。可以理解为,同一类细胞用不同的模型解析,结果不同,对一些特殊细胞“公说公有理婆说婆有理”的分析结果往往难以得到广泛认可。 那么,新算法为什么能让机器通过学习读懂细胞中的复制、翻译、转录的语言呢? 相关研发人员解释,“我们首次将‘transformer’运用到单细胞转录组测序数据分析领域。 transformer这种架构从发明以来一直被用在自然语言处理领域,用于进行诸如机器翻译类的工作,成为比较通用的一个框架组件,但我们将它运用到了细胞注释领域。” 得益于对计算机处理人类语言和单细胞信息之间的共性理解,团队将已经成熟的人工智能架构进行创新性地“跨界”使用,大大提升了细粒度单细胞分子图谱的构建效率。 “跨界工具”让新模型赋予计算机读懂细胞活动的基础,但要想读得准、读得透、读得精,还需要基于大规模的语言预训练。 论文显示,为了解决来自不同项目、测序平台的数据难以互通有无的难题,“scBERT” 模型在预训练数据上没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息,并学习了包含不同实验来源、批次和组织类型的单细胞数据,以保证模型理解“通用”的知识,不仅捕获单个基因的表达信息还理解基因间的协作。 (编辑:成都站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐