艾连中教授团队（第一作者宋馨）| 大模型驱动的新型基因编辑与应用/中国食品科学技术学会

基因编辑技术历经锌指核酸酶（ZFN）、TALEN至CRISPR-Cas9及其衍生系统（如碱基编辑器、先导编辑器、CAST系统）的演进，精准性、可编程性与功能多样性大幅提升。然而，现有工具在编辑效率稳定性、脱靶控制、靶点适应性与产物可预测性等方面仍存挑战，传统试错式优化难以满足规模化应用需求。近年来，以大语言模型、蛋白质语言模型及深度学习为代表的人工智能技术，为基因编辑系统的理性设计与优化提供了全新计算范式。这些模型通过从海量生物序列、结构与功能数据中学习内在规律，可预测编辑效率与脱靶风险、优化向导RNA与编辑酶设计，并辅助新型编辑器开发，从而提升编辑系统的可控性、安全性与研发效率。本文系统综述了大模型在CRISPR系统、碱基编辑器、先导编辑器及CAST系统中的应用进展，并探讨了其在食品科技领域的具体应用潜力，以期为基因编辑工具的智能化设计与工程化应用提供参考。

1. 基因编辑技术的发展与当前核心挑战

自锌指核酸酶（ZFN）和TALEN技术以来，基因编辑技术不断演进。CRISPR-Cas9系统的出现实现了RNA引导的靶向切割，极大简化了操作。随后发展的碱基编辑器可在不引起双链断裂的情况下实现精准碱基替换；先导编辑器进一步扩展了编辑类型，能够实现多种碱基变换及片段插入；CAST系统则展示了可编程的RNA引导DNA插入能力。尽管功能不断丰富，现有编辑器在靶点适应性、编辑效率稳定性、脱靶效应控制、gRNA设计及编辑结果可预测性等方面仍面临巨大挑战。传统经验式优化方法已难以满足工程化与规模化应用的需求。

2. 大模型的技术基础及在生物学中的适应性改造

基于“序列即语言”的理念，蛋白质语言模型（如ESM2）和基因组语言模型（如Nucleotide Transformer）通过在大规模序列数据上进行无监督预训练，学习进化与结构规律，获得蕴含结构与功能信息的高维表征。这些模型不仅能预测蛋白质结构（如AlphaFold2），还可用于蛋白质功能预测与工程。生成式模型（如ProGen、RFdiffusion）进一步实现了从序列或结构出发的蛋白质从头设计。这些大模型与生成式方法的结合，构成了“序列—结构—功能”的统一计算平台，为设计新型编辑酶、优化特异性与效率提供了强大的方法学基础。

3. 大模型驱动对不同新型基因编辑器的助力

3.1 传统CRISPR（Cas9/Cas12）

CRISPR-Cas9/Cas12系统的实际应用受限于gRNA效率差异、脱靶效应以及细胞微环境影响。大模型通过深度学习提升gRNA设计与脱靶预测的可靠性。整合多组学数据（如染色质开放性）可增强模型在不同细胞背景下的预测准确性。蛋白质大语言模型可用于生成或优化Cas蛋白变体，预测其功能，从而指导改造以提升活性与特异性。此外，基于Transformer的模型能够预测Cas9切割后的DNA修复结果，有助于控制编辑产物。

3.2 碱基编辑器（BE：CBE/ABE）

碱基编辑器的编辑效率与产物纯度受局部序列上下文影响显著。基于注意力机制的深度学习模型能够对序列语境进行高分辨率建模，预测编辑概率与产物谱，辅助筛选高纯度靶点。整合表观遗传等细胞状态特征可提升预测的泛化能力。蛋白质语言模型可用于指导脱氨酶等关键元件的改造与筛选，拓展编辑类型并提高效率。

3.3 Prime Editing先导编辑器

先导编辑器面临编辑效率不稳定、pegRNA设计复杂等挑战。深度学习模型能够基于大规模实验数据预测编辑效率与产物纯度，优化pegRNA设计。结合结构生物学揭示的机理（如逆转录酶延伸过程），计算模型可辅助规避不良产物的生成。大模型为pegRNA优化提供了从预测到生成的闭环能力。

3.4. CAST基因编辑器

CAST系统多蛋白组分协同机制复杂，工程化挑战大。大模型结合冷冻电镜结构数据与图神经网络，可解析蛋白质复合物界面、构象变化及相互作用，指导组分的理性改造。DNA语言模型整合基因组上下文信息，可用于评估插入位点的靶向特异性与潜在风险，辅助筛选可靠靶点。

4. 基因编辑系统赋能的食品科技应用前沿

在精准发酵领域，基因编辑系统正成为提升食品级蛋白生产效能的核心工具。通过CRISPR-Cas系统对酵母、丝状真菌等工业微生物进行多基因编辑与代谢通路重构，可以实现功能蛋白（如酪蛋白、乳清蛋白、食品酶）的高效、稳定表达。碱基编辑与先导编辑技术的引入，进一步降低了传统编辑带来的遗传不稳定性，为长期发酵生产提供了稳定可靠的细胞工厂。

在功能脂质制造方面，基因编辑技术展现出精准调控代谢流的优势。利用CRISPR-Cas系统在微藻、酵母等底盘细胞中定向编辑脂肪酸合成、去饱和与延伸等关键酶，可重塑脂质代谢网络，实现特定功能性脂质（如ω-3多不饱和脂肪酸）的定向合成与产量提升，满足健康食品开发的需求。

基因编辑技术也为高价值天然产物的生物制造提供了新路径。通过将植物来源的复杂次级代谢通路（如类胡萝卜素、花青素、萜类香料合成途径）在微生物中进行模块化重构与优化，CRISPR系统能够精准调节通路竞争分支，减少副产物，从而显著提高目标色素或香料的纯度与产率，推动清洁标签配料的发展。

在下一代益生菌开发中，基因编辑技术正推动益生菌功能的精准化与工程化。CRISPR-Cas系统能够在乳酸菌、双歧杆菌等食品级菌株中实现靶向代谢调控与功能模块嵌入，通过微调关键基因增强菌株的肠道定植能力、环境胁迫耐受性及有益代谢物分泌能力，推动益生菌从传统添加剂向可编程、功能明确的功能单元演进。

5. 挑战与未来展望

大模型在基因编辑中的应用面临三类核心挑战：高质量标准化数据的匮乏制约模型泛化；模型的“黑箱”特性影响机制解释与安全性评估；训练与部署所需算力与工程成本高昂。未来重点发展方向包括：发展整合序列、结构、组学数据的多模态大模型；利用生成式人工智能实现编辑模块的“原位生成”；建立从AI设计、自动化实验到数据回流的闭环工程体系，加速迭代。同时，需在数据标准化、模型可解释性与监管合规方面同步推进。

6. 结论

大模型正在推动基因编辑技术从经验试错转向计算驱动的系统工程新范式。借助序列语言模型、蛋白质语言模型、结构预测与生成式算法，能够在高维序列-结构-功能空间中进行系统搜索与评估，显著提升编辑效率、特异性及可预测性。在CRISPR-Cas、碱基编辑器、先导编辑器及CAST等多类体系中，大模型已成为连接设计、预测与改造的重要计算枢纽。在食品科技领域，该范式正将传统研发流程转变为可预测、可复制的工程体系，契合产业对安全性、稳定性与可持续性的要求。未来，需在数据、算法、实验与规范层面持续协同，以充分发挥大模型对基因编辑技术的变革性推动作用。

原文链接：https://kns.cnki.net/kcms2/article/abstract?v=BoNITJRTahK7bkPBI8QBlCgcY2a1zG5t9ABHTnc8s06vL-JIyENoIO-TMv2kzat3FPONOERfh--2PqBRLM7YWvUIfg8U67ZZD-xMFzQA8KNUDm_F9kIpkVBbePHx8kZw3G_6fOtklA346XFWtwMonuNCYK7s5VZFWI2s1ewy0db8MZJm96pyWw==&uniplatform=NZKPT&language=CH