细胞生物学研究时常依赖于对亚细胞结构的精确量化分析。准确的图像分割是理解细胞内运输、结构组织和细胞信号转导的重要基础。然而,传统的无监督分割方法(如Otsu阈值法)在面对低信噪比、光照不均和复杂情景时往往力不从心。虽然卷积神经网络(CNN)等深度学习方法极大地提高了分割精度,但它们通常需要大量的手工标注数据作为训练集。这一过程不仅耗时费力,还容易引入人为偏差。而现有的模拟数据生成方法通常需要复杂的物理建模和大量的计算资源,限制了其广泛应用。
2025年12月18日,清华大学生命科学学院/北京生物结构前沿研究中心欧光朔课题组在《细胞生物学杂志(Journal of Cell Biology)》 发表了题为“SynSeg:一种用于广泛亚细胞结构分割的合成数据驱动方法(SynSeg: A synthetic data-driven approach for robust subcellular structure segmentation)”的研究论文。该研究开发了一种名为 SynSeg 的通用方法,通过生成合成数据来训练机器学习模型,实现了对亚细胞结构的鲁棒分割,彻底消除了对手工标注数据的需求。SynSeg利用几何基元和域随机化策略,在囊泡、细胞骨架等多种结构的分割任务中表现优异,并可成功应用于神经退行性疾病和脂代谢疾病的定量分析。

图1 细胞骨架为例分割模型。 (a) 合成细胞骨架数据集生成与U-Net模型架构。(b) 基于 Airyscan 成像对 split-GFP 标记的 TUBA1A 进行细胞骨架分割。
SynSeg方法的核心理念在于:生成鲁棒的训练数据并不需要完美的物理模拟。研究团队采用了一种“抓本质”的策略,提取目标结构的关键几何特征(如囊泡抽象为特征圆,纤维抽象为特征曲线),而非精确复制每一个真实细胞器。通过引入域随机化(Domain Randomization),SynSeg构建了包含各种噪声、模糊、强度变化和干扰项的合成数据集。这些合成数据往往比真实图像更具挑战性,从而迫使模型学习鲁棒的形态特征,而非死记硬背图像。这种方法不仅降低了建模门槛,还极大地提高了模型的泛化能力。
团队首先在囊泡分割任务中验证了SynSeg的有效性。在培养细胞(HeLa cells)和模式动物秀丽隐杆线虫(C. elegans)的溶酶体相关细胞器成像中,SynSeg能够精准识别微弱和小尺寸的囊泡,在复杂背景下依然保持了形态细节,性能显著优于一系列基线方法。随后,团队将该方法扩展至更为复杂的细胞骨架分割。针对微管和肌动蛋白丝的分割挑战,SynSeg展现了卓越的性能。在Airyscan超高分辨率成像数据中,SynSeg在IoU、Dice系数和精度等关键指标上均优于传统方法(如Otsu、ILEE)以及专门的丝状结构分析工具FilamentSensor 2.0。
在更具挑战性的活体动态成像场景中,SynSeg展现了强大的鲁棒性。利用转基因秀丽隐杆线虫模型,研究人员对表皮微管进行了低分辨率、高噪声的转盘共聚焦活体成像。SynSeg不仅成功分割了密集的微管网络,还能在没有时序训练的情况下,精准捕捉微管的聚合和重排动态 。此外,为了测试泛化能力,研究团队将SynSeg应用于完全不同成像系统获得的植物细胞(烟草BY-2细胞)微管数据集。结果显示,在无需任何重新训练或微调的情况下,SynSeg的表现竟优于该数据集原研究中专门训练的深度学习模型。展现了该方法对活体成像中的动态捕捉与跨数据集泛化能力。
SynSeg不仅是一个分割工具,更是定量细胞生物学的有力武器,可能通过量化病理特征赋能疾病研究。研究团队利用SynSeg定量分析了与神经退行性疾病相关的Tau蛋白。结果发现,致病突变Tau-F (R406W) 会导致微管异常成束,表现为局部荧光强度的显著增加。此外,研究人员还将SynSeg与YOLO目标检测模型结合,建立了一套全自动的高内涵筛选流程,用于分析先天性脂肪营养不良症2型(BSCL2)模型细胞中的脂滴(Lipid Droplets)。分析结果揭示,BSCL2的特定错义突变会导致脂滴尺寸显著增加,从而将基因突变与具体的细胞表型缺陷直接关联。

图2 扩展 SynSeg 框架用于疾病相关细胞定量分析。 (a) BSCL2 野生型(WT)细胞,与基因敲除(KO)细胞荧光图像,表明该模型能够准确测量两种细胞类型中的脂滴(LD)尺寸。(b) BSCL2 WT、KO 及四种错义突变体脂滴尺寸的定量比较与统计分析。热图呈现了所有生物学重复之间两两比较的结果,颜色越深、表示被比较的两组之间的统计显著性越大。
综上所述,本研究提出了SynSeg这一基于合成数据的分割新范式。它通过模拟图像的几何本质与光学特性,克服了深度学习对标注数据的依赖,解决了传统方法抗噪性差的难题。SynSeg不仅在多种生物成像场景中表现鲁棒,还展现了强大的泛化能力和定量分析潜力,为细胞生物学和病理学研究提供了一套高效、可扩展的自动化分析工具 。
清华大学生命科学学院/北京生物结构前沿研究中心欧光朔教授为本文的通讯作者。清华大学生命科学学院2023级博士生郭正阳为本文的第一作者。该研究工作得到了清华-北大生命科学联合中心、北京生物结构前沿研究中心、清华-IDG/麦戈文脑科学研究院、国家自然科学基金委等相关机构以及钱塘冠名教授项目的支持与资助。