Implementation of Lung Nodule Detection Model Based on Incremental Meta-Learning
-
摘要:
针对传统肺结节检测模型无法随新数据增加而动态优化更新的问题,提出了一种新的肺结节检测模型——任务增量元学习模型(TIMLM)。该模型由内外2个循环构成。内循环设置了增量学习正则化更新约束,而外循环通过元更新策略对新旧知识进行采样并学习一组适应新旧数据的广义参数。在不改变模型主体结构的前提下,TIMLM尽可能地保留了之前学到的旧知识。通过在公开的肺部数据集上开展实验验证,结果表明,相较于传统的深度网络模型和主流的增量学习模型,TIMLM在准确度和敏感度等指标上都有显著提升,展现出良好的持续学习和抗遗忘能力。
Abstract:In response to the issue that traditional lung nodule detection models cannot dynamically optimize and update with the increase of new data, a new lung nodule detection model—task incremental meta-learning model (TIMLM) is proposed. This model comprises of two loops: the inner loop imposes incremental learning regularization update constraints, while the outer loop employs a meta-update strategy to sample old and new knowledge and learn a set of generalized parameters that adapt to old and new data. Under the condition that the main structure of the model is not changed as much as possible, it preserves the old knowledge that was learned previously. Experimental verification on the publicly available lung dataset showed that, compared with traditional deep network models and mainstream incremental models, TIMLM has greatly improved in terms of accuracy, sensitivity, and other indicators, demonstrating good continuous learning and anti-forgetting capabilities.
-
Keywords:
- pulmonary nodule /
- meta-learning /
- incremental learning /
- pulmonary CT images
-
0. 引言
肺结节在肺部的日常诊断中是最常见的病变之一,也是原发性肺癌的一个关键指标。随着深度学习在医疗等领域的不断发展,肺结节检测的深度学习模型已经成为人工智能领域最具挑战性的前沿方向之一[1]。
目前,国内外主流的肺结节诊断模型包括深度卷积网络模型、深度信念网络模型、自编码模型等。GUO等[2]结合空间与通道信息构建了多尺度聚合卷积网络模型,并引入了分布排序损失来解决样本不平衡问题,显著提高了检测性能。GONG等[3]基于3D 卷积神经网络,在U-Net网络上添加残差以及挤压激励(squeeze-and-excitation, SE)模块,构建了一个区域建议网络以减少假阳性结果。CHEN等[4]将无监督的卷积自动编码器用于提取肺部CT特征,可以使用大量未标记的数据来训练网络。YANG等[5]在传统深度信念网络模型的基础上,设置了跟踪窗口大小自适应机制,虽然增加了计算复杂度,但提高了模型的检测精度。
尽管在肺结节检测领域已取得一些研究成果,但现有的检测算法大多基于静态数据集训练,使用梯度更新模型参数。一旦模型全量训练完成,便不再加入新数据进行更新。若对传统模型直接进行增量更新会出现新数据过拟合和旧数据灾难性遗忘的问题,将直接导致模型性能迅速下降。在真实的医疗场景中,肺部CT图像是随着时间不断产生的,及时将新数据加入肺结节检测模型,可以提高精度,更大程度地辅助肺癌诊断与治疗,还可以避免严重的数据浪费。因此,一个合理的肺结节检测模型应具备持续接收新数据以优化自我的能力。目前针对模型增量更新的研究主要集中在增量学习[6-9],其是一种不断处理连续信息流,保留旧知识的同时吸纳新知识的学习方法。增量学习一般分为3种类型:放回法[10-11]、基于正则化法[12-13]和参数隔离法[14-15]。此外,元学习可将模型的不遗忘能力作为学习目标,辅助增量学习生成性能更优的模型[16-20]。JIANG等[21]提出了基于模型不可知元学习(model-agnostic meta-learning, MAML)的持续元学习算法(continual meta-learning algorithm, CMLA) ,在更新梯度时使用增量学习方法梯度情景记忆(gradient episodic memory, GEM)进行优化。在此基础上,作者又使用正交群(orthogonal groups, OG)限制参数空间,利用自然黎曼梯度下降加速收敛,提出了优化后的李群持续元学习算法(lie group continual meta learning algorithm, LGCMLA),显著提升了模型的收敛速度和分类精度[22]。文献[23]提出将特征提取模块与任务分类器分离,通过促进任务间共享特征空间来实现对旧知识的抗遗忘性。
然而,目前增量学习和元学习在医疗领域的应用与研究相对较少,如何使其在医学影像任务上实现自进化辅助诊断模型依旧面临较大的挑战。因此本研究提出了一种新的将增量学习和元学习相结合的任务增量元学习模型(task incremental meta-learning model, TIMLM),使得肺结节检测模型可以持续不断地从新数据中学习。本研究的主要贡献如下:
(1)实现了一个可持续学习新知识的肺结节检测模型TIMLM,首次将任务增量元学习方法应用于该领域,为更准确、更自动化以及更高利用率地进行CT影像分析提供了一个重要工具。
(2)提出了一种内外双循环的模型训练结构。在内循环中,通过增量学习方法记忆感知突触[24]进行正则化约束;外循环通过元学习更新策略来获取适用于新旧数据的广义参数,使模型在减少对新数据过拟合和对旧数据欠拟合的同时,还包含了对数据中存在的相关性更全面的理解。
(3)在LIDC-IDRI共880个CT病例上进行了多次实验,证明了其良好的检测性能与抗遗忘能力。
1. TIMLM方法
TIMLM整体框架如图1所示,任务增量元模型TIMLM的核心部分可分为2个模块:外循环与内循环。内循环基模型3D U-net如图2所示。在内循环中,因为U-Net结构具有多尺度融合特性,对于尺寸大小差异较大的结节具有非常优秀的敏感性,并且U-Net在编码、解码过程中通过跳跃连接能够加速训练效率,所以使用3D U-Net作为特征提取的基础模型。为了避免灾难性遗忘和过度拟合的问题,内循环的关键点在于额外地改变了模型梯度更新规则,对优化器更新进行了有效约束。在外循环中,以提高模型学习能力为目的,将内循环中不同任务生成的模型组合成一个更加泛化的模型。模型持续接收新的肺部CT图像数据,累计$ U $个CT病例影像构成一个批次数据$ {D}_{t} $,并将$ {D}_{t} $作为第t个任务加入模型训练。从历史任务样本存储器Memory中随机采样$ K-1 $批历史任务样本${D}_{o}({D}_{o}\in \left \{{D}_{1},\dots ,{D}_{t-1})\right \} $,与当前新任务样本$ {D}_{t} $组成个数为$ K $的小批量任务集$ M_t=\left\{(x_k,y_k,b_k)\right\}_{k=1}^{_K} $,其中:$ {x}_{k} $为输入数据,$ {y}_{k} $为真实输出数据,$ {b}_{k} $为任务批次标签,同一个小批次$ K $个任务的$ {b}_{k} $相同。在训练任务$ t=1 $之前,通过预训练初始化模型参数$ \theta $得到基模型$ {\varPhi }_{{\mathrm{base}}} $,新任务到达时会在$ {\varPhi }_{{\mathrm{base}}} $基础上进行训练,但内循环并不直接更新,而是由外循环通过元更新策略对其进行修改。
1.1 内循环
为每一个批次的$ K $个任务拷贝$ {\varPhi }_{{\mathrm{base}}} $参数并分别进行训练,得到$ {\varPhi }_{i} ,i\in (1,\dots, k)$。根据网络参数的敏感程度来对网络参数的重要性进行评估。将收敛后的模型前向传播过程的真实函数近似为$ F $,每个参数$ {\theta }_{ij} $的重要性可以用$ {\theta }_{ij} $扰动时$ F $的变化强度来表示。因此将参数$ {\theta }_{ij} $对$ F $的一阶导数即梯度$ {g}_{ij} $的累积作为其重要性权重$ {\omega }_{ij} $:
$${\omega }_{ij}=\frac{1}{n}\sum _{k=1}^{n}||{g}_{ij}\left({x}_{k}\right)|| $$ (1) 其中:$ n $为$ \varPhi $参数的个数总和。当输出为高维度时,使用$ {l}_{2} $范数的平方将所有维度统一到一个维度上:
$$ {\omega }_{ij}=\frac{1}{n}\sum _{k=1}^{n}\frac{\partial \sum {F\left({x}_{k}\right)}^{2}}{\partial {\theta }_{ij}} $$ (2) 对于重要性权重高的参数,一些微小的修改就会让结果大有不同,对于重要性权重低的参数,则可以更多地修改它们的值。因此在损失函数中,依据$ {\omega }_{ij} $对模型更新增加惩罚因子$ p $:
$$p=\lambda {\sum }_{i,j}{\omega }_{ij}{\left({\theta }_{ij}-{\theta }_{ij}^{\mathrm{*}}\right)}^{2} $$ (3) 式中:$ \lambda $为正则优化器的超参,$ {\theta }_{ij} $为本次训练后得到的模型参数,$ {\theta }_{ij}^{\mathrm{*}} $为旧模型参数。$ L(\theta ) $为惩罚前的损失函数,则施加惩罚后的损失函数$ {L}'(\theta) $:
$$ {L}'\left(\theta \right)=L\left(\theta \right)+p $$ (4) 通过正则化约束,后续的每一轮训练的损失函数都会受到来自前面所有训练的综合影响。任务批次$ {b}_{k} $的$ K $个任务在各自的模型$ \varPhi $上经过梯度优化的训练,得到每个任务对应的$ {\varPhi }_{i} $,后面的迭代会在各自的$ {\varPhi }_{i} $上进行,使得$ {\varPhi }_{i} $可以更大限度地接近其对应的特定任务。内循环基模型3D U-net见图2。
1.2 外循环
为加快模型运算效率不进行传统元学习的二次梯度下降,取消对支持集以及查询集的划分,在外循环使用稳健的元更新策略,使用慢权重的元学习方式更新模型参数[25]。模型应该在学习的早期阶段迅速适应,在学习的后期阶段由于已经学习到一组通用的特性,所以应该避免发生剧烈变化。设置一个基于动量的动态控制器$ \rho ={{\mathrm{e}}}^{-\beta t} $。在内循环中已经生成了k个特定任务模型$ {\varPhi }_{1},{\ldots,\varPhi }_{k} $,使用$ \rho $来控制旧的$ {\varPhi }_{{\mathrm{base}}} $向所有特定任务模型更新的平均方向修改,后一个任务更新的速度会是前一个任务的$ {{\mathrm{e}}}^{-\beta } $倍。其中:$ \beta $为依据任务总数预估上限设置的衰减率,$ \rho $的取值依赖于已参加训练的任务数量。
$$ \varPhi \leftarrow \rho \frac{1}{t}{\sum }_{i}^{t}{\varPhi }_{i}+\left(1-\rho \right){\varPhi }_{{\mathrm{base}}} $$ (5) 外循环求解每个任务梯度的期望值,而不是具体的任务梯度,得到的是一个向新旧数据平均方向更新的模型。这一过程可以视为一种寻找在大量任务中表现良好的通用初始化参数的方法,因此可以更好地实现对新任务的泛化。
2. 实验与结果
2.1 实验数据与预处理
实验数据来源于公开数据集LIDC-IDRI。该数据集由4位专业医生独立标注并互相独立审核,包含了肺部CT影像及相关诊断数据,如结节编号、xy坐标、切片编号、等效直径等。实验选用数据集中的880个病例,并通过图像翻转、裁剪、随机擦除等方法进行了图像增广处理,总共包含了
2100 幅肺部CT图像。为了加快训练速度并减少冗余信息,预处理环节先通过三线性插值重建三维CT影像,统一影像的空间分辨率,并将图像裁剪为像素的立方体。将裁剪后的三维立方体及其位置坐标划分作为模型输入。在实验中,所有CT图像按照8∶1∶1的比例划分为训练集、验证集和测试集,并将训练集分为20个批次,其中前5个批次用于初始模型的预训练,其余15个批次用于增量训练。2.2 实验设置
实验环境配置参数为:Intel i9-10900X CPU,125 GB内存,2块GeForce RTX 3080GPU, Ubuntu 20.04。使用Pytorch深度学习框架及Python 3.6。
模型训练依据实验数据在内循环中设置batchsize大小为16,进行 50个训练轮次,学习率在{0.01,0.001,
0.0001 }之间调整。计算式(3)中参数$ \lambda $取值与现有工作[24]一致,设置为1。在外循环中,每个任务由5批数据组成,其中4批为旧数据,1批为新数据。动量控制器参数$ \beta $设置为2。2.3 评价指标
为了更准确地说明TIMLM的优越性,实验使用连续批次任务检测结果的准确度(accuracy)、精确度(precision)、敏感度(sensitivity)、平均准确度(avg-acc)、反向传播能力(backward transfer, BWT)、前向传播能力(forward transfer, FWT)多个维度的评估系数作为考查依据。准确度用于评估模型能否准确检测出阳性结节样本,精确度是模型预测为阳性的样本中实际也为阳性的占比,敏感度指标则反映了模型对所有阳性样本的检出能力。
$$ f_{\rm{accuracy}}=\frac{TP+TN}{TP+TN+FP+FN} $$ (6) $$ f_{\rm{precision}}=\frac{TP}{TP+FP} $$ (7) $$ f_{\rm{sensitivity}}=\frac{TP}{TP+FN} $$ (8) 其中:TP、TN、FP、FN分别为预测正确的正样本数、预测正确的负样本数、预测错误的正样本数以及预测错误的负样本数。
$ {{avg}}\text{-}{{acc}} $为模型结束所有任务的训练后,在旧任务上的平均准确度。BWT代表当前训练任务对旧任务的影响,评判的是模型对之前任务是否保留足够的处理能力,若BWT值为正则表明学习任务t对先前任务上的检测有益。不过这项值往往为负数,当负数的绝对值过大时则代表发生了灾难性遗忘。FWT代表模型在没有学习任务t之前,依靠已经训练的任务,能够在任务t上表现多少性能。
$$ avg\text{-}acc=\frac{1}{T}\sum_{i=1}^TR_{T,i} $$ (9) $$ {f}_{{\mathrm{BWT}}}=\frac{1}{T-1}\sum _{i=1}^{T-1}{R}_{T,i}-{R}_{i,i} $$ (10) $$ {f}_{{\mathrm{FWT}}}=\frac{1}{T-1}\sum _{i=2}^{T-1}{R}_{i-1,i}-{R}_{0,i} $$ (11) 其中,$ {R}_{i,j} $为给定训练-测试样本精度矩阵,表示训练完任务i,模型在任务j上的表现性能。
2.4 结果
本实验将肺部CT图像分批次输入,每一批次的输入代表从医院获取新数据。分别将使用了TIMLM与原始未使用任何增量学习方法的3D U-Net模型、微调(finetuning)[26-27],以及目前主流的增量学习方法进行比较与分析。不同模型经过10批次任务训练后性能对比,如表1所示。
表 1 不同模型经过10批次任务训练后性能对比Table 1. Performance comparison of different models after 10 batches of task training指标 方法 最终结果 平均 准确度 (%) 3D U-Net 66.3 66.5 finetuning 62.5 71.3 LwF 93.1 91.4 BiC 94.6 92.9 TIMLM 96.3 94.5 精确度 (%) 3D U-Net 66.5 65.9 finetuning 60.3 69.7 LwF 94.1 87.5 BiC 94.3 89.1 TIMLM 95.6 91.7 敏感度 (%) 3D U-Net 65.8 68.3 finetuning 70.6 75.9 LwF 88.7 86.5 BiC 90.2 88.2 TIMLM 90.5 89.3 原始的3D U-Net模型在加入新批次数据后,各方面性能均未见提升,每增加一个批次的数据,模型准确度的平均提高率为−0.3%,精准度的平均提高率为−0.29%,敏感度的平均提升率为−0.26%,这说明其无法从新批次的数据中学习到新知识。与微调相结合的模型平均提高率分别为0.15%、0.12%、0.20%,相比于原始模型在一定程度上使模型结果更加贴近于真实,在部分任务上可以取得较好的表现,但其提升的幅度以及稳定性依旧较差,无法真正将学习到的知识保存起来。增量学习算法的各方面性能均优于微调以及原始3D U-Net模型。由LwF[12]、BiC[28]和TIMLM的实验结果可以看到,TIMLM在各方面的平均性能更优。对比于LwF、BiC算法,TIMLM在平均准确度等指标上分别高出3.4%、4.8%、3.2%和1.7%、2.9%、1.2%。TIMLM使用正则化约束更新与元学习相结合的方法对肺结节的检测更精准。
TIMLM多批次训练R矩阵的曲面化展示如图3所示。其为TIMLM经过15批次任务训练后,最终得到的R矩阵曲面图像,其中:x坐标代表当前的训练任务,y坐标为要预测的任务,z坐标为训练x任务后模型在y任务上的表现性能。可以看到随着任务批次的增加,在前期收敛较快,后期提升幅度缩小,但总体趋势是在所有任务上表现不断提升。表2展示出TIMLM在平均准确度上远远高于原始3D U-Net以及微调,且BWT与FWT都为正,代表了模型在加入新数据训练后,既对旧任务有着较强的抗遗忘能力,又对新任务的处理能力进行了加强。
表 2 抗遗忘性能指标Table 2. Anti-forgetting performance indicators模型 avg$\text{-} $acc BWT FWT 3D U-Net 0.629 −0.047 −0.05 Finetuning 0.681 −0.017 −0.016 TIMLM 0.942 0.0161 0.0553 2.5 消融实验
本节通过消融实验,对TIMLM各主要组件的有效性进行检验,实验包含4模型:
M1:仅使用3D U -Net;
M2:在M1基础上使用正则化更新模型优化策略;
M3:在M1基础上使用元学习训练适应性广义参数;
M4:在M3基础上内循环加入正则化约束。
在连续15个批次任务上多种模型性能的对比如图4所示。从图4中可以看出,M1未使用任何增量更新方法,所以模型一直处于较差的效果。
M2只保留内循环的正则化操作,通过参数重要性考虑旧知识的记忆以及新知识的学习,可以取得不错的结果,但由于没有建立适应新旧数据的广义参数,模型对新任务的过拟合依旧会导致旧知识的遗忘。M3在内循环不做任何操作,虽然通过整合新旧知识建立了一个更加泛化的模型,但这使得模型更新速度变慢,较高的泛化性导致模型性能也受到限制。M4将二者结合,通过正则化约束快速更新模型,再通过元学习训练出一组适应性参数,最终结果在精准度等3个指标上,分别比M2、M3提升了5.3%、4.9%、3.4%和13.5%、15.8%、14.8%。因此TIMLM的每个模块都有助于提升肺结节检测的性能。
2.6 结果分析
上述实验反映出,基于增量元学习的肺结节检测模型TIMLM在表现性能以及抗遗忘能力上都很优秀。通过表1明显地反映出普通3D U-Net无法通过加入新数据来进一步学习,其准确度等各项指标都在负增长。即使针对新数据对模型进行微调,依旧无法在实验中取得较好的增量学习效果。而本研究提出的TIMLM可以在训练前期快速从新样本中学习到较高的性能,并在后续的任务中进一步对模型进行优化,最终性能优于主流增量学习方法。由R矩阵与表2反映出,不断添加新任务进入训练,模型在旧任务上逐渐展示出不错的抗遗忘能力,对未来任务的预估性能也较好。并且通过消融实验表明内外循环2个模块对模型准确度提高都有着很好的增益。
3. 结束语
针对主流肺结节检测模型不具备增量学习能力,无法拓展性学习新样本的问题,提出一种将元学习与增量学习结合,应用于肺结节检测的模型TIMLM。通过增加参数重要性权重,依据参数重要性对模型正则化约束更新, 削弱模型对旧任务的遗忘效果,同时加入元学习外循环,从新旧特定任务中提炼一个更加通用的模型。该模型能够持续不断地将医生诊断过程中产生的CT影像加入训练,在肺结节检测任务上表现出了较好的持续学习能力以及抗遗忘能力,在充分学习后可以为医生提供更准确的诊断参考。
-
表 1 不同模型经过10批次任务训练后性能对比
Table 1 Performance comparison of different models after 10 batches of task training
指标 方法 最终结果 平均 准确度 (%) 3D U-Net 66.3 66.5 finetuning 62.5 71.3 LwF 93.1 91.4 BiC 94.6 92.9 TIMLM 96.3 94.5 精确度 (%) 3D U-Net 66.5 65.9 finetuning 60.3 69.7 LwF 94.1 87.5 BiC 94.3 89.1 TIMLM 95.6 91.7 敏感度 (%) 3D U-Net 65.8 68.3 finetuning 70.6 75.9 LwF 88.7 86.5 BiC 90.2 88.2 TIMLM 90.5 89.3 表 2 抗遗忘性能指标
Table 2 Anti-forgetting performance indicators
模型 avg$\text{-} $acc BWT FWT 3D U-Net 0.629 −0.047 −0.05 Finetuning 0.681 −0.017 −0.016 TIMLM 0.942 0.0161 0.0553 -
[1] YEN A, PFEFFER Y, BLUMENFELD A, et al. Use of a dual artificial intelligence platform to detect unreported lung nodules[J]. J Comput Assist Tomogra, 2021, 45(2): 318-322. doi: 10.1097/RCT.0000000000001118
[2] GUO Z T, ZHAO L L, YUAN J L, et al. MSANet: multiscale aggregation network integrating spatial and channel information for lung nodule detection[J]. IEEE J Biomed Health Inform, 2022, 26(6): 2547-2558. doi: 10.1109/JBHI.2021.3131671
[3] GONG L, JIANG S, YANG Z Y, et al. Automated pulmonary nodule detection in CT images using 3D deep squeeze-and-excitation networks[J]. Int J Comput Assist Radiol Surg, 2019, 14(11): 1969-1979. doi: 10.1007/s11548-019-01979-1
[4] CHEN M, SHI X B, ZHANG Y, et al. Deep feature learning for medical image analysis with convolutional autoencoder neural network[J]. IEEE Trans Big Data, 2021, 7(4): 750-758. doi: 10.1109/TBDATA.2017.2717439
[5] YANG W, XIA W H, XIE Y L, et al. Optimisation analysis of pulmonary nodule diagnostic test based on deep belief net[J]. IET Image Process, 2020, 14(7): 1227-1232. doi: 10.1049/iet-ipr.2019.1022
[6] DE LANGE M, ALJUNDI R, MASANA M, et al. A continual learning survey: defying forgetting in classification tasks[J]. IEEE Trans Pattern Anal Mach Intell, 2022, 44(7): 3366-3385.
[7] PFÜLB B, GEPPERTH A. A comprehensive, application-oriented study of catastrophic forgetting in DNNs[EB/OL]. (2019-05-20)[2024-02-26]. https://arxiv.org/abs/1905.08101.
[8] GERMAN I P, RONALD K, JOSE L P, et al. Continual lifelong learning with neural networks: a review[J]. Neural Netw, 2019, 113: 54-71. doi: 10.1016/j.neunet.2019.01.012
[9] ALJUNDI R, CHAKRAVARTY P, TUYTELAARS T. Expert gate: lifelong learning with a network of experts[C]//Conference on Computer Vision and Pattern Recognition (CVPR), Hawaii, July 22 - July 25, 2017. Piscataway: IEEE, 2017: 3366-3375.
[10] ROLNIC D, AHUJA A, SCHWARZ J, et al. Experience replay for continual learning[C]//International Conference on Neural Information Processing Systems. New York, Curran Associates, 2019: 32350-32360.
[11] HAYES T L, KAFLE K, SHRESTHA R, et al. Remind your neural network to prevent catastrophic forgetting[C]//European Conference on Computer Vision (ECCV), Glasgow, August 23-28, 2020. Berlin: Springer Cham, 2020: 466-483.
[12] LI Z, HOIEM D. Learning without forgetting[C]// Computer Vision–ECCV 2016. Berlin: Springer Cham, 2016: 614-629.
[13] ZHANG J, GHOSH S, LI D, et al. Class-incremental learning via deep model consolidation[C]//IEEE Winter Conference on Applications of Computer Vision (WACV). Piscataway: IEEE, 2020: 1131-1140.
[14] MALLYA A, LAZEBNIK S. Packnet: adding multiple tasks to a single network by iterative pruning[C]// Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7765-7773.
[15] JOAN S, DÍDAC S, MARIUS M, et al. Overcoming catastrophic forgetting with hard attention to the task[EB/OL]. [2024-02-26]. https://arxiv.org/pdf/1801.01423.
[16] LIU H, YAN Z, LIU B, et al. Distilled meta-learning for multi-class incremental learning[J]. ACM Trans Multimedia Comput, 2023, 19(4): 1-16.
[17] WANG X S, YAO L N, WANG X Z, et al. Uncertainty estimation with neural processes for meta-continual learning[J]. IEEE Trans Neural Netw Learn Syst, 2023, 34(10): 6887-6897.
[18] MISHRA N, ROHANINE M, CHEN X, et al. A simple neural attentive meta-learner[C]//International Conference on Learning Representations(ICLR). Vancouver: Ithaca, 2017: 1-17.
[19] MENEZES A G, DE MOURA G, ALVES C, et al. Continual object detection: a review of definitions, strategies, and challenges[J] Neural Netw, 2023, 161: 476-493.
[20] SON J, LEE S, KIM G. When meta-learning meets online and continual learning: a survey[EB/OL]. (2023-11-09)[2024-02-26]. https://arxiv.org/abs/2311.05241.
[21] JIANG M J, LI F Z, LIU L. Continual meta-learning algorithm[J]. Appl Intell, 2021, 52(4): 4527-4542.
[22] JIANG M J, LI F Z. Lie group continual meta learning algorithm[J]. Appl Intell, 2022, 52(10): 10965-10978. doi: 10.1007/s10489-021-03036-4
[23] RAJASEGARAN J, KHAN S, HAYAT M, et al. iTAML: an incremental task-agnostic meta-learning approach[C]// Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2020: 13585-13594.
[24] RAHAF A, FRANCESCA B, ELHOSEINY M, et al. Memory aware synapses: Learning what (not) to forget[C]// European Conference on Computer Vision(ECCV). Munich: Springer Cham, 2018: 139-154.
[25] SCHULMAN J, SCHULMAN J. Reptile: a scalable metalearning algorithm[EB/OL]. [2024-02-26] https://arxiv.org/pdf/1803.02999.
[26] SHEN Z, LIU Z QIN J, et al. Partial is better than all: revisiting fine-tuning strategy for few-shot learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. AAAI , 2021.35(11): 9594-9602.
[27] ZHUANG F, QI Z, DUAN K, et al. A comprehensive survey on transfer learning[C]//Proceedings of the IEEE. Piscataway: IEEE, 2021: 43-76.
[28] WU Y, CHEN Y, WANG L, et al. Large scale incremental learning[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, June 16 - June 20, 2019. Piscataway: IEEE, 2019: 374-382.