半监督

半监督深度学习

半监督学习 在有标签数据+无标签数据混合成的训练数据中使用的机器学习算法。一般假设,无标签数据比有标签数据多,甚至多得多。 要求: 无标签数据一般是有标签数据中的某一个类别的(不要不属于的,也不要属于多个类别的); 有标签数据的标签应该都是对的; 无标签数据一般是类别平衡的(即每一类的样本数差不多); 无标签数据的分布应该和有标签的相同或类似 。 半监督学习算法 简单自训练(simple self-training):用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类,这样就会产生伪标签(pseudo label)或软标签(soft label),挑选认为分类正确的无标签样本(此处应该有一个挑选准则),把选出来的无标签样本用来训练分类器 协同训练(co-training):是 self-training 的一种,但其思想是好的。假设每个数据可以从不同的角度(view)进行分类,不同角度可以训练出不同的分类器,然后用这些从不同角度训练出来的分类器对无标签样本进行分类,再选出认为可信的无标签样本加入训练集中。由于这些分类器从不同角度训练出来的,可以形成一种互补,而提高分类精度;就如同从不同角度可以更好地理解事物一样。 半监督字典学习:是 self-training 的一种,先是用有标签数据作为字典,对无标签数据进行分类,挑选出认为分类正确的无标签样本,加入字典中(此时的字典就变成了半监督字典了)