什么时候会产生数据泄漏?能举几个具体的例子吗?谢谢!
2个回答
数据泄露就是说用了不该用的数据,比如
- 在训练模型时,利用了测试集的数据、信息
 - 在当前使用了未来的数据
 - 在交叉验证进行调参时,使用了验证集的信息参与模型建立
 
具体说下第三点,比如对特征进行标准化,正确的方法应该是在训练集上标准化,然后应用到验证集上,而非先标准化,再划分验证集。再比如说,要对数据进行pca降维,应该是在训练集上pca,然后作用到验证集上,而非对整个数据集进行pca。通常都忽略了这一点。
楼上的第三点不太理解,标准化的时候,只对训练集标准化,验证集不用标准化?应用到验证集是什么意思呢?
SofaSofa数据科学社区DS面试题库 DS面经
				就拿标准化来说吧,(数值-均值)/标准差,这个“均值”和“标准差”应该是训练集的“均值”和“标准差”。“数值”是测试集里的数值。
				- 
             Jiho
           
				
          
          2018-01-07 02:15
			
				好的,谢了,明白了
				- 
             gsscsd
           
				
          
          2018-01-09 13:52
			
    
  相关讨论
  随便看看