相对于kaggle来说,这些脱敏降噪的数据已经算很简单了,可提升还是有限,有没有前10的大佬聊聊提升思路,比如特征工程或者模型组装
6个回答
比如最近的这个,我能想到的就是正态变换,缺失值处理,还有lasso来删选一些特征,最后回归预测。目前mae50,别的没想到提升思路
SofaSofa数据科学社区DS面试题库 DS面经
				我还没有时间做这个,但是前几天下载数据后稍微看了下,我觉得守门员和非守门员也许可以分开训练模型。
				- 
             sasa
           
				
          
          2018-03-13 14:05
			
				分开训练的话守门员的数据量会不足吧,建议自己增加一个特征以0或1表示是否为守门员
				- 
             yang1688899
           
				
          
          2018-03-14 23:45
			
				好奇缺失值怎么处理的?
				- 
             0101RG
           
				
          
          2018-03-24 00:38
			
还有最开始的自行车使用量预测,试了几个模型,xgb确实是回归性最好的,(当然我不了解神经网络)同时温度1和温度2很明显有共线性,我试过删失和加权以及比率,但远不如直接进模型比较好,还有把离散和占比少的进行合并,效果也不如直接进入好
SofaSofa数据科学社区DS面试题库 DS面经
				我没有排到排到前10,目前12。不是特别有发言权吧。就透露一下,我是好几个模型混合的。
				- 
             蘑菇蘑菇
           
				
          
          2018-03-15 00:19
			
				我用xgb和rf,这俩在原始数据k折上是15.多和16.多,请教一下还有什么好的
				- 
             陈十一
           
				
          
          2018-03-16 16:34
			
还有那个图像分类,据我所知图像数据要注意数据增强和残差网络,我试过几个的增强,但效果也就一般,我很好奇能达到过拟合的1是怎么来的
SofaSofa数据科学社区DS面试题库 DS面经
				我不是1.0,我是0.995,我是用tensorflow的cnn做的。希望sofasofa能够出个官方的标杆吧。
				- 
             sasa
           
				
          
          2018-03-13 14:01
			
				还真没接触过神经网络,看来有必要研究一下
				- 
             陈十一
           
				
          
          2018-03-13 14:03
			
				我是用keras来构建cnn的,自己在跑训练集的时候,后面几个的accuracy就达到了1,虽然我很怀疑我是不是过拟合了,但是我有进行交叉验证和加入droupt层来随机断开神经元连接。
				- 
             liaochuntao
           
				
          
          2018-03-13 17:02
			
				形状识别是SofaSofa上第一个关于图像的比赛,所以就设置的比较容易,给新人练习的机会。谢谢各位的讨论。
				- 
             SofaSofa勤羽
           
				
          
          2018-03-13 23:40
			
				我不懂深度学习,所以分数上不了1。
但只要直接来一個 RandomForestClassifier(100),0.99完全没有问题
				- 
             npwong
           
				
          
          2018-03-14 01:04
			
				这么说这个随机森林的效果要比linearsvc的效果好...........................
				- 
             陈十一
           
				
          
          2018-03-14 09:20
			
				Linear SVC 的效果说不上好,KNN 比它还要好!
				- 
             npwong
           
				
          
          2018-03-14 18:23
			
				我用TensorFlow做了个了lenet-5,准确率为0.999,图像分类问题用cnn做效果会比较好,毕竟cnn本来就设计用来处理图像问题的
				- 
             yang1688899
           
				
          
          2018-03-14 18:59
			
				确实觉得准确率到了0.99左右就很难再提升了,同求是怎么达到1.0的
				- 
             yang1688899
           
				
          
          2018-03-14 19:03
			
				有哪位大佬愿意帮我看看代码?我用CNN正确率只有60%
				- 
             大黄大黄大黄
           
				
          
          2018-04-03 13:50
			
最近的足球运动员身价估计,我把出生日期转换成年龄,再以新的变量插入原序列,再进行训练,不知道是不是这个思路
				肯定是要转成年龄的,不然生日也没有用,难道看星座?(滑稽了)
				- 
             曾经是科比
           
				
          
          2018-03-14 11:09
			
				但这也是答案呀。敏感的问题,又不能说太多。。
				- 
             博观
           
				
          
          2018-03-14 14:54
			
				感觉出生月份也可以作为特征,之前看过一篇文章,对足球明星出生季节做了统计,居然还有一定规律
				- 
             betten
           
				
          
          2018-03-14 15:53
			
				嗯嗯,那就可以把月份提取出来
				- 
             博观
           
				
          
          2018-03-15 09:03
			
				身高体重咋处理啊
				- 
             大黄大黄大黄
           
				
          
          2018-04-06 21:20
			
				官方的标杆模型里对身高体重的处理是用的BMI指数
				- 
             okayguy
           
				
          
          2018-07-15 11:35
			
鉴于大家的需要,我们考虑增加一个额外的独立于目前问答的交流区,内容包括:SofaSofa的数据竞赛、非SofaSofa的数据竞赛、求职交流、学习资源交流、工作心得分享讨论。
如果大家支持这个想法,请对该问答点赞。
谢谢大家!
SofaSofa社区
PS
谢谢大家。新的讨论区“板凳区”已开通。
SofaSofa数据科学社区DS面试题库 DS面经
    
  相关讨论
  随便看看