如题
3个回答
questions有三个变化趋势,宏观上是接近于线性递增,局部上周末和非周末也差别很大,还有节日时会骤降。所以先增加是否为节日的变量,然后估计question的平均,最后估计每天的具体变化。
因为test是在数据空间里一块空白的区域(周围没training),估计平均时必须要是基于模型的方法,比如线性回归,不能是knn之类基于数据平均的方法。
SofaSofa数据科学社区DS面试题库 DS面经
				大师出手,不同凡响
				- 
             MangoCoke
           
				
          
          2018-04-18 09:26
			
				百度找了一个easybot的api,爬虫返回节假日,结果返回的是错误数据,坑爹啊
				- 
             陈十一
           
				
          
          2018-04-18 11:33
			
				可以先生成一个366维的binary vector 表示日期,名字为D;然后自己设一个阈值,当question变化大于阈值时,表示当天是假日,对应的日期设为1。testing 日期也可以变为D,同时查表就可以知道是否是假日。
也可以建一个假日的hash表,然后用testing日期去查表。
				- 
             Zealing
           
				
          
          2018-04-18 12:22
			
				我用了python里的holidays,里面的假日根本不能覆盖数据里的假日。有可能这是很多国家假日的集合。只能自己根据数据里的较大变化,自己生成假日的表。
				- 
             Zealing
           
				
          
          2018-04-18 12:27
			
				听起来挺麻烦的。。。。。。。。。,其实那个api挺好用的,一个class,然后lambda调用就好了,不过现在要反馈码,没有反馈码,它会返回错误的脏数据,晚上看能不能用公司邮箱注册一个
				- 
             陈十一
           
				
          
          2018-04-18 14:06
			
				然后估计question的平均,最后估计每天的具体变化   这个啥意思啊
				- 
             大黄大黄大黄
           
				
          
          2018-04-19 12:42
			
				question的平均是低频信号,每天的变化是高频信号。比如标杆方案里先用线性回归估计低频,再用kNN估计高频。
				- 
             Zealing
           
				
          
          2018-04-19 13:29
			
    
  相关讨论
  随便看看