【Datawhale夏令营】Task2

task2.1:数据分析与可视化

1.分析字段x1至x8

让我们先来看看x1到x8中每一列包含多少不重复数据的个数以及它的最大值,以此来判断该字段是数值类型还是类别类型。因为如果是类别类型,大概率是从零开始的连续数列,显然它的最大值是不会超过对应的不重复数据的个数。
不重复数据个数
不重复数据个数结果
从输出结果来看,我们可以大胆地认为x3、x4和x5是数值类型,其余的为类别类型。
接下来我们对数值类型画箱线图,对类别类型画条形图。
箱线图
条形图
接下来分析图表,对x3画箱线图的输出有点奇怪,查看原始数据后发现x3的大部分数据都是41。还有,对于x7,如果数值是1,对应的target几乎都是1,这个特征还挺有趣的,可以着重关注一下。

2.分析common_ts

我们先从common_ts中提取出小时信息,然后对每个小时中的标签分布绘制条形图。
hour
可以看出新增用户出现在白天的概率较高。

3.分析udmap

task1中我们已经对udmap进行了onehot处理。对每一个key求对应标签的均值。
udmap_mean
udmap_mean_result
可以看出key7、key8和key9对于target的均值较大。
接下来绘制每个key的直方图,来更加清晰地显示key与target之间的关系。

task2.2:模型交叉验证

task2.3:特征工程

-------------本文结束,感谢您的阅读-------------