特征工程(制作特征和标签, 转成监督学习问题) 我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用: 文章的自身特征, categoryid表示这文章的类型, createdatts表示文章建立的时间, 这个关系着文章的时效性, wordscount是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。 文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等 用户的设备特征信息 上面这些直接可以用的特征, 待做完特征工程之后, 直接就可以根据articleid或者是userid把这些特征加入进去。