Loading...
墨滴

algolearn

2021/11/09  阅读:27  主题:默认主题

类别型特征如何处理?

类别型特征🈯️只在有限选项内取值的特征,例如性别、班级等,通常以字符串的形式进行输入,除了决策树等少数模型能直接处理字符串形式的输入外,其他模型如线性回归、逻辑回归、支持向量机等模型的输入必须是数值型特征才能正确工作。

如何处理呢?

  • 序号编码,常用于处理特征不同类别间不具有大小关系的数据,例如成绩:优、良、差对应3、2、1
  • one hot处理,处理类别间不具有大小关系的数据(使用稀疏向量来节省空间、配合特征选择降低维度),例如性别:男、女对应10,01
  • 二进制编码,给每个类别赋予一个类别id,再将id转化为二进制;

欢迎关注微信公众号(算法工程师面试那些事儿),本公众号聚焦于算法工程师面试,期待和大家一起刷leecode,刷机器学习、深度学习面试题等,共勉~

算法工程师面试那些事儿
算法工程师面试那些事儿

algolearn

2021/11/09  阅读:27  主题:默认主题

作者介绍

algolearn