文章 1

访客 179

声望 9

第46名

Blog

目录 目录

特征提取字典特征抽取: DictVectorizer:(one-hot)编码 mes=[ {‘city’:’beijing’,’temperature’:33.}, {‘city’:’shanghai’,’temperature’:19.}] from sklearn.feature_extraction import DictVectorizer vec =DictVectorizer() sec.fit_transform(mes_toarray() vec.get_feature_names() result: array([1.,0.,0.,33.], [0.,1.,0.,23.], [0.,0.,1.,13.], )特征哈希变换 FeatureHasher(文档分类常用) mapping可以是个字典,由(feature,value)构成列表。如果一个特征在一个样本出现多次,会叠加。(‘feat’,2) (‘feat’,3) ==> (‘feat’,5)从文本中提取特征 标记:标记字符串,通过特殊字符,token如空格 统计:计算每个文档中各个token出现的次数 归一化加权 稀疏矩阵来存储 from sklearn.feature_extraction.text import CountVectorizer

文章分类

阅读排行 

文章归档

2018-01 (1)

 ©2017 studyai.com 版权所有

关于我们