`
yy8354
  • 浏览: 79142 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

libsvm分类总结

阅读更多

以前对于libsvm的应用主要当它是个机器学习的工具,单纯的当一个现成的分类器使用,主要研究的是如何选择合适的分类特征和做分类训练数据,对于参数的基本了解,但很少改动由于官方网站上也推荐文本分类使用线性分类,当初做文本分类精力完全在特征和样本筛选上了,最近由于样本和特征的稀疏数据分类问题,又一次在各种核函数和参数上下功夫妄求提升分类准确率,在此总结记录以防以后又忘记了

c g两个参数不用说了 这个完全靠测试没什么可说的

w参数很重要 在不同分类样本不均衡时 需要依赖此参数对对应的分类进行惩罚值调整 比如分类1有20个样本 而另一个分类2有200个样本 分类1的w设置1的话 另一个分类2的w最好设置10 也就是正好是大志的倍数关系来均衡下样本数量差异导致的分类效果差(不是二分问题 效果不好 就算把所有分类都设置了w 也还是容易出现占比例大的分类样本比较容易出现的问题 )

核函数 目前来说线性和多项式在文本分类和我这次纯数学统计概率分类情况下 都在同样参数和样本 测试集情况下高于其他核

RBF只适用默认参数值和设置参数值差别很大,这次的多分类问题,g的影响非常大,详细的各个参数在SVM计算中的数学意义参考相关资料 这里只是记录个人实验心得

 

未完下回编辑再续

分享到:
评论
2 楼 yy8354 2010-11-28  
呵呵 我是JAVA .NET C/C++都用
1 楼 drunkyong 2010-11-25  
兄弟可以选择去博客园开博,大家都是搞.net的,这里.NET人气还是太低了。

相关推荐

Global site tag (gtag.js) - Google Analytics