`
yy8354
  • 浏览: 79036 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

信息论中的MI(互信息公式)

阅读更多

这个公式主要用于对词与词间关系的考察,可以把集合C内所有文档看成C1,C2,C3......如(C1(X)!=0) && (C1(Y)!=0)成立则结果C1(X,Y)=1,如结果不成立则反之C1(X,Y)=0,就最后C1(X,Y)+C2(X,Y)+C3(X,Y)+.....=C(X,Y)


以下是简化公式了目前简化公式:

 

 


    1.假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算
Corr(X,Y)= Math.log10(N/Nx)*Math.log10(N/Ny)*Nxy/(Nx+Ny-Nxy)
来自大鱼的BLOG:
http://www.cnblogs.com/polugen/archive/2006/11/29/576213.html


    2.MI=log(f(x,y)/N)-log((f(x)/N)*(f(y)/N))
其中:f(x,y)--在当前查找范围内共现的次数
f(x)----关键词在整个语料库中的出现次数
f(y)----上下文中的该词在整个语料库中的出现次数
N-------语料库大小

 

 

  • 大小: 58.2 KB
分享到:
评论
1 楼 renhongchao 2014-07-17  
你好,特征提取的时候,多分类下一个词对于分类的互信息,这个怎么算,不能直接把词相对于每个分类的互信息相加。

相关推荐

Global site tag (gtag.js) - Google Analytics