时间:2020-02-02 09:07

seo优化中TF-IDF算法怎么用

TF-idf算法是一种用户信息检索和常用的加权信息挖掘技术,经常seoER应用于,很多人可能不知道,事实上,最直观的理解是“网站关键字密度”.直接点,TF-idf算法最终是如何计算?

seo优化中TF-IDF算法怎么用
 
公式
 
TF:词频
IDF:逆文档频率指数
TF-IDF=TF*IDF
我们说明,TF词义,指的是《纽约时报》一个单词出现在页面,如果单词的总数在200年的一篇文章,“网站优化”这个词出现了4次,然后这个词TF=4/200,是0.02
 
IDF文档频率,指N出现在很多页面的字数,文件数米,然后IDF=lg(M/N).假设“网站优化”出现在2000页,文件的总数是100000000,然后IDF的文档频率=lg(100000000/2000)=4.69897,然后计算最后TF-IDF=0.02*4.69897=4.69897
 
这是一个判断页面的相关问题,在seo网站优化,不仅决定TF-IDF点的值,我们需要一个高度识别词的页面.例如:搜索引擎包含一万亿页,应该说,每个页面都有“,,,”等等,这些高频词也称为噪声词或停止的话,搜索引擎会删除这些话,所以额外的重量这些话应该是0.公式:TF-IDF日志(1美元/一万亿)==log1=0
 
事实上,搜索引擎检索、重量计算,根据每个单词分割来计算,例如:“seo网站优化技术”这个词
 
假设:seo页面检索数字20000000,网站优化搜索号码是10000000,检索技能的数量500000000
 
搜索引擎索引号被认为是10000000000
 
seo在这个网站页面(页面总共400字)出现8次,网站优化技术出现10次,16倍
 
所以他们的频率
 
seo网站优化技术(seo)=8/400=0.02,
 
seo网站优化技术(网站优化)=10/400=0.025
 
seo网站优化技术(=20/400=0.04技术)
 
seo网站优化技术(年代)=上面已经提到的,属于停止词的高频,重量是0
 
做一个搜索“seo网站优化技术”这个页面的相关性:TF(总)=0.02+0.025+0.025=0.095
 
IDF(seo)=日志(10000000000/20000000)=2.69897
 
IDF(网站优化)日志(10000000000/10000000)=3
 
IDF(技能)=日志(10000000000/100000000)=1.69897
 
这么算下来,每个单词搜索“seo网站优化技术”页面权重和相对贡献值分别为:
 
Tf-idf(seo)=0.02*2.69897=2.69897
 
Tf-dif(网站优化)=0.025*3=0.075
 
Tf-idf(=0.04*1.69897=0.04技术)
 
因此,可以看到,尽管技术出现更频繁,但承认不是搜索引擎优化和网站优化,所以页面的贡献并不太大的重量
 
预测能力一个单词的识别度较高,那么多字的重量,而更小,看到“网站优化”可能你已经有了一个基本的了解这个页面说什么,但看到技能,您可能还不太了解的主题页面
 
当然,这支持点搜索引擎算法,我们结合标记实现举重,如H标记,和周围的关键词词将被传递,这指的是如一个标签:seo网站优化技术主要是一些搜索引擎优化的想法

月点击排行