索引
搞seo的人,最关心的就是「关键词排名」,无论你的市场目标是什么,搜索引擎排名无非是当前最关切的事情,今天就来介绍「TF-IDF」这个词吧!
TF-IDF 是什么?
TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于文本分析的统计方法,常用于信息检索和文本挖掘。它衡量一个词在单个文档中的重要性,同时考虑该词在整个文档集合中的稀有性,是一种加权技术的统计方法,用来评估字词「曝光次数」上升或下降来反应「相关程度」,很常用于搜索引擎的字词排名。
TF(Term Frequency)词频:某字词在网站文章中出现的次数。
IDF(Inverse Document Frequency)逆文本频率指数:字词的类别区分能力程度。
原理
数学模型定义(见下图)
SEO应用例子
假设在Google上搜寻「水果」得到5个搜寻结果,如下:
- 水果有水果,水果,水果,水果
- 水果有苹果,桃子,西瓜,菠萝
- 蔬菜都很好吃,我最爱吃茄子了
- 苹果,梨子都是很好吃的水果
- 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
上面这5个搜索结果,没有特定指的是文章标题或文章内容,而是以「整个页面内容」来判定。
最后得到的排名结果依序是 5、2、4、1、3。
1.出现了4次的「水果」字词;
2.出现了1次的「水果」字词;
3.出现了0次的「水果」字词;
4.出现了1次的「水果」字词;
5.出现了2次的「水果」字词;
接着搜索引擎进行分词的动作,算出IDF:
水果=4
苹果=3
好吃=2
菠萝=2
西瓜=2
梨子=2
桃子=1
蔬菜=1
茄子=1
猕猴桃=1
逆文本频率最高的是「水果」,而这些词组被分出来之后,应用到上面那5个搜寻结果上,按照「包含逆文本频率最高的字词」及「分词的包含程度」来去评估,第五个搜寻结果就会是排名第一,最符合用户意图。
利用分词涵盖程度就能符合内容「相关程度」的重要性。
目前哪些搜索引擎在使用 TF-IDF 算法?
- Google:Google’s John Mueller Discusses TF-IDF Algo 点击展开 查看更多
- Baidu:在百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》可以看到百度也在使用TF-IDF算法
TF-IDF 对于网站页面对权重影响
目前搜索引擎大多数都使用下面的公式来取得网站页面的质量分数:
Total(页面总分)= TF-IDF分数 * x + URL 分数 * y + 用户体验分数 * z;其中 x+y+z = 100%。
对于Google而言,TF-IDF 的权重(x)占了将近50%,而Baidu占了将近40%。
结论
想要做好网站的关键词排名,答案已经呼之欲出了,就是把页面内容品质顾好(利用TF-IDF逻辑),最后慢慢形成各个关联性的聚合文章,虽然这边并没有提到说用黑帽SEO的方式来进行文章聚合,但可想而知,因为TF-IDF分词算法的关系,可不能像以前一样搞文章句子重组这种方法了,因为这种方法最终就是会降低访客与网站的互动效益。