推荐系统技术之文本相似性计算(一)
发布时间:2021-03-16 21:02:28 所属栏目:大数据 来源:网络整理
导读:副标题#e# 1. 前言 推荐系统分为两种,一种是基于用户的,根据某个用户的特性推荐一些东西,还有一种是根据内容,推荐一些相似的内容,或者是两种的结合,任何推荐系统,仔细分析下来,都属于这两种情况的组合。 今天我们说一下基于内容推荐中的一个分支,
除了欧式距离,还有一种方法求相似度,就是求两个向量之间的夹角,这个叫余弦相似性,这也是初中数学的内容,不过初中我们学的是二维向量,如果是N维呢?是一样的,假设两个向量是A和B,那么公式是,n表示维度 照样带入,就能求出两个文档相似度了。 6. 中学毕业至此,文本相似性计算的最基本的概念和模型都介绍完了,中学已经毕业了,你可以按照上面的方法自己试着计算计算文档的相似性,应该不会太离谱,后面一篇会介绍一些更加高级的东西,但是整体的思想不会有太大的变化,还是向量化文档,然后计算向量间的相似度来表述为文本之间的相似度。 这篇我们看到的东西都还是浅层的文本相似性计算,但是其实一个TF-IDF向量化模型,一个余弦相似性夹角计算已经可以处理一大部分的文本相似性计算了,而且效果还凑合吧,但下一篇文章出来的各种语义模型才是文本推荐的未来。 (编辑:成都站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |