0、搜索系统
我们正处在信息过载的时代,Tom Landauer认为人的大脑只能存储约200MB信息,一生只能接触约6G信息。
因此,随着大数据技术的出现和发展、深度学习和网络计算能力的提高,提高了我们对信息的处理能力,但是并没有缓解信息过载的现状,而搜索系统有效的过滤了信息,成为了我们获取信息的重要手段之一。
1、信息检索
狭义上讲,信息检索就是信息搜索;广义上讲,信息检索包括搜索引擎、问答系统、信息抽取、信息过滤和信息推荐等。
搜索引擎包括四个接口:搜索器、索引器、检索器和用户接口。
搜索器:在互联网中漫游,负责发现和搜集信息;
索引器:理解搜索器搜索的信息,抽取索引项,输出用于表示文档和生成文档库的索引表;
检索器:根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关性评价,对输出结果进行排序,实现某种用户相关性反馈机制;
用户接口:输入用户查询、显示查询结果、提供用户相关性反馈机制。
2、搜索引擎的分类
- 全文搜索引擎:计算机通过扫描文章中的每个词,对每个词建立索引,记录词汇在文章中出现的次数和位置信息。当用户查询时,计算机按照事先建立好的索引进行查找,并将结果反馈给用户。【结构化数据:一般通过关系型数据库的方式进行存储和搜索;非结构化数据:顺序扫描和全文检索】谷歌和百度都是典型的全文搜索引擎
- 元搜索引擎:一种可以调用其他搜索引擎的搜索引擎,它能对多个独立搜索引擎进行整合、调用并优化结果。【元搜索引擎常用的排序方式:相关度排序、时间排序、搜索引擎排序等】
- 独立搜索引擎:主要有网络爬虫、索引、链接分析和排序等部分组成。
- 垂直搜索引擎:针对某个行业的专业搜索引擎;
- 目录搜索引擎:网站常用的搜索方式,类似于书本章节目录。
3、推荐系统
用户在意图明确的情况下,能够通过关键词进行搜索;当用户不了解自己想要什么的时候,就需要推荐系统解决这类问题。
推荐系统有两个显著的特征:主动性和个性化。
常见的推荐系统的推荐形式:个性化推荐、相关推荐和热门推荐。
4、推荐系统的分类
- 基于内容的推荐:利用用户已经选择的对象,从候选集中找出与用户已选对象相似的对象作为推荐结果。【主要部分是用户特征的描述和推荐对象内容特征的提取】
- 基于协同过滤的推荐:【基本思想是聚类主要分为基于用户的协同过滤、基于项目的协同过滤和基于模型的协同过滤】
- 基于用户的协同过滤:首先找到与目标用户兴趣相似的用户集合,然后找到这个集合中用户喜欢并且没有接触过的物品推荐给目标用户;【将目标用户归为已有用户类】
- 基于项目的协同过滤:基于所有用户对推荐对象的评价的推荐策略;【根据用户对推荐对象的评价,发现对象间的相似度,根据用户的历史偏好将类似的商品推荐给用户】
- 基于模型的协同过滤:基于样本用户的喜好信息训练一个推荐模型,然后根据实时的用户喜好信息进行推荐。【常用的方法有机器学习方法、统计模型、贝叶斯模型和线性回归模型等】
- 混合推荐方法:各个推荐方法都会存在优缺点,因此,在实际应用中,我们采用组合方式。使用最多的混合方法就是将基于内容的推荐和协同过滤的推荐组合。【推荐结果混合:将多种推荐方法产生的结果通过某种方式进行混合计算而产生最终的推荐结果(常用投票机制判断);推荐算法的混合:以某一种推荐策略为框架,混合另外的推荐策略】
5、搜索与推荐的区别
搜索和推荐都是解决信息过载的有效手段,能够帮助用户快速准确地定位到想要的信息。
搜索系统 | 推荐系统 | |
---|---|---|
用户意图是否明确 | 明确 | 不明确 |
个性化 | 个性化较低 | 个性化较高 |
评价标准 | 能否帮助用户快速找到准确的结果 | 能否推荐给用户所喜爱的内容 |
评价指标 | 归一化折损累计增益(nDCG)、精确度-召回率(Precision-Recall) | MAP或CTR、RMSE或MAE |
6、马太效应和长尾理论
马太效应:热门物品会受到更多的关注,冷门物品会越被遗忘的现象;
长尾理论:冷门物品的种类远远高于热门物品的种类。