推荐系统中的恶意用户过滤浅析

这篇文章大约很早前就想写了,不过随着自己屡次复发的拖延症一起被淹没了,直到最近有人在网络上咨询我才重新拿起来写篇博文。 这个题目其实来自于一道基于Hadoop MapReduce的编程类比赛题目,原题大约如下:基于公开数据集MovieLens数据集上的用户评价数据,计算用户对其未看过,并且可能会看的电影的评分。同时请各参赛队伍考虑数据稀疏性问题和恶意用户问题,使推荐系统在上述极端情况下具有较好的性能,其中的恶意用户被定义为在推荐系统中,存在一系列的恶意用户,其行为主要体现在随机打分或为多部电影打相同的分。为了检验推荐算法是否可以减少或避免恶意用户的影响,将通过随机加入恶意用户的方法,比率为5%,10%,并分别执行推荐算法,计算RMSE和MAE。,可以理解成那些在豆瓣上,电影放映期间的水军。 与Spark自己构建了一个MLlib的思路不同,Hadoop将主要精力focus在存储的HDFS和任务分配执行的YARN(包含可以执行MapReduce的任务部分)上面, »