评价系统心理学：什么情况下，用户才会主动“打个好评”？

编者按：看过《黑镜》第三季第一集《急转直下》的朋友应该对评价系统有很深的印象。故事被设定在未来的数字化时代，人类进行所有互动之后都需要通过一个评价系统对对方进行打分。而这个分数将成为决定个人工作生活以及社会福利的依据。尽管剧中很多怪诞场景目前尚未成为现实，但是评价系统越来越多越来越复杂却是事实。究竟什么样的评价才是有效的呢？原因又是为什么呢？Himanshu Khanna把他们的调查结果总结成了一份评价系统的心理学知识。

像其他的消费者服务一样，Uber也有一个有趣的评级系统，对乘客和司机都有一套。在乘客评级系统中Arjun是冠军，拿到了4.91的分数，这不是因为他制订战略得当，而是因为他为人真诚并且喜欢跟人交流！

他注意到一位司机给了他一个1星的低分。Arjun感到很吃惊。出于好奇，他问那位司机给这么低的分数是为什么。那位司机笑着解释道：“先生，这不是低分。我给你的是第一名！”

我们应该摒弃星级吗？

2017年初，Netflix采取了一个大动作——摒弃星级评定，而是用顶和踩的评价体系取而代之。10年前的2009年YouTube就已经这么改了。其实说到评级，差不多就是要么天上要么地下的状态。

其结论是Youtube上面的绝大部分视频都得到了一流的五星评级，也就意味着用户会对极端——要么这个东西极其出色，要么就是乏味到了极点时做出反应。至于其他的，他们都没有做出反应和进行评级的兴致。这里需要注意的是对YouTube上的视频的平均评分时所有用户的平均。而Netflix上的5颗红星意味着这部电影或者系列剧完全适合你。你看到的（Netflix上面）每部电影或者系列剧旁边的评分都是爱好类似的用户的平均给分，而不是YouTube的大锅饭平均分。

大家评分的频度如何？

Uber早期几乎是强制你在开始下一次乘车前要对司机进行评级。不过最新的已经改成了可选，用户时不时会错过了评级。2014年，Uber（旧金山）给司机发放了指南，里面解释了司机评级系统是如何工作的。此外，如果司机的评级是4.6或者更低的话，Uber会考虑对其账号进行去激活。

屏蔽持续提供糟糕体验的司机的账号确保了Uber继续因品质而知名

Uber司机有赖于好的评级来谋生。饭店也是，为了获得更好的客流量，靠“评级”挣得更好收入的产品和服务还有很多。

但是我们对评级的理解是否一致呢？

也许不是。要想回答这个问题，一个更加知情的办法是理解评级系统的意图。尤其是在今天的数字产品的语境下。

在数字世界里评级系统是什么？

一个评级系统是一次可能的投资，来自你的用户的对你的产品的投资（或者数字化产品或者其他）。一旦他们（你的用户）清楚或者喜欢上这次投资的回报，他们就更有可能投资、跟你的评级系统有更好的互动。他们会通过奖励好行为惩罚坏行为来帮助产品发展。

我们最近对我们一位客户的项目进行了一次相关调查。超过50%的受访者把7当做是IMDB的最低评分，这是他们观看电影的最低标准。任何评分低于这个数的电影他们都不会看！有趣的是，对于同样一组受访者来说，演出节目或者系列剧的LAR（可接受的最低分数）是8（不像电影是7）。“我几乎从未给一部电影的评分超过8，因为这相当于理想电影的标准”——其中一位受访者披露道。尽管7的评分属于可以接受，但是对于电影来说9又太过罕见和例外。同样一群用户会在Netflix上“顶”同一部电影。

平台，它们的使用情况，评级系统及其最终的参与结果似乎在用户如何评价内容中扮演了很大的心理学角色。颜色、标签以及评级的即时效应也是重要的影响因素。

来自同一份调查的受访者中约80%者宣称至少每周打一次Uber，而每天打一次的比例超过了30%。如果司机评分低于4.5（最高分为5）的话，这些Uber通勤者中几乎其中有50%的人会取消打车！同样一批用户每个月至少上一次Zomato（美食点评网站）。而饭店的LAR就掉到了3.8（满分为5）！也许使用频率以及与日常生活的相关性也会影响到我们对评分的认知。

4星的评级算是符合预期。5是给超出期望准备的！

Instagram（或者Facebook）的喜欢以及Twitter的转发也是评级系统，实际上是真正的二进制评分。通常用户不会对“废话”体验进行评分。他们评价的是极端情况——爱或者恨的东西！Facebook、Twitter以及Instagram并不关心“恨”诱发的体验。他们重视和推广的是用户“热爱”的体验。二进制系统简化了获得评级的行动，用户只需要在热爱平台上的什么东西时才进行评价。

群体规范与一致性

1936年，Muzafer Sherif进行过一次经典的试验。参与者被安排到一间黑屋里，他们被要求观察15英尺以外的一个小亮点，然后估计两点移动的距离。实验表明，单独受试的参与者报告的亮点运动距离差距要比3人一组的受试者报告的距离差异大，后者的结果往往会向一个共同的估计值收敛。Sherif的结果表明，大家总是倾向于达成群体一致而不是做出独立判断。

向一位Instagram用户展示一个有着559031个“赞”的9gag帖子之后，这位用户会通过追加一个赞来从众。无论是评分、评级、投票系统还是其他系统，都表现出了从众的特征。也许这个因素就是社交媒体病毒传播力概念的关键贡献者之一。

通过鼓掌来进行评价

Medium上“点赞”按钮、“推荐（心形图标）”的二进制对等物在2017年中左右被重新设计成了“鼓掌”。这一激进改动有趣地将读者从鉴赏者改造成了评估员。一位用户对一篇文章的鼓掌次数可以多达50次，0-50次鼓掌反映的是对文章的喜欢度（或者品质），这也许就相当于星级评价系统里面的星星吧。

尽管你也许也“喜欢”自己发布在Facebook上的文章，但Medium并不希望你给自己鼓掌。

需要注意的是，星级评价于Medium的鼓掌数有一点有趣的不同，那就是可能数量的视觉无效性。星级评价系统让人评估一个5以内的分数。而鼓掌数要求你评估的是一个范围可以无穷大（理论上）的分数。很多人害怕Medium这种评级系统的改变会让普通的“评级货币”通胀。对于一篇能获得2k推荐的文章来说，现在即便20k次鼓掌似乎也不够了。尽管如果从众继续发挥魔力作用的话，当鼓掌数达到20k而不是2k时，文章再次获得鼓掌的可能性会更高。

进一步探讨！

其中一些评级系统深受少量被忽视的谬误之苦，比如平均的概念。比方说对某个服务的星级评价的平均分可能是4.3（满分为5）。在大多数情况下，鉴于评价会继续涌入好的数字，这个平均分需要有可观数量的极端评分（1或者5）才能让4.3的品滚分变成4.4或者4.2.这个5星评价系统的4.3分，在经过N次评价之后，就成为了平均评分！此后任何出色或乏味的内容可能对这个分数都不会产生影响了，从而妨碍了真正的反馈得到体现。

Uber司机端app的用户体验要求司机在行程结束后尽快对乘客进行评价，这是一个规定动作。但是乘客端的app就没有这样的要求——乘客对司机评价是个可选项。类似地，Zomato和Amazon上用户对购买进行评价也是可选的。实际上，哪怕你不是在Amazon上购买某产品的，Amazon也允许你对该产品进行评价，要找的产品的LAR也被拉低到2分左右。

我知道有很多蠢货会上Amazon去评价，所以我偶尔也会买2星或者3星的东西，并且都还比较满意。

用户的性格、情绪、环境、对需求的紧迫性、最终的满足感（及其名义价值）以及影响者，跟用户的距离等等，所有这些因素都会对用户如何评价东西产生很大的影响。我们的调查还有一些值得注意的观察，这些观察得出结论说，鉴于其易用性，对手机上的app进行评级是很容易的。74%的人更愿意在手机上进行评级。尽管有时候后续还要写评价导致一些用户选择不对app或者相关服务进行评级。

评级系统要统治世界了吗？

《黑镜》在第三季第一集的《Nosedive（急转直下）》中试图把这个映射为数字化时代的到来。在这部讽刺性的剧集中，用户可以在一个5星评价系统中对自身线上和线下的一切互动给对方予以打分。从社会低位到访问特定服务，乃至于就业能力，一切都是个人当前得分的考虑因素。

我们已经将自己变成了一代批评者，并且被赋予了经理这一权利（但是很少会得到报酬）。我们观察饭店服务员的一举一动，当他把汤匙摆上桌面时我们会评估它发出的声音的品质，大概他同意我们的餐具选择时我们会留意他的礼貌程度，我们会敏锐地记录并执行心智算法以推断出一个合适的评分，然后还会有下一个项目等着我们继续吹毛求疵。

话虽如此，随着数字化产品使用到达新高以及用户体验与游戏化的概念统治着心理学，评级系统必定还会继续评下去。我的希望是这可以给大家一些有关什么样的评价有效以及为什么有效的启迪。

原文链接：https://hackernoon.com/the-psychology-of-rating-systems-3103e26fddd8

编译组出品。编辑：郝鹏程。编者按：看过《黑镜》第三季第一集《急转直下》的朋友应该对评价系统有很深的印象。故事被设定在未来的数字化时代，人类进行所有互动之后都需要通过一个评价系统对对方进行打分。而这个分数将成为决定个人工作生活以及社会福利的依据。尽管剧中很多怪诞场景目前尚未成为现实，但是评价系统越来越多越来越复杂却是事实。究竟什么样的评价才是有效的呢？原因又是为什么呢？Himanshu Khanna把他们的调查结果总结成了一份评价系统的心理学知识。