该报志愿的孩子们，参考一下大数据？

【听杨姐说】

可怜天下父母心！又到了高考后报志愿的时候。今天杨姐给父母们介绍一个数据上的参考因素——注意，这仅仅是参考啊！

手机百度推出的“高考热力图”，就是专门帮助考生报志愿的，提供了一些思路和数据。

只要在手机百度里面输入“高考”通过“高校热力图”入口就可以进入，主打推荐学校和“防志愿撞车”两大功能。

这个产品主要是通过搜索框中输入预估成绩或实际成绩，选择文/理科，点击“我要查询”，可得到系统“推荐报考的学校”。考生所处的地区不用手动输入，系统会根据用户手机所在的位置自动判定所处考区。

百度的这个产品跟之前景区热力图有着相通之处，就是通过对现实中的信息进行实时加工处理，照这个路子来看，这种热力图的使用范围将会很大，这是基于对移动互联网中，人与信息关系变革的一个理解。

原因在于，PC时代的链接是有间隔、不连续的，所以我们能看到的需求是不连续，而且是有滞后的。而移动互联网下，智能设备的传感器使得地理位置、行为都被连续记录，真正意义上实现了链接，而这种链接背后则真实反映了各种需求。这也是为什么能用Twitter判断疟疾的一个重要因素。

所以，从这个意义上来说，未来的搜索是通过挖掘需求，给出解决方案，给出链接服务的。

怎么说呢？比如，你走着走着，突然肚子疼，传感器可以通过检测知道你是要上厕所还是中毒了，然后就可以推荐给你具体的地点。而这个是不需要用户去挖空心思去想关键词。

回到话题上来，这个热力图里面的一些细节的设计就是链接服务的思维。

比如它给到的推荐是TOP10，而且也给出一个判断，激烈程度、分数分布。而且页面是根据用户的地理位置，默认为用户推荐的，省下用户筛选，非常的智能化。

值得注意的是，这个判断是通过数值+分布进行的。通过这两个关键指标是可以给到一个较好的判断的，就不需要你自己进行繁琐的搜索、判断。

看起来呈现的很简单，但是真正的要深挖，这是很有难度的，在跟产品经理沟通的时候，就能知道做这个内容的不易：脏数据的处理、难度预测、样本量、数据的挖掘，这些都是海量的处理内容。

比如：全国100多万用户“分数和高校关注”数据、许多“热心的测试用户”等等，这些都是需要“程序猿”们做的功课。

另外，这个产品的关键在于让用户知道他所关注的学校，还有多少人在关注，以及这些关注这个学校的人的分数情况，手机百度利用网民搜索高校记录：ID+高校+地区，搜索分数的时候记录：ID+分数+地区，最终这两个数据通过ID进行对接。

在这个功能中，同时还结合了学校往年的高考分数线，并且对学校的波动进行处理，再结合今年关注该学校的考生分数分布，对各个维度赋值，保证推荐的学校真正与学生的分数相匹配，现在看来，这个功能对于判断起到了不少作用。

据百度的程序猿GG介绍，这个功能高峰时已经有十几万人来用。

从百度的热力图我们可以想象得到，在未来每一台智能设备就是一个ID，就是一个元神经，通过万亿个神经元，整个互联网真的就智能了起来。而大数据的用处就在此，在繁杂的信息中抽离出关键信息，这就像在筛矿，真正需要做的就是抓住服务核心点。

不过，杨姐再次提醒，这种大数据也跟数据的数量强相关——所以这只是参考，只是参考啊！

而且孩子的终身幸福并不一定只是被这一次考试所左右，孩子要努力，但是健康快乐才最重要——君不见那些自杀的都是天才？因为他们苦苦思索解不开的难题。君不见那些拼命爬上高位的人跌下来最惨？那是物欲横流的结果。

而傻一点的人最快乐，例如杨姐我。哈哈，我是糊里糊涂的小白不菜。

好，继续看大数据。

百度这些推荐图的生成逻辑——这件事不说清楚点，估计您也不敢参考，俺没搞懂的话，也不敢介绍您参考。：D

好，高考之后最大的痛点是报考志愿，填志愿最大的痛点是如何避免撞车，尤其是中等分数的考生。

经俺了解，百度确定这个解决问题的目标之后，进一步分析得出“让用户了解到关注同一所大学的分数分布”，算出自己在考生的排名情况，就可以让考生做到心中有谱。举个例子：北京的孩子，高考成绩580分，选择四川大学，发现多数关注四川大学在600以上，就提醒考生报考时需要三思。

从有想法到实现，前前后后百度花了三周时间，后端有专人加班加点，花了大量时间收集、整理、处理数据，数据模型进行多次打磨和优化。

这个产品背后主要有两个模型：脏数据的处理和难度预测。脏数据处理为保证收集到数据规避掉“热心的测试用户”，他们用假数据来测试我们，这部分假数据的去除是基础，有了靠谱的数据，近一步把数据输入到难度预测模型，难度预测模型主要是结合今年的分数线、往年的分数线、今年的搜索热度、往年的搜索热度、今年考生的分数分布，给出报考的难度。

上线后，已有大量的用户填入自己的分数进行预测，并且会针对自己感兴趣的学校进行搜索，积累全国100多万用户“分数和高校关注”数据，大量数据的积累，也进一步丰富了模型的准确性。

百度的页面是根据用户的地理位置默认为用户推荐的，省下用户筛选，非常的智能化。在用户输入分数后，百度为用户推荐最值得上的大学，而大学数量是取自于中国用户爱好的TOP10。

针对专业的推荐其实原本是百度计划的一部分，但是专业对应的分数数据百度收集到的不够多，就没有推出，得再积累一下，估计明年可能会推出来。

据说第一版出来之后，有很多脏数据，百度开发的同学就一直琢磨什么样的模型，能够区分出来脏数据，这期间曾经差点放弃，最终觉得还是“想为考生做点事”这种朴素的想法，支撑大家逐步地实现最终要的效果。

而在推荐学校的时候，百度结合了学校往年的高考分数线，并且对学校的波动进行处理，再结合今年关注该学校的考生分数分布，对各个维度赋值，最终计算得出推荐的学校。

这个产品的关键是：让用户知道他所关注的学校，还有多少人在关注，以及这些关注这个学校的人的分数情况。

百度是把考生查询的高校、点击过的高校，记录下来，再记录下来用户输入的分数，生成一个多维的字段表：考生+关注高校+分数+地区，在这个基础上进行筛选。而百度收集到这些数据，是通过用户的百度ID进行串联起来的。

举个例子：你搜索高校的时记录：ID+高校+地区，你搜索分数的时候记录：ID+分数+地区，最终这两个数据通过ID进行对接，来判定兴趣集中在了哪个学校。

好，解释清楚了么？

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。