零基础入门到精通

算法是什么意思?你惧怕算法吗?

算法是什么意思

算法(algorithm),在数学(算学)和计算机科学之中,为任何一系列良定义的具体计算步骤,常用于计算、数据处理(英语:Data processing)和自动推理。作为一个有效方法(英语:Effective method),算法被用于计算函数,它包含了一系列定义清晰的指令,并可于有限的时间及空间内清楚的表述出来。

算法是什么意思?你惧怕算法吗?

你惧怕算法吗

从我们打开电脑或手机的那一刻起,我们与算法的互动就开始了。当算法像一只“无形之手”开始安排着我们的生活时,瑞典乌普萨拉大学应用数学教授大卫·萨普特,带着某种焦虑、不安和恐惧,在他所著的《被算法操控的生活:重新定义精准广告、大数据和AI》中,对操纵我们数字生活的庞大系统进行深入思考,进而引领人们展开了一段有关“算法”的趣味旅程:建立在数据之上的算法指导社会的运行、决定我们能在网上看到什么;它更是自动驾驶、智能管家、未来医疗以致智慧城市的基石。如果我们不了解算法如何使用数据,就无法知道人工智能将如何改变我们的生活。

大脑钟情于“大家也喜欢”,源于人类“很懒”

民间流传有这样一句俗语:“买家没有卖家精。”这句俗语说的是“算账”——从南到北,做买卖的人都非常精明,绝不会吃亏。而现在国内外知名互联网企业尤其是超级平台,拥有了无往不利的算法和大数据,算法与算账相比,无异于原子弹与冷兵器。

在新经济引擎中,“算法”一直受到各国先进科技企业的追捧。据麦肯锡公司调查:与2013年相比,当下科技企业年均花费在人工智能技术方面的投资翻了三倍。因为人工智能算法的确提升了企业的运作效率,留住了客户,为公司创造更多利益。

这些算法都建立在同一个理念上:我们可以基于他人的推荐和决定来学习或行动。那么,我们现在所处的世界果真如此吗?算法与我们在线互动,但它真的在为我们提供最好的信息吗?

萨普特教授以亚马逊为例对这些问题提出了自己的疑问。亚马逊往往喜欢用“与你浏览过的商品相关的还有”,以及“购买了这一商品的顾客也购买了”的推荐清单,以帮助人们找到心仪的商品。亚马逊从数百万个不同选项中筛选出一小部分供我们选择。譬如,“你已经读过《魔鬼经济学》了,那你要不要看一下《卧底经济学家》或者《思考,快与慢》?”“你看过乔纳森·弗兰岑的最新小说?大多数顾客会接着购买柳原汉雅的《渺小一生》。”这些建议给人一种你在选择的错觉,但其实这些书会一起出现在你面前,完全是拜亚马逊的算法所赐。

这个算法之所以如此有效是因为它了解我们。当你看到那些你最钟爱的作者的书正在被网站推荐时,你觉得这些推荐都正合你意,因为你要么已经拥有了这些书,要么想要得到它们。为了向亚马逊致敬,萨普特教授将这个模型称之为“大家也喜欢”(also liked)。

南加州大学信息科学中心的研究员克里斯蒂娜·莱尔曼和她的研究团队甚至对该模型进行多次验证发现:人类的大脑往往钟情于“大家也喜欢”。莱尔曼和她的团队用一个经验法则来模拟人们的上网行为时发现:“只要你把握住了人们‘很懒’这个规律,你就能够预测他们的大部分行为。”

别让“h指数”劫持了科学家

在欧美国家中,不少政客和科研资助机构普遍认为“用被引用次数来评估科学家是个好主意”。学术界的学者或科学家们在茶余饭后谈论最多的也是论文被引用次数和“h指数”。

所谓“h指数”,是指一个学者发表过的文章中有h篇的被引用次数至少不低于h次。比如,一个年轻学者有3篇论文被引用了3次以上,那他的“h指数”是3。

萨普特教授通过对比研究发现,对影响力的追求强化了科技期刊间的“大家也喜欢”效应。那些带有高影响因子的期刊吸引的投稿数比影响力低的期刊多,而且投稿的质量更好,被引用量更高。基于此,数据算法会时不时地被人“钻空子”。比如,有的年轻科学家发现自己必须拼命竞争才有可能把自己的论文挤进那些为数不多的著名期刊,于是有些科学家不再专注于高水平研究,而是费尽心思地提高自己的“h指数”,让自己的论文登上那些影响力大的期刊。

长久以来,学术界一直是一个封闭的世界,科学家们希望纳税人相信,他们能够想出好点子、研究出新东西。然而,科学家们自身却也难逃“大家也喜欢”效应的影响。一项研究表明,一些作者如果写了很多被广泛引用的论文,那么他们的新文章被引用的速度就更快。这关乎的不仅仅是一篇论文被引用的次数,更是作者的声誉。随着“大家也喜欢”效应影响的深入,科学家之间关注自己或同事的论文被引用记录不再是一件有趣的事,它已经成了在学术界求生的必要条件。

在2005年至2015年间获得诺贝尔奖的25位科学家中,有14个人在35岁时的“h指数”低于10。业界普遍认为,“h指数”需要达到12才能获得终身职位,这就意味着这些诺贝尔奖得主在35岁之前都无法找到工作。

显而易见,类似“大家也喜欢”这样的算法使我们的集体行为呈现出新的形式,也为我们相互之间的交流提供了新的方式。但是我们不应该让算法来决定我们看待这个世界的方式。在学术界,这种情况在某种程度上已经发生了。因为容易量化,论文被引用次数和论文的影响因子已经成为科学研究中的通用货币。

在学术界,当科学家们惧怕算法时,到底在惧怕什么?针对这一个问题,萨普特教授毫不讳言地指出,由“大家也喜欢”的算法进而引出的“h指数”,虽说可以提高学术论文的引用量,但将这个指标作为考核学术成果的唯一标准,必然会造成学术界的反向激励和逆淘汰现状。从这一点上看,数据算法对大部分科学家来说是“黑箱”,我们应该了解其中可能存在的问题,避免被误导或操纵,别让“h指数”劫持了科学家。

警惕算法将我们置身于狭隘的“茧房”

从纽约、伦敦、巴黎、东京等世界发达城市,再到国内的北上广深等一线城市,不少都市白领或主流“数字青年”也许早已习惯于这样一种生活方式:用计步器衡量自己每天的活动轨迹;用膳食APP记录自己每餐摄入的卡路里;用智能手环监测自己的睡眠;用“点赞”数量去衡量友情和人脉……算法不停地旋转和降维你的数据集,直到它能读懂你、透视你。

在萨普特教授看来,当算法步入社会情境,人们在现实空间的本我之外,于虚拟空间通过数字化技术构建了另外一个自我。伴随着两个世界的互通和连接,两个自我不断产生复杂互动,进而带来积极和消极正反两个不同方面的影响。

以脸书的算法为例,它会根据用户已经做出的行为来决定给用户看什么样的内容。其通过“你见到该文章的可能性=你对该报纸的兴趣×你和分享该文章的朋友的亲密度”这样的一个等式来决定,一篇最近分享的报纸文章在你动态消息上出现的可能性。

按照萨普特教授的分析,当你和朋友交流你分享的帖子时,你同时提高了这个等式中的两个量:你对《每日电讯报》的兴趣增加了,这导致脸书增加了你和这位朋友间的亲密度。因此,我们可以认为见到某篇文章的可能性是随参与度的平方变化的。在上述的那个等式中,你对一份报纸的兴趣体现的就是你与这份报纸间的参与度;你与分享该文章朋友的亲密度体现的就是你们之间的参与度。如此一来,《每日电讯报》以后的文章在你页面的曝光度就会增加,而增加的曝光度使你将来更有可能点击这些链接,从而进一步提高脸书算法对《每日电讯报》做出的排序,给它带来更多的曝光。就像“大家也喜欢”的亚马逊模型一样,“过滤器”模型简化了脸书算法的实际操作。

我们越是点击某类信息,这些“过滤器”算法就越是推送相关内容。与“过滤器”模型概念相映成趣,美国哈佛大学法学院教授凯斯·R·桑斯坦在其著作《信息乌托邦》中提出了“信息茧房”的概念。桑斯坦认为,公众往往只关注他们感兴趣的信息,因而知识结构是不全面的,长此以往,将置身于狭隘的“茧房”中。桑斯坦还生动地描述了“个人日报”现象。用户的个性化需求不断被满足,未来某一天,将出现新的界面代理人,它将能够为每个人量身定制一份“个人日报”。

算法的便利让人惊叹,也让人警惕:凭什么算法可以攫取数据来分析大众的偏好,引导他们的行为。大众开始对算法疲劳,也开始对算法用同类信息编织出来的“信息茧房”感到不满。我们应当如何发现和享受真正的“算法之美”,构造安全、公平、透明、可问责的算法,从而迈向信任算法的社会呢?萨普特教授并没有给出自己的结论和答案。但人类和算法相处的纪元才刚刚开始,这一条惊险和探寻应对良策之路显然还要走很长的时间。

版权声明

以上文章中所选用的图片及文字来源于网络以及用户投稿,版权归原作者所有,对此本站均没有商业用途,仅供学习与交流;本站不负任何责任! 由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用, 如果有侵权请立即联系QQ:823124280,我们立即下架或删除。