主页(http://www.cnwulian.net):未来如何到来? 读智能时代有感
美籍俄裔物理学家乔治·伽莫夫在其科普读物《从一到无穷大》一书中讲了一个原始部落的故事。两个酋长要比一比谁说的数字大,一个酋长想了想先说了“3”,第二个酋长想了半天,说,你赢了。
今天计算机使用的ipv4地址采用32位二进制表示,共有4,294,967,296个地址,由美国人于1981年提出定义,然而到了今天ipv4的地址资源已接近枯竭。改进升级版的ipv6协议,将地址表示扩展到了128位,由此产生的地址据说可以给地球上的每一粒沙子编一个ip。这仅仅是为每台计算机编门牌号码的数量,由此扩展到每台计算机产生的数据量,人类所产生的数据量或许可以给宇宙中的每一颗粒子编一个号码了。
这就是我们今天面临的世界,科技革命将新世纪的人类带入了一个信息爆炸的时代。今天所有人在面临与部落酋长比数字的问题时都不会再从3开始了,可事实上仍然有太多人的头脑却依然停留在与三比较的时代,我认为这是吴军博士这本《智能时代——大数据与智能革命重新定义未来》所探讨的一个核心问题。
书中简要梳理了人类文明进步的知识模型:从对外界环境的观察思考以及互动中产生了文字记录和数据计数的需求,数据进一步成为信息储存的载体,对数据和信息的抽象处理,使人类得以积累更多的知识,并在一代代的传承和创新中推动者人类改造世界的脚步。作者进一步提出“如果把资本和机械动能作为大航海时代以来全球近代化的推动力,那么数据将成为下一次技术革命和社会变革的核心推动力。”
为了支持这一观点,作者结合自身从学从业的所见所闻所思,为读者阐述了大数据推动机器智能发展的研究进展。比如2005年首次参加NIST主持的机器翻译测评比赛的Google团队,4项测评结果均领先了其他研究团队一大截。谷歌的秘密武器只是它应用了比其他研究单位多几千倍甚至上万倍的数据,而机器翻译的方法还是以前的方法。谷歌实际上采用了数据驱动的方法,将机器翻译的模型训练得更加完善。
机器智能的定义源于图灵提出的判别方法,即图灵测试。让一台机器和一个人坐在幕后,让裁判同时与幕后的人和机器进行交流,如果裁判无法判断自己交流的对象是人还是机器,就说明这台机器具备了和人同等的智能。
图灵测试
大数据在机器智能这一领域中的成功应用,促使人们从思维深处开始思考大数据的真正力量。过去三个多世纪以来促使科学不断进步的思维方式是机械思维:如欧几里得基于逻辑推理的公理化系统编写的《几何原本》,这种依靠五条公理直接或间接得出几何学的全部结论的方法,为几何学、数学、自然科学的发展奠定了基础,而且影响了西方人的整个思维方法。甚至法学界,罗马法也是建立在类似的公里系统之上,只是罗马法的公理是自然法。地心说的创立者托勒密总结出的方法论:“通过观察获得数学模型的雏形,然后利用数据来细化模型。”在今天仍有应用。笛卡尔提出了“大胆假设,小心求证”的方法论。
牛顿更被西方认为是人类历史上最伟大的科学家和思想家之一。他在科学上的最大贡献是用数据公式总结了宇宙万物运动的规律。作为思想家,他让人们相信世界万物的变化是可以认识的。他告诉人们:世界万物是运动的,运动遵循着确定性的规律,这些规律又是可以被认识的。18世纪英国最伟大的诗人亚历山大·蒲柏为牛顿题写的墓志铭讲到:自然和自然的法则在黑夜中隐藏;上帝说,“让牛顿去吧。!”于是一切都被照亮。但很快,一切又归于静寂,一如从前。
Nature and Nature's laws lay hid in night;
God said,"let Newton be!" and all was light.
Soon,everything returned back to the dark as AIl be there…
自然哲学的数学原理
机械思维直接带来了工业革命。工业革命最著名的标识是瓦特和他发明的蒸汽机,但事实上在瓦特之前蒸汽机已经存在了。那时的蒸汽机多为特定目的设计和制造,很难从一个厂拆下用到其他地方。瓦特则运用机械思维的原理,设计了蒸汽机的通用模型,此后瓦特蒸汽机使得瓷器制造从供不应求变成了供过于求;使人类有了第一辆机械动力火车;使人类有了机械打字机。美国人则利用物理学知识和机械原理发明了轧棉机,使摘棉籽的效率提供了50倍,彻底改变了南方种植园经济,间接导致了南北战争。
进入新世纪以来机械思维的局限性日益显现,因为并非所有规律都可以用简单原理描述,而且简单因果关系的发现越来越困难。人们也逐渐意识到世界本身存在着很大的不确定性。爱因斯坦认为的“上帝不掷色子”面临着越来越多的挑战。量子力学、微观粒子的研究使人们不得不寻找替代机械方法论的新思路。
用于度量不确定性的信息论为理解世界提供了新角度。如果我们需要搞清楚一件非常不确定的事,就需要了解大量的信息,也就是说信息的度量就等于不确定性的多少。这样当我们面临不确定性世界,我们就可以利用数据或信息来消除不确定性。而今天的大数据已经具备了数据量大、多维度、完备性的特征,可以将许多智能问题转化为数据计算问题。
Google的搜索质量问题很好的反映了从机械思维的因果关系到数据思维的相关关系的转变。2005年之前,谷歌发现搜索结果相关性不好时,仍然遵从先分析原因,再寻找答案的方法,每年可将搜索质量提高3-5个百分点。但随着搜索质量的不断提高,到了2005年时候,进步幅度已经越来越慢了,甚至一年都不到一个百分点。后来谷歌发现搜索质量和用户点击数据存在很强的相关性,比如对“虚拟现实”这个词,A网页点击了30000次,B网页点击了20000次,C网页点击了10000次,那么网页A应该被排在第一位,而按照算法优化的排序可能出现B排在第一位情况。谷歌后来依据用户点击数据建立了模型,并把它加到了搜索排序算法的参数中,这样子用户点击的数据越多,呈现出来的排名顺序越准确。今天的搜索引擎中,因果关系的重要性已经让位于数据相关性了。