读《智能时代》前两章的感想
一."数据"概述
虽然不知道人工智能的具体情况,但大致知道现阶段的人工智能需要建立在大数据的基础上,《智能时代》第一章详细介绍了数据的相关问题。
首先,“在计算机出现之前,一般书籍中的文字内容并不被视为数据。”今天,不仅仅是书本上的文字内容,我们的活动,我们的日常举止,喜好等等都已经被当成了某种数据。
人类社会早期,我们观察现象,总结数据,从数据中提取有用的信息,在信息的基础上形成知识(知识是系统的),从而指导我们的行为。我们使用数据的标准流程如下:
在过去,数据的作用不被重视。“有两个原因。第一,由于过去缺乏数据,大量数据的积累需要太长时间,以至于短时间内作用不明显。其次,数据和你想要获取的信息之间的联系通常是间接的,只有通过不同数据之间的相关性才能体现出来。”这种相关性需要探讨。吴军老师举了王进喜照片与日本出价的相关性、谷歌用户对某节目的搜索量与该节目收视率的相关性、搜索趋势与流感疫情的相关性来说明相关性的重要性。
至于第一个原因,“在互联网出现之前,要获得大量有代表性的数据并不是一件容易的事情。当然,在误差允许的范围内做一些统计是没有问题的,但只有在极少数情况下,才能单纯依靠数据来解决复杂的问题。所以,在90年代之前,整个社会对数据的重视程度并不高。”
应该通过建立合适的数学模型来更好地利用数据的相关性。“建立数学模型,必须解决两个问题,一是用什么样的模型,二是模型的参数是什么。”"...如果一开始没选好型号,以后就很难再修修补补了。所以,以前无论是理论还是工程,大家都是以找模型为主。”
“有了模型,第二步就是找到模型的参数,让模型至少能和之前观察到的数据吻合。以前这一点的关注度远不如找模特。但今天他有了一个更时髦、更深刻的词——机器学习。”(程出版社:输入数据,不断调整模型,类似于今天的机器学习方法)
“回到数学模型,其实只要有足够的数据,就可以用几个简单的模型代替一个复杂的模型。这种方法被称为数据驱动法,因为它首先有大量的数据,而不是一个预设的模型,然后用很多简单的模型来拟合数据。虽然这种数据驱动的方法找到的一组模型,在数据不足的情况下,可能与真实模型有一定偏差,但在误差允许的范围内,结果与精确模型是等价的,在数学上是有道理的。原则上,这类似于前面提到的切比雪夫大数定律。
当然,数据驱动的方法想要成功,除了数据量大之外,还有一个前提就是样本必须很有代表性,这是任何统计学教材里的一句话,但是在现实生活中很难做到。……"
第二,大数据和机器智能
“2000年以后,由于互联网的出现,尤其是后来的移动互联网,数据量不仅急剧增加,而且开始相互关联,大数据的概念出现了。2000年以后,由于互联网的出现,尤其是后来的移动互联网,科学家和工程师发现,采用大数据的方法,可以使计算机的智能水平有一个飞跃,这样计算机在很多领域都会获得比人类智能更高的智能。可以说,我们正在经历一场由大数据带来的技术革命,其最典型的特征就是计算机智能的提升,所以我们不妨称这场革命为智能革命。当计算机的智能水平赶上甚至超过人类的时候,我们的社会就会发生翻天覆地的变化,这就是大数据的可怕之处。
那么为什么大数据最终会导致这样的结果,大数据和机器智能有什么关系呢?要说清楚这一点,首先要解释什么是机器智能。"
“1946年,第一台电子计算机ENIAC诞生,让人类重新思考机器能否智能化的问题。”
“真正科学定义什么是机器智能的还是电子计算机的创始人艾伦·图灵博士。1950年,图灵在《思想》杂志上发表了题为《计算机器与智能》的论文。在论文中,图灵没有谈到计算机如何获得智能,也没有提出任何解决复杂问题的智能方法,只是提出了一种判断机器是否智能的方法。”让一个裁判坐在墓前和幕后的“人”交流,幕后有一个机器和一个人。如果裁判不能判断和他交流的是人还是机器,那么就说明这台机器和人有一样的智能。
“这种方法被后人称为图灵测试。计算机科学家认为,如果计算机实现了下列事情之一,就可以认为它具有图灵所说的那种智能:
1.语音识别
2.机器翻译
文本的自动摘要或书写
4.打败人类的国际象棋冠军
自动回答问题
今天计算机做到了上述事情,有时还超额完成了任务。比如在国际象棋上,它不仅打败过国际象棋世界冠军,还打败过围棋世界冠军,而且后者比前者难6 ~ 8个数量级。当然,人类走到这一步并不是一帆风顺的,而是走了十几年的弯路。"
飞鸟学校:人工智能1.0
“据记载,1956年夏天,香农和一群年轻学者在达特茅斯学院举行了一次头脑风暴研讨会。.....其实这是一场头脑风暴研讨会。这10青年学者讨论的是当时计算机科学还没有解决甚至还没有研究的问题,包括人工智能、自然语言处理、神经网络。人工智能的说法就是在这次会议上提出来的。”
“严格来说,人工智能这个术语今天有两个定义。第一种是指机器智能,即任何能让计算机通过图灵测试的方法,包括我们在本书中会经常谈到的数据驱动方法。二是狭义上的概念,即五六十年代研究机器智能的具体方法。时至今日,几乎所有标题中带有“人工智能”字样的教科书(包括斯图亚特·罗素和诺威格合著的《人工智能:一种现代方法》一书,这本书是世界上最畅销的),仍然主要介绍那些“老掉牙的好人工智能”。
时尚的).后来,为了划清自己和传统方法的界限,用其他方法生成机器智能的学者特别强调自己不是在用人工智能。因此,学术界将机器智能分为传统人工智能方法和其他现代方法(如数据驱动、知识发现或机器学习)。当然,计算机领域之外的人谈及人工智能,往往是指任何机器智能,并不局限于传统方法。所以为了便于区分,我们在本书中尽可能用机器智能来表达广义上的概念。用人工智能来表达时,通常指的是传统的人工智能方法,甚至我们有时会强调人工智能1.0。
那么传统的人工智能方法是什么呢?简单来说,就是先了解人类是如何产生智能的,然后让计算机按照人的思维去做。今天,几乎所有的科学家都不坚持“机器应该像人一样思考才能获得智能”,但许多外行人在谈论人工智能时仍然会想象“机器像我们一样思考”,这让他们既兴奋又担忧。事实上,当我们回到图灵博士对机器智能描述的起源时,我们可以发现,机器智能最重要的是它能解决人脑能解决的问题,而不是它是否需要采取和人一样的方法。
为什么早期科学家的想法和今天外行人的想法一样幼稚?这个道理很简单,因为按照我们的直觉去思考是最简单的方法。在人类发明史上,很多领域的早期尝试都是模仿人或动物的行为。比如人类在几千年前就梦想飞翔,于是开始模仿鸟类。东西方也有类似的记载,把鸟的羽毛绑在人的胳膊上跳下来。当然,实验的结果可想而知。后来,人们把这种方法论称为“鸟飞学派”,即通过观察鸟类如何飞行,在不了解空气动力学的情况下,模仿鸟类建造飞机。事实上,我们知道莱特兄弟发明飞机靠的是空气动力学而不是仿生学。在这里,我们不要从直觉上嘲笑前人的幼稚想法,这是人类认识的普遍规律。
人工智能刚提出的时候,这个研究课题在全世界都很热门,大家似乎都认为用不了多久就能让计算机比人聪明。遗憾的是,科学家经过十几年的研究发现,人工智能除了做几个简单的“玩具”,比如让机器人像猴子一样摘香蕉之外,根本解决不了任何实际问题。到20世纪60年代末,计算机科学的其他分支发展得非常迅速,但对人工智能的研究却无法进行下去。因此,美国计算机科学界开始反思人工智能的发展。虽然有人认为机器的智能水平有限是因为它不够快,容量不够大,但也有一些有识之士认为科学家走错了路,如果走那条路,计算机再快也解决不了智能问题。"
明斯基引用了巴希尔在语义信息处理中使用的一个例子:笔是。
《在盒子里》和《盒子在钢笔里》说明了目前人工智能的局限性。
“这两个句子会得到相同的句法分析树,无法根据这两个句子本身甚至整篇文章来判断哪一句pen应该作为栅栏,哪一句应该表示pen。实际上,人们对这两句话的理解并不是来自语法分析和语义本身,而是来自于他们的常识或世界知识,这是传统人工智能方法无法解决的。因此,明斯基给出了他的结论:‘当前’(指1968)的方法无法让计算机真正拥有类似人类的智能。由于明斯基在计算机科学领域享有很高的声誉,他的论文导致美国政府削减了几乎所有人工智能研究的资金。在接下来的20年左右的时间里,全世界学术界对人工智能的研究处于低潮。”
另一种方式:统计+数据
“20世纪70年代,人类开始尝试机器智能的另一条发展道路,即采用数据驱动和超级计算的方法,而这种尝试始于工业界而非大学。
当时IBM在世界计算机乃至整个IT行业处于绝境。.....这个时候,IBM可以不再考虑如何占据更大的市场份额,而是如何让电脑变得更智能。
1972年,康奈尔大学教授弗雷德·耶利内克(1932-2010)去IBM进行学术休假。就在这时,IBM想开发一种“智能电脑”,贾里尼克“临时”负责这个项目。至于什么是智能电脑,那时候大家都知道,它要么能听懂人的话,把一种语言翻译成另一种语言,要么能赢得国际象棋世界冠军。根据自己的特长和IBM的条件,Jarinik选择了第一项任务,即计算机自动识别人声。"
Jarinik认为语音识别是一个智能问题,而是一个交流问题,即人的语音是大脑编码的过程。编码完成后传到听者的耳朵里,听者的接受和理解就是一个解码的过程,语音识别问题也可以这么处理。他“利用当时各种成熟的数字通信技术实现语音识别,完全抛弃了人工智能的那套方法(指传统方法,
“在研究语音识别时,Jarinik和他的同事无意中创造了一种利用统计方法解决智能问题的方法。因为这种方法需要大量的数据,所以也叫数据驱动法。这种方法最大的好处就是随着数据的积累,系统会越来越好。与过去的人工智能方法相比,很难从数据的改善中获益。”
“语音识别之后,欧美的科学家开始考虑是否可以用数据驱动的方法来解决其他智能问题。Jarinik的同事彼得·布朗在20世纪80年代将这种数据驱动的方法应用于机器翻译。然而,由于缺乏数据,最初的翻译结果并不令人满意。虽然有学者赞同这种方法,但也有学者,尤其是早期从事这方面工作的学者,认为通过基于数据的统计来解决机器翻译这类智能问题是不够的。从80年代初到90年代中期,计算机领域一直存在一个争议,即数据驱动的方法是否适用于各个领域,语音识别是否只是一个特例。简单来说,就是把原来从事语音识别、机器翻译、图像识别、自然语言理解的学者分成了界限分明的两派。一组坚持用传统的人工智能方法解决问题,简单的模仿人,另一组提倡数据驱动的方法。这两所学校在不同的领域有不同的实力。在语音识别和自然语言理解领域,主张数据驱动的学派相对较快地占了上风。在图像识别和机器翻译方面,很长一段时间,数据驱动学派处于劣势。造成这种情况的主要原因是,在图像识别和机器翻译领域,过去的数据量非常小,这种数据的积累非常困难。图像识别就不用说了,在互联网出现之前,没有一个实验室有几百万张图片。在机器翻译领域,除了一般的文本数据,还需要大量的双语(甚至多语言)数据。在互联网出现之前,除了《圣经》和少量联合国文件,找不到类似的数据。”然而,随着互联网的兴起,数据获取变得更加容易。2005年,Google用数据驱动的方法打败了世界上所有的机器翻译研究团队,它之所以赢,是因为它用了比其他研究所多几千倍甚至上万倍的数据。
“如今,在很多与“智能”相关的研究领域,比如图像识别、自然语言理解,如果采用的方法不能利用数据的最大优势,就会被认为是过时的。
数据驱动方法始于20世纪70年代,在80年代和90年代缓慢但稳定地发展。进入21世纪后,由于互联网的出现,可利用的数据量急剧增加,数据驱动的方法优势越来越明显,最终完成了从量变到质变的飞跃。现在计算机可以做很多需要类似人类智能的事情,得益于数据的增加。
全世界各个领域的数据一直在向外扩展,逐渐形成了另一个特点,就是大量的数据开始交叉,各个维度的数据从点、线逐渐变成网络,或者说数据之间的相关性大大增强。在这种背景下,大数据出现了。"
“在大数据出现之前,计算机并不擅长解决需要人类智能来解决的问题,但今天这些问题可以通过改变观念来解决。核心是把智能问题变成数据问题。由此,全球开始了新一轮的科技革命和智能革命。”
虽然这几年计算机能做的事情越来越多,给人的感觉还是“快但不够聪明”,但是当我们有了足够的数据,就可以把智能问题变成数据问题,机器不再需要像人一样思考解决问题。只要我们输入足够的数据,配合适当的算法(模型),机器就可以做出最优的判断。即使深蓝打败了卡斯帕,“但这看似聪明的外表背后,其实是大量数据的组合,而不是复杂的算法和超强的计算能力——深蓝从来没有像人类一样思考过。”
“计算机下棋和答题体现了大数据对机器智能的决定性作用。我们以后会看到很多种机器人,比如谷歌自动驾驶汽车,可以诊断癌症或者为报纸写文章的电脑。他们不需要像科幻电影里的机器人一样是人形,但他们都在某些方面比人类更聪明。这些机器人的背后是数据中心强大的服务器集群。在方法上,他们获取情报的方式不是像我们一样通过推理,而是利用大数据从数据中学习信息和知识。如今,这场由大数据引发的改变世界的革命已经悄然发生,我们将在接下来的章节中进行更深入的介绍。这场技术革命的特点是机器的智能化,所以称之为智能革命并不夸张。”