基于大数据的可视化搜索应用及组织模式研究

基于大数据的可视化搜索应用及组织模式研究

目前,可视化搜索已经成为信息科学领域的前沿课题,主要用于分析和研究现实世界实体属性、行为、事件与可视化大数据资源之间的发展规律。针对可视化大数据资源的获取、组织、描述和利用,研究可视化资源与其时空相关信息之间价值发现和资源整合的内在机制。

目前,可视化搜索已经成为信息科学领域的前沿课题,主要用于分析和研究现实世界实体属性、行为、事件与可视化大数据资源之间的发展规律。针对可视化大数据资源的获取、组织、描述和利用,研究可视化资源与其时空相关信息之间价值发现和资源整合的内在机制,解决多维关联和协同集成问题,进而实现可视化大数据资源的有效整合、知识发现和实时交互。

基于此,本研究从情报学视角的视觉搜索研究起源入手,描述了其发展历程、概念和特点,探讨了其理论和应用研究的几个关键问题,并简要论述了其最新研究进展和应用。

1.大数据环境下视觉搜索的发展及特点

提出1.1的问题

视觉搜索并不是一个新名词,它最早出现在心理学和生理学领域,用来描述人们通过视觉通道检测特定目标是否出现在特定区域后确定其位置的行为。比如在地图上找一所大学的位置,在食堂点餐,在书架上找书或者在图书馆找人。在现实世界中,人们往往需要在复杂的物理环境中使用视觉搜索来获取有价值的信息,以决定下一步的语言和行为。因此,视觉搜索理论受到了心理学家和人因学家的广泛关注,大量的研究集中在对人类视觉认知和生理反馈机制的理解和表达上,并总结了大量的应用和理论知识。正是因为视觉搜索的可用性和有效性,很多工作、行业、领域都离不开这种生理行为。

随着相关基础理论和关键技术的不断发展和完善,传统的视觉搜索应用不断向信息化、技术化和网络化方向发展。如何将传统的视觉搜索行为转变为“所见即所知”的视觉搜索模式逐渐摆在人们面前。同时,网络环境、信息技术、计算性能、存储空间、数据规模和软硬件设施的快速提升,也在客观的物理世界和虚拟的网络空间之间建立了密不可分的关系,使视觉搜索技术的实现成为可能。人们可以方便快捷地收集客观物理世界中的视觉对象,并从互联网上获取相关信息。

1.2视觉搜索发展历程及趋势

近年来,随着大数据环境的逐步完善和大数据技术的快速发展,可视化资源整合和可视化搜索研究的呼声日益高涨。《自然》和《科学》分别在2008年和2011发表了关于大数据的专题研究,提出图像、视频和用户交互信息是未来大数据的重要组成部分。2009年,斯坦福大学的Griod和Chandrasekhar等学者将视觉搜索理论引入信息检索领域,提出了视觉搜索和移动视觉搜索等概念,举办了首届移动视觉搜索研讨会,并对其架构、应用和服务模式进行了探讨。2010年,前谷歌技术研究部门负责人诺维格(Norvig)在其发表在《自然》杂志上的专著《2020Visions》中指出,“文本、图像和视频等视觉资源、用户交互信息和感官信息的有机整合将给搜索引擎带来巨大挑战,如何深度整合视觉搜索结果将成为谷歌未来10年面临的最大挑战。”同年,北京大学高文、黄铁军、段将其引入中国并举办第二届移动视觉搜索研讨会,对其关键技术、体系结构、视觉资源的组织与描述方法、视觉资源的标准化和视觉知识库的构建进行了探讨。2012年,这一理论和技术迅速被中国计算机联合会接受,认为视觉搜索与增强现实技术相结合的信息检索模式将是继搜索引擎之后的新一代互联网服务范式。随后,张兴旺、朱清华等人尝试将其引入数字图书馆领域,围绕相关理论和应用模式开展研究。

从视觉搜索研究的发展轨迹来看,国内对视觉搜索的研究还处于探索和尝试阶段,研究轨迹基本跨越了早期的理论尝试过程,正在进入中期的技术和应用探索阶段。特别是在我国科技部于2011启动国家重点基础研究发展计划(“973”计划)“面向公安的跨媒体计算理论与方法”,研究跨媒体视觉资源的统一表示与建模方法、关系推理与深度挖掘、综合搜索与内容合成等关键科学问题后,国内相关研究进入快速发展阶段。2015以来,视觉搜索理论和应用研究的重要性和必要性更加凸显。国务院2015年9月发布的《促进大数据发展行动计划》提出,充分利用大数据,提高领域数据资源获取和利用能力,推动各类数据和资源整合。国务院2065438+2005年7月发布的《关于积极推进“互联网+”行动的指导意见》提出,“建设包括语音、图像、视频、地图等数据在内的海量训练资源库,加强人工智能基础资源、公共服务等创新平台建设”。国家自然科学重大研究计划“大数据驱动的管理与决策研究”认为“大数据价值的生成机制和转化规律高度依赖于应用领域”。在科技部2016发布的《关于印发2016年度国家重点R&D计划、精准医学研究等重点项目申报指南的通知》的“云计算与大数据重点项目”中,明确将其列为重点研究内容之一,要求开展视觉语义建模、视觉对象时空定位与搜索、跨场景数据关联技术的研究。

1.3可视化搜索可视化大数据资源的研究对象和特点

视觉搜索的研究已经逐渐发展成为信息检索领域的主要研究趋势。到目前为止,视觉搜索的定义还没有形成统一的认识,但从信息检索的角度来看,大家对它的一般理解是指以客观物理世界中的视觉资源为检索对象,通过互联网获取相关信息的一种信息检索方式。它是以可视化大数据资源及其相关信息为研究对象,以可视化大数据资源的获取、分析、组织、理解和表达方法为主要研究内容,以信息技术和方法为主要研究手段,以发现可视化大数据资源所蕴含的知识价值并拓展其利用能力为主要研究目标的综合性、应用性前沿领域。主要针对当前大数据环境下海量、异构、动态无序、高速演化的可视化资源的分析和利用,重点研究如何充分利用快速发展的信息技术解决可视化大数据资源的理解和表达,如何有效实现可视化搜索,以及如何利用可视化搜索技术从海量可视化大数据资源中发现新知识。

毫无疑问,未来是一个智慧(或者说“互联网+”的时代。智慧地球、智慧城市、智慧图书馆等理论和应用的快速发展,为视觉搜索理论和应用研究提供了“沃土”。随着互联网internet plus)时代衍生出的数据规模的急剧增加,文本、图像、音视频、用户交互信息以及各种感官信息将成为“数据海洋”的主流,而这些数据源80%以上来自人类的视觉通道。现阶段,把握“互联网+”时代信息检索和知识服务未来发展的最重要手段可能是视觉搜索。

可视化大数据资源包含了文本、图像、音视频等复杂无序、动态的时空信息和用户的观看记录,使其成为数字图书馆中最丰富的信息载体,并将成为“互联网+”时代最重要的信息表达和信息传播媒介。以可视化大数据资源为研究对象的可视化搜索,由于前者知识空间中的知识实体和知识价值在时间、空间和属性上各有特点,使得可视化搜索也呈现出复杂无序、动态变化和时空语义关联的特点,还需要研究可视化大数据资源的形式化表达、系统化组织、结构化描述和时空关联分析方法。可以知道,可视化大数据资源主要有以下特点:

视觉大数据资源包括文本、图像、视频、用户观看信息、用户交互信息等时空信息,其包含的视觉对象、事物的内容和事件过程在时间、空间和语义上具有时间或时空相关性。

可视化大数据资源具有时空语义关联、动态变化、数据规模大、结构复杂等特点。这些基于视觉对象、事物内容和事件过程的动态变化可以用时空语义关联来表达和描述,它们的获取、组织和描述过程可以用机器语言来表达。通过可视化对象、事物内容和事件过程之间的语义关联映射,可以建立可视化大数据资源的时空语义关联。

可视化大数据资源具有数据规模大、结构复杂、类型多样、多维尺度关联、深度纬度高等特点。根据可视化大数据资源的时空语义关系,可以建立相应的尺度关联机制。针对不同尺度、不同深度纬度的可视化大数据资源的时空关联,实现可视化对象、事物内容、事件过程之间的多维尺度转换和重置,进而实现可视化大数据资源的语义关联分析。

视觉大数据资源可以提供视觉资源,理解视觉对象的行为,根据视觉对象的时空语义关系建立发展趋势模型,通过有效的组织、理解和描述,预测某一特定事物在某一阶段可能的行为情况。

针对可视化大数据资源的获取、组织、理解和描述,可以实现用户与可视化大数据资源的实时交互和反馈以及可视化对象知识库的构建。根据视觉对象的相似行为特征、时空相关性和实时交互结果,帮助人们制作、生产、操作和消费新的视觉资源,满足数字图书馆用户多样化的知识服务需求。

2.大数据环境下可视化搜索的应用及组织模式。

可视化大数据资源只有经过组织、分析、加工和整合,建立基于特定领域的数字图书馆可视化搜索平台,才能为用户提供大数据知识服务。不同学科、不同领域的可视化搜索模式,会有不同的可视化大数据资源获取、组织、加工、整合模式。正因如此,目前的应用大多是从知识服务和信息检索的角度,建立面向领域的可视化大数据资源整合平台,通过可视化搜索有效管理和利用可视化大数据资源,根据特定学科、专业、领域的知识服务需求提供服务,以满足各类大数据知识服务需求。

2.1基于深度学习的视觉搜索行业应用模式

传统的视觉搜索研究主要采用人工标注的方法对视觉资源的底层特征进行标注,然后采用机器学习的方法解决视觉资源之间的语义鸿沟、异构鸿沟以及语义关联等问题。基于人工标注的可视化大数据资源整合利用方法,要求标注者具备丰富的专业知识和行业应用经验,耗费大量时间和人力成本,准确率较低。与视觉资源特征的人工标注方法不同,深度学习一般是基于视觉资源特征的多层神经网络训练,然后对视觉特征进行学习,从而获得对视觉特征更加合理和差异化的理解和描述。大量研究证明,深度分析方法提取的视觉特征已经在图像分类识别、视觉场景识别、智能监控、语音识别、知识图谱构建等应用领域获得成功。视觉资源的显著特征提取与分割方法通过模拟人类视觉系统和生理认知系统,能够提取出视觉资源中的显著特征区域。目前相对最好的视觉资源特征提取方法,在开放的视觉大数据资源数据集上,具有95%左右的显著特征检测准确率和近92%的前景特征分割准确率,并且在近年来各种大规模的全球视觉资源分析识别竞赛中仍在不断提高。例如,在大规模视觉识别挑战赛(ILSVRC)中,谷歌研究组采用了改进的深度卷积网络Google Net,将图像识别的准确率提高到93%。Google团队利用基于深度分析的图像特征提取方法获得了微软图像标题生成挑战赛(MS COCO ICC)一等奖。悉尼科技大学、卡耐基梅隆大学、微软亚洲研究院和浙江大学都将深度分析方法与视觉对象的运动特征相结合来识别视觉资源的运动,分别获得前三名。

传统学术研究的理论成果往往需要很长时间的发展才能逐渐成熟并进入实际的产业应用。但无论是深度学习还是视觉搜索,都有很强的工程理论模型。一方面,它们在被学术界研究的同时,也受到工业界的关注和尝试;另一方面,因为工业领域(如谷歌、百度、微软等。)长期拥有大规模可视化大数据资源并一直活跃在多个情报学领域的研究前沿,他们在很多领域比学术界更有优势。比如谷歌的知识图谱,Google Now和谷歌街景地图,微软的语音助手Cortana,爱奇艺的大脑,脸书的图谱搜索,都是工业视觉搜索的经典应用案例。事实上,国外各大工业公司,如谷歌、脸书、微软,不仅在视觉搜索方面做了大量的研究,甚至在内部成立了专门的研究机构,国内的百度、华为、腾讯、阿里巴巴也不例外。

2.2基于知识计算的可视化搜索知识服务模式

研究数字图书馆领域视觉搜索的理论和应用的一个重要目的是为高校和科研机构的研究人员提供嵌入式协同知识服务。数字图书馆可视化搜索平台将海量的可视化大数据资源以及平台提供的可视化大数据资源的组织、分析和处理功能嵌入到知识服务过程中。

可视化大数据资源的整合与利用是国内外人工智能和信息检索领域的研究热点,具有非常广泛的应用和研究前景。事实上,作为视觉搜索的一个研究分支,近年来,很多个人(如中科院高工、北京大学高文黄铁军、南京大学朱清华)、机构(如浙大、清华、北大、中科院计算等)。)和企业(如爱奇艺、百度、腾讯、360、搜狗等))都在做相关的研究,美国麻省理工学院、加州大学伯克利分校、伊利诺伊大学和英国牛津大学起步较早,开发了相应的基于图像内容的图像搜索系统。

在上述所有相关研究中,都有一个典型的研究特点:研究的目的是解决视觉搜索的应用问题,相应的视觉搜索模式大多基于知识计算。由于可视化搜索需要组织、分析和处理的对象主要包括文本、图像、视频等蕴含大量价值的可视化资源,如何从可视化大数据资源中获取有价值的知识成为国外学术界和工业界的研究热点。以探索可视化大数据资源中蕴含的丰富而复杂的知识为目的的知识库称为可视化对象知识库。目前,基于文本、图像、音频、视频等视觉资源的知识库不下60种,基于这些视觉对象知识库的具体应用案例和系统平台有数百个。其中,典型的应用案例有维基百科的dbpedia(版本2014包含8.7万部电影,12.3万条记录,45万个对象等。)、谷歌的知识图谱(包括地标、城市、人名、建筑、电影、艺术品等5亿个搜索结果实体和350亿个相关知识条目)、脸书的图谱搜索(包括1亿用户、2400亿张图片、1亿次页面浏览量等。).

借助可视化搜索的相关理论和技术,对海量、异构、多样的可视化大数据资源进行研究,不仅可以丰富信息检索的外延和内涵,还可以有效解决目前数字图书馆面临的“大数据、少知识、少服务”的瓶颈,具有一定的应用价值和现实意义。

2.3基于语义分析的视觉内容关联组织模型

从现有的研究来看,视觉搜索的研究对象大多集中在文本和图像上,其中图像搜索是学者们努力的重点。视觉搜索的研究可以分为三个阶段:一是基于文本/元数据的图像搜索,始于20世纪70年代末。这种方法主要是通过人工标注元数据来描述图像,实现图像的信息检索功能。缺点是元数据标注费时费力,描述标准和反馈内容不完整,容易带有过多的主观色彩。第二,基于视觉内容的图像搜索方法是在20世纪90年代提出的。这种方法的本质是通过人工构建图像的底层视觉特征来比较图像相似度,进而实现图像搜索。缺点是图像底层视觉特征和高层语义之间的语义鸿沟没有得到很好的解决。第三种是20世纪初提出的基于深度学习的图像搜索方法。社交网络和用户生成的内容已经成为网络数据的主要来源。利用用户标签来组织、表达和理解图像语义已经成为研究的主流,深度学习方法已经融入到相关领域。

与图像搜索相比,视频表达和分析是视觉搜索中一个相对较新的研究领域。视频由大量的图像帧组成,图像帧之间存在紧密的时空和语义相关性,对视觉搜索技术要求较高。然而,由于深度学习在文本和图像搜索领域的成功,学者们开始借助深度学习框架来组织、理解和描述视频,特别是在视频特征提取的关键环节,采用了以下方法:一是视频静态关键帧特征描述。由于视频是由大量图像帧按时间序列和语义关联组成的,因此可以用深度学习的方法来学习静态视频帧(即图像关键帧)的特征。在具体应用中,一旦确定了合理的静态关键帧提取和编码方法,也可以形成良好的视频描述效果。二是动态视频时序特性的描述。有学者提出了密集轨迹法来分析视频,取得了很好的效果。三是前两种方法的有机结合。牛津大学的Simonyan等人提出用时空深度神经网络来分析视频。时间轴上的原始视频输入用于识别视频中的视觉对象,空间轴上的时序相关场输入用于识别视频中视觉对象的运动和轨迹。

目前国内外对于视觉内容的分析和表达也有大量的比赛。比如2013年美国佛罗里达大学组织的THUMOS竞赛,分析理解了海量视觉数据集中异构无序的视觉资源,此后每年都有相关研究开展。清华大学、浙江大学、香港中文大学、卡耐基梅隆大学、悉尼科技大学等国内外多所高校和科研机构积极参与了本次大赛。2011美国国家标准与技术研究院组织的TRECVID竞赛,研究了大规模视觉数据集中复杂视觉资源中的事件监控问题。近年来,大赛一直围绕这一主题开展相关研究,国内多所高校,如复旦大学、浙江大学、北京理工大学、同济大学等也在本次大赛中取得了一定的成果。

目前,虽然在可视化大数据资源的组织、分析、理解和利用方面有很多研究成果,但这些成果的最终目的都是应用于可视化搜索。近年来,一系列研究对可视化搜索及其在各行业和领域的应用和推广起到了积极的作用,这对于数字图书馆领域来说是一个积极的信号。

三大数据环境下视觉搜索研究的五个核心问题

虽然视觉搜索已经引起了业界和学术界(包括数字图书馆)的高度重视,但目前在国内还没有得到广泛的应用和推广,主要是相关技术和应用产品还没有完全成熟,存在视觉搜索性能不理想或不稳定、用户体验差、应用局限性强等问题。围绕这些问题,有必要从视觉搜索研究的基础理论和技术角度加以解决。从数字图书馆视觉搜索模式[1]的构建过程来看,视觉搜索研究主要包括五个核心问题,具体描述如下。

可视化大数据资源的获取和组织方法。互联网环境下可视化大数据资源的存在形式是动态无序和异构离散的,可视化资源的生产和发布是动态的。视觉资源所包含的信息内容包含许多异构的、复杂的信息主题,它们之间存在语义时空关系。然而,传统的基于人工标注的视觉资源标注方法往往不够准确。因此,如何快速获取所需的视觉资源是视觉搜索应用中的一个关键问题。与待搜索视觉对象无关的视觉资源的清洗和过滤,以及视觉大数据资源的有效组织,是视觉搜索应用的核心问题。

可视化大数据资源的理解和表达方法。为了在海量的视觉大数据资源中找到与待搜索对象一致的视觉资源,需要从待搜索视觉资源的特性分析和理解出发,对其视觉内容进行多样化、结构化、多层次的深入理解和表达。

可视化大数据资源的整合与交互方法。视觉搜索作为一种信息检索方式,为用户服务。获取、组织、理解和表达可视化大数据资源的目的是为用户提供智能化、人性化的知识服务。因此,如何围绕可视化大数据资源整合的全生命周期进行多维度分析,以满足用户对可视化大数据资源的多元化知识服务需求,也是可视化搜索研究能否成为现实的核心问题。

视觉对象知识库的构建与标准化。视觉搜索依赖于视觉对象知识库的构建。基于高质量的视觉对象知识库,用户可以快速有效地将待搜索的视觉对象与虚拟信息空间中的视觉大数据资源进行关联,从而享受数字图书馆提供的视觉搜索知识服务。同时,标准化也是视觉搜索应用顺利应用和推广的关键。

视觉搜索系统的安全性和可靠性理论。任何时候,网络安全和系统可靠性永远是无法回避的问题,视觉搜索也不例外。在视觉搜索系统中,数据安全和知识产权、用户隐私、系统可用性和可靠性也是视觉搜索能否有效推广应用的核心问题。

4总结与展望

在“互联网+”时代,信息服务越来越广泛地渗透到用户智能化、个性化、嵌入式的知识服务需求中,数字图书馆领域开始呼唤新的杀手级信息检索模式。视觉搜索是当前信息检索领域的重要前沿和创新突破。在充分吸收国内外情报学领域先进研究成果的基础上,开展数字图书馆可视化搜索的基础理论和应用研究,不仅有望从理论上丰富数字图书馆知识服务的研究思路和未来发展框架,也有利于揭示数字图书馆可视化大数据资源价值的生成机制和转化规律。

毫无疑问,人类正在向“互联网+时代”迈进。视觉搜索作为一种技术和理念创新,必须符合一般信息技术生存、发展和成熟的基本规律,需要经历六个阶段:技术诞生的萌芽阶段、快速进步的发展阶段、快速扩张的高峰阶段、消泡的低谷阶段、稳步发展的光明阶段和实际应用的高峰阶段。目前,国内外现有的视觉搜索研究处于发展阶段,理论与技术交叉后出现学科间的不平衡。目前,视觉搜索的理论、方法和技术的研究主要集中在商业视觉搜索的应用上,而对产生视觉大数据资源的学术领域关注较少。事实上,以科学研究、学科服务等学术领域为代表的可视化大数据资源,具有丰富的内涵和不同于商业应用的独特特征。只有全面掌握商业应用和学术领域的相关研究,才有助于建立更加科学、系统、合理的视觉搜索理论体系和应用框架。