Skip to main content
首页 > 新闻资讯 »正文

智能辨认技巧,让盘算机看懂世界

新闻资讯 adminsk 2017-10-12 09:12:21 查看评论 加入收藏

原题目:智能识别技术,让盘算机看懂世界

多模态内容的语义协同

前言

互联网发展之初受到网络带宽、数据存储等相关技术的限度,信息的流传以单模态情势为主,如文字报道、图像相册等。进入大数据时期,信息的传布变得丰盛多彩,人们从互联网中同时接收图像、视频、文本等不同模态的信息。例如,当咱们在互联网上阅读一篇出色的消息报道时,不仅能够看到具体的文字描写,还能看到记者在现场拍摄的照片,甚至还有相关的视频报道。这体现了互联网数据从单模态到多模态的改变。

跟着互联网多模态数据的大批呈现和传播,“管不住”和“用不好”两大问题也日益凸起。“管不住”是指多模态大数据中暗藏着大量涉恐、涉暴等有害信息,极大地迫害着国家平安和社会稳固,目前还缺少自动的分析与识别技术。“用不好”是指现有技术普通是单模态分析与识别,仅针对信息有限的单模态数据,难以对多模态数据进行有效利用。如何让计算机看懂世界,实现对互联网多模态大数据的有效监管与利用,是目前急需解决的重大问题。

针对上述问题,北京大学彭宇新教学团队在国度天然科学基金、国家863规划、国家科技支持打算等支撑下,历经10余年技术攻关,在图像视频概念检测、视觉目的检测、多模态数据分析与辨认、互联网舆情监测四个方面获得了多项重大技巧冲破跟发现翻新。在2016年北京市迷信技术奖评比中,“互联网多模态内容剖析与识别要害技术及利用”名目荣获一等奖。

突破单模态分析与识别技术

单模态分析与识别是突破互联网多模态内容识别的基础和关键技术。图像、视频和文本是单模态信息的重要形式,如何使计算性能够自动分析与识别图像、视频和文本的内容便成为了研究与应用的难点问题。

图像、视频中个别包含某种语义概念,如篮球比赛、奥运会等;同时也包含视觉目标,如行人、汽车、旗号等。

“固然人类能够很轻易地识别与懂得这些概念与目标,但在计算机看来,数字图像就是由一个个像素点形成,这样人类的语义概念及视觉目标与计算机看到的二进制数值之间就存在难以超越的‘语义鸿沟’。”北京大学彭宇新说。

因为图像、视频的语义概念比拟形象、视觉目标复杂多变,如“奥运会”这一律念很难从视觉上准断定义,而“旗帜”等目标不具备固定的状态,导致计算机主动分析与识别的难度很大。

彭宇新团队针对图像视频概念检测困难,发明了基于注意力模型和增量深度学习的分类方法,一方面留神力模型可以定位图像的明显性区域以进步检测精度,中国将来三年最暴力的行业,这两个风口将让十万人飞起来!;另一方面增量学习在新概念增添进程中,可能利用已经学习到的知识加速新知识学习,同时通过动态扩容以支持新概念的检测。该方法使得特定概念的检测精度突破90%。针对复杂场景下视觉目标检测问题,发明了级联分类器与极角拓扑束缚相联合的判断方法,一方面通过级联分类器从海量数据中疾速筛选出可能包含特定目标的候选区域,加快检测速度;另一方面通过极角拓扑约束对候选区域进行二次判别,提高检测精度。该方法提高了低辨别率、形变、仿射变换等庞杂情形下的检测后果,使得特定视觉目标检测精度打破90%。基于上述研究结果,彭宇新传授团队加入了国际权威评测TRECVID的视频高层概念检测比赛,失掉第一名,参赛步队包含卡内基梅隆大学、牛津大学、IBM Watson研究核心等国际有名大学和研讨机构。

在文本内容分析上,热门话题检测与敏感信息发明是互联网舆情监测的两个重要应用需要,终于把知识、见识跟认知都说明白了 青腾大学。热点话题与敏感信息通常包括特定的人名、地名、机构名等实体信息,有效地识别实体信息是文本内容分析的症结。针对上述问题,项目团队创造了基于常识元的多模态语义分析办法和基于感情观点的话题追踪方式,有效解决了互联网内容的语言标准性差、噪音大、时效性高导致实体难以识别和应用的问题。在国际威望评测TREC 2014年和2015年的微博信息检索竞赛中取得第一名。

多模态内容的语义协同

“与互联网数据的发展趋势一样,我们的研究思路也是从‘单’到‘多’,以单模态内容的分析与识别技术为基本,重点研究多模态内容的分析与识别技术。”彭宇新说到。

多模态数据在语义表白上存在“共通性”,在内容上也是相互关系的。据此,项目团队提出了基于多模态分解与融会的语义协同方法,综合分析图像、视频、文本等多模态内容以获得更加全面正确的识别成果,并通过跨模态语义互补性实现多模态数据的综合分析与有效利用。

项目团队首先提出了多模态分解方法,能够对包含一种或多种模态的输入数据,依照模态的不同自动分发到对应的分析与识别模块,NASA宣布令人赞叹的木星影像。例如,对视频,首进步行镜头宰割和关键帧提取,而后分发到镜头检索、片段检索、概念检测、视觉目标检测、人脸识别和视频字幕识别等模块。基于多模态信息的散发结果,对各模态内容分辨进行分析与识别,提取文本、图像、视频镜头、视频片断、视觉对象(如视觉目标、人脸)等语义描述信息。进一步对多模态数据进行关联分析,构建多模态关联图来融合不同模态的分析结果,从跨模态关联层面改正单模态语义描述中的过错结果,以实现多模态信息的语义协同优化。

基于上述成果,项目团队于2009年—2016年屡次参加国际权威评测TRECVID的视频语义搜寻比赛,均获得第一名。

管住与用好互联网大数据

“除了‘科技顶天’,在关键核心技术上取得突破,我们也寻求‘市场破地’,将我们的技术实现工业化,服务于社会。这也是我们北大计算机研究所的创建者王选院士对我们的请求。”彭宇新说道。

瞄准互联网大数据 “管不住”和“用不好”这两大难题,项目团队以上述技术为中心,构成了互联网多模态内容分析与识别系统、方正智思互联网舆情监测分析系统、方正智思智能分析系统等系列产品,实现了对互联网文本、图像、视频等多模态内容的全面监测与数据利用。

项目团队的体系和产品已胜利运用于国家相干部分等上百家主要单位,涵盖多个行业范畴,在保护我国互联网内容保险、增进网络文明健康发展等方面施展了宏大作用。

小编:小新

起源:科技日报

申明:本文转载仅仅是出于传播信息的须要,并不象征着代表本网站观点或证明其内容的实在性;如其余媒体、网站或个人从本网站转载应用,须保存本网站注明的“来源”,并自信版权等法律义务;作者假如不盼望被转载或者联系转载稿费等事宜,请与我们联系。

大众号、报刊等转载请接洽受权

廉富镯担负履行主编,