好文档 - 专业文书写作范文服务资料分享网站

2020年体育视频的内容标注和解析技术研究

天下 分享 时间: 加入收藏 我要投稿 点赞

体育视频的内容标注和解析技术研究 这篇体育

视频的内容标注和解析技术研究的关键词是内容 , 研究, 体育,技术, 视频,

一, 开展本课题研究的意义

近年来 , 数字视频的应用日趋广泛 . 诸如视频点播 , 数字电视 , 数 字图书馆,视频会议,远程教育等等 ,已经为越来越多的人所接受和熟 悉.面对大量涌现的视频数据 , 如何找到所需的视频信息就成为一个 急需解决的问题 .

简单的视频名查询和类似录像机的播放功能已不能满足人们的 需要. 正如一本书通常会有目录和索引帮助人们迅速浏览和查询内容 一部视频同样需要有效的目录和索引 . 传统的方法需要由人对视频内 容进行标注,十分费时费力 .尤其是当视频资源的数量达到海量级 ,或 是处理的速度要求接近实时的时候 , 完全采用人工的方法都会遇到难 以克服的困难 .为了解决这一问题 ,九十年代以来 ,出现了基于内容的 视频分析和检索 [1][2][3]. 其核心就是通过对视频内容进行计算机 分析理解,建立结构和语义索引 ,以方便用户检索 .

巨大的商业前景和重要的学术价值 , 吸引了于业界和学术界不 同领域的研究人员在这一问题上开展研究 . 一些原型系统先后被提出 主要有 IBM的 QBIC/CueVideo[4][5],Virage 公司的 VideoEngine[6], 卡内基梅隆大学的 Informedia[7], 哥伦比亚大学的 VideoQ[8] 等. 这 些努力最终促成了国际标准一一 MPEG-7多媒体内容描述接口)的诞

生.但是随着问题的深入 , 研究人员面临了更大的障碍 :视觉/听觉内 容的机器理解 ,即难以建立底层特征与高层语义的联系 . 同样的难题 困扰了人工智能领域多年 .一般认为 ,寻找通用的解决方法是异常艰 难的.因此, 一

些研究转而专注于解决特定领域的应用问题 , 如新闻, 电影等.在这些特定领域 , 结合相应的领域知识 ,是可能将底层特征与 高层语义建立某种联系的 .

体育视频 , 即体育比赛的电视转播 , 作为一个重要的应用领域 , 一直备受关注 .体育比赛一般很漫长 , 但对于大多数观众来说 ,真正关 心并有可能反复观看的只是其中的一小部分 . 例如一场跳水比赛常常 需要持续几个小时 , 而其中的精彩部分——运动员从起跳到入水的过 程却只有短短几分钟 . 人们需要一种方便快捷的手段来访问体育视频 的内容.

与其他视频相比 , 体育视频具有自己的特点 .首先, 体育视频中 存在一些领域相关的语义事件 ,如跳水比赛中运动员的跳水 , 足球比 赛中的射门等 .这些语义事件往往是视频中最有价值的部分 , 需要进 行标注以便于检索 .其次, 体育比赛一般有较强的结构性 ,如跳水比赛 由若干轮组成 ,每轮又由若干选手组成等 . 为了便于对视频内容的浏 览,原始的视频数据应按这些结构进行解析并组织成层次目录 . 本课 题的目标就是研究针对体育视频内容的语义标注和结构解析技术 .

尽管限于当前的技术水平 ,完全自动的 ,通用的视频内容理解是 不太可能的 , 但是本课题的研究将证明部分的解决是有可能的和有价 值的,此外我们的研究也将为最终的全面解决奠定基础 . 除了学术上 的意义, 本课题的研究还可以有以下一些直接的应用 : 1,

视频资料库 : 适用于各类体育专业人士或爱好者对收集的体 育比

赛视频资料进行查询 , 浏览和管理 . 目前, 我们已申请到国家体育 总局的科研项目——跳水训练图像分析软件系统研制 . 通过对跳水比 赛视频的内容标注与解析 , 能够方便快捷的实现一个典型动作的视频 数据库.

2, Web 多媒体发布:适用于新闻或者体育网站在 Web上及时发布 体育多媒体信息 . 今天, 已经有越来越多人的习惯于从网上获取最新 的资讯. 基于我们的技术 , 可以在第一时间采编和发布综合图文和视 音频在内的体育多媒体信息 . 3,

个人移动业务 : 适用于无线服务提供商为个人提供定制的多 媒

体消息服务(MultimediaMessageService,简称MMS)我们的内容标 注和解析技术 , 可以为冗长的体育视频生成摘要 , 从而可以根据用户 的个人喜好和终端能力 , 向移动设备发送体育多媒体消息 .

二, 国内外研究现状分析

国际上对于体育视频的研究是从 90年代中期开始的 ,属于视频 检索领域的一个子课题 .与新闻视频领域取得的成功相比 [9][10][11], 体育视频的研究相对较少也更为困难 . 这主要是因为新 闻视频有一个基本一致的时域结构和场景语义 , 即先是播音员镜头 , 然后是新闻报道 , 最后再回到播音员镜头进行下面的新闻报道 , 而对 于体育视频则不存在这样统一的结构和语义 . 目前体育视频的研究尚 处于初期探索阶段 , 对于其过程和方法还没有统一的结论 , 也还没有 可以投入实用的系统 . 1, 镜头检测

通常在对体育视频进行分析前 ,需要将其分割成镜头 .所谓镜头 , 是指摄像机不间断拍摄的一组帧序列 , 它常被看成一部视频的最小结 构单元.为了将镜头分割出来 , 需要进行镜头边界检测 .镜头与镜头之 间的边界有两种类型 :突变和渐变 .突变时,镜头直接切换到下一个 ; 渐变时,从一个镜头到下一个镜头会有一个持续多帧的变化过程 , 常 见的主要有淡出

淡入 (fadeoutandfadein), 溶解 (dissolve), 擦变 (wipe) 等.淡出淡入是指视频帧逐渐隐去直到完全黑屏

, 再逐渐显现

后一镜头的帧图像 .溶解是指在前一镜头帧图像逐渐模糊的同时 , 后 一镜头的帧逐渐增强 , 并且产生前后帧图像的重叠 . 擦变表现为后一 镜头帧图像的区域逐渐变大把前一镜头的图像擦掉 .

镜头检测的关键问题是如何区分镜头之间的切换和因为摄像机 或物体运动造成的镜头内变化 .由于这个原因 , 渐变比突变更难以检 测.早期的工作主要在突变检测 , 近来更多的研究集中到对渐变的分 析.

镜头检测的方法可以分为两类 : 非压缩域的和压缩域的 .在 [12][13] 中,对各种非压缩域的镜头检测算法进行了实验评价

. 与非

压缩域的方法相比 , 基于压缩域的方法不需要对视频编码流进行解码 , 而是直接使用如DCT系数,运动矢量,宏块(macroblock)信息等压缩 域特征进行分析 , 从而提高了处理速度 [14][15][16][17]. 今天大量 的视频数据是以压缩格式(如MPEG存储的,因此基于压缩域的方法往 往具有更大的实用价值 . 2, 语义标注

所谓语义标注 , 是指对体育视频中的语义事件进行检测和标注 , 其实质就是依据事先定义好的类别对视频片段进行识别 .当前, 国内 外对体育视频研究实际上主要集中在这个方面 , 下面介绍一下相关工 作. Y.Gong 等首先提出了对足球比赛视频的分析 [18]. 他们结合足 球比赛的领域知识 ,通过场地白线识别 , 摄像机运动检测 , 足球和运动 员检测等分析 ,对视频内容进行推断 , 包括处在球场什么位置 ,射门, 角球等.例如,

如果场景接近球门区域而且足球有一个向球门的运动 ,

则可以推断这是一个射门 .实验结果表明 ,系统对于球场位置的识别 较为准确,达到 90%,但是射门和角球的识别率只有 53%,这主要是因 为高速运动和遮挡关系 , 使得足球的检测较为困难 .

哥伦比亚大学的PengXu等观察到足球比赛可以划分为两种状 态: 进行和暂停 ( 如因为球在界外或裁判暂定比赛 ). 他们开发了一个 能够检测视频中的足球比赛是在进行还是暂停的系统 [19]. 该系统对 足球视频分析分为两步 .首先, 根据颜色分析得出每一帧中的草地颜 色比率,使用这个特征将帧标注为三种:全景(globeview),近景 (zoom-inview) 和特写 (close-upview). 在检测的时候 , 算法可以对草 色和分类决策进行学习和自动调整 . 接着, 在对视频帧进行上述分类 标记后,根据经验总结的规则 (如全景一般是比赛进行 ,特写一般是比 赛中断等 )判断比赛是在进行还是暂停了 . 实验使用了四段不同足球 比赛的五分钟片断 ,检测准确率最好达到 86.5%,最坏只有 67.3%.

在另一篇文章里,他们使用了基于隐马尔科夫模型(HMM的统计 方法[20]. 根据足球视频的特点 , 选择主色比率 (dominant-colorratio) 和运动强度 (motionintensity) 为提取特征 . 他们为进行和暂停分别建立了各自的隐马尔科夫模型组 , 依据最大的 可能性对足球视频进行标注 . 与基于规则的方法相比 , 这种方法不需 要去直接建立复杂的分类规则和确定阈值 , 而是通过训练样本自动学 习.实验结果表明该方法较为有效而且表现稳定 , 对不同的测试集准 确率都在 80%以上 , 平均准确率达到 83.5%.

2020年体育视频的内容标注和解析技术研究

体育视频的内容标注和解析技术研究这篇体育视频的内容标注和解析技术研究的关键词是内容,研究,体育,技术,视频,一,开展本课题研究的意义近年来,数字视频的应用日趋广泛.诸如视频点播,数字电视,数字图书馆,视频会议,远程教育等等,已经为越来越多的人所接受和熟悉.面对大量涌现的视频数据,如何找到所需的视频信息就成为一
推荐度:
点击下载文档文档为doc格式
6wdtk6zc3d6trx01723y3gzju6vsnw00dl5
领取福利

微信扫码领取福利

微信扫码分享