首页 > 论文发表知识库 > 视频压缩算法研究现状论文范文

视频压缩算法研究现状论文范文

发布时间:

视频压缩算法研究现状论文范文

论文题目是:数字电视接收机的视频压缩技术 帮写内容:(1)选题依据及研究意义; (2) 选题研究现状; (3)研究内容(包括基本思路、框架、主要研究方式、方法 等) 一共是三点,请大家教一下我这三点该怎么写?! 注明:论文我已经写好了:下面是论文提纲(含论文选题、论文主体框架) 论文选题:数字电视接收机的视频压缩技术 第一章:绪论 一、数字电视的发展及视频压缩的必要性; 二、视频图象数字压缩的客观依据; 三、数字电视与接收机(机顶盒); 四、电视信号模数转换标准; 第二章:数字电视机顶盒技术 一、什么是数字电视机顶盒; 二、数字电视机顶盒的基本原理; 三、数字电视机顶盒的结构; 四、数字电视机顶盒的主要技术; 第三章:视频压缩编码技术 一 空间或时间性编码; 二. 加权; 三. 遍历(Scannng); 四. 熵编码; 五. 空间性编码器; 六. 时间性编码; 七. 运动补偿; 八. 双向编码; 九. I、P 和B 画面; 十. MPEG 压缩器; 十一. 预处理; 十二. 类和级; 十三. 小波; 第四章:视频图象压缩标准 一、H.261标准; 二、JPEG标准; 三、MPEG-1压缩编码标准; 四、MPEG-2压缩编码标准; 五、MPEG-4压缩编码标准; 结束语 ; 参考文献 ;问题补充:题目是学校帮我选择的! 大家可以帮忙把这三点写一下吗? 我真不知道该怎么写! 或者大家帮我写前两点也好了~ 谢谢帮我忙的所有朋友! 拜托各位了!我开题16号就要交了看看这个能不能帮您! 一、如何选择问题 我一起萦绕于怀的,是在写博士论文开题报告的一年多时间里,导师薛澜教授反复追问的一个问题:“你的 puzzle 是什么?”多少次我不假思索地回答“我的问题就是,中国的半导体产业为什么发展不起来。”薛老师问题以其特有的储蓄,笑而不答。我在心中既恼火又懊丧:这么简单的道理,这么明显的答案,到底哪儿不对了?! 奥妙就在于提出问题的“层次”。不同于政策研究报告,学术文章聚集理论层面、解决理论问题。理论是由一系列前设和术语构造的逻辑体系。特定领域的理论有其特定的概念、范畴和研究范式。只有在相同的概念、视角和范式下,理论才能够对话;只有通过对话,理论才能够发展。极少有硕博论文是创造新理论的,能这样当然最好,但难度很大。我们多数是在既有理论的基础上加以发展,因此,在提出问题时,要以“内行”看得懂的术语和明确的逻辑来表述。审视我最初提出的问题“中国半导体产业为什么发展不起来”,这仅仅是对现象的探询,而非有待求证的理论命题。我的理论命题是:“中国产业政策过程是精英主导的共识过程吗?”在这个命题中,“政策过程”、“精英政治”、“共识诉求”三个术语勾勒出研究的理论大体范围和视角。 其次,选择问题是一个“剥笋”的过程。理论问题总是深深地隐藏在纷繁复杂的现实背后,而发现理论问题,则需要运用理论思维的能力。理论思维的训练是一个长期积累的过程。不过初学者也不必望而却步,大体上可以分“三步走”:第一步,先划定一个“兴趣范围”,如半导体产业、信息产业、农村医疗、高等教育体制等,广泛浏览相关的媒体报道、政府文献和学术文章,找到其中的“症结”或“热点”。第二步,总结以往的研究者大体从哪些理论视角来分析“症结”或“热点”、运用了哪些理论工具,如公共财政的视角、社会冲突范式等。第三步,考察问题的可研究性,也就是我们自己的研究空间和研究的可行性。例如,西方的理论是否无法解释中国的问题?或者同一个问题能否用不同的理论来解释?或者理论本身的前提假设、逻辑推演是否存在缺陷?通过回答这些问题,我们找到自己研究的立足点。不过还要注意我们研究在规定的一到两年时间内,是否可能完成?资料获取是否可行?等等。 最后,如何陈述问题?陈述问题实质上就是凝练核心观点的过程。观点应当来自对现实问题的思考和总结,而不是为了套理论而“削足适履”。中国的政治、经济和社会发展充满动态的、丰富的景象,如何才能用恰当的术语、准确的逻辑表述出来呢?雄心勃勃的初学者往往提出宏伟的概念或框架,但我的建议是尽可能缩小研究范围、明确研究对象,从而理清对象的内存逻辑,保证能在有限的时间内完成规范的学 术论文。如“中国半导体产业政策研究”就是一个非常含糊的陈述,我们可以从几个方面来收缩话题:( 1 )时间:从 1980 年到 2000 年;( 2 )对象:政府的叛乱者和决策行为,而不是市场、企业、治理结构等;( 3 )视角:政治和政府理论中的精英研究;( 4 )案例: 908 工程、 909 工程、 13 号文件和《电子振兴》,这是发生在 1980 - 2000 年间半导体政策领域的两个重大工程和两个重要文件。通过这样的明确界定,我们将目光集中在“政策过程”、“精英”、“共识”几个显而易见的概念上,问题也就水落石出了。同时,问题清楚了,我们在筛选信息和资料时也就有了明确的标准,在这个“信息冗余”的时代,能够大大提高研究效率。 二、 如何做文献综述 首先需要将“文献综述( Literature Review) ”与“背景描述 (Backupground Description) ”区分开来。我们在选择研究问题的时候,需要了解该问题产生的背景和来龙去脉,如“中国半导体产业的发展历程”、“国外政府发展半导体产业的政策和问题”等等,这些内容属于“背景描述”,关注的是现实层面的问题,严格讲不是“文献综述”,关注的是现实层面问题,严格讲不是“文献综述”。“文献综述”是对学术观点和理论方法的整理。其次,文献综述是评论性的( Review 就是“评论”的意思),因此要带着作者本人批判的眼光 (critical thinking) 来归纳和评论文献,而不仅仅是相关领域学术研究的“堆砌”。评论的主线,要按照问题展开,也就是说,别的学者是如何看待和解决你提出的问题的,他们的方法和理论是否有什么缺陷?要是别的学者已经很完美地解决了你提出的问题,那就没有重复研究的必要了。 清楚了文献综述的意涵,现来说说怎么做文献综述。虽说,尽可能广泛地收集资料是负责任的研究态度,但如果缺乏标准,就极易将人引入文献的泥沼。 技巧一:瞄准主流。主流文献,如该领域的核心期刊、经典著作、专职部门的研究报告、重要化合物的观点和论述等,是做文献综述的“必修课”。而多数大众媒体上的相关报道或言论,虽然多少有点价值,但时间精力所限,可以从简。怎样摸清该领域的主流呢?建议从以下几条途径入手:一是图书馆的中外学术期刊,找到一两篇“经典”的文章后“顺藤摸瓜”,留意它们的参考文献。质量较高的学术文章,通常是不会忽略该领域的主流、经典文献的。二是利用学校图书馆的“中国期刊网”、“外文期刊数据库检索”和外文过刊阅览室,能够查到一些较为早期的经典文献。三是国家图书馆,有些上世纪七八十年代甚至更早出版的社科图书,学校图书馆往往没有收藏,但是国图却是一本不少(国内出版的所有图书都要送缴国家图书馆),不仅如此,国图还收藏了很多研究中国政治和政府的外文书籍,从互联网上可以轻松查询到。 技巧二:随时整理,如对文献进行分类,记录文献信息和藏书地点。做博士论文的时间很长,有的文献看过了当时不一定有用,事后想起来却找不着了,所以有时记录是很有必要的。罗仆人就积累有一份研究中国政策过程的书单,还特别记录了图书分类号码和藏书地点。同时,对于特别重要的文献,不妨做一个读书笔记,摘录其中的重要观点和论述。这样一步一个脚印,到真正开始写论文时就积累了大量“干货”,可以随时享用。 技巧三:要按照问题来组织文献综述。看过一些文献以后,我们有很强烈的愿望要把自己看到的东西都陈述出来,像“竹筒倒豆子”一样,洋洋洒洒,蔚为壮观。仿佛一定要向读者证明自己劳苦功高。我写过十多万字的文献综述,后来发觉真正有意义的不过数千字。文献综述就像是在文献的丛林中开辟道路,这条道路本来就是要指向我们所要解决的问题,当然是直线距离最短、最省事,但是一路上风景颇多,迷恋风景的人便往往绕行于迤逦的丛林中,反面“乱花渐欲迷人眼”,“曲径通幽”不知所终了。因此,在做文献综述时,头脑时刻要清醒:我要解决什么问题,人家是怎么解决问题的,说的有没有道理,就行了。 三、如何撰写开题报告 问题清楚了,文献综述也做过了,开题报告便呼之欲出。事实也是如此,一个清晰的问题,往往已经隐含着论文的基本结论;对现有文献的缺点的评论,也基本暗含着改进的方向。开题报告就是要把这些暗含的结论、论证结论的逻辑推理,清楚地展现出来。 写开题报告的目的,是要请老师和专家帮我们判断一下:这个问题有没有研究价值、这个研究方法有没有可能奏效、这个论证逻辑有没有明显缺陷。因此,开题报告的主要内容,就要按照“研究目的和意义”、“文献综述和理论空间”、“基本论点和研究方法”、“资料收集方法和工作步骤”这样几个方面展开。其中,“基本论点和研究方法”是重点,许多人往往花费大量笔墨铺陈文献综述,但一谈到自己的研究方法时但寥寥数语、一掠而过。这样的话,评审老师怎么能判断出你的研究前景呢?又怎么能对你的研究方法给予切实的指导和建议呢? 对于不同的选题,研究方法有很大的差异。一个严谨规范的学术研究,必须以严谨规范的方法为支撑。在博士生课程的日常教学中,有些老师致力于传授研究方法;有的则突出讨论方法论的问题。这都有利于我们每一个人提高自己对研究方法的认识、理解、选择与应用,并具体实施于自己的论文工作中。

本文作者王军先生,电子科技大学通信与信息工程学院通信抗干扰技术重点实验室助教、硕士;吴军蹄女士,通信与信息工程学院教授。3 视频压缩标准视频编码标准主要由ITU-T和ISO/IEC开发。前者已经发布了视频会议标准、 、 ,并且准备进行远期编码标准的开发,以期望获得更大的编码效率。ISO/IEC的标准系列是大家熟悉的MPEG家族。包括:(1)MPEG-1(1988~1992),可以提供最高达的数字视频,只支持逐行扫描;(2)MPEG-2(1990~1994),支持的带宽范围从2Mbps到超过20Mbps,MPEG-2后向兼容MPEG-1,但增加了对隔行扫描的支持,并有更大的伸缩性和灵活性;(3)MPEG-4(1994~1998),支持逐行扫描和隔行扫描,是基于视频对象的编码标准,通过对象识别提供了空间的可伸缩性;(4)MPEG-7(1996~2000),是多媒体内容描述接口,与前述标准集中在音频/视频内容的编码和表示不同,它集中在对多媒体内容的描述。除了上述通用标准外,还存在很多专用格式,比较流行的有:C-Cube的M-JPEG、Intel的IVI(tm)(Indeo Video Interactive)、Apple的QuickTime(tm)、Microsoft的 Media Player(tm)和RealNetworks的RealPlayer(tm)。二 数字视频传输根据承载网络的变化和视频服务的区别,可以将数字视频的传输分为四类:数字电视、宽带视频通信、Internet视频流通信、蜂窝移动视频通信。虽然这四种通信体系下对视频通信的协议和服务有不同的要求,但对于实时应用下述几点是必须满足的:(1)传输必须限制在一定时限内完成;(2)必须对端到端的抖动建议限制;(3)必须有相应的同步机制;(4)在分组网络中应当有较高的优先级。1 数字电视广播欧洲走在了全球DVB开发最前面,将其采纳为数字电视DTV的标准;在美国,ATSC采用了HDTV;在亚太地区,日本采用了基于DVB和ATSC的ISDB-T,澳大利亚采用了DVB,韩国则采用了ATSC标准,我国也在制定数字电视的标准,并进行了现场试验。下面我们以欧洲的DTV标准为主分别介绍DTV系统规范和传输技术。系统规范根据传输系统的不同,DTV系统分为三类:陆基系统 DTV-T、卫星系统 DTV-S、有线系统 DTV-C。这三类DTV系统虽然各有不同,但也有公共的特性,MPEG-2视频和音频编码系统是所有DTV系统的基础。系统采用MPEG-2将数据压缩并组装成分组,称为净荷。对净荷采用Reed-Solomon前向纠错编码,降低信号传输中引入的误码。卫星系统采用单载波信号,采用外部编码的同时,内部加入了打孔卷积编码,从而又增加了一层误码纠错能力,根据带宽的变化和采用的特定设备,编码数据是可调整的,信号采用QPSK方式调制。陆基系统联合使用码正交频分复用 COFDM或者QPSK或QAM进行射频调制,采用了和卫星系统相似的打孔卷积编码。有线系统采用了QAM调制方案,不需要附加的内部编码来降低误码,系统优化采用64-QAM。b. DTV系统传输结构DTV系统广播和接收的基本结构由三个子系统构成:(1)信源编码和压缩子系统,通过ADC接受模拟视频和音频信号并将其转换成数字比特流,然后通过MPEG-2进行压缩,并加入控制和辅助数据;(2)服务复用和传递子系统,复用将视频和音频及辅助数据流联合构成长188字节的分组,并加上标记,分组构成单个数据流,采用MPEG-2传递系统语法控制这些复用任务;(3)传输子系统,包括对复用数据流的信道编码和调制。2 宽带视频通信这里讨论的宽带视频通信主要是指基于宽带核心网络和宽带接入技术的MPEG-2视频通信。为了满足实时视频通信对带宽的需求,核心网络通常采用宽带光纤网络,可以是ATM或者基于MPLS的宽带IP与ATM的结合,最后一公里的宽带接入的方法有光纤到户、光纤到楼双绞线到户及ADSL,最近也提出了宽带无线接入技术。通常,来自多个链路的数据业务在数字用户线路接入复用器(DSLAM)汇总。DSLAM将ATM业务路由到家中的ADSL接收器单元,同时,滤掉低频段的旧电话业务POTS 。在MPEG-2视频的情形下,ATM边界设备减轻信元的时延抖动的能力至关重要。ATM必须应付数据传输的需要并提供管理每个视频流的功能,特别要满足按序提取视频分组的要求。为了补偿网络传输延时,ATM网络边界设备必须精心设计以处理MPEG交换和抖动管理。本地MPEG-2视频流通过数字视频广播异步串行接口传输。ATM边界设备将MPEG-2多节目传输流(MPTS)或单节目传输流(SPTS)拆解到节目层并最终到分组标记(PID)层。在PID层,不同的节目流可以重新排序并复用进另外的MPTS。在ATM边界接收端,另外的边界设备管理ATM信元流,并重构SPTS或MPTS。本地的服务分布网络负责在本地的UTP网络分发视频内容。功能强大的MPEG-2压缩算法结合智能的ATM边界设备允许最后接入利用DSL技术作为视频分发的接入机制。(未完待续)相关信息:1.前言数字视频产品需求近些年出现猛增。主流应用包括视频通信、安全监控与工业自动化,而最热门的要算娱乐应用,如 DVD、HDTV、卫星电视、高清 (HD) 机顶盒、因特网视频流、数码相机与 HD 摄像机、视频光盘库 (video jukebox)、高端显示器(LCD、等离子显示器、DLP)以及个人摄像机等。众多精彩的新应用目前也处于设计或前期部署中,例如针对家庭与手持设备及地面/卫星标准(DVB-T、DVB-H、DMB)的高清 DVD(蓝光/HD-DVD)和数字视频广播、高清视频电话、数码相机以及 IP 机顶盒。由于手持终端计算能力的提高以及电池技术与高速无线连接的发展,最终产品的移动性与集成性也在不断提高。视频压缩是所有令人振奋的、新型视频产品的重要动力。压缩-解压(编解码)算法可以实现数字视频的存储与传输。典型的编解码器要么采用行业标准,如 MPEG2、MPEG4、 与 AVS,要么采用专有算法,如 On2、Real Video、Nancy与Windows Media Video (WMV) 等。WMV 是个例外——它最初是微软公司的专有算法,而现在则以 VC-1 的新名称在业界实现了标准化。编解码技术在过去十年中不断改进。最新的编解码技术( 与 VC-1)代表着第三代视频压缩技术。这两种编解码技术利用如可编程 DSP 与ASIC 等低成本 IC 的处理能力,都能够达到极高的压缩比。不过,为具体应用选择正确的编解码器并优化其实时处理仍然是一项巨大的挑战。最佳的设计必须权衡压缩效率及可用的计算能力。此外,如何在计算能力有限的情况下获得最佳压缩效率也是一门大学问。在本文中,我们首先概述视频编码的主要概念,同时介绍传统压缩标准。然后我们重点介绍其中包括 、WMV9/VC-1与AVS 等在内的最新编解码技术的功能,此外,还将深入探讨压缩能力与复杂性之间的权衡。最后,讨论市场中可能会影响主流视频编解码器未来的实时处理与主要趋势。数字视频的主要挑战在于原始或未压缩的视频需要存储或传输大量数据。例如,标准清晰度的 NTSC 视频的数字化一般是每秒 30 帧速率,采用 4:2:2 YcrCb 及 720(480,其要求超过 165Mbps 的数据速率。保存 90 分钟的视频需要 110GB 空间,或者说超过标准 DVD-R 存储容量的 25 倍。即使是视频流应用中常用的低分辨率视频(如:CIF:352x288 4:2:0、30 帧/秒)也需要超过 的数据速率,这是 ADSL 或 3G 无线等宽带网络速度的许多倍。目前的宽带网可提供 1~10Mbps 的持续传输能力。显然数字视频的存储或传输需要采用压缩技术。视频压缩的目的是对数字视频进行编码——在保持视频质量的同时占用尽可能少的空间。编解码技术理论依据为信息理论的数学原理。不过,开发实用的编解码技术需要艺术性的精心考虑。3. 压缩权衡在选择数字视频系统的编解码技术时需要考虑诸多因素。主要因素包括应用的视频质量要求、传输通道或存储介质所处的环境(速度、时延、错误特征)以及源内容的格式。同样重要的还有预期分辨率、目标比特率、色彩深度、每秒帧数以及内容和显示是逐行扫描还是隔行扫描。压缩通常需要在应用的视频质量要求与其他需求之间做出取舍。首先,用途是存储还是单播、多播、双向通信或广播?对于存储应用,到底有多少可用的存储容量以及存储时间需要多久?对于存储之外的应用,最高比特率是多少?对于双向视频通信,时延容差或容许的端到端系统延迟是多少?如果不是双向通信,内容需要在脱机状态提前完成编码还是需要实时编码?网络或存储介质的容错能力如何?根据基本目标应用,不同压缩标准以不同方式处理这些问题的权衡。另一方面是需要权衡编解码实时处理的成本。如 或 WMV9/VC-1等能够实现较高压缩比的新算法需要更高的处理能力,这会影响编解码器件的成本、系统功耗以及系统内存。4. 标准化机构在视频编解码技术定义方面有两大标准机构。国际电信联盟 (ITU) 致力于电信应用,已经开发了用于低比特率视频电话的 标准,其中包括 、、 与 ;国际标准化组织 (ISO) 主要针对消费类应用,已经针对运动图像压缩定义了 MPEG 标准。MPEG 标准包括 MPEG1、MPEG2 与 MPEG4。图 1 说明了视频编解码标准的发展历程。MPEG 与 ISO 根据基本目标应用往往做出稍有不同的取舍。有时它们也会开展合作,如:联合视频小组 (JVT),该小组定义了 编解码技术,这种技术在 MPEG 系列中又被称为 MPEG4-Part 10 或 MPEG4 高级视频编解码 (AVC)。我们在本文中将这种联合标准称为 。同样, 对应 MPEG2,而 基本规范类 (Baseline Profile) 技术在原理方面与 MPEG4 简单类 (Simple Profile) 编解码技术存在较多重复。标准对编解码技术的普及至关重要。出于规模经济原因,用户根据可承受的标准寻找相应产品。由于能够保障厂商之间的互操作性,业界乐意在标准方面进行投资。而由于自己的内容可以获得较长的生命周期及广泛的需求,内容提供商也对标准青睐有加。尽管几乎所有视频标准都是针对少数特定应用的,但是在能够适用的情况下,它们在其他应用中也能发挥优势。图1:ITU 与 MPEG 标准的发展历程 [10]为了实现更好的压缩及获得新的市场机遇,ITU 与 MPEG 一直在不断发展压缩技术和开发新标准。中国最近开发了一种称为 AVS 的国家视频编码标准,我们在后面也会做一介绍。目前正在开发的标准包括 ITU/MPEG 联合可扩展视频编码 (Joint Scalable Video Coding)(对 H264/ AVC 的修订)和MPEG 多视角视频编码 (Multi-view Video Coding)。另外,为了满足新的应用需求,现有标准也在不断发展。例如, 最近定义了一种称为高精度拓展 (Fidelity Range Extensions) 的新模式,以满足新的市场需求,如专业数字编辑、HD-DVD 与无损编码等。除了 ITU 与 ISO 开发的行业标准以外,还出现了几种专用于因特网流媒体应用、广受欢迎的专有解决方案,其中包括 Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy。由于这些格式在内容中得到了广泛应用,因此专有编解码技术可以成为业界标准。2003 年 9 月,微软公司向电影与电视工程师学会 (SMPTE) 提议在该机构的支持下实现 WMV9 位流与语法的标准化。该提议得到了采纳,现在 WMV9 已经被 SMPTE 作为 VC-1 实现标准化。5. 视频编码原理我们感兴趣的所有视频标准都采用基于模块的处理方式。每个宏模块一般包含 4 个 8(8 的光度块和 2 个 8(8 的色度块(4:2:0 色度格式)。视频编码基于运动补偿预测(MC),变换与量化及熵编码。图 2 说明的是一种典型的、基于运动补偿的视频编解码技术。在运动补偿中,通过预测与最新编码的("参考")视频帧处于同一区域的视频帧中各宏模块的像素来实现压缩。例如,背景区域通常在各帧之间保持不变,因此不需要在每个帧中重新传输。运动估计 (ME) 是确定当前帧——即与它最相似的参考帧的 16(16 区域中每个 MB 的过程。ME 通常是视频压缩中最消耗性能的功能。有关当前帧中各模块最相似区域相对位置的信息("运动矢量")被发送至解码器。MC 之后的残差部分分为 8(8 的模块,各模块综合利用变换编码、量化编码与可变长度编码技术进行编码。变换编码(如:离散余弦变换或 DCT)利用残差信号中的空间冗余。量化编码可以消除感知冗余 (perceptual redundancy) 并且降低编码残差信号所需要的数据量。可变长度编码利用残差系数的统计性质。通过 MC 进行的冗余消除过程在解码器中以相反过程进行,来自参考帧的预测数据与编码后的残差数据结合在一起产生对原始视频帧的再现 。图 2:标准运动补偿视频编码在视频编解码器中,单个帧可以采用三个模式中的一个进行编码 —— 即 I、P 或 B 帧模式(见图 3)。几个称为 Intra (I) 的帧单独编码,无需参考任何其他帧(无运动补偿)。某些帧可以利用 MC 编码,以前一个帧为参考(前向预测)。这些帧称为预测帧 (P)。B 帧或双向预测帧通过之前的帧以及当前帧的后续帧进行预测。B 帧的优势是能够匹配堵塞在采用前向预测的上一帧中的背景区域。双向预测通过平衡前向及后向预测可以降低噪声。在编码器中采用这种功能会要求更多处理量,因为必须同时针对前向及后向预测执行 ME,而这会明显使运动估计计算需求加倍。为了保存两个参考帧,编码器与解码器都需要更多内存。B 帧工具需要更复杂的数据流,因为相对采集及显示顺序而言,帧不按顺序解码。这个特点会增加时延,因此不适合实时性较高的应用。B 帧不用于预测,因此可以针对某些应用进行取舍。例如,在低帧速应用中可以跳过它们而不会影响随后 I 与 P 帧的解码。图3:I、P 与 B 帧间预测图示6. 传统视频编码标准 编制的 [2] 标准是第一个主流视频压缩标准。它主要针对双工视频会议应用,是为支持 40kpbs~2Mbps 的 ISDN 网络而设计的。 支持 352(288 (CIF) 及 176(144 (QCIF) 分辨率,色度分辨率二次采样为 4:2:0。由于可视电话需要同步实时编解码,因此复杂性设计得较低。由于主要用于对延迟敏感的双向视频,因此 仅允许采用 I 与 P 帧,而不允许 B 帧。 采用基于块的 DCT 进行残差信号的变换编码。DCT 把像素的每个 8(8 块映射到频域,产生 64 个频率成分(第一个系数称为 DC,其他的称为 AC)。为了量化 DCT 系数, 在所有 AC 系数中采用固定的线性量化。量化后的系数进行行程编码,其可以按非零系数描述量化的频率,后面跟随一串零系数,在最后一个非零值之后以块代码结束。最后,可变长度编码 (Huffman) 将运行级别对 (run-level pair) 转换成可变长度编码 (VLC),其比特长度已针对典型概率分布进行过优化。基于标准块的编码最终产生模块化视频。 标准利用环路滤波避免这种现象。在模块边缘采用的简单 2D FIR 滤波器用于平滑参考帧中的量化效应。必须同时在编码器及解码器中精确地对每个比特应用上述滤波。MPEG-1MPEG-1[3] 是 ISO 开发的第一个视频压缩算法。主要应用是数字媒体上动态图像与音频的存储与检索,如速率为 、采用 SIF 分辨率(352(240 - 或者 352(288 - 25 fps)的VCD。MPEG-1 与 相似,不过编码器一般需要更高的性能,以便支持电影内容的较高运动性而不是典型的可视电话功能。与 相比,MPEG1 允许采用 B 帧。另外它还采用自适应感知量化,也就是说,对每个频段采用单独的量化比例因子(或等步长),以便优化人们的视觉感受。MPEG-1 仅支持逐行视频,因此新标准——MPEG2 已经开始做出努力,同时支持分辨率及比特率更高的逐行与隔行视频。MPEG-2/[4] 专门针对数字电视而开发,很快成为了迄今最成功的视频压缩标准。MPEG-2 既能够满足标准逐行视频的需求(其中视频序列由一系列按一定时间间隔采集的帧构成),又能够满足电视领域常用的隔行视频的需求。隔行视频交替采集及显示图像中两组交替的像素(每组称为一个场)。这种方式尤其适合电视显示器的物理特性。MPEG2 支持标准的电视分辨率,其中包括:针对美国和日本采用的 NTSC 制式隔行 720(480 分辨率,每秒 60 场,以及欧洲和其他国家采用的PAL 制式的 720(576 分辨率,每秒 50 场。MPEG-2 建立在 MPEG-1 基础之上,并具备扩展功能,能支持隔行视频及更宽的运动补偿范围。由于高分辨率视频是非常重要的应用,因此 MPEG-2 支持的搜索范围远远大于 MPEG-1。与之前的标准相比,它显著提高了运动估计的性能要求,并充分利用更宽搜索范围与更高分辨率优势的编码器需要比 和 MPEG-1 高得多的处理能力。MPEG2 中的隔行编码工具包含优化运动补偿的能力,同时支持基于场和基于帧的预测,而且同时支持基于场和基于帧的 DCT/IDCT。MPEG-2 在 30:1 左右的压缩比时运行良好。MPEG-2 在 4-8Mbps 时达到的质量适合消费类视频应用,因此它很快在许多应用中得到普及,如:数字卫星电视、数字有线电视、DVD 以及后来的高清电视等。另外,MPEG-2 增加了分级视频编码工具,以支持多层视频编码,即:时域分级、空域分级、SNR 分级以及数据分割。尽管 MPEG-2 中针对分级视频应用定义了相关类别 (profile),不过支持单层编码的主类 (Main Profile) 是当今大众市场中得到广泛应用的唯一 MPEG-2 类。MPEG-2 通常称为 MPEG-2 主类。MPEG-2 解码最初对于通用处理器及 DSP 具有很高的处理要求。优化的固定功能 MPEG-2 解码器开发已问世,由于使用量较高,成本已逐渐降低。MPEG2 证明低成本芯片解决方案的供应是视频编解码标准成功和普及的关键。[5] 在 之后得到开发,主要是为了以更低的比特率实现更高的质量。其主要目标之一是基于普通 电话调制解调器的视频。目标分辨率是 SQCIF (128(96)~CIF (352(288)。其基本原理与 大同小异。 的运动矢量在两个方向上允许是 1/2 的倍数(“半像素”),参考图像以数字方式内插到更高的分辨率。这种方法可以提高 MC 精度及压缩比。MV 可采用更大的范围。为不同方案提供许多新的选项,包括:* 4 个运动矢量——每个块采用一个运动矢量,而非整个 MB 采用单个运动矢量。* 3D VLC:Huffman 编码——将块结束 (EOB) 指示符与每个运行级别对结合在一起。这种功能主要用于低比特率,这时大多时候只有一、两个编码系数。尽管存在这些功能,但是仍然很难在普通电话线上实现理想的视频质量,而且目前基于标准调制解调器的可视电话仍然是一个难题。不过,由于 一般情况下可提供优于 的效率,它成为了电视会议首选的算法,但是,为了兼容旧系统,仍然需要支持 。 逐渐发展成为了 ,其增加了可选的附件,为提高压缩并实现分组网的鲁棒性提供支持。 及其附件构成了 MPEG-4 中许多编码工具的核心。MPEG-4MPEG-4[6] 由 ISO 提出,以延续 MPEG-2 的成功。一些早期的目标包括:提高容错能力以支持无线网、对低比特率应用进行更好的支持、实现各种新工具以支持图形对象及视频之间的融合。大部分图形功能并未在产品中受到重视,相关实施主要集中在改善低比特率压缩及提高容错性上。.MPEG-4 简化类 (SP) 以为基础,为改善压缩增加了新的工具,包括:* 无限制的运动矢量:支持对象部分超出帧边界时的预测。* 可变块大小运动补偿:可以在 16(16 或 8(8 粒度下进行运动补偿。* 上下文自适应帧内 DCT DC/AC 预测:可以通过当前块的左右相邻块预测 DC/AC DCT 系数。* 扩展量化 AC 系数的动态范围,支持高清视频:从 的 [-127:127] 到 [-2047, 2047]。增加了容错功能,以支持丢包情况下的恢复,包括:* 片断重同步 (Slice Resynchronization):在图像内建立片断 (slice),以便在出现错误后更快速的进行重新同步。与 MPEG-2 数据包大小不同,MPEG4 数据包大小与用于描述 MB 的比特数量脱离了联系。因此,不管每个 MB 的信息量多少,都可以在位流中按相同间隔进行重新同步。* 数据分割:这种模式允许利用唯一的运动边界标记将视频数据包中的数据分割成运动部分和 DCT 数据部分。这样就可以实现对运动矢量数据更严格的检查。如果出现错误,我们可以更清楚地了解错误之处,从而避免在发现错误情况下抛弃所有运动数据。* 可逆 VLC:VLC 编码表允许后向及前向解码。在遇到错误时,可以在下一个slice进行同步,或者开始编码并且返回到出现错误之处。* 新预测 (NEWPRED):主要用于在实时应用中实现快速错误恢复,这些应用中的解码器在出现丢包情况下采用逆向通道向解码器请求补充信息。MPEG-4 高级简化类 (ASP) 以简化类为基础,增加了与 MPEG-2 类似的 B 帧及隔行工具(用于Level 4 及以上级别)。另外它还增加了四分之一像素运动补偿及用于全局运动补偿的选项。MPEG-4 高级简化类比简化类的处理性能要求更高,而且复杂性与编码效率都高于 MPEG-2。MPEG-4 最初用于因特网数据流,例如,已经被 Apple 的 QuickTime 播放器采用。MPEG-4 简化类目前在移动数据流中得到广泛应用。MPEG-4 ASP 是已经流行的专有 DivX 编解码器的基石。工具与压缩增益当我们查看 、MPEG1、MPEG2 与 视频编解码技术中引入的功能时,明显可以发现几种基本技巧提供了大部分压缩增益。图 4 说明这些技巧及其相关效果。与 4 个运动矢量以及四分之一像素运动补偿等工具相比,运动补偿(整数像素与半像素)的效果显然更为突出。图 4:基本技巧的效果:1) 无 MC;2) 增加 Skip 模式构成 CR 编码器;3) 仅允许零 MV;4) 允许整数像素 MC;5) 允许半像素 MC;6) 允许 4-MV;7) 允许四分之一像素MC。如欲了解有关详细说明,敬请参见 [7]。7. MPEG4-AVC视频编码技术在过去几年最重要的发展之一是由 ITU 和 ISO/IEC 的联合视频小组 (JVT) 开发了 AVC[8] 标准。在发展过程中,业界为这种新标准取了许多不同的名称。ITU 在 1997 年开始利用重要的新编码工具处理 (长期),结果令人鼓舞,于是 ISO 决定联手 ITU 组建 JVT 并采用一个通用的标准。因此,大家有时会听到有人将这项标准称为 JVT,尽管它并非正式名称。ITU 在 2003 年 5 月批准了新的 标准。ISO 在 2003 年 10 月以 MPEG-4 Part 10、高级视频编码或 AVC 的名称批准了该标准。 在压缩效率方面取得了巨大突破,一般情况下达到 MPEG-2 及 MPEG-4 简化类压缩效率的大约 2 倍。在 JVT 进行的正式测试中 [9], 在 85 个测试案例中有 78% 的案例实现 倍以上的编码效率提高,77% 的案例中达到 2 倍以上,部分案例甚至高达 4 倍。 实现的改进创造了新的市场机遇,如:* 600Kbps 的 VHS 品质视频。可以通过 ADSL 线路实现视频点播。* 高清晰电影无需新的激光头即可适应普通 DVD。 标准化时支持三个类别:基本类、主类及扩展类。后来一项称为高保真范围扩展 (FRExt) 的修订引入了称为高级类的 4 个附加类。在初期主要是基本类和主类引起了大家的兴趣。基本类降低了计算及系统内存需求,而且针对低时延进行了优化。由于 B 帧的内在时延以及 CABAC 的计算复杂性,因此它不包括这两者。基本类非常适合可视电话应用以及其他需要低成本实时编码的应用。主类提供的压缩效率最高,但其要求的处理能力也比基本类高许多,因此使其难以用于低成本实时编码和低时延应用。广播与内容存储应用对主类最感兴趣,它们是为了尽可能以最低的比特率获得最高的视频质量。尽管 采用与旧标准相同的主要编码功能,不过它还具有许多与旧标准不同的新功能,它们一起实现了编码效率的提高。图 5 的编码器框图总结了其主要差别,概述如下:帧内预测与编码: 采用空域帧内预测技术来预测相邻块邻近像素的 Intra-MB 中的像素。它对预测残差信号和预测模式进行编码,而不是编码块中的实际像素。这样可以显著提高帧内编码效率。帧间预测与编码: 中的帧间编码采用了旧标准的主要功能,同时也增加了灵活性及可操作性,包括适用于多种功能的几种块大小选项,如:运动补偿、四分之一像素运动补偿、多参考帧、通用 (generalized) 双向预测和自适应环路去块。可变矢量块大小:允许采用不同块大小执行运动补偿。可以为小至 4(4 的块传输单个运动矢量,因此在双向预测情况下可以为单个 MB 传输多达 32 个运动矢量。另外还支持 16(8、8(16、8(8、8(4 和 4(8 的块大小。降低块大小可以提高运动细节的处理能力,因而提高主观质量感受,包括消除较大的块化失真。四分之一像素运动估计:通过允许半像素和四分之一像素运动矢量分辨率可以改善运动补偿。多参考帧预测:16 个不同的参考帧可以用于帧间编码,从而可以改善视频质量的主观感受并提高编码效率。提供多个参考帧还有助于提高 位流的容错能力。值得注意的是,这种特性会增加编码器与解码器的内存需求,因为必须在内存中保存多个参考帧。自适应环路去块滤波器: 采用一种自适应解块滤波器,它会在预测回路内

数字技术的出现与应用为人类带来了深远的影响,人们如今已生活在一个几乎数字化的世界之中,而数字音频技术则称得上是应用最为广泛的数字技术之一,CD、 VCD等早已走进千家万户,数字化广播正在全球范围内逐步得到开展,正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题:数字音频压缩技术得以产生和发展的动力。1、音频压缩技术的出现及早期应用 音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。 数字信号的优势是显而易见的,而它也有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以CD为例,其采样率为,量化精度为16比特,则1分钟的立体声音频信号需占约10M字节的存储容量,也就是说,一张CD唱盘的容量只有1小时左右。当然,在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行4:1压缩,即只用25%的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术从一出现便受到广泛的重视。 对音频压缩技术的研究和应用由来已久,如A律、u律编码就是简单的准瞬时压扩技术,并在ISDN话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分PCM(ADPCM)、线性预测编码(LPC)等技术。在广播领域,NICAM(Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用)等系统中都使用了音频压缩技术。 2、音频压缩算法的主要分类及典型代表 一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。 (1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质> 400kbps),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括 、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如、 、Apt-X等。 (2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。 由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。 子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ(MUSICAM),以及用于Philips DCC中的PASC(Precision Adaptive Subband Coding,精确自适应子带编码)等。(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。 有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。 3、音频压缩技术的标准化和MPEG-1 由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT(现ITU-T)在语音信号压缩的标准化方面做了大量的工作,制订了如、、等标准,并逐渐受到业界的认同。 在音频压缩标准化方面取得巨大成功的是MPEG-1音频(ISO/IEC11172-3)。在MPEG-1中,对音频压缩规定了三种模式,即层Ⅰ、层Ⅱ(即MUSICAM,又称MP2),层Ⅲ(又称MP3)。由于在制订标准时对许多压缩技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性(复杂度),因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ;而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用;MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。可以说,MPEG-1音频标准的制订方式决定了它的成功,这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。 最新进展 1、多声道音频信号压缩与DolbyAC-3 随着技术的不断进步和生活水准的不断提高,原有的立体声形式已不能满足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。 更准确地说,环绕声应该是一种声音恢复形式,其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟,已日渐成为未来声音形式的主流。有鉴于此,1992年CCIR(ITU-R)以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准,即CCIR Recommendation 775。其中主要约定了大家熟知的声道形式及声道形式,而在对环绕声压缩的研究上也产生了许多专利技术,如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合,尤其是在影剧院、家庭影院系统,及将来的高清晰度电视(HDTV)等系统中得到广泛的应用。 (1)Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在声道的条件下,可将码率压缩至384kbps,压缩比约为10:1。Dolby AC-3最初是针对影院系统开发的,但目前已成为应用最为广泛的环绕声压缩技术之一。Dolby AC-3是一种感知型压缩编码技术。 在Dolby AC-3中,音频输入以音频块为单位,块长度为512个样值,在48KHz采样率时即为毫秒,各声道单独处理;音频输入在经过3Hz高通滤波器去除直流成分后,通过另一高频带通滤波器以检测信号的瞬变情况,并用它来控制TDAC变换的长度,以期在频域分辨率和时域分辨率之间得到最好的折中效果; TDAC变换的长度一般为512点,而数据块之间的重叠长度为256点,即TDAC每毫秒进行一次;在瞬变条件下,TDAC长度被等分为256 点,这样DolbyAC-3的频域分辨率为,时域最小分辨率为毫秒;在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用,主要是为了获得宽的动态范围,而在分离后的指数部分经编码后则构成了整个信号大致的频谱,又被称为频谱包络;比特分配主要是通过计算解码后的频谱包络(视为功率谱密度)和掩蔽曲线的相关性来进行的;由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术,因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配;在对尾数的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果;AC -3的帧结构由同步字、CRC、同步信息(SI)、码流信息(BSI)、音频块和附加数据等组成,帧长度与TDAC变换的长度有关,在长度为512点时,帧长为32毫秒,即每秒帧。通过以上叙述可见,在Dolby AC-3中,使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。可以说,AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶(从一定的角度来看,编码技术实际上就是降低编码噪声影响的技术),在技术上它具有很强的优势。因而即使作为一项专利技术,DolbyAC-3仍然在影院系统、HDTV、消费类电子产品(如LD、DVD)及直播卫星等方面获得了广泛的应用,得到了众多厂商的支持,成为业界事实上的标准。 (2)MPEG-2BC(后向兼容方式),即ISO/IEC13818- 3,是另一种多声道环绕声音频压缩技术。早在1992年初,该方面的讨论工作便已初步开展,并于94年11月正式获得通过。MPEG-2BC主要是在 MPEG-1和的基础上发展起来的。与MPEG-1相比较,MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式,二是为某些低码率应用场合,如多语声节目、体育比赛解说等而进行的低采样率扩展。同时,标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容,并可依据CCIR 做到与双声道、单声道形式的向下兼容,还能够与Dolby Surround形式兼容。 在MPEG-2BC中,由于考虑到其前、后向兼容性以及环绕声音形式的新特点,在压缩算法中除承袭了MPEG-1的绝大部分技术外,为在低码率条件下进一步提高声音质量,还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(Phantom Coding of Center)、预编码(Predistortion)等。 然而,MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现,MPEG-2BC的编码框图在标准化过程中发生了重大的变化,上述的许多新技术都是在后期引入的。事实上,正是与 MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点,使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下,MPEG -2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快,其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。 (3)DVD(DigitalVersatileDisk)是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上,AC-3和MPEG-2BC之间的争夺十分激烈,最后达成的协议如表1 所示。可见,多声道环绕声音频压缩技术标准亟待统一。

MP3 MP3原本用于表述MPEG1 Layer 3,但是日常应用中已经发展至包含Layer 1, Layer 2以及Fraunhofer Institute所扩展的MPEG 。MP3是得到最高认知度的编解码器之一,在互联网编解码器中具有最大的用户群。但是为达到近CD品质音频,对某些难应付的内容需要高于192kbps速率。 [编辑]MPEG1、Part 3 (ISO/IEC 11172-3) 定义了双声道,采样率为32、或者48KHz,编码率从32 到 384kbps的编解码方法。此标准描述了三个相关方法:Layers I、II、和 III。Layer III提供最高的压缩率,但是复杂度也最高。 [编辑]MPEG2、Part 3 (ISO/IEC 13818-3) 对MPEG1标准提供了两个重要的改进。首先,低比特率需求通过使“低采样率(LSF)”扩展标准化而得到满足。该编解码器提供了16、、和24kHz采样率编码方法;其次,MPEG1模式被扩展为支持上至12声道的音频数据。Fraunhofer的低频率扩展,即,提供了MPEG2一半的采样频率选择:8、和12kHz。 [编辑]数字杜比(AC-3) 目前,数字杜比具有最大的多声道编解码用户群。通过将多声道整合至单一编码对象中,数字杜比实现了高品质、低复杂度音频压缩。尽管该算法与编码声道的数量无关,目前的实现方案已经接受了SMPTE的建议,即采用了由5个全带宽音频声道和1个用于低音的分带宽声道组成声道:分别为左、中、右、左环绕、右环绕和低频扩展(LFE)。 数字杜比支持灵活的播放方式:1声道到声道,32、或者48KHz采样率,比特率从32 到640kbps。解码后的音频可自动匹配播放系统以提供与音响配置无关的最佳品质的音效。 [编辑]aacPlus系列编解码器 Coding Technologies公司已经开发了一系列得到国际标准组织广泛采用的编解码器。MPEG2采用了AAC,以128kbps提供接近CD的品质,即使对于特别复杂的内容也如此。aacPlus v1被DVD论坛、DVB、Digital Radio Mondiale、3GPP2和ISMA等组织定为标准。aacPlus v2在2004年末开始商用,已被指定为3GPP中的高品质音频编解码器,aacPlus v 2的所有组件都是MPEG-4音频规范的组成部分。 [编辑]AAC aacPlus系列编解码器均是围绕MPEG2、Part 7(ISO/IEC 13818-7)所描述的AAC核心而建立。AAC提供8、11、12、16、22、24、32、44、 48、63、88或者96kHz的采样率,以及高达48声道的音频,每个声道比特率可高达288kbps。其定义了三个紧密相关的方案:低复杂度(Low Complexity)、Main和可伸缩采样率(SSR)。低复杂度的AAC-LC需要非常少的处理器资源,因此通常用于嵌入式应用中。 [编辑]MPEG4、Part 3(ISO/IEC 14496-3) 为MPEG2 AAC增加了知觉噪音替代(PNS)工具,因此定义为MPEG4 AAC。PNS通过对类噪声信号的参数化编码,从而简化这些信号的表达方法。不能将PNS与MPEG2、MPEG4中的时域噪声整形(TNS)相混淆。 [编辑]aacPlus V1 该编解码器有时被称为“高效AAC”(HE-AAC)。它整合了基本的AAC编解码器和频带复制(SBR)技术。SBR是一种频带扩展技术,可使几乎任何音频编解码器在比特率下降30%时仍能保证音质。SBR通过使用频带低半部分信息加上一些编码参数来表达频带的高半部分信息。SBR技术也可用于其他编解码器,例如结合带MP3的SBR构成了MP3Pro编解码器。 [编辑]aacPlus V2 在aacPlus V1中增加参数化立体声(PS)技术,形成了aacPlus V2编解码器。PS技术使用左声道和一些额外的编码参数,生成右声道,进一步降低了比特率。aacPlus V2在160 Kbps下可达到声道品质,在48Kbps可达到近CD立体声品质,在32 Kbps下可达到极佳立体声效果,在24Kbps下可达到娱乐品质立体声效果,在低于16Kbps时可达到高品质单声道效果。aacPlus V2的效率使移动数字广播新应用成为可能。 [编辑]WMA WMA是微软授权的Windows Media Series中一系列广泛使用的音频编解码器。此系列中最新版本是WMA9、WMA9 Professional、WMA9 Lossless、WMA9 Voice 和WMA9 Variable Bit Rate(VBR)。在嵌入式应用中,WMA9是此系列中最常见的编解码器;提供16位/320kbps双通道,采样率高达48KHz。“Professional”支持24位、96KHz采样率和高达128到768kbps的声道。与数字杜比相同,解码后的音频可自动匹配播放系统,以提供和音响配置无关最佳品质的音效。“Lossless”用于CD存档,压缩率在2:1和3:1之间。“Voice”用于压缩语音至20kbps。尽管VBR对于大部分的流应用并不理想,但WMA9和“Professional”都能以可变比特率编码。“Lossless”则总是使用VBR功能。 [编辑]Ogg Vorbis 为无需专利费用的开放资源,具有近似于MP3的音质。“ogg”是容器格式,而“Vorbis”为音频编解码器。由于它免除了与MP3游戏音乐相关的按每游戏收取的许可费用,因此Ogg Vorbis在电脑游戏厂商中使用率日益上升。

视频压缩算法学术论文

本文作者王军先生,电子科技大学通信与信息工程学院通信抗干扰技术重点实验室助教、硕士;吴军蹄女士,通信与信息工程学院教授。3 视频压缩标准视频编码标准主要由ITU-T和ISO/IEC开发。前者已经发布了视频会议标准、 、 ,并且准备进行远期编码标准的开发,以期望获得更大的编码效率。ISO/IEC的标准系列是大家熟悉的MPEG家族。包括:(1)MPEG-1(1988~1992),可以提供最高达的数字视频,只支持逐行扫描;(2)MPEG-2(1990~1994),支持的带宽范围从2Mbps到超过20Mbps,MPEG-2后向兼容MPEG-1,但增加了对隔行扫描的支持,并有更大的伸缩性和灵活性;(3)MPEG-4(1994~1998),支持逐行扫描和隔行扫描,是基于视频对象的编码标准,通过对象识别提供了空间的可伸缩性;(4)MPEG-7(1996~2000),是多媒体内容描述接口,与前述标准集中在音频/视频内容的编码和表示不同,它集中在对多媒体内容的描述。除了上述通用标准外,还存在很多专用格式,比较流行的有:C-Cube的M-JPEG、Intel的IVI(tm)(Indeo Video Interactive)、Apple的QuickTime(tm)、Microsoft的 Media Player(tm)和RealNetworks的RealPlayer(tm)。二 数字视频传输根据承载网络的变化和视频服务的区别,可以将数字视频的传输分为四类:数字电视、宽带视频通信、Internet视频流通信、蜂窝移动视频通信。虽然这四种通信体系下对视频通信的协议和服务有不同的要求,但对于实时应用下述几点是必须满足的:(1)传输必须限制在一定时限内完成;(2)必须对端到端的抖动建议限制;(3)必须有相应的同步机制;(4)在分组网络中应当有较高的优先级。1 数字电视广播欧洲走在了全球DVB开发最前面,将其采纳为数字电视DTV的标准;在美国,ATSC采用了HDTV;在亚太地区,日本采用了基于DVB和ATSC的ISDB-T,澳大利亚采用了DVB,韩国则采用了ATSC标准,我国也在制定数字电视的标准,并进行了现场试验。下面我们以欧洲的DTV标准为主分别介绍DTV系统规范和传输技术。系统规范根据传输系统的不同,DTV系统分为三类:陆基系统 DTV-T、卫星系统 DTV-S、有线系统 DTV-C。这三类DTV系统虽然各有不同,但也有公共的特性,MPEG-2视频和音频编码系统是所有DTV系统的基础。系统采用MPEG-2将数据压缩并组装成分组,称为净荷。对净荷采用Reed-Solomon前向纠错编码,降低信号传输中引入的误码。卫星系统采用单载波信号,采用外部编码的同时,内部加入了打孔卷积编码,从而又增加了一层误码纠错能力,根据带宽的变化和采用的特定设备,编码数据是可调整的,信号采用QPSK方式调制。陆基系统联合使用码正交频分复用 COFDM或者QPSK或QAM进行射频调制,采用了和卫星系统相似的打孔卷积编码。有线系统采用了QAM调制方案,不需要附加的内部编码来降低误码,系统优化采用64-QAM。b. DTV系统传输结构DTV系统广播和接收的基本结构由三个子系统构成:(1)信源编码和压缩子系统,通过ADC接受模拟视频和音频信号并将其转换成数字比特流,然后通过MPEG-2进行压缩,并加入控制和辅助数据;(2)服务复用和传递子系统,复用将视频和音频及辅助数据流联合构成长188字节的分组,并加上标记,分组构成单个数据流,采用MPEG-2传递系统语法控制这些复用任务;(3)传输子系统,包括对复用数据流的信道编码和调制。2 宽带视频通信这里讨论的宽带视频通信主要是指基于宽带核心网络和宽带接入技术的MPEG-2视频通信。为了满足实时视频通信对带宽的需求,核心网络通常采用宽带光纤网络,可以是ATM或者基于MPLS的宽带IP与ATM的结合,最后一公里的宽带接入的方法有光纤到户、光纤到楼双绞线到户及ADSL,最近也提出了宽带无线接入技术。通常,来自多个链路的数据业务在数字用户线路接入复用器(DSLAM)汇总。DSLAM将ATM业务路由到家中的ADSL接收器单元,同时,滤掉低频段的旧电话业务POTS 。在MPEG-2视频的情形下,ATM边界设备减轻信元的时延抖动的能力至关重要。ATM必须应付数据传输的需要并提供管理每个视频流的功能,特别要满足按序提取视频分组的要求。为了补偿网络传输延时,ATM网络边界设备必须精心设计以处理MPEG交换和抖动管理。本地MPEG-2视频流通过数字视频广播异步串行接口传输。ATM边界设备将MPEG-2多节目传输流(MPTS)或单节目传输流(SPTS)拆解到节目层并最终到分组标记(PID)层。在PID层,不同的节目流可以重新排序并复用进另外的MPTS。在ATM边界接收端,另外的边界设备管理ATM信元流,并重构SPTS或MPTS。本地的服务分布网络负责在本地的UTP网络分发视频内容。功能强大的MPEG-2压缩算法结合智能的ATM边界设备允许最后接入利用DSL技术作为视频分发的接入机制。(未完待续)相关信息:1.前言数字视频产品需求近些年出现猛增。主流应用包括视频通信、安全监控与工业自动化,而最热门的要算娱乐应用,如 DVD、HDTV、卫星电视、高清 (HD) 机顶盒、因特网视频流、数码相机与 HD 摄像机、视频光盘库 (video jukebox)、高端显示器(LCD、等离子显示器、DLP)以及个人摄像机等。众多精彩的新应用目前也处于设计或前期部署中,例如针对家庭与手持设备及地面/卫星标准(DVB-T、DVB-H、DMB)的高清 DVD(蓝光/HD-DVD)和数字视频广播、高清视频电话、数码相机以及 IP 机顶盒。由于手持终端计算能力的提高以及电池技术与高速无线连接的发展,最终产品的移动性与集成性也在不断提高。视频压缩是所有令人振奋的、新型视频产品的重要动力。压缩-解压(编解码)算法可以实现数字视频的存储与传输。典型的编解码器要么采用行业标准,如 MPEG2、MPEG4、 与 AVS,要么采用专有算法,如 On2、Real Video、Nancy与Windows Media Video (WMV) 等。WMV 是个例外——它最初是微软公司的专有算法,而现在则以 VC-1 的新名称在业界实现了标准化。编解码技术在过去十年中不断改进。最新的编解码技术( 与 VC-1)代表着第三代视频压缩技术。这两种编解码技术利用如可编程 DSP 与ASIC 等低成本 IC 的处理能力,都能够达到极高的压缩比。不过,为具体应用选择正确的编解码器并优化其实时处理仍然是一项巨大的挑战。最佳的设计必须权衡压缩效率及可用的计算能力。此外,如何在计算能力有限的情况下获得最佳压缩效率也是一门大学问。在本文中,我们首先概述视频编码的主要概念,同时介绍传统压缩标准。然后我们重点介绍其中包括 、WMV9/VC-1与AVS 等在内的最新编解码技术的功能,此外,还将深入探讨压缩能力与复杂性之间的权衡。最后,讨论市场中可能会影响主流视频编解码器未来的实时处理与主要趋势。数字视频的主要挑战在于原始或未压缩的视频需要存储或传输大量数据。例如,标准清晰度的 NTSC 视频的数字化一般是每秒 30 帧速率,采用 4:2:2 YcrCb 及 720(480,其要求超过 165Mbps 的数据速率。保存 90 分钟的视频需要 110GB 空间,或者说超过标准 DVD-R 存储容量的 25 倍。即使是视频流应用中常用的低分辨率视频(如:CIF:352x288 4:2:0、30 帧/秒)也需要超过 的数据速率,这是 ADSL 或 3G 无线等宽带网络速度的许多倍。目前的宽带网可提供 1~10Mbps 的持续传输能力。显然数字视频的存储或传输需要采用压缩技术。视频压缩的目的是对数字视频进行编码——在保持视频质量的同时占用尽可能少的空间。编解码技术理论依据为信息理论的数学原理。不过,开发实用的编解码技术需要艺术性的精心考虑。3. 压缩权衡在选择数字视频系统的编解码技术时需要考虑诸多因素。主要因素包括应用的视频质量要求、传输通道或存储介质所处的环境(速度、时延、错误特征)以及源内容的格式。同样重要的还有预期分辨率、目标比特率、色彩深度、每秒帧数以及内容和显示是逐行扫描还是隔行扫描。压缩通常需要在应用的视频质量要求与其他需求之间做出取舍。首先,用途是存储还是单播、多播、双向通信或广播?对于存储应用,到底有多少可用的存储容量以及存储时间需要多久?对于存储之外的应用,最高比特率是多少?对于双向视频通信,时延容差或容许的端到端系统延迟是多少?如果不是双向通信,内容需要在脱机状态提前完成编码还是需要实时编码?网络或存储介质的容错能力如何?根据基本目标应用,不同压缩标准以不同方式处理这些问题的权衡。另一方面是需要权衡编解码实时处理的成本。如 或 WMV9/VC-1等能够实现较高压缩比的新算法需要更高的处理能力,这会影响编解码器件的成本、系统功耗以及系统内存。4. 标准化机构在视频编解码技术定义方面有两大标准机构。国际电信联盟 (ITU) 致力于电信应用,已经开发了用于低比特率视频电话的 标准,其中包括 、、 与 ;国际标准化组织 (ISO) 主要针对消费类应用,已经针对运动图像压缩定义了 MPEG 标准。MPEG 标准包括 MPEG1、MPEG2 与 MPEG4。图 1 说明了视频编解码标准的发展历程。MPEG 与 ISO 根据基本目标应用往往做出稍有不同的取舍。有时它们也会开展合作,如:联合视频小组 (JVT),该小组定义了 编解码技术,这种技术在 MPEG 系列中又被称为 MPEG4-Part 10 或 MPEG4 高级视频编解码 (AVC)。我们在本文中将这种联合标准称为 。同样, 对应 MPEG2,而 基本规范类 (Baseline Profile) 技术在原理方面与 MPEG4 简单类 (Simple Profile) 编解码技术存在较多重复。标准对编解码技术的普及至关重要。出于规模经济原因,用户根据可承受的标准寻找相应产品。由于能够保障厂商之间的互操作性,业界乐意在标准方面进行投资。而由于自己的内容可以获得较长的生命周期及广泛的需求,内容提供商也对标准青睐有加。尽管几乎所有视频标准都是针对少数特定应用的,但是在能够适用的情况下,它们在其他应用中也能发挥优势。图1:ITU 与 MPEG 标准的发展历程 [10]为了实现更好的压缩及获得新的市场机遇,ITU 与 MPEG 一直在不断发展压缩技术和开发新标准。中国最近开发了一种称为 AVS 的国家视频编码标准,我们在后面也会做一介绍。目前正在开发的标准包括 ITU/MPEG 联合可扩展视频编码 (Joint Scalable Video Coding)(对 H264/ AVC 的修订)和MPEG 多视角视频编码 (Multi-view Video Coding)。另外,为了满足新的应用需求,现有标准也在不断发展。例如, 最近定义了一种称为高精度拓展 (Fidelity Range Extensions) 的新模式,以满足新的市场需求,如专业数字编辑、HD-DVD 与无损编码等。除了 ITU 与 ISO 开发的行业标准以外,还出现了几种专用于因特网流媒体应用、广受欢迎的专有解决方案,其中包括 Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy。由于这些格式在内容中得到了广泛应用,因此专有编解码技术可以成为业界标准。2003 年 9 月,微软公司向电影与电视工程师学会 (SMPTE) 提议在该机构的支持下实现 WMV9 位流与语法的标准化。该提议得到了采纳,现在 WMV9 已经被 SMPTE 作为 VC-1 实现标准化。5. 视频编码原理我们感兴趣的所有视频标准都采用基于模块的处理方式。每个宏模块一般包含 4 个 8(8 的光度块和 2 个 8(8 的色度块(4:2:0 色度格式)。视频编码基于运动补偿预测(MC),变换与量化及熵编码。图 2 说明的是一种典型的、基于运动补偿的视频编解码技术。在运动补偿中,通过预测与最新编码的("参考")视频帧处于同一区域的视频帧中各宏模块的像素来实现压缩。例如,背景区域通常在各帧之间保持不变,因此不需要在每个帧中重新传输。运动估计 (ME) 是确定当前帧——即与它最相似的参考帧的 16(16 区域中每个 MB 的过程。ME 通常是视频压缩中最消耗性能的功能。有关当前帧中各模块最相似区域相对位置的信息("运动矢量")被发送至解码器。MC 之后的残差部分分为 8(8 的模块,各模块综合利用变换编码、量化编码与可变长度编码技术进行编码。变换编码(如:离散余弦变换或 DCT)利用残差信号中的空间冗余。量化编码可以消除感知冗余 (perceptual redundancy) 并且降低编码残差信号所需要的数据量。可变长度编码利用残差系数的统计性质。通过 MC 进行的冗余消除过程在解码器中以相反过程进行,来自参考帧的预测数据与编码后的残差数据结合在一起产生对原始视频帧的再现 。图 2:标准运动补偿视频编码在视频编解码器中,单个帧可以采用三个模式中的一个进行编码 —— 即 I、P 或 B 帧模式(见图 3)。几个称为 Intra (I) 的帧单独编码,无需参考任何其他帧(无运动补偿)。某些帧可以利用 MC 编码,以前一个帧为参考(前向预测)。这些帧称为预测帧 (P)。B 帧或双向预测帧通过之前的帧以及当前帧的后续帧进行预测。B 帧的优势是能够匹配堵塞在采用前向预测的上一帧中的背景区域。双向预测通过平衡前向及后向预测可以降低噪声。在编码器中采用这种功能会要求更多处理量,因为必须同时针对前向及后向预测执行 ME,而这会明显使运动估计计算需求加倍。为了保存两个参考帧,编码器与解码器都需要更多内存。B 帧工具需要更复杂的数据流,因为相对采集及显示顺序而言,帧不按顺序解码。这个特点会增加时延,因此不适合实时性较高的应用。B 帧不用于预测,因此可以针对某些应用进行取舍。例如,在低帧速应用中可以跳过它们而不会影响随后 I 与 P 帧的解码。图3:I、P 与 B 帧间预测图示6. 传统视频编码标准 编制的 [2] 标准是第一个主流视频压缩标准。它主要针对双工视频会议应用,是为支持 40kpbs~2Mbps 的 ISDN 网络而设计的。 支持 352(288 (CIF) 及 176(144 (QCIF) 分辨率,色度分辨率二次采样为 4:2:0。由于可视电话需要同步实时编解码,因此复杂性设计得较低。由于主要用于对延迟敏感的双向视频,因此 仅允许采用 I 与 P 帧,而不允许 B 帧。 采用基于块的 DCT 进行残差信号的变换编码。DCT 把像素的每个 8(8 块映射到频域,产生 64 个频率成分(第一个系数称为 DC,其他的称为 AC)。为了量化 DCT 系数, 在所有 AC 系数中采用固定的线性量化。量化后的系数进行行程编码,其可以按非零系数描述量化的频率,后面跟随一串零系数,在最后一个非零值之后以块代码结束。最后,可变长度编码 (Huffman) 将运行级别对 (run-level pair) 转换成可变长度编码 (VLC),其比特长度已针对典型概率分布进行过优化。基于标准块的编码最终产生模块化视频。 标准利用环路滤波避免这种现象。在模块边缘采用的简单 2D FIR 滤波器用于平滑参考帧中的量化效应。必须同时在编码器及解码器中精确地对每个比特应用上述滤波。MPEG-1MPEG-1[3] 是 ISO 开发的第一个视频压缩算法。主要应用是数字媒体上动态图像与音频的存储与检索,如速率为 、采用 SIF 分辨率(352(240 - 或者 352(288 - 25 fps)的VCD。MPEG-1 与 相似,不过编码器一般需要更高的性能,以便支持电影内容的较高运动性而不是典型的可视电话功能。与 相比,MPEG1 允许采用 B 帧。另外它还采用自适应感知量化,也就是说,对每个频段采用单独的量化比例因子(或等步长),以便优化人们的视觉感受。MPEG-1 仅支持逐行视频,因此新标准——MPEG2 已经开始做出努力,同时支持分辨率及比特率更高的逐行与隔行视频。MPEG-2/[4] 专门针对数字电视而开发,很快成为了迄今最成功的视频压缩标准。MPEG-2 既能够满足标准逐行视频的需求(其中视频序列由一系列按一定时间间隔采集的帧构成),又能够满足电视领域常用的隔行视频的需求。隔行视频交替采集及显示图像中两组交替的像素(每组称为一个场)。这种方式尤其适合电视显示器的物理特性。MPEG2 支持标准的电视分辨率,其中包括:针对美国和日本采用的 NTSC 制式隔行 720(480 分辨率,每秒 60 场,以及欧洲和其他国家采用的PAL 制式的 720(576 分辨率,每秒 50 场。MPEG-2 建立在 MPEG-1 基础之上,并具备扩展功能,能支持隔行视频及更宽的运动补偿范围。由于高分辨率视频是非常重要的应用,因此 MPEG-2 支持的搜索范围远远大于 MPEG-1。与之前的标准相比,它显著提高了运动估计的性能要求,并充分利用更宽搜索范围与更高分辨率优势的编码器需要比 和 MPEG-1 高得多的处理能力。MPEG2 中的隔行编码工具包含优化运动补偿的能力,同时支持基于场和基于帧的预测,而且同时支持基于场和基于帧的 DCT/IDCT。MPEG-2 在 30:1 左右的压缩比时运行良好。MPEG-2 在 4-8Mbps 时达到的质量适合消费类视频应用,因此它很快在许多应用中得到普及,如:数字卫星电视、数字有线电视、DVD 以及后来的高清电视等。另外,MPEG-2 增加了分级视频编码工具,以支持多层视频编码,即:时域分级、空域分级、SNR 分级以及数据分割。尽管 MPEG-2 中针对分级视频应用定义了相关类别 (profile),不过支持单层编码的主类 (Main Profile) 是当今大众市场中得到广泛应用的唯一 MPEG-2 类。MPEG-2 通常称为 MPEG-2 主类。MPEG-2 解码最初对于通用处理器及 DSP 具有很高的处理要求。优化的固定功能 MPEG-2 解码器开发已问世,由于使用量较高,成本已逐渐降低。MPEG2 证明低成本芯片解决方案的供应是视频编解码标准成功和普及的关键。[5] 在 之后得到开发,主要是为了以更低的比特率实现更高的质量。其主要目标之一是基于普通 电话调制解调器的视频。目标分辨率是 SQCIF (128(96)~CIF (352(288)。其基本原理与 大同小异。 的运动矢量在两个方向上允许是 1/2 的倍数(“半像素”),参考图像以数字方式内插到更高的分辨率。这种方法可以提高 MC 精度及压缩比。MV 可采用更大的范围。为不同方案提供许多新的选项,包括:* 4 个运动矢量——每个块采用一个运动矢量,而非整个 MB 采用单个运动矢量。* 3D VLC:Huffman 编码——将块结束 (EOB) 指示符与每个运行级别对结合在一起。这种功能主要用于低比特率,这时大多时候只有一、两个编码系数。尽管存在这些功能,但是仍然很难在普通电话线上实现理想的视频质量,而且目前基于标准调制解调器的可视电话仍然是一个难题。不过,由于 一般情况下可提供优于 的效率,它成为了电视会议首选的算法,但是,为了兼容旧系统,仍然需要支持 。 逐渐发展成为了 ,其增加了可选的附件,为提高压缩并实现分组网的鲁棒性提供支持。 及其附件构成了 MPEG-4 中许多编码工具的核心。MPEG-4MPEG-4[6] 由 ISO 提出,以延续 MPEG-2 的成功。一些早期的目标包括:提高容错能力以支持无线网、对低比特率应用进行更好的支持、实现各种新工具以支持图形对象及视频之间的融合。大部分图形功能并未在产品中受到重视,相关实施主要集中在改善低比特率压缩及提高容错性上。.MPEG-4 简化类 (SP) 以为基础,为改善压缩增加了新的工具,包括:* 无限制的运动矢量:支持对象部分超出帧边界时的预测。* 可变块大小运动补偿:可以在 16(16 或 8(8 粒度下进行运动补偿。* 上下文自适应帧内 DCT DC/AC 预测:可以通过当前块的左右相邻块预测 DC/AC DCT 系数。* 扩展量化 AC 系数的动态范围,支持高清视频:从 的 [-127:127] 到 [-2047, 2047]。增加了容错功能,以支持丢包情况下的恢复,包括:* 片断重同步 (Slice Resynchronization):在图像内建立片断 (slice),以便在出现错误后更快速的进行重新同步。与 MPEG-2 数据包大小不同,MPEG4 数据包大小与用于描述 MB 的比特数量脱离了联系。因此,不管每个 MB 的信息量多少,都可以在位流中按相同间隔进行重新同步。* 数据分割:这种模式允许利用唯一的运动边界标记将视频数据包中的数据分割成运动部分和 DCT 数据部分。这样就可以实现对运动矢量数据更严格的检查。如果出现错误,我们可以更清楚地了解错误之处,从而避免在发现错误情况下抛弃所有运动数据。* 可逆 VLC:VLC 编码表允许后向及前向解码。在遇到错误时,可以在下一个slice进行同步,或者开始编码并且返回到出现错误之处。* 新预测 (NEWPRED):主要用于在实时应用中实现快速错误恢复,这些应用中的解码器在出现丢包情况下采用逆向通道向解码器请求补充信息。MPEG-4 高级简化类 (ASP) 以简化类为基础,增加了与 MPEG-2 类似的 B 帧及隔行工具(用于Level 4 及以上级别)。另外它还增加了四分之一像素运动补偿及用于全局运动补偿的选项。MPEG-4 高级简化类比简化类的处理性能要求更高,而且复杂性与编码效率都高于 MPEG-2。MPEG-4 最初用于因特网数据流,例如,已经被 Apple 的 QuickTime 播放器采用。MPEG-4 简化类目前在移动数据流中得到广泛应用。MPEG-4 ASP 是已经流行的专有 DivX 编解码器的基石。工具与压缩增益当我们查看 、MPEG1、MPEG2 与 视频编解码技术中引入的功能时,明显可以发现几种基本技巧提供了大部分压缩增益。图 4 说明这些技巧及其相关效果。与 4 个运动矢量以及四分之一像素运动补偿等工具相比,运动补偿(整数像素与半像素)的效果显然更为突出。图 4:基本技巧的效果:1) 无 MC;2) 增加 Skip 模式构成 CR 编码器;3) 仅允许零 MV;4) 允许整数像素 MC;5) 允许半像素 MC;6) 允许 4-MV;7) 允许四分之一像素MC。如欲了解有关详细说明,敬请参见 [7]。7. MPEG4-AVC视频编码技术在过去几年最重要的发展之一是由 ITU 和 ISO/IEC 的联合视频小组 (JVT) 开发了 AVC[8] 标准。在发展过程中,业界为这种新标准取了许多不同的名称。ITU 在 1997 年开始利用重要的新编码工具处理 (长期),结果令人鼓舞,于是 ISO 决定联手 ITU 组建 JVT 并采用一个通用的标准。因此,大家有时会听到有人将这项标准称为 JVT,尽管它并非正式名称。ITU 在 2003 年 5 月批准了新的 标准。ISO 在 2003 年 10 月以 MPEG-4 Part 10、高级视频编码或 AVC 的名称批准了该标准。 在压缩效率方面取得了巨大突破,一般情况下达到 MPEG-2 及 MPEG-4 简化类压缩效率的大约 2 倍。在 JVT 进行的正式测试中 [9], 在 85 个测试案例中有 78% 的案例实现 倍以上的编码效率提高,77% 的案例中达到 2 倍以上,部分案例甚至高达 4 倍。 实现的改进创造了新的市场机遇,如:* 600Kbps 的 VHS 品质视频。可以通过 ADSL 线路实现视频点播。* 高清晰电影无需新的激光头即可适应普通 DVD。 标准化时支持三个类别:基本类、主类及扩展类。后来一项称为高保真范围扩展 (FRExt) 的修订引入了称为高级类的 4 个附加类。在初期主要是基本类和主类引起了大家的兴趣。基本类降低了计算及系统内存需求,而且针对低时延进行了优化。由于 B 帧的内在时延以及 CABAC 的计算复杂性,因此它不包括这两者。基本类非常适合可视电话应用以及其他需要低成本实时编码的应用。主类提供的压缩效率最高,但其要求的处理能力也比基本类高许多,因此使其难以用于低成本实时编码和低时延应用。广播与内容存储应用对主类最感兴趣,它们是为了尽可能以最低的比特率获得最高的视频质量。尽管 采用与旧标准相同的主要编码功能,不过它还具有许多与旧标准不同的新功能,它们一起实现了编码效率的提高。图 5 的编码器框图总结了其主要差别,概述如下:帧内预测与编码: 采用空域帧内预测技术来预测相邻块邻近像素的 Intra-MB 中的像素。它对预测残差信号和预测模式进行编码,而不是编码块中的实际像素。这样可以显著提高帧内编码效率。帧间预测与编码: 中的帧间编码采用了旧标准的主要功能,同时也增加了灵活性及可操作性,包括适用于多种功能的几种块大小选项,如:运动补偿、四分之一像素运动补偿、多参考帧、通用 (generalized) 双向预测和自适应环路去块。可变矢量块大小:允许采用不同块大小执行运动补偿。可以为小至 4(4 的块传输单个运动矢量,因此在双向预测情况下可以为单个 MB 传输多达 32 个运动矢量。另外还支持 16(8、8(16、8(8、8(4 和 4(8 的块大小。降低块大小可以提高运动细节的处理能力,因而提高主观质量感受,包括消除较大的块化失真。四分之一像素运动估计:通过允许半像素和四分之一像素运动矢量分辨率可以改善运动补偿。多参考帧预测:16 个不同的参考帧可以用于帧间编码,从而可以改善视频质量的主观感受并提高编码效率。提供多个参考帧还有助于提高 位流的容错能力。值得注意的是,这种特性会增加编码器与解码器的内存需求,因为必须在内存中保存多个参考帧。自适应环路去块滤波器: 采用一种自适应解块滤波器,它会在预测回路内

论文题目是:数字电视接收机的视频压缩技术 帮写内容:(1)选题依据及研究意义; (2) 选题研究现状; (3)研究内容(包括基本思路、框架、主要研究方式、方法 等) 一共是三点,请大家教一下我这三点该怎么写?! 注明:论文我已经写好了:下面是论文提纲(含论文选题、论文主体框架) 论文选题:数字电视接收机的视频压缩技术 第一章:绪论 一、数字电视的发展及视频压缩的必要性; 二、视频图象数字压缩的客观依据; 三、数字电视与接收机(机顶盒); 四、电视信号模数转换标准; 第二章:数字电视机顶盒技术 一、什么是数字电视机顶盒; 二、数字电视机顶盒的基本原理; 三、数字电视机顶盒的结构; 四、数字电视机顶盒的主要技术; 第三章:视频压缩编码技术 一 空间或时间性编码; 二. 加权; 三. 遍历(Scannng); 四. 熵编码; 五. 空间性编码器; 六. 时间性编码; 七. 运动补偿; 八. 双向编码; 九. I、P 和B 画面; 十. MPEG 压缩器; 十一. 预处理; 十二. 类和级; 十三. 小波; 第四章:视频图象压缩标准 一、H.261标准; 二、JPEG标准; 三、MPEG-1压缩编码标准; 四、MPEG-2压缩编码标准; 五、MPEG-4压缩编码标准; 结束语 ; 参考文献 ;问题补充:题目是学校帮我选择的! 大家可以帮忙把这三点写一下吗? 我真不知道该怎么写! 或者大家帮我写前两点也好了~ 谢谢帮我忙的所有朋友! 拜托各位了!我开题16号就要交了看看这个能不能帮您! 一、如何选择问题 我一起萦绕于怀的,是在写博士论文开题报告的一年多时间里,导师薛澜教授反复追问的一个问题:“你的 puzzle 是什么?”多少次我不假思索地回答“我的问题就是,中国的半导体产业为什么发展不起来。”薛老师问题以其特有的储蓄,笑而不答。我在心中既恼火又懊丧:这么简单的道理,这么明显的答案,到底哪儿不对了?! 奥妙就在于提出问题的“层次”。不同于政策研究报告,学术文章聚集理论层面、解决理论问题。理论是由一系列前设和术语构造的逻辑体系。特定领域的理论有其特定的概念、范畴和研究范式。只有在相同的概念、视角和范式下,理论才能够对话;只有通过对话,理论才能够发展。极少有硕博论文是创造新理论的,能这样当然最好,但难度很大。我们多数是在既有理论的基础上加以发展,因此,在提出问题时,要以“内行”看得懂的术语和明确的逻辑来表述。审视我最初提出的问题“中国半导体产业为什么发展不起来”,这仅仅是对现象的探询,而非有待求证的理论命题。我的理论命题是:“中国产业政策过程是精英主导的共识过程吗?”在这个命题中,“政策过程”、“精英政治”、“共识诉求”三个术语勾勒出研究的理论大体范围和视角。 其次,选择问题是一个“剥笋”的过程。理论问题总是深深地隐藏在纷繁复杂的现实背后,而发现理论问题,则需要运用理论思维的能力。理论思维的训练是一个长期积累的过程。不过初学者也不必望而却步,大体上可以分“三步走”:第一步,先划定一个“兴趣范围”,如半导体产业、信息产业、农村医疗、高等教育体制等,广泛浏览相关的媒体报道、政府文献和学术文章,找到其中的“症结”或“热点”。第二步,总结以往的研究者大体从哪些理论视角来分析“症结”或“热点”、运用了哪些理论工具,如公共财政的视角、社会冲突范式等。第三步,考察问题的可研究性,也就是我们自己的研究空间和研究的可行性。例如,西方的理论是否无法解释中国的问题?或者同一个问题能否用不同的理论来解释?或者理论本身的前提假设、逻辑推演是否存在缺陷?通过回答这些问题,我们找到自己研究的立足点。不过还要注意我们研究在规定的一到两年时间内,是否可能完成?资料获取是否可行?等等。 最后,如何陈述问题?陈述问题实质上就是凝练核心观点的过程。观点应当来自对现实问题的思考和总结,而不是为了套理论而“削足适履”。中国的政治、经济和社会发展充满动态的、丰富的景象,如何才能用恰当的术语、准确的逻辑表述出来呢?雄心勃勃的初学者往往提出宏伟的概念或框架,但我的建议是尽可能缩小研究范围、明确研究对象,从而理清对象的内存逻辑,保证能在有限的时间内完成规范的学 术论文。如“中国半导体产业政策研究”就是一个非常含糊的陈述,我们可以从几个方面来收缩话题:( 1 )时间:从 1980 年到 2000 年;( 2 )对象:政府的叛乱者和决策行为,而不是市场、企业、治理结构等;( 3 )视角:政治和政府理论中的精英研究;( 4 )案例: 908 工程、 909 工程、 13 号文件和《电子振兴》,这是发生在 1980 - 2000 年间半导体政策领域的两个重大工程和两个重要文件。通过这样的明确界定,我们将目光集中在“政策过程”、“精英”、“共识”几个显而易见的概念上,问题也就水落石出了。同时,问题清楚了,我们在筛选信息和资料时也就有了明确的标准,在这个“信息冗余”的时代,能够大大提高研究效率。 二、 如何做文献综述 首先需要将“文献综述( Literature Review) ”与“背景描述 (Backupground Description) ”区分开来。我们在选择研究问题的时候,需要了解该问题产生的背景和来龙去脉,如“中国半导体产业的发展历程”、“国外政府发展半导体产业的政策和问题”等等,这些内容属于“背景描述”,关注的是现实层面的问题,严格讲不是“文献综述”,关注的是现实层面问题,严格讲不是“文献综述”。“文献综述”是对学术观点和理论方法的整理。其次,文献综述是评论性的( Review 就是“评论”的意思),因此要带着作者本人批判的眼光 (critical thinking) 来归纳和评论文献,而不仅仅是相关领域学术研究的“堆砌”。评论的主线,要按照问题展开,也就是说,别的学者是如何看待和解决你提出的问题的,他们的方法和理论是否有什么缺陷?要是别的学者已经很完美地解决了你提出的问题,那就没有重复研究的必要了。 清楚了文献综述的意涵,现来说说怎么做文献综述。虽说,尽可能广泛地收集资料是负责任的研究态度,但如果缺乏标准,就极易将人引入文献的泥沼。 技巧一:瞄准主流。主流文献,如该领域的核心期刊、经典著作、专职部门的研究报告、重要化合物的观点和论述等,是做文献综述的“必修课”。而多数大众媒体上的相关报道或言论,虽然多少有点价值,但时间精力所限,可以从简。怎样摸清该领域的主流呢?建议从以下几条途径入手:一是图书馆的中外学术期刊,找到一两篇“经典”的文章后“顺藤摸瓜”,留意它们的参考文献。质量较高的学术文章,通常是不会忽略该领域的主流、经典文献的。二是利用学校图书馆的“中国期刊网”、“外文期刊数据库检索”和外文过刊阅览室,能够查到一些较为早期的经典文献。三是国家图书馆,有些上世纪七八十年代甚至更早出版的社科图书,学校图书馆往往没有收藏,但是国图却是一本不少(国内出版的所有图书都要送缴国家图书馆),不仅如此,国图还收藏了很多研究中国政治和政府的外文书籍,从互联网上可以轻松查询到。 技巧二:随时整理,如对文献进行分类,记录文献信息和藏书地点。做博士论文的时间很长,有的文献看过了当时不一定有用,事后想起来却找不着了,所以有时记录是很有必要的。罗仆人就积累有一份研究中国政策过程的书单,还特别记录了图书分类号码和藏书地点。同时,对于特别重要的文献,不妨做一个读书笔记,摘录其中的重要观点和论述。这样一步一个脚印,到真正开始写论文时就积累了大量“干货”,可以随时享用。 技巧三:要按照问题来组织文献综述。看过一些文献以后,我们有很强烈的愿望要把自己看到的东西都陈述出来,像“竹筒倒豆子”一样,洋洋洒洒,蔚为壮观。仿佛一定要向读者证明自己劳苦功高。我写过十多万字的文献综述,后来发觉真正有意义的不过数千字。文献综述就像是在文献的丛林中开辟道路,这条道路本来就是要指向我们所要解决的问题,当然是直线距离最短、最省事,但是一路上风景颇多,迷恋风景的人便往往绕行于迤逦的丛林中,反面“乱花渐欲迷人眼”,“曲径通幽”不知所终了。因此,在做文献综述时,头脑时刻要清醒:我要解决什么问题,人家是怎么解决问题的,说的有没有道理,就行了。 三、如何撰写开题报告 问题清楚了,文献综述也做过了,开题报告便呼之欲出。事实也是如此,一个清晰的问题,往往已经隐含着论文的基本结论;对现有文献的缺点的评论,也基本暗含着改进的方向。开题报告就是要把这些暗含的结论、论证结论的逻辑推理,清楚地展现出来。 写开题报告的目的,是要请老师和专家帮我们判断一下:这个问题有没有研究价值、这个研究方法有没有可能奏效、这个论证逻辑有没有明显缺陷。因此,开题报告的主要内容,就要按照“研究目的和意义”、“文献综述和理论空间”、“基本论点和研究方法”、“资料收集方法和工作步骤”这样几个方面展开。其中,“基本论点和研究方法”是重点,许多人往往花费大量笔墨铺陈文献综述,但一谈到自己的研究方法时但寥寥数语、一掠而过。这样的话,评审老师怎么能判断出你的研究前景呢?又怎么能对你的研究方法给予切实的指导和建议呢? 对于不同的选题,研究方法有很大的差异。一个严谨规范的学术研究,必须以严谨规范的方法为支撑。在博士生课程的日常教学中,有些老师致力于传授研究方法;有的则突出讨论方法论的问题。这都有利于我们每一个人提高自己对研究方法的认识、理解、选择与应用,并具体实施于自己的论文工作中。

动画论文的参考文献

你知道动画论文有哪些参考文献吗?参考文献的格式又是怎么写的?下面是我为大家收集的关于动画论文的参考文献,欢迎大家阅读!

[1]侯易.面向紧急疏散的群体仿真技术研究[D].浙江大学.2008

[2]闫苑.浅析超级市场的安全疏散[J].安防科技.2003,(10):13-16

[3]侯易.面向紧急疏散的群体仿真技术研究[D].浙江大学.2008

[4]孙剑,李克平.行人运动建模及仿真研究综述[J].计算机仿真.2008,25(12):12-16

[5]郭鹤.动态仿真建模环境研究[J].新疆教育学院学报.2007,23(2):127-129

[6]阎高伟,李闯勤,石兵.基于社会力模型的群体优化算法[J].控制工程.2012,19(6): 1238-1243

[7]冯康.认知科学的发展及研究方向[J].计算机工程与科学.2014,36(5):906-916

[8]李红松,李靖,陈少柯,张智鹏,丁刚毅.一个用于非自治人群仿真的交互式人群编辑系统[C].第五届智能CAD与数字娱乐学术会议.大连.2008

[9]郭瑞林,赵克勤.同异联系度不确定势的演变及其势差与势能[C].中国人工智能学会第10届全国学术年会.广州.2003

[10]李海燕,冯春,张怡.基于FCM的灾难救援团队中快速信任的推理分析[J].工业工程.2012,15(6): 132-138

[1] 施捷鹏.世上“怪兽”知多少?[J].黄金时代(学生族), 2007(5)47-49

[2] 孙立军,马华.美国迪斯尼动画研究[M].北京:京华出版社,2015: 183-187

[3] 维·李明.欧洲传统神话的发展史[J] .中国图书评论,2010(06)21

[4] 刘法民.怪诞的美学研究与兴起[J].哲学动态,2006(11)57-58

[5] 董强.逸趣横生的日本妖怪文化[J].百科知识,2011(18)57-59

[6] 叶春生.日本妖怪学[J].民俗研究,2004(1)155-157

[7] 鸟山石燕.图解百魅夜行[M].西安:陕西师范大学出版社,2008: 24-38

[8] 维克多·雨果.《克伦威尔》序言[M].柳鸣九.上海:上海译文出版社,2011: 50-78

[9] 阿兰·邓迪斯.美国的民俗感念[M].卢晓辉.桂林:广西大学出版社,2005: 118-121

[10] 颜文娟.电影《怪兽大学》的美学观[J].艺术教育,2014(1)133

[11] 金凯.中国传统纹样在动画艺术中的应用研究[J].大众文艺,2013(16)185

[12] 张帆.论民族化特征在三维动画角色造型中的运用[J].电影评价,2012(1)34-35

[13] 邢晋.《魔戒之王》的原型分析[D]:[硕士学位论文].长春:吉林大学文学院,2007

[14] 颜文娟.电影《怪兽大学》的美学观[J].艺术教育,2014(1)133

[15] 邢晋.《魔戒之王》的原型分析[D]:[硕士学位论文].长春:吉林大学文学院,2007

[16] 庞理科,韦凯.解析民族元素在动画原画创作中的应用[J].群文天地,2012(22)60-62

[17] 王罗成.中西文化差异及原因分析[J].青年文学家,2009(15)184

[18] 石川祯浩.晚晴“睡狮”形象探源[J].中山大学学报:社会科学版,2009(5)87-96

[19] 麦克考尔.怪诞艺术美学[G].茶健,武汉:湖北少年儿童出版社出版社,2010: 11-17

[20] 小松和彦.日本文化中的妖怪文化[J].日本研究,2011(4)42-45

[21] 庞理科,韦凯.解析民族元素在动画原画创作中的应用[J].群文天地,2012(22)60-62

[22] 王罗成.中西文化差异及原因分析[J].青年文学家,2009(15)184

[1]王江龙.三维网格模型压缩算法研究[J].西安电子科技大学,2008,1(2).

[2]莫天立.三维多媒体流网格数据压缩技术[D].东北大学,2011.

[3]许敏.三维网格模型压缩技术研宄[D].解放军信息工程大学,2011.

[4]赵向军,路梅,叶澄清.三维网格动画的几何视频压缩方法[J].南京邮电大学学报:自然科学版,2007,27(3): 54-58.

[5]MAMMOU K. Compression of Static and Dynamic 3D Meshes[J]_ 2008.

[6]Gu X,Gortler S J,Hoppe H. Geometry images[C]//ACM Transactions onGraphics (TOG). ACM, 2002' 21(3): 355-361.

[7]Collins G, Hilton A. A rigid transform basis for animation compression andlevel of detail[C]//Vision

[1] 祝普文.世界动画史[M].北京:中国摄影出版社,2003,270-285.

[2] 编辑:孙莹.CUET 科技资讯网,网站也需靓装,冲浪者喜好判断时间不超一秒

[3] 孙立军、张宇编着.世界动画艺术史[M].第 1 版.海洋出版社.2007,11-12

[4] 聂欣如着.动画概论[M].复旦大学出版社.2006 年 12 月第 1 版,第 3 页

[5] 安德鲁·J·巴塞维奇.美国的极限:实力的终结与深度危机[M].曹化银,曹爱菊译.北京:中信出版社,2009,24-25[EB/OL].2006-1-18

[6] 胡家祥.审美学[M]. 第 1 版,北京大学出版社,.

[7] 鲁道夫·阿思海姆.艺术与视知觉[M].腾守尧译.成都:四川人民出版社,

[8] 杨春时.艺术符号与解释[M].北京:广播电视出版社,1988,47-58

[9] [加]英格丽·张,你的形象价值百万[M],第 1 版,中信出版社.2011,53.

[10] [英]莫里斯.手势新探[M].南宁:广西民族出版社,

[11] [美]阿恩海姆:视觉思维-----审美直觉心理学[M],四川人民出版社,

[12] 责任编辑:单纬《“主席头”的起源、发展与定型》来源于大公网

[13] 黄玉珊.动画电影探索[M].台湾远流通出版社,1997.

[14] 叶海忠,大众娱乐文化影响下的动漫艺术创作[D].天津:天津大学,2010.

[15] 孙立军、马华.影视动画影片分析[M].北京:中国宇航出版社,2003:25-26

[16] 鲁嵘 秘书长,于北京,2006 中国(深圳)国际文化产业发展博览交易会北京新闻发布会上的发言,[EB/OL].2005-8-11

[17] 张斌,何艳.浅析我国动漫产业的现状及其发展的对策思路[J].特区经济,2007,212-214

短视频算法研究现状论文

抖音短视频国外研究现状抖音自从在国内发展稳健后,便将主要精力集中在东南亚地区市场,起初之时,发展并不顺利,源于用户接受度不高,且有相似品牌在其中。但随着抖音APP的不断改进和功能完善,用户逐渐尝试接受新鲜血液的出现,每一年抖音的用户数据都在极速攀升,达到数亿用户的它立马占据海外市场。无论抖音怎么改变,也无法磨灭它在悄然无息中也改变我们原有的生活轨道。

目前大多数以影视剧为素材的切条搬运类“二创”短视频,其创作、传播行为若不能被认定为合理使用,则面临侵权风险《云南虫谷》创纪录的3200余万元侵权赔偿金额,被认为贯彻了司法定价围绕市场定价的总体思路,以及数额裁量不离价值基准的根本遵循作为众多利益参与方中最重要的两端,维护内容创作空间的清朗,依赖版权方和平台方同向而行文 |《瞭望》新闻周刊记者 于雪 贾雯静我国影视剧版权侵权司法判赔金额创下新高——近日,陕西省西安市中级人民法院对电视剧《云南虫谷》被侵权案作出一审判决,法院认定某短视频平台构成帮助侵权行为,判决赔偿3200万元,其中涉嫌被侵权的16集内容平均每集获得赔偿200万元,并向版权方支付42万元合理维权费用。这一赔偿金额及标准一度冲上热搜,引起社会热议。一段时间以来,伴随短视频平台的兴起和移动互联网的发展,对优质视频内容进行剪辑、切条、解说、搬运、速看等“二创”短视频内容充斥网络空间,“二创”短视频侵权案件时有发生。《琅琊榜》《延禧攻略》《春风十里不如你》等热门作品的版权方,都曾与短视频平台对簿公堂。相关判决对短视频播出平台“帮助侵权”的认定,及其可能带来的示范效用同样引人关注。人们想要知道:以原创作品为素材的“二创”短视频是否构成侵权?合理使用原创作品进行二次创作的边界在哪?是否还有创作空间可为?如何通过构建现代知识产权保护体系,助推内容创作理性繁荣?重点打击 王鹏图/本刊合规“二创”的边界在哪里此次判决的高额侵权赔偿,引起社会对二次加工、创作视频边界的讨论。北京市京都律师事务所合伙人常莎认为,按照著作权法,影视剧等视听作品的版权在无特别约定的情况下由制片方享有,二次加工、创作一般需征得版权方同意。专家提醒,如果制片方将版权转让给某网络视频播放平台,那么使用原创视频应取得这一网络视频播放平台同意。若未经过版权方许可,合规二创则需满足合理使用原则。据了解,界定是否合理使用,一看使用性质。若使用者为个人学习、研究或欣赏,使用他人已经发表的作品;为介绍、评论某一作品或说明某一问题,在作品中适当引用他人已经发表的作品;为报道新闻,在报纸、期刊、广播电台、电视台等媒体不可避免地再现或引用已经发表的作品等情况时,属合理使用,无需征得版权方同意。二看使用比例。目前法律没有明确规定合理使用的具体比例,但“二创”短视频中引用部分占原作品比例越大,越难以构成合理使用。三看使用内容。常莎解释说,如果引用内容属于他人作品的核心部分,能够反映原作者的独创性思想,并能对影视剧的市场价值造成影响,即使只占他人作品的小部分,仍可能违反合理使用原则。也就是说,合理使用既要注意引用他人作品的“量”,也要注意引用他人作品的“质”。专家表示,目前在未获得版权方许可的前提下,合理使用原则之外的抄、拆、剪、编、搬、配等形式,都可能被认定为侵权。这也意味着,目前大多数以影视剧为素材的切条搬运类“二创”短视频,其创作、传播行为若不能被认定为合理使用,则面临侵权风险。目前的难点在于法律条文对“合理使用”的认定存在一定模糊空间。受访专家表示,比如规定中“适当”引用的尺度划在哪里合适,以及如何认定所引用部分是否为他人独创思想等缺乏明晰界定,使得“二创”短视频侵权认定存在争议。知识产权如何合理定价《云南虫谷》被侵权案中的赔偿金额及标准是如何确定的?通常而言,法院对损害赔偿数额的合理认定也被称为司法定价。对著作权进行司法定价,既是客体市场价值的最终体现,也反映出对知识产权的保护程度。受访专家表示,此次判决结果贯彻了司法定价围绕市场定价的总体思路,以及数额裁量不离价值基准的根本遵循。据了解,知识产权侵权损害赔偿的计算方式大体有三种。一是按实际损失确定赔偿。这在法律上称为“填平原则”,即将影视剧版权方的损失全面填补,版权方损失多少,侵权人就赔偿多少。但如何准确核定实际损失、由谁举证等,容易在实践中引发争议。二是按侵权获利确定赔偿。在短视频侵权案中,由于侵权获利与视频质量、视频播放量和视频互动量都有关,想精确计算侵权获利往往并不容易。三是按合理使用许可费赔偿。当实际损失与侵权获利均难以判断时,可由法院根据案件具体情况,参照商业合理许可使用费确定赔偿数额。此时需要参考的因素包括:涉案视频的使用传播情况、影视剧版权方获得授权的具体范围及类型、涉案视频的商业模式、收费标准等。北京市中同律师事务所律师、海润影视法律顾问王文彬介绍,根据著作权法、民法典等法律,当存在故意侵犯著作权或情节较为严重时,还可以在上述认定方法的基础上,增加一倍以上五倍以下的惩罚性赔偿。在《云南虫谷》被侵权案中,法院综合考量涉案作品类型、知名程度、可能承受损失、预期收益,被告侵权行为实施规模、持续时间、主观恶意、可能获益等因素,在判决书中对各种参酌因素条分缕析,进行阐述和逻辑验证。受访专家表示,相较于以往同类裁判范例中笼而统之的抽象化、模块化、定式化表述,这一判决更加清晰地界定了司法定价在数额确定上的运用策略和实施路线,对加强原创作品合法权益的保护、推动平台经济规范健康发展提供了实例化、可视化的样本。专家同时表示,知识产权司法保护的总体趋势是加大保护力度、提高判赔金额、增加违法成本。“如此,能产生震慑侵权行为的寒蝉效应,体现国家对知识产权保护的重视。”王文彬说。倒逼短视频平台主动合规专家认为,《云南虫谷》被侵权案的又一瞩目之处,在于对短视频播出平台“帮助侵权”的认定。“该判例很可能在一定程度上倒逼平台主动合规,尝试探索法律框架范围内的版权保护模式。”据了解,与以往版权方维权对象为侵权人不同,《云南虫谷》版权方的维权对象是播放侵权短视频的平台。法院审理认定,平台构成帮助侵权,应立即采取有效措施删除、过滤、拦截相关视频,并赔偿相应经济损失及合理费用。专家表示,作为侵权行为的实施主体,“二创”短视频创作者需承担主要责任,但短视频平台的主体责任也不容推卸。特别是一些短视频平台信奉“流量是第一生产力”,在“发生侵权时,网络服务提供商在被告知侵权后,若及时删除,就不视为侵权”这一“避风港原则”的庇护下,为追逐利益默许甚至纵容侵权行为,甚至滥用算法推荐技术,助推、诱导违规视频大肆传播。短视频平台的困难在于,由于短视频数量大、传播快等因素,平台较难在第一时间清楚判断其是否构成侵权。在常莎看来,实践中,这增加了平台的过滤审查成本,平台履责积极性不高。“当前,关于短视频侵权的法律体系还存在空白点,通过一批知识产权侵权损害赔偿救济的典型案例,能够倒逼创作者和平台主体提高法律意识、社会责任意识和媒介素养。”王文彬说。专家认为,版权方在确保权益不受侵犯的同时应看到,以原创作品为基础,百花齐放的“二创”短视频有助于引爆网络舆论热潮,进而形成全方位、立体式的宣传矩阵。平台方也应看到,通过与“二创”短视频作者的利益分成,平台能从流量中获得收益,确保创作合规是平台规避法律风险,获取最大收益的前提。因此,同济大学上海国际知识产权学院教授许春明建议,由短视频平台牵头,与影视剧版权方合作探索借助正版作品数据库,在保护版权与鼓励创新之间寻求平衡、谋求共赢。“与其将合规成本转嫁给单个创作者而平台承担高昂的审查成本,不如平台主动与版权方达成某种合作,既能降低法律风险,又能吸引更多短视频博主,带来新的创作繁荣。”许春明表示,社会上一直呼吁建立正版作品数据库,但因版权方和短视频平台之间的利益难以平衡,迟迟难以推进。“影视剧版权方和短视频平台若能从利益平衡和产业发展的角度寻求合作,不仅能有效遏制侵权行为,还有助于厚植创新土壤,培育产业繁荣沃土。”在许春明看来,未来可探索集体管理模式、开放许可模式、平台一揽子许可模式等,为“二创”短视频涉嫌侵权问题提供解决方案,形成合作共治的良好生态。专项行动 程硕图/本刊避免“原创危机”引导“二创”短视频创作走向合规,加快短视频市场信用体系建设是又一关键。“二创”短视频的创作方既可能是侵权方,也可能是侵权行为的受害者。比如大量“二创”短视频在涉嫌侵权的同时,也面临被洗稿的风险。业内人士认为,当前以短视频为代表的互联网内容创作领域出现的诸多乱象,与市场主体缺乏知识产权意识有关,侵权短视频野蛮成长在带来“原创危机”的同时,也阻碍了短视频平台自身的高质量发展。长久来看,为避免网络世界的内容创作陷入“互害”模式,需积极探索建立短视频市场信用体系。许春明解释说,短视频市场信用体系是知识产权保护的制度基础,类似于个人征信系统,它会记录短视频领域每一个市场主体的失信、违法等行为,并规定相应惩戒机制,规范市场主体行为。常莎建议,短视频市场信用体系可以法律法规、标准规范、平台规范和行业自律为基础,以信用大数据、信用指标体系、评价模型和信用监管为核心,由信用服务平台、运营平台与政府监管部门等主体合力打造。许春明表示,二次创作是短视频创作的主要方式之一,在某种程度上,可以说任何创作都站在前人作品的基础之上。信用体系的建立有助于引导二次创作走向规范,推动形成支持内容创新的、可供实践的重要制度。必须注意到,互联网空间中的版权治理并非零和博弈,如何最大化各方的价值,创造共治共享的创作生态是各方的共同目标。原创作品与“二创”作品不仅是竞争关系,还有互补关系,需要兼顾各方利益,既要促进视频产业生态健康发展,也要帮助公众获取自身所希望的信息、资源。而作为众多利益参与方中最重要的两端,维护内容创作空间的清朗,依赖版权方和平台方的同向而行。■

传播学抖音短视频成功原因与问题探析论文

在日常学习和工作中,大家都接触过论文吧,论文一般由题名、作者、摘要、关键词、正文、参考文献和附录等部分组成。一篇什么样的论文才能称为优秀论文呢?下面是我收集整理的传播学抖音短视频成功原因与问题探析论文,仅供参考,大家一起来看看吧。

摘要:作为短视频界的一匹“黑马”,抖音app在2018年风靡全国,成为一款现象级产品,在获得成功的同时,抖音也存在诸多问题。本文将借助拉斯韦尔的“五W模式”,从用户定位、传播内容、传播渠道、传播效果方面分析抖音app的成功原因,反思其所产生的社会效应。

关键词:抖音app;成功原因;社会效应

抖音是今日头条旗下的一款音乐创意短视频app,于2016年9月上线,用户可以在抖音随机选择一首背景音乐进行自我展示,经过后期剪辑,创作出一条短视频并发布,短视频的时长限制是15秒。2018年一季度,抖音下载量达4580万次,成为苹果应用商店全球下载量最高的iPhone应用。[1]截止2018年7月12日,笔者在iphone的“摄影与录像类”免费app排行榜中看到,抖音排名第一位。在获得成功的同时抖音也存在诸多问题,其内部整改的步履始终未停。2018年3月1日至3月31日期间,抖音清理了27231条短视频,永久封禁15234个账号;2018年4月10日,抖音上线反沉迷系统;4月11日,抖音进行了全面升级,升级期间,关闭了直播和评论功能。五W模式是美国学者拉斯韦尔提出的传播模式,其中指出了传播过程中的五种基本要素:谁-说了什么-通过什么渠道-向谁说-有什么效果。本文将借助拉斯韦尔的五W模式,从传播渠道、传播内容、用户和传播效果方面分析抖音app风靡的原因及存在的问题。

一、抖音app成功原因探析

(一)定位年轻用户,算法分发利好草根。抖音的用户定位是20-29岁之间的年轻时尚群体,这一群体本身有着较高的网络活跃度,在社交需求上表现出较强的`媒介依赖心理和行为,如在现实中交流较少,更倾向于虚拟空间中的交流,且更易受到虚拟环境的影响。面对这类“手机症候群”,抖音首先满足了用户的社交需求。抖音在内容分发方面采用算法分发+人工精选的推荐机制,即根据用户的观看喜好为用户推荐相关内容,同时将人工精选出来的优质内容推送给用户。这种内容分发机制使用户接收的内容更为多元化、个性化,同时更看重内容的优质性和吸引力,为内容生产的一方提供了更多“被看”的机会。

(二)多元内容满足用户使用需求。抖音在内容生产方面采用了PUGC的模式,即以UGC的形式,生产出相对专业的内容。在内容生产上,抖音具有以下特点:

1.内容海量多元,娱乐性强,尤其是以个人才艺、技能为主的内容易受追捧。

2.内容的碎片化。新媒体环境培养了公众的碎片化阅读习惯和短时注意力特征,抖音的视频长度限定为15秒,迎合了用户的心理需求。

3.个性化和虚拟化。抖音以“我”为中心,为用户提供了个性化的服务。如拍摄中可以调节视频的快慢,拍摄后可以进行创意混剪,让用户充分发挥自己的创造性。同时,各种滤镜、特效工具满足了用户的自我心理期待。

4.发起话题挑战,增强用户黏性。话题挑战是指以某个话题或某首背景音乐作为主题,让用户按照规则录制内容进行挑战,从而引导用户发布视频,进一步增强用户黏性。

(三)多渠道传播模式。今日头条通过多种渠道对抖音进行推广:

1.借助电视综艺节目进行广告营销。如抖音先后在《快乐大本营》、《天天向上》、《中国有嘻哈》等电视综艺节目投放广告。

2.邀请明星入驻,利用名人效应。目前已经入住抖音的明星有岳云鹏、鹿晗、关晓彤、何炅等。明星入驻引发名人效应,进而带动了粉丝入驻。

3.利用外链分享,拓展传播渠道。抖音在发展初期,利用微博、微信的社交分享功能,从这两个平台获得流量。随后,抖音又与淘宝进行合作,进一步聚拢了电商入驻抖音。

二、存在的问题

(一)过度娱乐化导致人的迷失。抖音的内容具有很强的娱乐性,且是一种低门槛的娱乐。娱乐是媒介的功能之一,可以为人们带来精神上的愉悦和放松,但是过度娱乐化将会导致人精神上的空虚和迷失,正如尼尔波兹曼在《娱乐至死》中所说,“人们会因为享乐而失去自由,我们将毁于我们所热爱的东西”。抖音的娱乐性还体现在形式上。以视频形式播出的内容更具有感官刺激性,而缺少逻辑理性,用户在观看视频的时候,只需要沉浸在背景音乐和画面的感官刺激中,无需过多理性的思考。长此以往,用户越来越注重感官刺激,逻辑思考能力却越来越低。同时,抖音的碎片化特征在迎合用户思维习惯的同时,也进一步培养了用户的碎片化思维。

(二)媒介对人的控制:谁是谁的奴隶。麦克卢汉曾说,媒介是人的延伸。在麦克卢汉看来,媒介是工具,延伸了人的知觉能力,然而当下的“拇指族”在利用工具的同时,也产生了对工具的依赖和沉迷。对这类社交媒体的依赖和娱乐性内容的沉迷,不仅消耗了大量的时间,长此以往用户日渐进化为“容器人”,反而导致了社交障碍以及人的空虚和焦虑。

(三)抖音里的虚假、低俗内容。由于审核机制的缺乏,抖音上不乏虚假、低俗的信息。抖音通过外链分享和淘宝合作,吸引淘宝商家入驻。在拓展盈利模式的同时,假货也开始在抖音上横行,有制假售假者在抖音平台上公然兜售假冒伪劣商品。此外,在抖音上出现了许多低俗乃至价值观扭曲的内容,向其他用户传递着错误的价值观念,造成恶劣影响。

三、参考文献:

[1]抖音下载量全球第一科达股份为其TOP营销伙伴[DB/OL].

[2]刘夏,李小晔.抖音短视频的营销推广策略研究[J].新闻研究导刊,2018年3月.

抖音App是一款社交类的软件,通过抖音短视频App你可以分享你的生活,同时也可以在这里认识到更多朋友,了解各种奇闻趣事。[22]

四、拓展资料:抖音短视频主要功能

抖音实质上是一个专注年轻人的音乐短视频社区,用户可以选择歌曲,配以短视频,形成自己的作品。它与小咖秀类似,但不同的是,抖音用户可以通过视频拍摄快慢、视频编辑、特效(反复、闪一下、慢镜头)等技术让视频更具创造性,而不是简单的对嘴型。

抖音平台一般都是年轻用户,配乐以电音、舞曲为主,视频分为两派:舞蹈派、创意派,共同的特点是都很有节奏感。也有少数放着抒情音乐展示咖啡拉花技巧的用户,成了抖音圈的一股清流。

抖音最新的内测版中加入了一个新的社交功能 ——“朋友聊天室”,支持抖音强大的滤镜美颜和道具功能。

2021年3月24日,抖音推出了“老友计划”,该计划致力于提升老年用户使用体验,丰富老年用户生活,还在产品和运营活动上推出以下举措。

2021年6月28日,IT之家消息,抖音 App 再次更新,本次内测了一些新功能,同时抖音音乐正式上线,大大提高了用户之间的互动性,向社交领域再次迈出一大步。

2022年2月25日,抖音官方本周发布公告宣布多举措预防网暴,首家上线“评论发文警示”等功能。

日前,新媒体用户不断扩大以及短视频形式在日常得到不断的应用,短视频内容的不断多元化,形成了巨大的商业价值和文化传播价值。短视频形式与各种媒介互相渗透,彼此融合,传播形势不断走向全面化,也正因为如此,短视频这种新兴的传播形式不断受到重视,发展日益扩大。短视频做为一种依托社交与文化传播平台传播,移动端传播,以其相较于其他媒介传播形式所不具备的内容丰富价值,艺术价值,文化传播价值。中国互联网信息中心数据显示,截至2018年2月,中国网络视频用户规模达亿,网络视频用户使用率为,其中手机视频用户规模亿,手机网络视频的使用率为。带有短、平、快特性的短视频形式正随着媒介技术的发展成为传播行业的风口浪尖,丰富了用户的碎片化时间。短视频已经从无到有不断的发展开来,截至目前,短视频已经成为了一项重要的传播媒介。(一)短视频发展现状(一)短视频的特性短视频的属性之一是短视频的时长。随着技术门槛的降低和受众对于短视频这种视频形式接受度的提高,短视频长度也逐渐从最开始的数十秒扩展到数分钟乃至十几分钟。其中以3分钟之内内容为主要时常分布。可以发现网络上存在大量的以3分钟为计时单位的短视频。创作者可利用3分钟时间,为用户解释清楚一个简单的概念或专有名词,使用

图像压缩算法研究论文

数字图像压缩技术的研究及进展摘要:数字图像压缩技术对于数字图像信息在网络上实现快速传输和实时处理具有重要的意义。本文介绍了当前几种最为重要的图像压缩算法:JPEG、JPEG2000、分形图像压缩和小波变换图像压缩,总结了它们的优缺点及发展前景。然后简介了任意形状可视对象编码算法的研究现状,并指出此算法是一种产生高压缩比的图像压缩算法。关键词:JPEG;JPEG2000;分形图像压缩;小波变换;任意形状可视对象编码一 引 言 随着多媒体技术和通讯技术的不断发展,多媒体娱乐、信息高速公路等不断对信息数据的存储和传输提出了更高的要求,也给现有的有限带宽以严峻的考验,特别是具有庞大数据量的数字图像通信,更难以传输和存储,极大地制约了图像通信的发展,因此图像压缩技术受到了越来越多的关注。图像压缩的目的就是把原来较大的图像用尽量少的字节表示和传输,并且要求复原图像有较好的质量。利用图像压缩,可以减轻图像存储和传输的负担,使图像在网络上实现快速传输和实时处理。 图像压缩编码技术可以追溯到1948年提出的电视信号数字化,到今天已经有50多年的历史了[1]。在此期间出现了很多种图像压缩编码方法,特别是到了80年代后期以后,由于小波变换理论,分形理论,人工神经网络理论,视觉仿真理论的建立,图像压缩技术得到了前所未有的发展,其中分形图像压缩和小波图像压缩是当前研究的热点。本文对当前最为广泛使用的图像压缩算法进行综述,讨论了它们的优缺点以及发展前景。二 JPEG压缩 负责开发静止图像压缩标准的“联合图片专家组”(Joint Photographic Expert Group,简称JPEG),于1989年1月形成了基于自适应DCT的JPEG技术规范的第一个草案,其后多次修改,至1991年形成ISO10918国际标准草案,并在一年后成为国际标准,简称JPEG标准。1.JPEG压缩原理及特点 JPEG算法中首先对图像进行分块处理,一般分成互不重叠的 大小的块,再对每一块进行二维离散余弦变换(DCT)。变换后的系数基本不相关,且系数矩阵的能量集中在低频区,根据量化表进行量化,量化的结果保留了低频部分的系数,去掉了高频部分的系数。量化后的系数按zigzag扫描重新组织,然后进行哈夫曼编码。JPEG的特点优点:(1)形成了国际标准;(2)具有中端和高端比特率上的良好图像质量。缺点:(1)由于对图像进行分块,在高压缩比时产生严重的方块效应;(2)系数进行量化,是有损压缩;(3)压缩比不高,小于50。 JPEG压缩图像出现方块效应的原因是:一般情况下图像信号是高度非平稳的,很难用Gauss过程来刻画,并且图像中的一些突变结构例如边缘信息远比图像平稳性重要,用余弦基作图像信号的非线性逼近其结果不是最优的。2. JPEG压缩的研究状况及其前景 针对JPEG在高压缩比情况下,产生方块效应,解压图像较差,近年来提出了不少改进方法,最有效的是下面的两种方法:(1)DCT零树编码 DCT零树编码把 DCT块中的系数组成log2N个子带,然后用零树编码方案进行编码。在相同压缩比的情况下,其PSNR的值比 EZW高。但在高压缩比的情况下,方块效应仍是DCT零树编码的致命弱点。(2)层式DCT零树编码 此算法对图像作 的DCT变换,将低频 块集中起来,做 反DCT变换;对新得到的图像做相同变换,如此下去,直到满足要求为止。然后对层式DCT变换及零树排列过的系数进行零树编码。 JPEG压缩的一个最大问题就是在高压缩比时产生严重的方块效应,因此在今后的研究中,应重点解决 DCT变换产生的方块效应,同时考虑与人眼视觉特性相结合进行压缩。三 JEPG2000压缩 JPEG2000是由ISO/IEC JTCISC29标准化小组负责制定的全新静止图像压缩标准。一个最大改进是它采用小波变换代替了余弦变换。2000年3月的东京会议,确定了彩色静态图像的新一代编码方式—JPEG2000图像压缩标准的编码算法。1.JPEG2000压缩原理及特点 JPEG2000编解码系统的编码器和解码器的框图如图1所示。编码过程主要分为以下几个过程:预处理、核心处理和位流组织。预处理部分包括对图像分片、直流电平(DC)位移和分量变换。核心处理部分由离散小波变换、量化和熵编码组成。位流组织部分则包括区域划分、码块、层和包的组织。 JPEG2000格式的图像压缩比,可在现在的JPEG基础上再提高10%~30%,而且压缩后的图像显得更加细腻平滑。对于目前的JPEG标准,在同一个压缩码流中不能同时提供有损和无损压缩,而在JPEG2000系统中,通过选择参数,能够对图像进行有损和无损压缩。现在网络上的JPEG图像下载时是按“块”传输的,而JPEG2000格式的图像支持渐进传输,这使用户不必接收整个图像的压缩码流。由于JPEG2000采用小波技术,可随机获取某些感兴趣的图像区域(ROI)的压缩码流,对压缩的图像数据进行传输、滤波等操作。2.JPEG2000压缩的前景 JPEG2000标准适用于各种图像的压缩编码。其应用领域将包括Internet、传真、打印、遥感、移动通信、医疗、数字图书馆和电子商务等。JPEG2000图像压缩标准将成为21世纪的主流静态图像压缩标准。四 小波变换图像压缩1.小波变换图像压缩原理小波变换用于图像编码的基本思想就是把图像根据Mallat塔式快速小波变换算法进行多分辨率分解。其具体过程为:首先对图像进行多级小波分解,然后对每层的小波系数进行量化,再对量化后的系数进行编码。小波图像压缩是当前图像压缩的热点之一,已经形成了基于小波变换的国际压缩标准,如MPEG-4标准,及如上所述的JPEG2000标准 。2.小波变换图像压缩的发展现状及前景 目前3个最高等级的小波图像编码分别是嵌入式小波零树图像编码(EZW),分层树中分配样本图像编码(SPIHT)和可扩展图像压缩编码(EBCOT)。(1)EZW编码器 1993年,Shapiro引入了小波“零树”的概念,通过定义POS、NEG、IZ和ZTR四种符号进行空间小波树递归编码,有效地剔除了对高频系数的编码,极大地提高了小波系数的编码效率。此算法采用渐进式量化和嵌入式编码模式,算法复杂度低。EZW算法打破了信息处理领域长期笃信的准则:高效的压缩编码器必须通过高复杂度的算法才能获得,因此EZW编码器在数据压缩史上具有里程碑意义。(2)SPIHT编码器 由Said和Pearlman提出的分层小波树集合分割算法(SPIHT)则利用空间树分层分割方法,有效地减小了比特面上编码符号集的规模。同EZW相比,SPIHT算法构造了两种不同类型的空间零树,更好地利用了小波系数的幅值衰减规律。同EZW编码器一样,SPIHT编码器的算法复杂度低,产生的也是嵌入式比特流,但编码器的性能较EZW有很大的提高。(3)EBCOT编码器优化截断点的嵌入块编码方法(EBCOT)首先将小波分解的每个子带分成一个个相对独立的码块,然后使用优化的分层截断算法对这些码块进行编码,产生压缩码流,结果图像的压缩码流不仅具有SNR可扩展而且具有分辨率可扩展,还可以支持图像的随机存储。比较而言,EBCOT算法的复杂度较EZW和SPIHT有所提高,其压缩性能比SPIHT略有提高。小波图像压缩被认为是当前最有发展前途的图像压缩算法之一。小波图像压缩的研究集中在对小波系数的编码问题上。在以后的工作中,应充分考虑人眼视觉特性,进一步提高压缩比,改善图像质量。并且考虑将小波变换与其他压缩方法相结合。例如与分形图像压缩相结合是当前的一个研究热点。五 分形图像压缩 1988年,Barnsley通过实验证明分形图像压缩可以得到比经典图像编码技术高几个数量级的压缩比。1990年,Barnsley的学生提出局部迭代函数系统理论后,使分形用于图像压缩在计算机上自动实现成为可能。1. 分形图像压缩的原理 分形压缩主要利用自相似的特点,通过迭代函数系统(Iterated Function System, IFS)实现。其理论基础是迭代函数系统定理和拼贴定理。 分形图像压缩把原始图像分割成若干个子图像,然后每一个子图像对应一个迭代函数,子图像以迭代函数存储,迭代函数越简单,压缩比也就越大。同样解码时只要调出每一个子图像对应的迭代函数反复迭代,就可以恢复出原来的子图像,从而得到原始图像。2.几种主要分形图像编码技术 随着分形图像压缩技术的发展,越来越多的算法被提出,基于分形的不同特征,可以分成以下几种主要的分形图像编码方法。(1)尺码编码方法 尺码编码方法是基于分形几何中利用小尺度度量不规则曲线长度的方法,类似于传统的亚取样和内插方法,其主要不同之处在于尺度编码方法中引入了分形的思想,尺度 随着图像各个组成部分复杂性的不同而改变。(2)迭代函数系统方法 迭代函数系统方法是目前研究最多、应用最广泛的一种分形压缩技术,它是一种人机交互的拼贴技术,它基于自然界图像中普遍存在的整体和局部自相关的特点,寻找这种自相关映射关系的表达式,即仿射变换,并通过存储比原图像数据量小的仿射系数,来达到压缩的目的。如果寻得的仿射变换简单而有效,那么迭代函数系统就可以达到极高的压缩比。(3)A-E-Jacquin的分形方案 A-E-Jacquin的分形方案是一种全自动的基于块的分形图像压缩方案,它也是一个寻找映射关系的过程,但寻找的对象域是将图像分割成块之后的局部与局部的关系。在此方案中还有一部分冗余度可以去除,而且其解码图像中存在着明显的方块效应。3.分形图像压缩的前景 虽然分形图像压缩在图像压缩领域还不占主导地位,但是分形图像压缩既考虑局部与局部,又考虑局部与整体的相关性,适合于自相似或自仿射的图像压缩,而自然界中存在大量的自相似或自仿射的几何形状,因此它的适用范围很广。六 其它压缩算法 除了以上几种常用的图像压缩方法以外,还有:NNT(数论变换)压缩、基于神经网络的压缩方法、Hibert扫描图像压缩方法、自适应多相子带压缩方法等,在此不作赘述。下面简单介绍近年来任意形状纹理编码的几种算法[10]~ [13]。(1)形状自适应DCT(SA-DCT)算法 SA-DCT把一个任意形状可视对象分成 的图像块,对每块进行DCT变换,它实现了一个类似于形状自适应Gilge DCT[10][11]变换的有效变换,但它比Gilge DCT变换的复杂度要低。可是,SA-DCT也有缺点,它把像素推到与矩形边框的一个侧边相平齐,因此一些空域相关性可能丢失,这样再进行列DCT变换,就有较大的失真了[11][14][15]。(2)Egger方法 Egger等人[16][17]提出了一个应用于任意形状对象的小波变换方案。在此方案中,首先将可视对象的行像素推到与边界框的右边界相平齐的位置,然后对每行的有用像素进行小波变换,接下来再进行另一方向的小波变换。此方案,充分利用了小波变换的局域特性。然而这一方案也有它的问题,例如可能引起重要的高频部分同边界部分合并,不能保证分布系数彼此之间有正确的相同相位,以及可能引起第二个方向小波分解的不连续等。(3)形状自适应离散小波变换(SA-DWT) Li等人提出了一种新颖的任意形状对象编码,SA-DWT编码[18]~[22]。这项技术包括SA-DWT和零树熵编码的扩展(ZTE),以及嵌入式小波编码(EZW)。SA-DWT的特点是:经过SA-DWT之后的系数个数,同原任意形状可视对象的像素个数相同;小波变换的空域相关性、区域属性以及子带之间的自相似性,在SA-DWT中都能很好表现出来;对于矩形区域,SA-DWT与传统的小波变换一样。SA-DWT编码技术的实现已经被新的多媒体编码标准MPEG-4的对于任意形状静态纹理的编码所采用。 在今后的工作中,可以充分地利用人类视觉系统对图像边缘部分较敏感的特性,尝试将图像中感兴趣的对象分割出来,对其边缘部分、内部纹理部分和对象之外的背景部分按不同的压缩比进行压缩,这样可以使压缩图像达到更大的压缩比,更加便于传输。七 总结 图像压缩技术研究了几十年,取得了很大的成绩,但还有许多不足,值得我们进一步研究。小波图像压缩和分形图像压缩是当前研究的热点,但二者也有各自的缺点,在今后工作中,应与人眼视觉特性相结合。总之,图像压缩是一个非常有发展前途的研究领域,这一领域的突破对于我们的信息生活和通信事业的发展具有深远的影响。参考文献:[1] 田青. 图像压缩技术[J]. 警察技术, 2002, (1):30-31.[2] 张海燕, 王东木等. 图像压缩技术[J]. 系统仿真学报, 2002, 14(7):831-835.[3] 张宗平, 刘贵忠. 基于小波的视频图像压缩研究进展[J]. 电子学报, 2002, 30(6):883-889.[4] 周宁, 汤晓军, 徐维朴. JPEG2000图像压缩标准及其关键算法[J]. 现代电子技术, 2002, (12):1-5.[5] 吴永辉, 俞建新. JPEG2000图像压缩算法概述及网络应用前景[J]. 计算机工程, 2003, 29(3):7-10.[6] J M Shaprio. Embedded image coding using zerotree of wavelet coefficients[J]. IEEE Trans. on Signal Processing, 1993, 41(12): 3445-3462.[7] A Said, W A Pearlman. A new fast and efficient image codec based on set partitioning in hierarchical trees[J]. IEEE Trans. on Circuits and Systems for Video Tech. 1996, 6(3): 243-250.[8] D Taubman. High performance scalable image compression with EBCOT[J]. IEEE Transactions on Image Processing, 2000, 9(7): 1158–1170.[9] 徐林静, 孟利民, 朱建军. 小波与分行在图像压缩中的比较及应用. 中国有线电视, 2003, 03/04:26-29.[10] M Gilge, T Engelhardt, R Mehlan. Coding of arbitrarily shaped image segments based on a generalized orthogonal transform[J]. Signal Processing: Image Commun., 1989, 1(10): 153–180.[11] T Sikora, B Makai. Shape-adaptive DCT for generic coding of video[J]. IEEE Trans. Circuits Syst. Video Technol., 1995, 5(1): 59–62.[12] T Sikora, S Bauer, B Makai. Efficiency of shape-adaptive 2-D transforms for coding of arbitrarily shaped image segments[J]. IEEE Trans. Circuits Syst. Video Technol., 1995, 5(3): 254–258.[13]邓家先 康耀红 编著 《信息论与编码》

huffman算法是基于词频统计的,所以适用于有大量重复单词的情况,也就是文本这种对于图片来说,每个像素的颜色都不一样,整个图片上完全相同的像素点很少,不适合统计用所以像图形图像这种一般来说不适合用词频统计的方式压缩

下面是我从网上搜索到的资料,希望对你有帮助。1.哈夫曼图像压缩算法引言随着网络与多媒体技术的兴起,人们需要存储和传输的数据越来越多,数据量越来越大,以前带宽有限的传输网络和容量有限的存储介质难以满足用户的需求。特别是声音、图像和视频等媒体在人们的日常生活和工作中的地位日益突出,这个问题越发显得严重和迫切。如今,数据压缩技术早已是多媒体领域中的关键技术之一。Huffman(哈夫曼)算法在上世纪五十年代初提出来了,它是一种无损压缩方法,在压缩过程中不会丢失信息熵,而且可以证明Huffman算法在无损压缩算法中是最优的。Huffman原理简单,实现起来也不困难,在现在的主流压缩软件得到了广泛的应用。对应用程序、重要资料等绝对不允许信息丢失的压缩场合,Huffman算法是非常好的选择。2.哈夫曼图像压缩算法原理Huffman编码是1952年由Huffman提出的对统计独立信源能达到最小平均码长的编码方法。这一年,他发表了著名论文“A Method for the Construction of Minimum Redundancy Codes”,即最短冗余码的构造方法.之后,Huffman编码及其一些改进方法一直是数据压缩领域的研究热点之一。Huffman码是一种变长码,其基本思想是:先统计图像(已经数字化)中各灰度出现的概率,出现概率较大的赋以较短的码字,而出现概率较小的则赋以较长的码字。我们可以用下面的框图来表示Huffman编码的过程:在整个编码过程中,统计图像各灰度级出现的概率和编码这两步都很简单,关键的是Huffman树的构造。不但编码的时候需要用到这颗树,解码的时候也必须有这颗树才能完成解码工作,因此,Huffman树还得完整的传输到解码端。Huffman树的构造可以按照下面图2的流程图来完成。首先对统计出来的概率从小到大进行排序,然后将最小的两个概率相加;到这儿的时候,先把已经加过的两个概率作为树的两个节点,并把他们从概率队列中删除;然后把相加所得的新概率加入到队列中,对这个新队列进行排序。如此反复,直到最后两个概率相加为1的时候停止。这样,Huffman树就建立起来了。3. 哈夫曼图像压缩算法软件实现这儿,我们以Turbo C为例来说明软件实现Huffman图像压缩算法的一些关键技术。为了叙述方便,我们不妨假设处理的图像的灰度级变化范围从0到255,即具有256个灰度级。我们先来统计输入图像的概率,实际上是要统计各个灰度级在整幅图像中出现的次数。为此,我们先定义一个具有256个元素的数组。然后对输入图像信号进行扫描,每出现一个灰度,就把它存入实现定义好的一个数组中的相应元素中(让这个元素的值自增1)。最后,通过读取数组中各元素的值就可以求出各个灰度出现的频数。接下来就该构造Huffman树了。为了构造Huffman树,我们要用到C语言中链表的概念。我们必须用一个结构体来表示Huffman树的节点。对于每个节点而言我们需要这样几个信息:本节点的权重(就是灰度的频数)、指向父节点的指针和分别指向左右子叶节点的指针。于是,我们可以定义这样一个结构体:Struct Node{Floatweight;Node * father;Node * left;Node * right;}Huffman_Node我们需要先确定权最低的两个自由结点,这将是最初的left和right节点。然后建立这两个结点的父结点,并让它的权等于这两个结点的权之和。接着将这个父结点增加到自由结点的序列中,而两个子结点则从序列中去掉。重复前面的步骤直到只剩下一个自由结点,这个自由结点就是Huffman树的根。Huffman编码树作为一个二叉树从叶结点逐步向上建立。Huffman树建立好以后,为了把权、概率等数值转化码字,我们还得对整个Huffman树进行扫描。请注意,在建立Huffman树的时候,我们是从树叶开始的,而在对Huffman树分配码字的时候却刚好相反,是从树根开始,沿着各个树枝的走向“顺藤摸瓜”似的对各个系数进行编码。对于一个节点的两个子节点(left和right),其中一个节点对应的位为0,而另一个结点则人为地设置成为l。解码的时候也是完全相同的一颗Huffman树完成的。下面的循环是实现压缩的关键语句之一[ 1 ]。for (i = length-1; i >= 0; ――i) {if ((current_code >> i) & 1)thebyte |= (char) (1 << curbit);if (--curbit < 0) {putc (thebyte, ofile);thebyte = 0;curbyte++;curbit = 7;}}注意:这几行代码执行了数据压缩的功能,但是还没有生成编码和解码所需要的代码表。4.哈夫曼图像压缩算法性能评价我们主要从三方面[ 2 ]来评价Huffman的性能:(1)压缩比的大小;(2)恢复效果的好坏,也就是能否尽可能的恢复原始数据;(3)算法的简单易用性以及编、解码的速度。首先分析一下对压缩比的影响因素(不同的著作中对压缩比的定义不尽相同,这儿我们采用如下定义:压缩比等于压缩之前的以比特计算的数据量比上压缩之后的数据量)。对于Huffman编码来说,我们因为要用额外的位保存和传输Huffman树而“浪费”掉一些存储位,也就是说,为了编、解码的方便,我们把本已减少的数据量又增加了一些。如果文件比较大的话,这一点多余的数据根本算不了什么,所占比例很小。但是,如果压缩的文件本来就很小的话,那么这笔数据就很可观了。一般来说,经典的Huffman算法的压缩比不是很高,这是无损压缩的“通病”。第二点就不用说了,由于它是无损压缩,能够完全恢复压缩之前图像的本来面貌。最后,让我们来分析一下Huffman压缩方法的速度问题。大家在第三节中已经看到了,在压缩的过程中,我们进行了两次扫描,第一次是为了统计各个灰度出现的频数而扫描整幅图像,第二次则是为了分配码字而扫描整个Huffman树。这样一来,对较大的文件进行编码时,频繁的磁盘读写访问必然会降低数据编码的速度,如果用于网络的话,还会因此带来一些延时,不利于实时压缩和传输。另外,Huffman算法的编码和解码的速度是不对称的,解码快于编码,因为解码不需要生成Huffman树的环节。5.图像压缩算法结束语Huffman算法目前已经得到了广泛的应用,软件和硬件都已经实现。基于Huffman经典算法的缺陷,不少人提出了一些自适应算法。前面的算法中,Huffman树是整个图像全部输入扫描完成后构造出来的,而自适应算法(或称动态算法)则不必等到全部图像输入完成才开始树的构造,并且可以根据后面输入的数据动态的对Huffman树进行调整。实际上,实用的Huffman树都是经过某种优化后的动态算法。网络资源

短视频研究现状分析论文

影响短视频行业发展的宏观因素有很多,这些因素共同构成了短视频行业的发展环境。大致来看,对短视频行业发展环境进行分析主要应该着眼于以下几个层面。(1)文化环境:主要应该侧重于分析短视频对传统文化、大众文化、流行文化、亚文化等方面的影响,例如短视频弘扬社会正能量;同时也需认真研究当前主流文化和主流价值观对短视频内容所持的基本态度,例如低俗短视频导致人们对短视频行业形成偏见。(2)经济环境:主要考察社会的生产力、居民收入水平和人均消费水平等具体经济指标,面向特定城市或特定用户群体的短视频产品还应该具体分析其经济环境中与短视频消费相关的因素,例如美妆短视频带货与大学生群体的消费能力。(3)技术环境:分析当前及未来影像短视频行业发展的技术因素,例如短视频平台提供的视频剪辑功能在技术上解决了普通用户的制作难题,又如5G通信技术的普及将推动视频内容超高清化。课堂讨论请读者回忆互联网诞生以来,技术的发展经历了那些阶段?(4)人才环境:考察整个社会及本地区短视频人才的供给状况和收入状况,着重分析创意人才、制作人才和运营人才等群体,了解短视频人才创业的基本状况。完成了对短视频行业发展环境的调研分析之后,就能够清楚地掌握大到全球或全国、小到本地域或本领域的短视频行业宏观发展状况,能够为自身的短视频垂直领域选择和产品基本定位提供决策参考。

短视频国内外研究现状-mv国内外研究现状短视频国内外研究现状短视频应用最早产生于2011年,出现在美国。中国在2013年先后推出了微视、秒拍美拍、抖音、快手、二更、火山小视频等短视频应用。由于短视频进入国内的时间并不长,所以笔者以“短视频”为关键词在读秀上检索时发现,国内目前并没有短视频相关的学术论著,有关短视频的书籍多是跟网红、制作、流量变现、自媒体等有关,缺乏学术价值。学术论文方面,笔者在中国知网 CSSCI(中国社会科学引文索引)数据库以“短视频”进行主题检索,截止2018年9月30日,共检索到909条结果,数据分别为:2011年:1条,2012年:1条,2013年:4条,2014年:25条,2015年:27条,2016年:95条,2017年:285条,2018年:471条。从数据结果来看,从2014年开始,相关文献越来越多,且呈逐年递增的趋势,到了2018年达到最高,这与近两年短视频应用的快速发展有着直接关系,相信随着短视频应用越来越火爆,有关短视频的研究也会更多,成为未来研究的热点。国外最早对短视频进行研究的是Gibbs和Colin,他们在文章《Short-form may be long-tail for mobile video》对短视频应用进行了介绍,并预言移动短视频应用势必成为媒体市场必争之地。(1)此外,笔者在百度学术以“short Video”进行外文主题搜索时,一共搜到171000条信息,其中多集中于光学工程、信息与通信工程、临床医学、教育学方面,有关新闻与传播方面的资料非常少。仅有的一些文章也多从短视频应用出发,进行个案研究,如Luck Chitwood的《Social video success for brands on Vine and Instagram:your 6-to-15 seconds of fame》,作者通过对Vine and Instagram这两大短视频应用进行研究从而探讨短视频应用的价值。(2)短视频国内外研究现状-mv国内外研究现状短视频国内外研究现状短视频应用最早产生于2011年,出现在美国。中国在2013年先后推出了微视、秒拍美拍、抖音、快手、二更、火山小视频等短视频应用。由于短视频进入国内的时间并不长,所以笔者以“短视频”为关键词在读秀上检索时发现,国内目前并没有短视频相关的学术论著,有关短视频的书籍多是跟网红、制作、流量变现、自媒体等有关,缺乏学术价值

百度,夸克,知乎,知网等。短视频传播了物质至上的理念。截至2020年12月,中国短视频用户规模为亿,较2020年3月增长亿,占网民整体的。

日前,新媒体用户不断扩大以及短视频形式在日常得到不断的应用,短视频内容的不断多元化,形成了巨大的商业价值和文化传播价值。短视频形式与各种媒介互相渗透,彼此融合,传播形势不断走向全面化,也正因为如此,短视频这种新兴的传播形式不断受到重视,发展日益扩大。短视频做为一种依托社交与文化传播平台传播,移动端传播,以其相较于其他媒介传播形式所不具备的内容丰富价值,艺术价值,文化传播价值。中国互联网信息中心数据显示,截至2018年2月,中国网络视频用户规模达亿,网络视频用户使用率为,其中手机视频用户规模亿,手机网络视频的使用率为。带有短、平、快特性的短视频形式正随着媒介技术的发展成为传播行业的风口浪尖,丰富了用户的碎片化时间。短视频已经从无到有不断的发展开来,截至目前,短视频已经成为了一项重要的传播媒介。(一)短视频发展现状(一)短视频的特性短视频的属性之一是短视频的时长。随着技术门槛的降低和受众对于短视频这种视频形式接受度的提高,短视频长度也逐渐从最开始的数十秒扩展到数分钟乃至十几分钟。其中以3分钟之内内容为主要时常分布。可以发现网络上存在大量的以3分钟为计时单位的短视频。创作者可利用3分钟时间,为用户解释清楚一个简单的概念或专有名词,使用

  • 索引序列
  • 视频压缩算法研究现状论文范文
  • 视频压缩算法学术论文
  • 短视频算法研究现状论文
  • 图像压缩算法研究论文
  • 短视频研究现状分析论文
  • 返回顶部