音视频同步的原理及实现方案_二手音频_音频应用论坛 - Powered by AUIOAPP

音频应用论坛

 找回密码
 快速注册

QQ登录

只需一步,快速开始

搜索
热搜: 音频应用

[音频] 音视频同步的原理及实现方案

[复制链接]
3ypqz 发表于 2006-10-18 08:38:00

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
音视频同步是我们观看视频的一个基本体验,尤其对于视频画面中能看到声源动作(如:嘴型)的场景,音视频同步问题非常影响体验。
+ q7 D8 {* H: ^6 t3 e3 h  W+ p4 x4 z$ `6 ]& x  }- C5 d
在短视频与直播APP中,采集端作为音视频的生产者,如果采集端产生的音视频源本身就无法保证同步,那么后面不管经过什么处理,都很难再让用户看到音视频同步的画面了,因此,在采集端保证音视频同步上尤其重要。0 S5 b2 E' z$ U' |% e
: S' o2 s/ [$ w3 U7 H6 v8 S" X
那么如何保证app在各种正常/非正常状况下尽量保证输出同步的音视频?本文就是讲述我们是如何解决上述问题的。' K. m) ~5 ]- Q6 h# I1 p
% o1 s, x3 a1 A) J) d  J
音视频同步的原理% M1 A2 S1 z/ h# {
* O/ C+ o" e0 G
音视频采集的数据分别来自于麦克风与摄像头,而摄像头与麦克风其实是两个独立的硬件,而音视频同步的原理是相信摄像头与麦克风采集数据是实时的,并在采集到数据时给他们一个时间戳来标明数据所属的时间,而编码封装模块只要不改动音视频时间的相对关系就能保证音频与视频在时间上的对应。如此封装好数据之后,播放端就能够根据音视频的时间戳来播放对应的音视频,从实现音视频同步的效果。
! P& L) B7 ~, [7 V3 W6 @, V# c) z; q& [  K# q0 X. T) p
时间戳参考标准) p. V" n$ I/ j6 E8 G

% V( b' Z& I# ?: I' o取格林威治时间做为对比标准,即音视频时间戳都为采集时间点相对于格林威治标准时间的时间差;
! @. q# G' R9 D7 B% I! ~" i; s# J3 r4 w% W! v
取系统开机时间做为对比标准,即音视频时间戳都是采集时间点相对于手机开机时间的时间差。目前iOS上AVCaptureSession这套API就是参考这个时间标准给的时间戳。
) m5 y" S* |  A
1 c) W/ Q: L) G" V4 }) Y其它时间戳标准
. Y, w" N2 o5 e0 |, w1 E$ @! e8 d, o0 P+ }+ K, |3 X8 g
基于“开源项目1”的音视频同步探讨
" t! p# Z7 z+ ]* f6 Q  o
* `# {  f8 O0 t# _% ~7 D) l- L原生某开源框架
  [9 l* E- ?: D/ h6 Q/ S; o: B' p, e7 ~6 L1 x
如图:& T3 B! |8 T. a; {5 q
8 I; U0 ~& L* K/ a% L7 R2 p  Y$ C7 j
音视频同步的原理及实现方法
9 l3 I2 B) }) `5 |7 c' u" N7 b( j. j+ X. r& z, e7 Y. R$ w& O
 楼主| 3ypqz 发表于 2006-10-19 05:20:00
简介
. V7 [$ Z& g2 }/ Z6 c3 o8 Q$ \1 g+ X  V* C4 K
音/视频被采集到之后会先经过音/视频处理模块,音/视频在被处理之后才进入计算时间戳的模块。
& w; E4 u* U- K" w" C5 F& y$ f4 w7 i1 w1 p( r8 e! B) Q# w/ b' V  G
在第一帧到达时记一个计时起点,然后根据采集的帧间隔对接下来每一帧的时间戳进行计算:frameTimeStamp = lastFrameTimeStamp + frameDuration。% k, S' D$ W* n* }) w8 l4 @) l# }

- I/ i7 q0 o, ]& v+ b, A优点
/ e6 r) b- @7 t; p0 h. ~/ m9 o" D% Z
能输出frame duration稳定的音视频时间戳。
& B8 N& M& s+ ]& ^0 ?  A9 Q- w! L
风险
; r* a. q2 I4 X/ w- t
* |6 D( F/ n/ P6 Q* u: o无论是音频还是视频,在手机过热、性能不足等极端情况下有可能出现采集不稳定的情况,比如说预计1s采集30帧,实际只采集到28帧,而音视频的时间戳是通过累加来计算的,这样就有会出现音视频不同步的情况。" i& C& w( e" a$ ?- c( d

5 A2 T3 F6 N3 R0 R( h9 X, E4 CVideo Process(人脸检测、滤镜、3D贴纸)有可能无法在一帧时间内处理完当前帧,这样就会出现帧数比预期低的情况,从而出现音视频不同步。
& K9 s4 y' ~" m+ d9 Q' s$ p9 Z5 Z/ p) ?7 \
帧间隔涉及到无限小数时,因为计算机的精度有限会引发的时间戳偏移,此偏移会随着帧数的增加而逐渐被放大。
4 r  F8 ]0 ~; Y" ~" c
8 |" o) P1 E4 H0 G, D基于开源项目1的改进方案1) w; k. \# Q3 X% B
$ J9 y; L. Z# v: X- _+ R8 @. u
如图:
* G7 Z% |8 ~; B3 C& i/ f8 Y& g' g1 o" q1 B+ W2 q9 r* q6 C
音视频同步的原理及实现方法
0 d  x1 I7 b! y9 }6 C6 F& Z6 n2 X0 \3 l; @- m6 S6 Z: }2 F. C
时间戳的获取方法非常直接——每一帧都在改帧进入时间戳计算模块时获取当前系统时间作为时间戳。! p2 I! R- j. K& s" k) E
, ?; |# m3 M7 ?/ f2 U4 L# B& g9 C- M
优点; P) A7 Q' S- T% Q: ~& L
6 t# f1 X( P# p9 Y! Z; K
APP性能正常的情况下肯定不会出现音视频不同步;
- c& ?" z9 B  S$ A# L. H1 C5 F; }; \! B5 z+ {% V3 X
能够实时纠正时间戳,只要APP正常运转,就能立即恢复正确的时间戳。! T, _) p* e! A, h; j5 v
  x" G2 I" l( x* ^* S
风险
/ c% [8 m3 L- x9 ^: k' g
& Z  a' R( w+ R3 b( Y依赖Video Process与Audio Process模块处理时长相近,而实际工程中因为人脸检测、贴纸等原因,Video Process可能会出现阻塞的情况,从而导致临时性的音视频不同步  m: \3 s$ N, z) \2 g
& B0 c# a' x* i# C) J
在Audio Process与Video Process模块处理帧耗时不均匀的情况下会出现音视频时间戳不均匀的问题,能否正常播放依赖于终端* U* f4 J& V2 u! S% V  o* d4 ^* S
) j, v3 Q* R4 |: F% I2 _
基于开源项目1的一个改进方案27 O3 h# P8 P' V4 @& ~
/ [# P/ O! g4 U2 k$ g
如图:
2 R) T' R0 O6 u  s7 f) q" A# L
0 u2 i8 |% w  n0 }
* C: \1 c% O, X* M& f: s简介
2 p6 r8 i2 n, |
. f3 L4 \4 [( F5 Y' F音/视频被采集到之后,先获取采集模块提供的音视频时间戳,然后在音/视频处理模块透传采集模块获取到的音/视频时间戳,在时间戳计算模块继续透传采集模块给的时间戳。; \' R+ F  d" ?9 h
* t4 i# a5 m9 P- a3 S
优点: s, I$ S9 F4 H( S2 f: u/ j& g

2 ?6 d. f. m$ F1 l除非采集模块给出错误数据,否则音视频都一定是同步的。
2 {4 k5 G$ U2 O8 v2 R3 n1 a  v1 Q: h& q6 ^' }. d2 C; J( m# F
风险
# b+ Q/ v/ m6 ^$ K# d: i% S" ]/ P2 ^4 b7 `
可能会出现音视频时间戳不均匀的情况,尤其是在手机过热、性能不足等极端情况下。: ?! d1 p. M- Z% l% C+ U
% B6 ]: _' T4 o
直播方向更进一步的优化探讨
& X% k( }! {0 b9 ~
+ v9 m9 N/ U" ?) f- ]大致流程如图:/ X( |4 c: S$ D% O

9 a3 S& w) R: e3 z- C4 t, Z% C! S: A
简介' ~& E9 I1 q# s# r( J* W5 g
1 \$ R3 e% Y4 u7 j" q
音/视频被采集到之后,先获取采集模块提供的音视频时间戳,然后在音/视频处理模块透传采集模块获取到的音/视频时间戳。4 p( I$ o2 M- y* m0 T3 @
6 d) T3 o6 H5 K3 \% X
在时间戳计算模块透传视频时间戳,并根据下文中提到的方法计算音频时间戳。
 楼主| 3ypqz 发表于 2006-10-19 05:48:00
音频时间戳计算方法9 y/ w) l4 k- q
% T: S4 H2 ^* ~& ^' R
实时计算时间戳:当前时间戳=起始时间戳+帧数*帧采样数/采样率;5 H% P/ y0 @0 @. I! `% e
0 e2 ~/ f, }6 A9 W) J/ W1 ?8 v
如果时间戳偏移量超出阈值,纠正时间戳;
. G5 i+ T5 X$ o" y, w5 f) [$ i8 |7 G+ ~) {/ j" r( ^: [+ K1 @
纠正频率达到超出阈值,直接透传采集时间戳。
" e6 C4 n; \# R% C' e7 |5 t* V
/ e2 Q( b( t0 K( F! r3 E优点
& M  O6 e$ O0 J6 {/ p
* k1 X. K7 J. }6 w' f+ T. y能够提供一个稳定的音频时间戳,可以兼容帧间隔小幅抖动造成的音频时间戳不均匀;
2 t# v8 ]+ N( s/ Q, S) ?6 G
0 y( P* ]- v6 j" }兼容性能不足时导致实际采集帧数低于帧率。
" \6 A" D8 O* y
% a" R/ ~7 W# j) `风险: a! T% y1 H; i0 f$ o+ q+ W

# }6 \5 j/ {4 @2 V6 {纠正时间戳时可能会造成声音卡顿的感觉。) U0 \6 C9 ]# ?9 z% l$ Z
" \4 B" j) K3 x  e' F, f/ [
总结
$ o0 i9 ]5 w7 ]) q: K, Y/ r$ z' j, B+ [% [9 I$ d
具体方案最好是针对实际应用场景有选择性的做优化,比如说,在可以控制播放器策略的情况,可以考虑根据自研播放器特性做时间戳处理。而如果播放器不可控,则尽量通过策略保障帧间隔稳定。
鹰歌 发表于 2006-10-24 07:58:00
好文章,不错啊,可以收藏学习了啊!~
声部 发表于 2007-1-6 17:29:00
聆听。。。。欣赏。。。。学习。。。
www.ycgc.net
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

软硬产品代理咨询服务:声卡:雅马哈UR22C、罗兰声卡、福克斯特、艾肯、阿波罗 、M-audio 、普瑞声纳 、福克斯特、 达思冠系列 音箱:吸顶NS-IW560C、吸顶NS-IW660 、NS-AW350、低音NS-SW050、低音NS-SW100;JBL 吸顶8124、CSS-8006BM;香蕉猴 gibbon系列;普瑞声纳E5XT、E4.5、 E3.5BT 有线话筒:舒尔PGA27、PGA48、MV51、mv88、mv88+、SM27 ;森海E945 、MK4、E835S;舒伯乐top248s;罗德NT1-A、VIDEOMIC、VIDEOMIC GO、VideoMicro、VideoMic NTG 无线领夹麦克风:罗德 wireless go II 一拖一、一拖二;猛犸lark150 耳机:森海HD300 pro、美奇 CR-Buds 、索尼7506、爱科技K240S、K240 MKII、K271 MKII、K52、K72、K92、先锋、飞利浦 1:飞利浦会务通/会议摄像头/全向麦克风/执法仪/录音笔 2:洋铭便携式移动演播室 / 切换台 / 摄控一体摄像机 / 虚拟演播室 / 微金课教室 / 色键器 3:逻兰音视频切换台 / 声卡 / 电子鼓 /电钢琴 /耳机 4:Blackmagic专业摄影机 /调色台 / 切换台/ 广播级转换器 / 监视器 / 采集卡 5:索尼专业摄像机/佳能专业摄像机/松下专业摄像机/ insta360专业摄像机 6:话筒:铁三角/ 舒尔/ 森海塞尔 / AKG / RODE/ BBS 7:音响:YAMAHA/ 声艺 / 皇冠 /JBL / 真力/咪宝/BOSE /美奇 8:声卡:RME/羚羊/IXI /艾肯/PreSonus普瑞声纳/Focusrite福克斯特/YAMAHA/雅马哈/ickb 9:耳机:铁三角/beyerdynamic拜亚动力/AKG爱科技/索尼/RunningMan/美技 10:思锐三脚架 /防潮箱 /米泊三脚架/意美捷三脚架/曼富图三脚架 11:XSW系列,300.500代理商,EWD数字系列代理,6000.9000定制产品,还包销了全国三个型号:XSW1-825,EW100 G4-945,EWD- kk 205

小黑屋|手机版|Archiver|音频应用 (鄂ICP备13005321号-1)

Powered by Audio app

快速回复 返回顶部 返回列表