ffmpeg

History

Martin Storsjö 61b8a9ea29 aarch64: vp9itxfm16: Do a simpler half/quarter idct16/idct32 when possible This work is sponsored by, and copyright, Google. This avoids loading and calculating coefficients that we know will be zero, and avoids filling the temp buffer with zeros in places where we know the second pass won't read. This gives a pretty substantial speedup for the smaller subpartitions. The code size increases from 21512 bytes to 31400 bytes. The idct16/32_end macros are moved above the individual functions; the instructions themselves are unchanged, but since new functions are added at the same place where the code is moved from, the diff looks rather messy. Before: vp9_inv_dct_dct_16x16_sub1_add_10_neon: 284.6 vp9_inv_dct_dct_16x16_sub2_add_10_neon: 1902.7 vp9_inv_dct_dct_16x16_sub4_add_10_neon: 1903.0 vp9_inv_dct_dct_16x16_sub8_add_10_neon: 2201.1 vp9_inv_dct_dct_16x16_sub12_add_10_neon: 2510.0 vp9_inv_dct_dct_16x16_sub16_add_10_neon: 2821.3 vp9_inv_dct_dct_32x32_sub1_add_10_neon: 1011.6 vp9_inv_dct_dct_32x32_sub2_add_10_neon: 9716.5 vp9_inv_dct_dct_32x32_sub4_add_10_neon: 9704.9 vp9_inv_dct_dct_32x32_sub8_add_10_neon: 10641.7 vp9_inv_dct_dct_32x32_sub12_add_10_neon: 11555.7 vp9_inv_dct_dct_32x32_sub16_add_10_neon: 12499.8 vp9_inv_dct_dct_32x32_sub20_add_10_neon: 13403.7 vp9_inv_dct_dct_32x32_sub24_add_10_neon: 14335.8 vp9_inv_dct_dct_32x32_sub28_add_10_neon: 15253.6 vp9_inv_dct_dct_32x32_sub32_add_10_neon: 16179.5 After: vp9_inv_dct_dct_16x16_sub1_add_10_neon: 282.8 vp9_inv_dct_dct_16x16_sub2_add_10_neon: 1142.4 vp9_inv_dct_dct_16x16_sub4_add_10_neon: 1139.0 vp9_inv_dct_dct_16x16_sub8_add_10_neon: 1772.9 vp9_inv_dct_dct_16x16_sub12_add_10_neon: 2515.2 vp9_inv_dct_dct_16x16_sub16_add_10_neon: 2823.5 vp9_inv_dct_dct_32x32_sub1_add_10_neon: 1012.7 vp9_inv_dct_dct_32x32_sub2_add_10_neon: 6944.4 vp9_inv_dct_dct_32x32_sub4_add_10_neon: 6944.2 vp9_inv_dct_dct_32x32_sub8_add_10_neon: 7609.8 vp9_inv_dct_dct_32x32_sub12_add_10_neon: 9953.4 vp9_inv_dct_dct_32x32_sub16_add_10_neon: 10770.1 vp9_inv_dct_dct_32x32_sub20_add_10_neon: 13418.8 vp9_inv_dct_dct_32x32_sub24_add_10_neon: 14330.7 vp9_inv_dct_dct_32x32_sub28_add_10_neon: 15257.1 vp9_inv_dct_dct_32x32_sub32_add_10_neon: 16190.6 Signed-off-by: Martin Storsjö <martin@martin.st>		2017-03-19 22:54:37 +02:00
..
Makefile	lavc/aarch64: add ff_simple_idct{,_add,_put}_neon functions	2017-03-16 12:00:41 +01:00
asm-offsets.h	…
cabac.h	…
fft_init_aarch64.c	…
fft_neon.S	…
fmtconvert_init.c	…
fmtconvert_neon.S	…
h264chroma_init_aarch64.c	…
h264cmc_neon.S	…
h264dsp_init_aarch64.c	…
h264dsp_neon.S	…
h264idct_neon.S	…
h264pred_init.c	…
h264pred_neon.S	…
h264qpel_init_aarch64.c	…
h264qpel_neon.S	…
hpeldsp_init_aarch64.c	…
hpeldsp_neon.S	…
idct.h	lavc/aarch64: add ff_simple_idct{,_add,_put}_neon functions	2017-03-16 12:00:41 +01:00
idctdsp_init_aarch64.c	lavc/aarch64: add ff_simple_idct{,_add,_put}_neon functions	2017-03-16 12:00:41 +01:00
mdct_neon.S	…
mpegaudiodsp_init.c	…
mpegaudiodsp_neon.S	…
neon.S	…
neontest.c	…
rv40dsp_init_aarch64.c	…
simple_idct_neon.S	lavc/aarch64: add ff_simple_idct{,_add,_put}_neon functions	2017-03-16 12:00:41 +01:00
synth_filter_init.c	…
synth_filter_neon.S	…
vc1dsp_init_aarch64.c	…
videodsp.S	…
videodsp_init.c	…
vorbisdsp_init.c	…
vorbisdsp_neon.S	…
vp9dsp_init.h	aarch64: Add NEON optimizations for 10 and 12 bit vp9 MC	2017-01-24 22:36:05 +02:00
vp9dsp_init_10bpp_aarch64.c	aarch64: Add NEON optimizations for 10 and 12 bit vp9 MC	2017-01-24 22:36:05 +02:00
vp9dsp_init_12bpp_aarch64.c	aarch64: Add NEON optimizations for 10 and 12 bit vp9 MC	2017-01-24 22:36:05 +02:00
vp9dsp_init_16bpp_aarch64_template.c	aarch64: Add NEON optimizations for 10 and 12 bit vp9 loop filter	2017-01-24 22:36:11 +02:00
vp9dsp_init_aarch64.c	aarch64: Add NEON optimizations for 10 and 12 bit vp9 MC	2017-01-24 22:36:05 +02:00
vp9itxfm_16bpp_neon.S	aarch64: vp9itxfm16: Do a simpler half/quarter idct16/idct32 when possible	2017-03-19 22:54:37 +02:00
vp9itxfm_neon.S	arm/aarch64: vp9: Fix vertical alignment	2017-03-19 22:53:32 +02:00
vp9lpf_16bpp_neon.S	aarch64: Add NEON optimizations for 10 and 12 bit vp9 loop filter	2017-01-24 22:36:11 +02:00
vp9lpf_neon.S	aarch64: vp9lpf: Use dup+rev16+uzp1 instead of dup+lsr+dup+trn1	2017-03-11 13:14:50 +02:00
vp9mc_16bpp_neon.S	aarch64: Add NEON optimizations for 10 and 12 bit vp9 MC	2017-01-24 22:36:05 +02:00
vp9mc_neon.S	aarch64: vp9mc: Calculate less unused data in the 4 pixel wide horizontal filter	2017-03-11 13:14:48 +02:00