ffmpeg/libswscale/riscv/input_rvv.S

/*
 * Copyright © 2024 Rémi Denis-Courmont.
 *
 * This file is part of FFmpeg.
 *
 * FFmpeg is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * FFmpeg is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with FFmpeg; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 */

#include "libavutil/riscv/asm.S"

func ff_bgr24ToY_rvv, zve32x
        lw      t1, 8(a5) # BY
        lw      t3, 0(a5) # RY
        j       1f
endfunc

func ff_rgb24ToY_rvv, zve32x
        lw      t1, 0(a5) # RY
        lw      t3, 8(a5) # BY
1:
        lw      t2, 4(a5) # GY
        li      t4, (32 << (15 - 1)) + (1 << (15 - 7))
2:
        vsetvli    t0, a4, e32, m8, ta, ma
        vlseg3e8.v v0, (a1)
        sub        a4, a4, t0
        vzext.vf4  v8, v0
        sh1add     t5, t0, t0 # t1 = 3 * t0
        vzext.vf4  v16, v2
        vzext.vf4  v24, v4
        add        a1, t5, a1
        vmul.vx    v8, v8, t1
        vmacc.vx   v8, t2, v16
        vmacc.vx   v8, t3, v24
        vadd.vx    v8, v8, t4
        vsetvli    zero, zero, e16, m4, ta, ma
        vnsra.wi   v0, v8, 15 - 6
        vse16.v    v0, (a0)
        sh1add     a0, t0, a0
        bnez       a4, 2b

        ret
endfunc

func ff_bgr24ToUV_rvv, zve32x
        lw      t1, 20(a6) # BU
        lw      t4, 32(a6) # BV
        lw      t3, 12(a6) # RU
        lw      t6, 24(a6) # RV
        j       1f
endfunc

func ff_rgb24ToUV_rvv, zve32x
        lw      t1, 12(a6) # RU
        lw      t4, 24(a6) # RV
        lw      t3, 20(a6) # BU
        lw      t6, 32(a6) # BV
1:
        lw      t2, 16(a6) # GU
        lw      t5, 28(a6) # GV
        li      a7, (256 << (15 - 1)) + (1 << (15 - 7))
2:
        vsetvli    t0, a5, e32, m8, ta, ma
        vlseg3e8.v v0, (a3)
        sub        a5, a5, t0
        vzext.vf4  v16, v0
        sh1add     a6, t0, t0
        vzext.vf4  v24, v2
        vmul.vx    v8, v16, t1
        add        a3, a6, a3
        vmul.vx    v16, v16, t4
        vmacc.vx   v8, t2, v24
        vmacc.vx   v16, t5, v24
        vzext.vf4  v24, v4
        vadd.vx    v8, v8, a7
        vadd.vx    v16, v16, a7
        vmacc.vx   v8, t3, v24
        vmacc.vx   v16, t6, v24
        vsetvli    zero, zero, e16, m4, ta, ma
        vnsra.wi   v0, v8, 15 - 6
        vnsra.wi   v4, v16, 15 - 6
        vse16.v    v0, (a0)
        sh1add     a0, t0, a0
        vse16.v    v4, (a1)
        sh1add     a1, t0, a1
        bnez       a5, 2b

        ret
endfunc

func ff_bgr24ToUV_half_rvv, zve32x
        lw      t1, 20(a6) # BU
        lw      t4, 32(a6) # BV
        lw      t3, 12(a6) # RU
        lw      t6, 24(a6) # RV
        j       1f
endfunc

func ff_rgb24ToUV_half_rvv, zve32x
        lw      t1, 12(a6) # RU
        lw      t4, 24(a6) # RV
        lw      t3, 20(a6) # BU
        lw      t6, 32(a6) # BV
1:
        lw      t2, 16(a6) # GU
        lw      t5, 28(a6) # GV
        li      a7, (256 << 15) + (1 << (15 - 6))
2:
        vsetvli    t0, a5, e8, m1, ta, ma
        vlseg6e8.v v0, (a3)
        sh1add     a6, t0, t0
        vwaddu.vv  v8, v0, v3
        sub        a5, a5, t0
        vwaddu.vv  v10, v1, v4
        sh1add     a3, a6, a3
        vwaddu.vv  v12, v2, v5
        vsetvli    zero, zero, e32, m4, ta, ma
        vzext.vf2  v20, v8
        vzext.vf2  v24, v10
        vzext.vf2  v28, v12
        vmul.vx    v0, v20, t1
        vmul.vx    v4, v20, t4
        vmacc.vx   v0, t2, v24
        vmacc.vx   v4, t5, v24
        vmacc.vx   v0, t3, v28
        vmacc.vx   v4, t6, v28
        vadd.vx    v0, v0, a7
        vadd.vx    v4, v4, a7
        vsetvli    zero, zero, e16, m2, ta, ma
        vnsra.wi   v0, v0, 15 - 5
        vnsra.wi   v2, v4, 15 - 5
        vse16.v    v0, (a0)
        sh1add     a0, t0, a0
        vse16.v    v2, (a1)
        sh1add     a1, t0, a1
        bnez       a5, 2b

        ret
endfunc

        .macro  rgba_input chr0, chr1, high
func ff_\chr1\()ToY_rvv, zve32x
        lw      t1, 8(a5) # BY
        lw      t3, 0(a5) # RY
        j       1f
endfunc

func ff_\chr0\()ToY_rvv, zve32x
        lw      t1, 0(a5) # RY
        lw      t3, 8(a5) # BY
1:
        lw      t2, 4(a5) # GY
        li      t4, (32 << (15 - 1)) + (1 << (15 - 7))
        li      t5, 0xff
2:
        vsetvli   t0, a4, e32, m8, ta, ma
        vle32.v   v0, (a1)
        sub       a4, a4, t0
        .if     \high
        vsrl.vi   v8, v0, 24
        .else
        vand.vx   v8, v0, t5
        .endif
        sh2add    a1, t0, a1
        vsrl.vi   v16, v0, 8 * (1 + \high)
        vmul.vx   v24, v8, t1
        vand.vx   v16, v16, t5
        vsrl.vi   v8, v0, 8 * (2 - \high)
        vmacc.vx  v24, t2, v16
        vand.vx   v8, v8, t5
        vadd.vx   v24, v24, t4
        vmacc.vx  v24, t3, v8
        vsetvli   zero, zero, e16, m4, ta, ma
        vnsra.wi  v0, v24, 15 - 6
        vse16.v   v0, (a0)
        sh1add    a0, t0, a0
        bnez      a4, 2b

        ret
endfunc

func ff_\chr1\()ToUV_rvv, zve32x
        lw      t1, 20(a6) # BU
        lw      t4, 32(a6) # BV
        lw      t3, 12(a6) # RU
        lw      t6, 24(a6) # RV
        j       1f
endfunc

func ff_\chr0\()ToUV_rvv, zve32x
        lw      t1, 12(a6) # RU
        lw      t4, 24(a6) # RV
        lw      t3, 20(a6) # BU
        lw      t6, 32(a6) # BV
1:
        lw      t2, 16(a6) # GU
        lw      t5, 28(a6) # GV
        li      a6, 0xff
        li      a7, (256 << (15 - 1)) + (1 << (15 - 7))
2:
        vsetvli   t0, a5, e32, m8, ta, ma
        vle32.v   v0, (a3)
        sub       a5, a5, t0
        .if     \high
        vsrl.vi   v24, v0, 24
        .else
        vand.vx   v24, v0, a6
        .endif
        sh2add    a3, t0, a3
        vsrl.vi   v8, v0, 8 * (1 + \high)
        vmul.vx   v16, v24, t1
        vand.vx   v8, v8, a6
        vmul.vx   v24, v24, t4
        vmacc.vx  v16, t2, v8
        vsrl.vi   v0, v0, 8 * (2 - \high)
        vmacc.vx  v24, t5, v8
        vand.vx   v0, v0, a6
        vadd.vx   v16, v16, a7
        vadd.vx   v24, v24, a7
        vmacc.vx  v16, t3, v0
        vmacc.vx  v24, t6, v0
        vsetvli   zero, zero, e16, m4, ta, ma
        vnsra.wi  v0, v16, 15 - 6
        vnsra.wi  v4, v24, 15 - 6
        vse16.v   v0, (a0)
        sh1add    a0, t0, a0
        vse16.v   v4, (a1)
        sh1add    a1, t0, a1
        bnez      a5, 2b

        ret
endfunc

func ff_\chr1\()ToUV_half_rvv, zve32x
        lw      t1, 20(a6) # BU
        lw      t4, 32(a6) # BV
        lw      t3, 12(a6) # RU
        lw      t6, 24(a6) # RV
        j       1f
endfunc

func ff_\chr0\()ToUV_half_rvv, zve32x
        lw      t1, 12(a6) # RU
        lw      t4, 24(a6) # RV
        lw      t3, 20(a6) # BU
        lw      t6, 32(a6) # BV
1:
        lw      t2, 16(a6) # GU
        lw      t5, 28(a6) # GV
        li      a6, 0xff
        li      a7, (256 << 15) + (1 << (15 - 6))
2:
        vsetvli     t0, a5, e32, m4, ta, ma
        vlseg2e32.v v0, (a3)
        sub         a5, a5, t0
        .if     \high
        vsrl.vi     v8, v0, 24
        vsrl.vi     v12, v4, 24
        .else
        vand.vx     v8, v0, a6
        vand.vx     v12, v4, a6
        .endif
        sh3add      a3, t0, a3
        vsrl.vi     v16, v0, 8 * (1 + \high)
        vsrl.vi     v20, v4, 8 * (1 + \high)
        vsrl.vi     v24, v0, 8 * (2 - \high)
        vsrl.vi     v28, v4, 8 * (2 - \high)
        vand.vx     v16, v16, a6
        vand.vx     v20, v20, a6
        vand.vx     v24, v24, a6
        vand.vx     v28, v28, a6
        vadd.vv     v8, v8, v12
        vadd.vv     v16, v16, v20
        vadd.vv     v24, v24, v28
        vmul.vx     v0, v8, t1
        vmul.vx     v4, v8, t4
        vmacc.vx    v0, t2, v16
        vmacc.vx    v4, t5, v16
        vmacc.vx    v0, t3, v24
        vmacc.vx    v4, t6, v24
        vadd.vx     v0, v0, a7
        vadd.vx     v4, v4, a7
        vsetvli     zero, zero, e16, m2, ta, ma
        vnsra.wi    v0, v0, 15 - 5
        vnsra.wi    v2, v4, 15 - 5
        vse16.v     v0, (a0)
        sh1add      a0, t0, a0
        vse16.v     v2, (a1)
        sh1add      a1, t0, a1
        bnez        a5, 2b

        ret
endfunc
        .endm

rgba_input rgba32, bgra32, 0
rgba_input abgr32, argb32, 1
sws/input: R-V V rgb24ToY & bgr24ToY T-Head C908: rgb24_to_y_8_c: 2.0 rgb24_to_y_8_rvv_i32: 2.7 rgb24_to_y_128_c: 26.2 rgb24_to_y_128_rvv_i32: 9.2 rgb24_to_y_1080_c: 219.5 rgb24_to_y_1080_rvv_i32: 76.2 rgb24_to_y_1280_c: 276.2 rgb24_to_y_1280_rvv_i32: 89.7 rgb24_to_y_1920_c: 389.7 rgb24_to_y_1920_rvv_i32: 134.2 SpacemiT X60: rgb24_to_y_8_c: 1.7 rgb24_to_y_8_rvv_i32: 2.2 rgb24_to_y_128_c: 23.2 rgb24_to_y_128_rvv_i32: 4.2 rgb24_to_y_1080_c: 195.0 rgb24_to_y_1080_rvv_i32: 33.7 rgb24_to_y_1280_c: 231.0 rgb24_to_y_1280_rvv_i32: 40.0 rgb24_to_y_1920_c: 346.2 rgb24_to_y_1920_rvv_i32: 59.7 2024-06-04 19:57:33 +00:00			`/*`
			`* Copyright © 2024 Rémi Denis-Courmont.`
			`*`
			`* This file is part of FFmpeg.`
			`*`
			`* FFmpeg is free software; you can redistribute it and/or`
			`* modify it under the terms of the GNU Lesser General Public`
			`* License as published by the Free Software Foundation; either`
			`* version 2.1 of the License, or (at your option) any later version.`
			`*`
			`* FFmpeg is distributed in the hope that it will be useful,`
			`* but WITHOUT ANY WARRANTY; without even the implied warranty of`
			`* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU`
			`* Lesser General Public License for more details.`
			`*`
			`* You should have received a copy of the GNU Lesser General Public`
			`* License along with FFmpeg; if not, write to the Free Software`
			`* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA`
			`*/`

			`#include "libavutil/riscv/asm.S"`

			`func ff_bgr24ToY_rvv, zve32x`
			`lw t1, 8(a5) # BY`
			`lw t3, 0(a5) # RY`
			`j 1f`
			`endfunc`

			`func ff_rgb24ToY_rvv, zve32x`
			`lw t1, 0(a5) # RY`
			`lw t3, 8(a5) # BY`
			`1:`
			`lw t2, 4(a5) # GY`
			`li t4, (32 << (15 - 1)) + (1 << (15 - 7))`
			`2:`
			`vsetvli t0, a4, e32, m8, ta, ma`
			`vlseg3e8.v v0, (a1)`
			`sub a4, a4, t0`
			`vzext.vf4 v8, v0`
			`sh1add t5, t0, t0 # t1 = 3 * t0`
			`vzext.vf4 v16, v2`
			`vzext.vf4 v24, v4`
			`add a1, t5, a1`
			`vmul.vx v8, v8, t1`
			`vmacc.vx v8, t2, v16`
			`vmacc.vx v8, t3, v24`
			`vadd.vx v8, v8, t4`
			`vsetvli zero, zero, e16, m4, ta, ma`
			`vnsra.wi v0, v8, 15 - 6`
			`vse16.v v0, (a0)`
			`sh1add a0, t0, a0`
			`bnez a4, 2b`

			`ret`
			`endfunc`
sws/input: R-V V rgb24ToUV and bgr24ToUV T-Head C908: rgb24_to_uv_8_c: 2.7 rgb24_to_uv_8_rvv_i32: 3.2 rgb24_to_uv_128_c: 41.0 rgb24_to_uv_128_rvv_i32: 12.7 rgb24_to_uv_1080_c: 342.5 rgb24_to_uv_1080_rvv_i32: 105.7 rgb24_to_uv_1280_c: 406.0 rgb24_to_uv_1280_rvv_i32: 124.2 rgb24_to_uv_1920_c: 626.0 rgb24_to_uv_1920_rvv_i32: 186.0 SpacemiT X60: rgb24_to_uv_8_c: 2.5 rgb24_to_uv_8_rvv_i32: 3.0 rgb24_to_uv_128_c: 36.5 rgb24_to_uv_128_rvv_i32: 5.7 rgb24_to_uv_1080_c: 304.2 rgb24_to_uv_1080_rvv_i32: 49.0 rgb24_to_uv_1280_c: 360.5 rgb24_to_uv_1280_rvv_i32: 57.5 rgb24_to_uv_1920_c: 540.7 rgb24_to_uv_1920_rvv_i32: 86.2 2024-06-05 15:36:42 +00:00
			`func ff_bgr24ToUV_rvv, zve32x`
			`lw t1, 20(a6) # BU`
			`lw t4, 32(a6) # BV`
			`lw t3, 12(a6) # RU`
			`lw t6, 24(a6) # RV`
			`j 1f`
			`endfunc`

			`func ff_rgb24ToUV_rvv, zve32x`
			`lw t1, 12(a6) # RU`
			`lw t4, 24(a6) # RV`
			`lw t3, 20(a6) # BU`
			`lw t6, 32(a6) # BV`
			`1:`
			`lw t2, 16(a6) # GU`
			`lw t5, 28(a6) # GV`
			`li a7, (256 << (15 - 1)) + (1 << (15 - 7))`
			`2:`
			`vsetvli t0, a5, e32, m8, ta, ma`
			`vlseg3e8.v v0, (a3)`
			`sub a5, a5, t0`
			`vzext.vf4 v16, v0`
			`sh1add a6, t0, t0`
			`vzext.vf4 v24, v2`
			`vmul.vx v8, v16, t1`
			`add a3, a6, a3`
			`vmul.vx v16, v16, t4`
			`vmacc.vx v8, t2, v24`
			`vmacc.vx v16, t5, v24`
			`vzext.vf4 v24, v4`
			`vadd.vx v8, v8, a7`
			`vadd.vx v16, v16, a7`
			`vmacc.vx v8, t3, v24`
			`vmacc.vx v16, t6, v24`
			`vsetvli zero, zero, e16, m4, ta, ma`
			`vnsra.wi v0, v8, 15 - 6`
			`vnsra.wi v4, v16, 15 - 6`
			`vse16.v v0, (a0)`
			`sh1add a0, t0, a0`
			`vse16.v v4, (a1)`
			`sh1add a1, t0, a1`
			`bnez a5, 2b`

			`ret`
			`endfunc`
sws/input: R-V V rgb24ToUV_half and bgr24ToUV_half T-Head C908: rgb24_to_uv_half_4_c: 2.0 rgb24_to_uv_half_4_rvv_i32: 3.5 rgb24_to_uv_half_64_c: 27.0 rgb24_to_uv_half_64_rvv_i32: 12.5 rgb24_to_uv_half_540_c: 223.7 rgb24_to_uv_half_540_rvv_i32: 105.2 rgb24_to_uv_half_640_c: 265.5 rgb24_to_uv_half_640_rvv_i32: 123.7 rgb24_to_uv_half_960_c: 414.5 rgb24_to_uv_half_960_rvv_i32: 249.5 SpacemiT X60: rgb24_to_uv_half_4_c: 1.7 rgb24_to_uv_half_4_rvv_i32: 4.2 rgb24_to_uv_half_64_c: 24.0 rgb24_to_uv_half_64_rvv_i32: 8.7 rgb24_to_uv_half_540_c: 199.2 rgb24_to_uv_half_540_rvv_i32: 72.5 rgb24_to_uv_half_640_c: 235.7 rgb24_to_uv_half_640_rvv_i32: 85.2 rgb24_to_uv_half_960_c: 353.5 rgb24_to_uv_half_960_rvv_i32: 127.5 2024-06-05 16:32:31 +00:00
			`func ff_bgr24ToUV_half_rvv, zve32x`
			`lw t1, 20(a6) # BU`
			`lw t4, 32(a6) # BV`
			`lw t3, 12(a6) # RU`
			`lw t6, 24(a6) # RV`
			`j 1f`
			`endfunc`

			`func ff_rgb24ToUV_half_rvv, zve32x`
			`lw t1, 12(a6) # RU`
			`lw t4, 24(a6) # RV`
			`lw t3, 20(a6) # BU`
			`lw t6, 32(a6) # BV`
			`1:`
			`lw t2, 16(a6) # GU`
			`lw t5, 28(a6) # GV`
			`li a7, (256 << 15) + (1 << (15 - 6))`
			`2:`
			`vsetvli t0, a5, e8, m1, ta, ma`
			`vlseg6e8.v v0, (a3)`
			`sh1add a6, t0, t0`
			`vwaddu.vv v8, v0, v3`
			`sub a5, a5, t0`
			`vwaddu.vv v10, v1, v4`
			`sh1add a3, a6, a3`
			`vwaddu.vv v12, v2, v5`
			`vsetvli zero, zero, e32, m4, ta, ma`
			`vzext.vf2 v20, v8`
			`vzext.vf2 v24, v10`
			`vzext.vf2 v28, v12`
			`vmul.vx v0, v20, t1`
			`vmul.vx v4, v20, t4`
			`vmacc.vx v0, t2, v24`
			`vmacc.vx v4, t5, v24`
			`vmacc.vx v0, t3, v28`
			`vmacc.vx v4, t6, v28`
			`vadd.vx v0, v0, a7`
			`vadd.vx v4, v4, a7`
			`vsetvli zero, zero, e16, m2, ta, ma`
			`vnsra.wi v0, v0, 15 - 5`
			`vnsra.wi v2, v4, 15 - 5`
			`vse16.v v0, (a0)`
			`sh1add a0, t0, a0`
			`vse16.v v2, (a1)`
			`sh1add a1, t0, a1`
			`bnez a5, 2b`

			`ret`
			`endfunc`
sws/input: R-V V 32-bit RGB to Y T-Head C908: abgr_to_y_8_c: 2.5 abgr_to_y_8_rvv_i32: 2.2 abgr_to_y_128_c: 37.0 abgr_to_y_128_rvv_i32: 8.5 abgr_to_y_1080_c: 327.0 abgr_to_y_1080_rvv_i32: 69.5 abgr_to_y_1920_c: 552.0 abgr_to_y_1920_rvv_i32: 122.2 bgra_to_y_8_c: 2.5 bgra_to_y_8_rvv_i32: 2.2 bgra_to_y_128_c: 37.2 bgra_to_y_128_rvv_i32: 8.5 bgra_to_y_1080_c: 310.2 bgra_to_y_1080_rvv_i32: 69.5 bgra_to_y_1920_c: 568.2 bgra_to_y_1920_rvv_i32: 122.5 SpacemiT X60: abgr_to_y_8_c: 2.5 abgr_to_y_8_rvv_i32: 2.0 abgr_to_y_128_c: 33.0 abgr_to_y_128_rvv_i32: 3.7 abgr_to_y_1080_c: 276.0 abgr_to_y_1080_rvv_i32: 31.5 abgr_to_y_1920_c: 493.7 abgr_to_y_1920_rvv_i32: 55.5 bgra_to_y_8_c: 2.2 bgra_to_y_8_rvv_i32: 2.0 bgra_to_y_128_c: 33.0 bgra_to_y_128_rvv_i32: 3.7 bgra_to_y_1080_c: 276.0 bgra_to_y_1080_rvv_i32: 31.5 bgra_to_y_1920_c: 490.7 bgra_to_y_1920_rvv_i32: 55.5 2024-06-06 14:49:21 +00:00
			`.macro rgba_input chr0, chr1, high`
			`func ff_\chr1\()ToY_rvv, zve32x`
			`lw t1, 8(a5) # BY`
			`lw t3, 0(a5) # RY`
			`j 1f`
			`endfunc`

			`func ff_\chr0\()ToY_rvv, zve32x`
			`lw t1, 0(a5) # RY`
			`lw t3, 8(a5) # BY`
			`1:`
			`lw t2, 4(a5) # GY`
			`li t4, (32 << (15 - 1)) + (1 << (15 - 7))`
			`li t5, 0xff`
			`2:`
			`vsetvli t0, a4, e32, m8, ta, ma`
			`vle32.v v0, (a1)`
			`sub a4, a4, t0`
			`.if \high`
			`vsrl.vi v8, v0, 24`
			`.else`
			`vand.vx v8, v0, t5`
			`.endif`
			`sh2add a1, t0, a1`
			`vsrl.vi v16, v0, 8 * (1 + \high)`
			`vmul.vx v24, v8, t1`
			`vand.vx v16, v16, t5`
			`vsrl.vi v8, v0, 8 * (2 - \high)`
			`vmacc.vx v24, t2, v16`
			`vand.vx v8, v8, t5`
			`vadd.vx v24, v24, t4`
			`vmacc.vx v24, t3, v8`
			`vsetvli zero, zero, e16, m4, ta, ma`
			`vnsra.wi v0, v24, 15 - 6`
			`vse16.v v0, (a0)`
			`sh1add a0, t0, a0`
			`bnez a4, 2b`

			`ret`
			`endfunc`
sws/input: R-V V 32-bit RGB to UV 2024-06-06 15:12:50 +00:00
			`func ff_\chr1\()ToUV_rvv, zve32x`
			`lw t1, 20(a6) # BU`
			`lw t4, 32(a6) # BV`
			`lw t3, 12(a6) # RU`
			`lw t6, 24(a6) # RV`
			`j 1f`
			`endfunc`

			`func ff_\chr0\()ToUV_rvv, zve32x`
			`lw t1, 12(a6) # RU`
			`lw t4, 24(a6) # RV`
			`lw t3, 20(a6) # BU`
			`lw t6, 32(a6) # BV`
			`1:`
			`lw t2, 16(a6) # GU`
			`lw t5, 28(a6) # GV`
			`li a6, 0xff`
			`li a7, (256 << (15 - 1)) + (1 << (15 - 7))`
			`2:`
			`vsetvli t0, a5, e32, m8, ta, ma`
			`vle32.v v0, (a3)`
			`sub a5, a5, t0`
			`.if \high`
			`vsrl.vi v24, v0, 24`
			`.else`
			`vand.vx v24, v0, a6`
			`.endif`
			`sh2add a3, t0, a3`
			`vsrl.vi v8, v0, 8 * (1 + \high)`
			`vmul.vx v16, v24, t1`
			`vand.vx v8, v8, a6`
			`vmul.vx v24, v24, t4`
			`vmacc.vx v16, t2, v8`
			`vsrl.vi v0, v0, 8 * (2 - \high)`
			`vmacc.vx v24, t5, v8`
			`vand.vx v0, v0, a6`
			`vadd.vx v16, v16, a7`
			`vadd.vx v24, v24, a7`
			`vmacc.vx v16, t3, v0`
			`vmacc.vx v24, t6, v0`
			`vsetvli zero, zero, e16, m4, ta, ma`
			`vnsra.wi v0, v16, 15 - 6`
			`vnsra.wi v4, v24, 15 - 6`
			`vse16.v v0, (a0)`
			`sh1add a0, t0, a0`
			`vse16.v v4, (a1)`
			`sh1add a1, t0, a1`
			`bnez a5, 2b`

			`ret`
			`endfunc`
sws/input: R-V V 32-bit RGB to halved UV T-Head C908: abgr_to_uv_half_8_c: 2.2 abgr_to_uv_half_8_rvv_i32: 3.5 abgr_to_uv_half_128_c: 44.0 abgr_to_uv_half_128_rvv_i32: 13.0 abgr_to_uv_half_1080_c: 245.0 abgr_to_uv_half_1080_rvv_i32: 107.2 abgr_to_uv_half_1920_c: 406.2 abgr_to_uv_half_1920_rvv_i32: 188.7 bgra_to_uv_half_8_c: 2.2 bgra_to_uv_half_8_rvv_i32: 3.5 bgra_to_uv_half_128_c: 26.5 bgra_to_uv_half_128_rvv_i32: 13.0 bgra_to_uv_half_1080_c: 219.7 bgra_to_uv_half_1080_rvv_i32: 107.0 bgra_to_uv_half_1920_c: 406.7 bgra_to_uv_half_1920_rvv_i32: 188.7 SpacemiT X60: abgr_to_uv_half_8_c: 2.2 abgr_to_uv_half_8_rvv_i32: 3.0 abgr_to_uv_half_128_c: 28.2 abgr_to_uv_half_128_rvv_i32: 5.7 abgr_to_uv_half_1080_c: 235.5 abgr_to_uv_half_1080_rvv_i32: 47.7 abgr_to_uv_half_1920_c: 418.2 abgr_to_uv_half_1920_rvv_i32: 84.0 bgra_to_uv_half_8_c: 2.0 bgra_to_uv_half_8_rvv_i32: 3.0 bgra_to_uv_half_128_c: 23.7 bgra_to_uv_half_128_rvv_i32: 5.7 bgra_to_uv_half_1080_c: 195.5 bgra_to_uv_half_1080_rvv_i32: 47.7 bgra_to_uv_half_1920_c: 346.5 bgra_to_uv_half_1920_rvv_i32: 84.0 2024-06-06 18:15:08 +00:00
			`func ff_\chr1\()ToUV_half_rvv, zve32x`
			`lw t1, 20(a6) # BU`
			`lw t4, 32(a6) # BV`
			`lw t3, 12(a6) # RU`
			`lw t6, 24(a6) # RV`
			`j 1f`
			`endfunc`

			`func ff_\chr0\()ToUV_half_rvv, zve32x`
			`lw t1, 12(a6) # RU`
			`lw t4, 24(a6) # RV`
			`lw t3, 20(a6) # BU`
			`lw t6, 32(a6) # BV`
			`1:`
			`lw t2, 16(a6) # GU`
			`lw t5, 28(a6) # GV`
			`li a6, 0xff`
			`li a7, (256 << 15) + (1 << (15 - 6))`
			`2:`
			`vsetvli t0, a5, e32, m4, ta, ma`
			`vlseg2e32.v v0, (a3)`
			`sub a5, a5, t0`
			`.if \high`
			`vsrl.vi v8, v0, 24`
			`vsrl.vi v12, v4, 24`
			`.else`
			`vand.vx v8, v0, a6`
			`vand.vx v12, v4, a6`
			`.endif`
			`sh3add a3, t0, a3`
			`vsrl.vi v16, v0, 8 * (1 + \high)`
			`vsrl.vi v20, v4, 8 * (1 + \high)`
			`vsrl.vi v24, v0, 8 * (2 - \high)`
			`vsrl.vi v28, v4, 8 * (2 - \high)`
			`vand.vx v16, v16, a6`
			`vand.vx v20, v20, a6`
			`vand.vx v24, v24, a6`
			`vand.vx v28, v28, a6`
			`vadd.vv v8, v8, v12`
			`vadd.vv v16, v16, v20`
			`vadd.vv v24, v24, v28`
			`vmul.vx v0, v8, t1`
			`vmul.vx v4, v8, t4`
			`vmacc.vx v0, t2, v16`
			`vmacc.vx v4, t5, v16`
			`vmacc.vx v0, t3, v24`
			`vmacc.vx v4, t6, v24`
			`vadd.vx v0, v0, a7`
			`vadd.vx v4, v4, a7`
			`vsetvli zero, zero, e16, m2, ta, ma`
			`vnsra.wi v0, v0, 15 - 5`
			`vnsra.wi v2, v4, 15 - 5`
			`vse16.v v0, (a0)`
			`sh1add a0, t0, a0`
			`vse16.v v2, (a1)`
			`sh1add a1, t0, a1`
			`bnez a5, 2b`

			`ret`
			`endfunc`
sws/input: R-V V 32-bit RGB to Y T-Head C908: abgr_to_y_8_c: 2.5 abgr_to_y_8_rvv_i32: 2.2 abgr_to_y_128_c: 37.0 abgr_to_y_128_rvv_i32: 8.5 abgr_to_y_1080_c: 327.0 abgr_to_y_1080_rvv_i32: 69.5 abgr_to_y_1920_c: 552.0 abgr_to_y_1920_rvv_i32: 122.2 bgra_to_y_8_c: 2.5 bgra_to_y_8_rvv_i32: 2.2 bgra_to_y_128_c: 37.2 bgra_to_y_128_rvv_i32: 8.5 bgra_to_y_1080_c: 310.2 bgra_to_y_1080_rvv_i32: 69.5 bgra_to_y_1920_c: 568.2 bgra_to_y_1920_rvv_i32: 122.5 SpacemiT X60: abgr_to_y_8_c: 2.5 abgr_to_y_8_rvv_i32: 2.0 abgr_to_y_128_c: 33.0 abgr_to_y_128_rvv_i32: 3.7 abgr_to_y_1080_c: 276.0 abgr_to_y_1080_rvv_i32: 31.5 abgr_to_y_1920_c: 493.7 abgr_to_y_1920_rvv_i32: 55.5 bgra_to_y_8_c: 2.2 bgra_to_y_8_rvv_i32: 2.0 bgra_to_y_128_c: 33.0 bgra_to_y_128_rvv_i32: 3.7 bgra_to_y_1080_c: 276.0 bgra_to_y_1080_rvv_i32: 31.5 bgra_to_y_1920_c: 490.7 bgra_to_y_1920_rvv_i32: 55.5 2024-06-06 14:49:21 +00:00			`.endm`

			`rgba_input rgba32, bgra32, 0`
			`rgba_input abgr32, argb32, 1`