1// Copyright (c) 2017, the HRSS authors. 2// 3// Permission to use, copy, modify, and/or distribute this software for any 4// purpose with or without fee is hereby granted, provided that the above 5// copyright notice and this permission notice appear in all copies. 6// 7// THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES 8// WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF 9// MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY 10// SPECIAL, DIRECT, INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES 11// WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION 12// OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN 13// CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE. 14 15#if !defined(OPENSSL_NO_ASM) && !defined(OPENSSL_SMALL) && defined(__linux__) 16 17// This is the polynomial multiplication function from [HRSS], provided by kind 18// permission of the authors. 19// 20// HRSS: https://eprint.iacr.org/2017/1005 21 22# This file was generated by poly_rq_mul.py 23.text 24.align 32 25mask_low9words: 26.word 0xffff 27.word 0xffff 28.word 0xffff 29.word 0xffff 30.word 0xffff 31.word 0xffff 32.word 0xffff 33.word 0xffff 34.word 0xffff 35.word 0x0 36.word 0x0 37.word 0x0 38.word 0x0 39.word 0x0 40.word 0x0 41.word 0x0 42const3: 43.word 3 44.word 3 45.word 3 46.word 3 47.word 3 48.word 3 49.word 3 50.word 3 51.word 3 52.word 3 53.word 3 54.word 3 55.word 3 56.word 3 57.word 3 58.word 3 59const9: 60.word 9 61.word 9 62.word 9 63.word 9 64.word 9 65.word 9 66.word 9 67.word 9 68.word 9 69.word 9 70.word 9 71.word 9 72.word 9 73.word 9 74.word 9 75.word 9 76const0: 77.word 0 78.word 0 79.word 0 80.word 0 81.word 0 82.word 0 83.word 0 84.word 0 85.word 0 86.word 0 87.word 0 88.word 0 89.word 0 90.word 0 91.word 0 92.word 0 93const729: 94.word 729 95.word 729 96.word 729 97.word 729 98.word 729 99.word 729 100.word 729 101.word 729 102.word 729 103.word 729 104.word 729 105.word 729 106.word 729 107.word 729 108.word 729 109.word 729 110const3_inv: 111.word 43691 112.word 43691 113.word 43691 114.word 43691 115.word 43691 116.word 43691 117.word 43691 118.word 43691 119.word 43691 120.word 43691 121.word 43691 122.word 43691 123.word 43691 124.word 43691 125.word 43691 126.word 43691 127const5_inv: 128.word 52429 129.word 52429 130.word 52429 131.word 52429 132.word 52429 133.word 52429 134.word 52429 135.word 52429 136.word 52429 137.word 52429 138.word 52429 139.word 52429 140.word 52429 141.word 52429 142.word 52429 143.word 52429 144shuf48_16: 145.byte 10 146.byte 11 147.byte 12 148.byte 13 149.byte 14 150.byte 15 151.byte 0 152.byte 1 153.byte 2 154.byte 3 155.byte 4 156.byte 5 157.byte 6 158.byte 7 159.byte 8 160.byte 9 161.byte 10 162.byte 11 163.byte 12 164.byte 13 165.byte 14 166.byte 15 167.byte 0 168.byte 1 169.byte 2 170.byte 3 171.byte 4 172.byte 5 173.byte 6 174.byte 7 175.byte 8 176.byte 9 177shufmin1_mask3: 178.byte 2 179.byte 3 180.byte 4 181.byte 5 182.byte 6 183.byte 7 184.byte 255 185.byte 255 186.byte 255 187.byte 255 188.byte 255 189.byte 255 190.byte 255 191.byte 255 192.byte 255 193.byte 255 194.byte 255 195.byte 255 196.byte 255 197.byte 255 198.byte 255 199.byte 255 200.byte 255 201.byte 255 202.byte 255 203.byte 255 204.byte 255 205.byte 255 206.byte 255 207.byte 255 208.byte 255 209.byte 255 210mask32_to_16: 211.word 0xffff 212.word 0x0 213.word 0xffff 214.word 0x0 215.word 0xffff 216.word 0x0 217.word 0xffff 218.word 0x0 219.word 0xffff 220.word 0x0 221.word 0xffff 222.word 0x0 223.word 0xffff 224.word 0x0 225.word 0xffff 226.word 0x0 227mask5_3_5_3: 228.word 0 229.word 0 230.word 0 231.word 65535 232.word 65535 233.word 65535 234.word 65535 235.word 65535 236.word 0 237.word 0 238.word 0 239.word 65535 240.word 65535 241.word 65535 242.word 65535 243.word 65535 244mask3_5_3_5: 245.word 65535 246.word 65535 247.word 65535 248.word 0 249.word 0 250.word 0 251.word 0 252.word 0 253.word 65535 254.word 65535 255.word 65535 256.word 0 257.word 0 258.word 0 259.word 0 260.word 0 261mask3_5_4_3_1: 262.word 65535 263.word 65535 264.word 65535 265.word 0 266.word 0 267.word 0 268.word 0 269.word 0 270.word 0 271.word 0 272.word 0 273.word 0 274.word 65535 275.word 65535 276.word 65535 277.word 0 278mask_keephigh: 279.word 0 280.word 0 281.word 0 282.word 0 283.word 0 284.word 0 285.word 0 286.word 0 287.word 65535 288.word 65535 289.word 65535 290.word 65535 291.word 65535 292.word 65535 293.word 65535 294.word 65535 295mask_mod8192: 296.word 8191 297.word 8191 298.word 8191 299.word 8191 300.word 8191 301.word 8191 302.word 8191 303.word 8191 304.word 8191 305.word 8191 306.word 8191 307.word 8191 308.word 8191 309.word 8191 310.word 8191 311.word 8191 312.text 313.global poly_Rq_mul 314.hidden poly_Rq_mul 315.type poly_Rq_mul, @function 316.att_syntax prefix 317poly_Rq_mul: 318.cfi_startproc 319push %rbp 320.cfi_adjust_cfa_offset 8 321.cfi_offset rbp, -16 322movq %rsp, %rbp 323.cfi_def_cfa_register rbp 324push %r12 325.cfi_offset r12, -24 326mov %rsp, %r8 327andq $-32, %rsp 328subq $6144, %rsp 329mov %rsp, %rax 330subq $6144, %rsp 331mov %rsp, %r11 332subq $12288, %rsp 333mov %rsp, %r12 334subq $512, %rsp 335vmovdqa const3(%rip), %ymm3 336vmovdqu 0(%rsi), %ymm0 337vmovdqu 88(%rsi), %ymm1 338vmovdqu 176(%rsi), %ymm2 339vmovdqu 264(%rsi), %ymm12 340vmovdqu 1056(%rsi), %ymm4 341vmovdqu 1144(%rsi), %ymm5 342vmovdqu 1232(%rsi), %ymm6 343vmovdqu 1320(%rsi), %ymm7 344vmovdqu 352(%rsi), %ymm8 345vmovdqu 440(%rsi), %ymm9 346vmovdqu 528(%rsi), %ymm10 347vmovdqu 616(%rsi), %ymm11 348vmovdqa %ymm0, 0(%rax) 349vmovdqa %ymm1, 96(%rax) 350vpaddw %ymm0, %ymm1, %ymm14 351vmovdqa %ymm14, 192(%rax) 352vmovdqa %ymm2, 288(%rax) 353vmovdqa %ymm12, 384(%rax) 354vpaddw %ymm2, %ymm12, %ymm14 355vmovdqa %ymm14, 480(%rax) 356vpaddw %ymm0, %ymm2, %ymm14 357vmovdqa %ymm14, 576(%rax) 358vpaddw %ymm1, %ymm12, %ymm15 359vmovdqa %ymm15, 672(%rax) 360vpaddw %ymm14, %ymm15, %ymm14 361vmovdqa %ymm14, 768(%rax) 362vmovdqa %ymm4, 5184(%rax) 363vmovdqa %ymm5, 5280(%rax) 364vpaddw %ymm4, %ymm5, %ymm14 365vmovdqa %ymm14, 5376(%rax) 366vmovdqa %ymm6, 5472(%rax) 367vmovdqa %ymm7, 5568(%rax) 368vpaddw %ymm6, %ymm7, %ymm14 369vmovdqa %ymm14, 5664(%rax) 370vpaddw %ymm4, %ymm6, %ymm14 371vmovdqa %ymm14, 5760(%rax) 372vpaddw %ymm5, %ymm7, %ymm15 373vmovdqa %ymm15, 5856(%rax) 374vpaddw %ymm14, %ymm15, %ymm14 375vmovdqa %ymm14, 5952(%rax) 376vmovdqa %ymm0, 0(%rsp) 377vmovdqa %ymm1, 32(%rsp) 378vmovdqa %ymm2, 64(%rsp) 379vmovdqa %ymm12, 96(%rsp) 380vmovdqa %ymm8, 128(%rsp) 381vmovdqa %ymm9, 160(%rsp) 382vmovdqa %ymm10, 192(%rsp) 383vmovdqa %ymm11, 224(%rsp) 384vmovdqu 704(%rsi), %ymm0 385vpaddw 0(%rsp), %ymm0, %ymm1 386vpaddw 128(%rsp), %ymm4, %ymm2 387vpaddw %ymm2, %ymm1, %ymm8 388vpsubw %ymm2, %ymm1, %ymm12 389vmovdqa %ymm0, 256(%rsp) 390vmovdqu 792(%rsi), %ymm0 391vpaddw 32(%rsp), %ymm0, %ymm1 392vpaddw 160(%rsp), %ymm5, %ymm2 393vpaddw %ymm2, %ymm1, %ymm9 394vpsubw %ymm2, %ymm1, %ymm13 395vmovdqa %ymm0, 288(%rsp) 396vmovdqu 880(%rsi), %ymm0 397vpaddw 64(%rsp), %ymm0, %ymm1 398vpaddw 192(%rsp), %ymm6, %ymm2 399vpaddw %ymm2, %ymm1, %ymm10 400vpsubw %ymm2, %ymm1, %ymm14 401vmovdqa %ymm0, 320(%rsp) 402vmovdqu 968(%rsi), %ymm0 403vpaddw 96(%rsp), %ymm0, %ymm1 404vpaddw 224(%rsp), %ymm7, %ymm2 405vpaddw %ymm2, %ymm1, %ymm11 406vpsubw %ymm2, %ymm1, %ymm15 407vmovdqa %ymm0, 352(%rsp) 408vmovdqa %ymm8, 864(%rax) 409vmovdqa %ymm9, 960(%rax) 410vpaddw %ymm8, %ymm9, %ymm0 411vmovdqa %ymm0, 1056(%rax) 412vmovdqa %ymm10, 1152(%rax) 413vmovdqa %ymm11, 1248(%rax) 414vpaddw %ymm10, %ymm11, %ymm0 415vmovdqa %ymm0, 1344(%rax) 416vpaddw %ymm8, %ymm10, %ymm0 417vmovdqa %ymm0, 1440(%rax) 418vpaddw %ymm9, %ymm11, %ymm1 419vmovdqa %ymm1, 1536(%rax) 420vpaddw %ymm0, %ymm1, %ymm0 421vmovdqa %ymm0, 1632(%rax) 422vmovdqa %ymm12, 1728(%rax) 423vmovdqa %ymm13, 1824(%rax) 424vpaddw %ymm12, %ymm13, %ymm0 425vmovdqa %ymm0, 1920(%rax) 426vmovdqa %ymm14, 2016(%rax) 427vmovdqa %ymm15, 2112(%rax) 428vpaddw %ymm14, %ymm15, %ymm0 429vmovdqa %ymm0, 2208(%rax) 430vpaddw %ymm12, %ymm14, %ymm0 431vmovdqa %ymm0, 2304(%rax) 432vpaddw %ymm13, %ymm15, %ymm1 433vmovdqa %ymm1, 2400(%rax) 434vpaddw %ymm0, %ymm1, %ymm0 435vmovdqa %ymm0, 2496(%rax) 436vmovdqa 256(%rsp), %ymm0 437vpsllw $2, %ymm0, %ymm0 438vpaddw 0(%rsp), %ymm0, %ymm0 439vpsllw $2, %ymm4, %ymm1 440vpaddw 128(%rsp), %ymm1, %ymm1 441vpsllw $1, %ymm1, %ymm1 442vpaddw %ymm1, %ymm0, %ymm8 443vpsubw %ymm1, %ymm0, %ymm12 444vmovdqa 288(%rsp), %ymm0 445vpsllw $2, %ymm0, %ymm0 446vpaddw 32(%rsp), %ymm0, %ymm0 447vpsllw $2, %ymm5, %ymm1 448vpaddw 160(%rsp), %ymm1, %ymm1 449vpsllw $1, %ymm1, %ymm1 450vpaddw %ymm1, %ymm0, %ymm9 451vpsubw %ymm1, %ymm0, %ymm13 452vmovdqa 320(%rsp), %ymm0 453vpsllw $2, %ymm0, %ymm0 454vpaddw 64(%rsp), %ymm0, %ymm0 455vpsllw $2, %ymm6, %ymm1 456vpaddw 192(%rsp), %ymm1, %ymm1 457vpsllw $1, %ymm1, %ymm1 458vpaddw %ymm1, %ymm0, %ymm10 459vpsubw %ymm1, %ymm0, %ymm14 460vmovdqa 352(%rsp), %ymm0 461vpsllw $2, %ymm0, %ymm0 462vpaddw 96(%rsp), %ymm0, %ymm0 463vpsllw $2, %ymm7, %ymm1 464vpaddw 224(%rsp), %ymm1, %ymm1 465vpsllw $1, %ymm1, %ymm1 466vpaddw %ymm1, %ymm0, %ymm11 467vpsubw %ymm1, %ymm0, %ymm15 468vmovdqa %ymm8, 2592(%rax) 469vmovdqa %ymm9, 2688(%rax) 470vpaddw %ymm8, %ymm9, %ymm0 471vmovdqa %ymm0, 2784(%rax) 472vmovdqa %ymm10, 2880(%rax) 473vmovdqa %ymm11, 2976(%rax) 474vpaddw %ymm10, %ymm11, %ymm0 475vmovdqa %ymm0, 3072(%rax) 476vpaddw %ymm8, %ymm10, %ymm0 477vmovdqa %ymm0, 3168(%rax) 478vpaddw %ymm9, %ymm11, %ymm1 479vmovdqa %ymm1, 3264(%rax) 480vpaddw %ymm0, %ymm1, %ymm0 481vmovdqa %ymm0, 3360(%rax) 482vmovdqa %ymm12, 3456(%rax) 483vmovdqa %ymm13, 3552(%rax) 484vpaddw %ymm12, %ymm13, %ymm0 485vmovdqa %ymm0, 3648(%rax) 486vmovdqa %ymm14, 3744(%rax) 487vmovdqa %ymm15, 3840(%rax) 488vpaddw %ymm14, %ymm15, %ymm0 489vmovdqa %ymm0, 3936(%rax) 490vpaddw %ymm12, %ymm14, %ymm0 491vmovdqa %ymm0, 4032(%rax) 492vpaddw %ymm13, %ymm15, %ymm1 493vmovdqa %ymm1, 4128(%rax) 494vpaddw %ymm0, %ymm1, %ymm0 495vmovdqa %ymm0, 4224(%rax) 496vpmullw %ymm3, %ymm4, %ymm0 497vpaddw 256(%rsp), %ymm0, %ymm0 498vpmullw %ymm3, %ymm0, %ymm0 499vpaddw 128(%rsp), %ymm0, %ymm0 500vpmullw %ymm3, %ymm0, %ymm0 501vpaddw 0(%rsp), %ymm0, %ymm12 502vpmullw %ymm3, %ymm5, %ymm0 503vpaddw 288(%rsp), %ymm0, %ymm0 504vpmullw %ymm3, %ymm0, %ymm0 505vpaddw 160(%rsp), %ymm0, %ymm0 506vpmullw %ymm3, %ymm0, %ymm0 507vpaddw 32(%rsp), %ymm0, %ymm13 508vpmullw %ymm3, %ymm6, %ymm0 509vpaddw 320(%rsp), %ymm0, %ymm0 510vpmullw %ymm3, %ymm0, %ymm0 511vpaddw 192(%rsp), %ymm0, %ymm0 512vpmullw %ymm3, %ymm0, %ymm0 513vpaddw 64(%rsp), %ymm0, %ymm14 514vpmullw %ymm3, %ymm7, %ymm0 515vpaddw 352(%rsp), %ymm0, %ymm0 516vpmullw %ymm3, %ymm0, %ymm0 517vpaddw 224(%rsp), %ymm0, %ymm0 518vpmullw %ymm3, %ymm0, %ymm0 519vpaddw 96(%rsp), %ymm0, %ymm15 520vmovdqa %ymm12, 4320(%rax) 521vmovdqa %ymm13, 4416(%rax) 522vpaddw %ymm12, %ymm13, %ymm0 523vmovdqa %ymm0, 4512(%rax) 524vmovdqa %ymm14, 4608(%rax) 525vmovdqa %ymm15, 4704(%rax) 526vpaddw %ymm14, %ymm15, %ymm0 527vmovdqa %ymm0, 4800(%rax) 528vpaddw %ymm12, %ymm14, %ymm0 529vmovdqa %ymm0, 4896(%rax) 530vpaddw %ymm13, %ymm15, %ymm1 531vmovdqa %ymm1, 4992(%rax) 532vpaddw %ymm0, %ymm1, %ymm0 533vmovdqa %ymm0, 5088(%rax) 534vmovdqu 32(%rsi), %ymm0 535vmovdqu 120(%rsi), %ymm1 536vmovdqu 208(%rsi), %ymm2 537vmovdqu 296(%rsi), %ymm12 538vmovdqu 1088(%rsi), %ymm4 539vmovdqu 1176(%rsi), %ymm5 540vmovdqu 1264(%rsi), %ymm6 541vmovdqu 1352(%rsi), %ymm7 542vmovdqu 384(%rsi), %ymm8 543vmovdqu 472(%rsi), %ymm9 544vmovdqu 560(%rsi), %ymm10 545vmovdqu 648(%rsi), %ymm11 546vmovdqa %ymm0, 32(%rax) 547vmovdqa %ymm1, 128(%rax) 548vpaddw %ymm0, %ymm1, %ymm14 549vmovdqa %ymm14, 224(%rax) 550vmovdqa %ymm2, 320(%rax) 551vmovdqa %ymm12, 416(%rax) 552vpaddw %ymm2, %ymm12, %ymm14 553vmovdqa %ymm14, 512(%rax) 554vpaddw %ymm0, %ymm2, %ymm14 555vmovdqa %ymm14, 608(%rax) 556vpaddw %ymm1, %ymm12, %ymm15 557vmovdqa %ymm15, 704(%rax) 558vpaddw %ymm14, %ymm15, %ymm14 559vmovdqa %ymm14, 800(%rax) 560vmovdqa %ymm4, 5216(%rax) 561vmovdqa %ymm5, 5312(%rax) 562vpaddw %ymm4, %ymm5, %ymm14 563vmovdqa %ymm14, 5408(%rax) 564vmovdqa %ymm6, 5504(%rax) 565vmovdqa %ymm7, 5600(%rax) 566vpaddw %ymm6, %ymm7, %ymm14 567vmovdqa %ymm14, 5696(%rax) 568vpaddw %ymm4, %ymm6, %ymm14 569vmovdqa %ymm14, 5792(%rax) 570vpaddw %ymm5, %ymm7, %ymm15 571vmovdqa %ymm15, 5888(%rax) 572vpaddw %ymm14, %ymm15, %ymm14 573vmovdqa %ymm14, 5984(%rax) 574vmovdqa %ymm0, 0(%rsp) 575vmovdqa %ymm1, 32(%rsp) 576vmovdqa %ymm2, 64(%rsp) 577vmovdqa %ymm12, 96(%rsp) 578vmovdqa %ymm8, 128(%rsp) 579vmovdqa %ymm9, 160(%rsp) 580vmovdqa %ymm10, 192(%rsp) 581vmovdqa %ymm11, 224(%rsp) 582vmovdqu 736(%rsi), %ymm0 583vpaddw 0(%rsp), %ymm0, %ymm1 584vpaddw 128(%rsp), %ymm4, %ymm2 585vpaddw %ymm2, %ymm1, %ymm8 586vpsubw %ymm2, %ymm1, %ymm12 587vmovdqa %ymm0, 256(%rsp) 588vmovdqu 824(%rsi), %ymm0 589vpaddw 32(%rsp), %ymm0, %ymm1 590vpaddw 160(%rsp), %ymm5, %ymm2 591vpaddw %ymm2, %ymm1, %ymm9 592vpsubw %ymm2, %ymm1, %ymm13 593vmovdqa %ymm0, 288(%rsp) 594vmovdqu 912(%rsi), %ymm0 595vpaddw 64(%rsp), %ymm0, %ymm1 596vpaddw 192(%rsp), %ymm6, %ymm2 597vpaddw %ymm2, %ymm1, %ymm10 598vpsubw %ymm2, %ymm1, %ymm14 599vmovdqa %ymm0, 320(%rsp) 600vmovdqu 1000(%rsi), %ymm0 601vpaddw 96(%rsp), %ymm0, %ymm1 602vpaddw 224(%rsp), %ymm7, %ymm2 603vpaddw %ymm2, %ymm1, %ymm11 604vpsubw %ymm2, %ymm1, %ymm15 605vmovdqa %ymm0, 352(%rsp) 606vmovdqa %ymm8, 896(%rax) 607vmovdqa %ymm9, 992(%rax) 608vpaddw %ymm8, %ymm9, %ymm0 609vmovdqa %ymm0, 1088(%rax) 610vmovdqa %ymm10, 1184(%rax) 611vmovdqa %ymm11, 1280(%rax) 612vpaddw %ymm10, %ymm11, %ymm0 613vmovdqa %ymm0, 1376(%rax) 614vpaddw %ymm8, %ymm10, %ymm0 615vmovdqa %ymm0, 1472(%rax) 616vpaddw %ymm9, %ymm11, %ymm1 617vmovdqa %ymm1, 1568(%rax) 618vpaddw %ymm0, %ymm1, %ymm0 619vmovdqa %ymm0, 1664(%rax) 620vmovdqa %ymm12, 1760(%rax) 621vmovdqa %ymm13, 1856(%rax) 622vpaddw %ymm12, %ymm13, %ymm0 623vmovdqa %ymm0, 1952(%rax) 624vmovdqa %ymm14, 2048(%rax) 625vmovdqa %ymm15, 2144(%rax) 626vpaddw %ymm14, %ymm15, %ymm0 627vmovdqa %ymm0, 2240(%rax) 628vpaddw %ymm12, %ymm14, %ymm0 629vmovdqa %ymm0, 2336(%rax) 630vpaddw %ymm13, %ymm15, %ymm1 631vmovdqa %ymm1, 2432(%rax) 632vpaddw %ymm0, %ymm1, %ymm0 633vmovdqa %ymm0, 2528(%rax) 634vmovdqa 256(%rsp), %ymm0 635vpsllw $2, %ymm0, %ymm0 636vpaddw 0(%rsp), %ymm0, %ymm0 637vpsllw $2, %ymm4, %ymm1 638vpaddw 128(%rsp), %ymm1, %ymm1 639vpsllw $1, %ymm1, %ymm1 640vpaddw %ymm1, %ymm0, %ymm8 641vpsubw %ymm1, %ymm0, %ymm12 642vmovdqa 288(%rsp), %ymm0 643vpsllw $2, %ymm0, %ymm0 644vpaddw 32(%rsp), %ymm0, %ymm0 645vpsllw $2, %ymm5, %ymm1 646vpaddw 160(%rsp), %ymm1, %ymm1 647vpsllw $1, %ymm1, %ymm1 648vpaddw %ymm1, %ymm0, %ymm9 649vpsubw %ymm1, %ymm0, %ymm13 650vmovdqa 320(%rsp), %ymm0 651vpsllw $2, %ymm0, %ymm0 652vpaddw 64(%rsp), %ymm0, %ymm0 653vpsllw $2, %ymm6, %ymm1 654vpaddw 192(%rsp), %ymm1, %ymm1 655vpsllw $1, %ymm1, %ymm1 656vpaddw %ymm1, %ymm0, %ymm10 657vpsubw %ymm1, %ymm0, %ymm14 658vmovdqa 352(%rsp), %ymm0 659vpsllw $2, %ymm0, %ymm0 660vpaddw 96(%rsp), %ymm0, %ymm0 661vpsllw $2, %ymm7, %ymm1 662vpaddw 224(%rsp), %ymm1, %ymm1 663vpsllw $1, %ymm1, %ymm1 664vpaddw %ymm1, %ymm0, %ymm11 665vpsubw %ymm1, %ymm0, %ymm15 666vmovdqa %ymm8, 2624(%rax) 667vmovdqa %ymm9, 2720(%rax) 668vpaddw %ymm8, %ymm9, %ymm0 669vmovdqa %ymm0, 2816(%rax) 670vmovdqa %ymm10, 2912(%rax) 671vmovdqa %ymm11, 3008(%rax) 672vpaddw %ymm10, %ymm11, %ymm0 673vmovdqa %ymm0, 3104(%rax) 674vpaddw %ymm8, %ymm10, %ymm0 675vmovdqa %ymm0, 3200(%rax) 676vpaddw %ymm9, %ymm11, %ymm1 677vmovdqa %ymm1, 3296(%rax) 678vpaddw %ymm0, %ymm1, %ymm0 679vmovdqa %ymm0, 3392(%rax) 680vmovdqa %ymm12, 3488(%rax) 681vmovdqa %ymm13, 3584(%rax) 682vpaddw %ymm12, %ymm13, %ymm0 683vmovdqa %ymm0, 3680(%rax) 684vmovdqa %ymm14, 3776(%rax) 685vmovdqa %ymm15, 3872(%rax) 686vpaddw %ymm14, %ymm15, %ymm0 687vmovdqa %ymm0, 3968(%rax) 688vpaddw %ymm12, %ymm14, %ymm0 689vmovdqa %ymm0, 4064(%rax) 690vpaddw %ymm13, %ymm15, %ymm1 691vmovdqa %ymm1, 4160(%rax) 692vpaddw %ymm0, %ymm1, %ymm0 693vmovdqa %ymm0, 4256(%rax) 694vpmullw %ymm3, %ymm4, %ymm0 695vpaddw 256(%rsp), %ymm0, %ymm0 696vpmullw %ymm3, %ymm0, %ymm0 697vpaddw 128(%rsp), %ymm0, %ymm0 698vpmullw %ymm3, %ymm0, %ymm0 699vpaddw 0(%rsp), %ymm0, %ymm12 700vpmullw %ymm3, %ymm5, %ymm0 701vpaddw 288(%rsp), %ymm0, %ymm0 702vpmullw %ymm3, %ymm0, %ymm0 703vpaddw 160(%rsp), %ymm0, %ymm0 704vpmullw %ymm3, %ymm0, %ymm0 705vpaddw 32(%rsp), %ymm0, %ymm13 706vpmullw %ymm3, %ymm6, %ymm0 707vpaddw 320(%rsp), %ymm0, %ymm0 708vpmullw %ymm3, %ymm0, %ymm0 709vpaddw 192(%rsp), %ymm0, %ymm0 710vpmullw %ymm3, %ymm0, %ymm0 711vpaddw 64(%rsp), %ymm0, %ymm14 712vpmullw %ymm3, %ymm7, %ymm0 713vpaddw 352(%rsp), %ymm0, %ymm0 714vpmullw %ymm3, %ymm0, %ymm0 715vpaddw 224(%rsp), %ymm0, %ymm0 716vpmullw %ymm3, %ymm0, %ymm0 717vpaddw 96(%rsp), %ymm0, %ymm15 718vmovdqa %ymm12, 4352(%rax) 719vmovdqa %ymm13, 4448(%rax) 720vpaddw %ymm12, %ymm13, %ymm0 721vmovdqa %ymm0, 4544(%rax) 722vmovdqa %ymm14, 4640(%rax) 723vmovdqa %ymm15, 4736(%rax) 724vpaddw %ymm14, %ymm15, %ymm0 725vmovdqa %ymm0, 4832(%rax) 726vpaddw %ymm12, %ymm14, %ymm0 727vmovdqa %ymm0, 4928(%rax) 728vpaddw %ymm13, %ymm15, %ymm1 729vmovdqa %ymm1, 5024(%rax) 730vpaddw %ymm0, %ymm1, %ymm0 731vmovdqa %ymm0, 5120(%rax) 732vmovdqu 64(%rsi), %ymm0 733vmovdqu 152(%rsi), %ymm1 734vmovdqu 240(%rsi), %ymm2 735vmovdqu 328(%rsi), %ymm12 736vmovdqu 1120(%rsi), %ymm4 737vmovdqu 1208(%rsi), %ymm5 738vmovdqu 1296(%rsi), %ymm6 739vmovdqu 1384(%rsi), %ymm7 740vpand mask_low9words(%rip), %ymm7, %ymm7 741vmovdqu 416(%rsi), %ymm8 742vmovdqu 504(%rsi), %ymm9 743vmovdqu 592(%rsi), %ymm10 744vmovdqu 680(%rsi), %ymm11 745vmovdqa %ymm0, 64(%rax) 746vmovdqa %ymm1, 160(%rax) 747vpaddw %ymm0, %ymm1, %ymm14 748vmovdqa %ymm14, 256(%rax) 749vmovdqa %ymm2, 352(%rax) 750vmovdqa %ymm12, 448(%rax) 751vpaddw %ymm2, %ymm12, %ymm14 752vmovdqa %ymm14, 544(%rax) 753vpaddw %ymm0, %ymm2, %ymm14 754vmovdqa %ymm14, 640(%rax) 755vpaddw %ymm1, %ymm12, %ymm15 756vmovdqa %ymm15, 736(%rax) 757vpaddw %ymm14, %ymm15, %ymm14 758vmovdqa %ymm14, 832(%rax) 759vmovdqa %ymm4, 5248(%rax) 760vmovdqa %ymm5, 5344(%rax) 761vpaddw %ymm4, %ymm5, %ymm14 762vmovdqa %ymm14, 5440(%rax) 763vmovdqa %ymm6, 5536(%rax) 764vmovdqa %ymm7, 5632(%rax) 765vpaddw %ymm6, %ymm7, %ymm14 766vmovdqa %ymm14, 5728(%rax) 767vpaddw %ymm4, %ymm6, %ymm14 768vmovdqa %ymm14, 5824(%rax) 769vpaddw %ymm5, %ymm7, %ymm15 770vmovdqa %ymm15, 5920(%rax) 771vpaddw %ymm14, %ymm15, %ymm14 772vmovdqa %ymm14, 6016(%rax) 773vmovdqa %ymm0, 0(%rsp) 774vmovdqa %ymm1, 32(%rsp) 775vmovdqa %ymm2, 64(%rsp) 776vmovdqa %ymm12, 96(%rsp) 777vmovdqa %ymm8, 128(%rsp) 778vmovdqa %ymm9, 160(%rsp) 779vmovdqa %ymm10, 192(%rsp) 780vmovdqa %ymm11, 224(%rsp) 781vmovdqu 768(%rsi), %ymm0 782vpaddw 0(%rsp), %ymm0, %ymm1 783vpaddw 128(%rsp), %ymm4, %ymm2 784vpaddw %ymm2, %ymm1, %ymm8 785vpsubw %ymm2, %ymm1, %ymm12 786vmovdqa %ymm0, 256(%rsp) 787vmovdqu 856(%rsi), %ymm0 788vpaddw 32(%rsp), %ymm0, %ymm1 789vpaddw 160(%rsp), %ymm5, %ymm2 790vpaddw %ymm2, %ymm1, %ymm9 791vpsubw %ymm2, %ymm1, %ymm13 792vmovdqa %ymm0, 288(%rsp) 793vmovdqu 944(%rsi), %ymm0 794vpaddw 64(%rsp), %ymm0, %ymm1 795vpaddw 192(%rsp), %ymm6, %ymm2 796vpaddw %ymm2, %ymm1, %ymm10 797vpsubw %ymm2, %ymm1, %ymm14 798vmovdqa %ymm0, 320(%rsp) 799vmovdqu 1032(%rsi), %ymm0 800vpaddw 96(%rsp), %ymm0, %ymm1 801vpaddw 224(%rsp), %ymm7, %ymm2 802vpaddw %ymm2, %ymm1, %ymm11 803vpsubw %ymm2, %ymm1, %ymm15 804vmovdqa %ymm0, 352(%rsp) 805vmovdqa %ymm8, 928(%rax) 806vmovdqa %ymm9, 1024(%rax) 807vpaddw %ymm8, %ymm9, %ymm0 808vmovdqa %ymm0, 1120(%rax) 809vmovdqa %ymm10, 1216(%rax) 810vmovdqa %ymm11, 1312(%rax) 811vpaddw %ymm10, %ymm11, %ymm0 812vmovdqa %ymm0, 1408(%rax) 813vpaddw %ymm8, %ymm10, %ymm0 814vmovdqa %ymm0, 1504(%rax) 815vpaddw %ymm9, %ymm11, %ymm1 816vmovdqa %ymm1, 1600(%rax) 817vpaddw %ymm0, %ymm1, %ymm0 818vmovdqa %ymm0, 1696(%rax) 819vmovdqa %ymm12, 1792(%rax) 820vmovdqa %ymm13, 1888(%rax) 821vpaddw %ymm12, %ymm13, %ymm0 822vmovdqa %ymm0, 1984(%rax) 823vmovdqa %ymm14, 2080(%rax) 824vmovdqa %ymm15, 2176(%rax) 825vpaddw %ymm14, %ymm15, %ymm0 826vmovdqa %ymm0, 2272(%rax) 827vpaddw %ymm12, %ymm14, %ymm0 828vmovdqa %ymm0, 2368(%rax) 829vpaddw %ymm13, %ymm15, %ymm1 830vmovdqa %ymm1, 2464(%rax) 831vpaddw %ymm0, %ymm1, %ymm0 832vmovdqa %ymm0, 2560(%rax) 833vmovdqa 256(%rsp), %ymm0 834vpsllw $2, %ymm0, %ymm0 835vpaddw 0(%rsp), %ymm0, %ymm0 836vpsllw $2, %ymm4, %ymm1 837vpaddw 128(%rsp), %ymm1, %ymm1 838vpsllw $1, %ymm1, %ymm1 839vpaddw %ymm1, %ymm0, %ymm8 840vpsubw %ymm1, %ymm0, %ymm12 841vmovdqa 288(%rsp), %ymm0 842vpsllw $2, %ymm0, %ymm0 843vpaddw 32(%rsp), %ymm0, %ymm0 844vpsllw $2, %ymm5, %ymm1 845vpaddw 160(%rsp), %ymm1, %ymm1 846vpsllw $1, %ymm1, %ymm1 847vpaddw %ymm1, %ymm0, %ymm9 848vpsubw %ymm1, %ymm0, %ymm13 849vmovdqa 320(%rsp), %ymm0 850vpsllw $2, %ymm0, %ymm0 851vpaddw 64(%rsp), %ymm0, %ymm0 852vpsllw $2, %ymm6, %ymm1 853vpaddw 192(%rsp), %ymm1, %ymm1 854vpsllw $1, %ymm1, %ymm1 855vpaddw %ymm1, %ymm0, %ymm10 856vpsubw %ymm1, %ymm0, %ymm14 857vmovdqa 352(%rsp), %ymm0 858vpsllw $2, %ymm0, %ymm0 859vpaddw 96(%rsp), %ymm0, %ymm0 860vpsllw $2, %ymm7, %ymm1 861vpaddw 224(%rsp), %ymm1, %ymm1 862vpsllw $1, %ymm1, %ymm1 863vpaddw %ymm1, %ymm0, %ymm11 864vpsubw %ymm1, %ymm0, %ymm15 865vmovdqa %ymm8, 2656(%rax) 866vmovdqa %ymm9, 2752(%rax) 867vpaddw %ymm8, %ymm9, %ymm0 868vmovdqa %ymm0, 2848(%rax) 869vmovdqa %ymm10, 2944(%rax) 870vmovdqa %ymm11, 3040(%rax) 871vpaddw %ymm10, %ymm11, %ymm0 872vmovdqa %ymm0, 3136(%rax) 873vpaddw %ymm8, %ymm10, %ymm0 874vmovdqa %ymm0, 3232(%rax) 875vpaddw %ymm9, %ymm11, %ymm1 876vmovdqa %ymm1, 3328(%rax) 877vpaddw %ymm0, %ymm1, %ymm0 878vmovdqa %ymm0, 3424(%rax) 879vmovdqa %ymm12, 3520(%rax) 880vmovdqa %ymm13, 3616(%rax) 881vpaddw %ymm12, %ymm13, %ymm0 882vmovdqa %ymm0, 3712(%rax) 883vmovdqa %ymm14, 3808(%rax) 884vmovdqa %ymm15, 3904(%rax) 885vpaddw %ymm14, %ymm15, %ymm0 886vmovdqa %ymm0, 4000(%rax) 887vpaddw %ymm12, %ymm14, %ymm0 888vmovdqa %ymm0, 4096(%rax) 889vpaddw %ymm13, %ymm15, %ymm1 890vmovdqa %ymm1, 4192(%rax) 891vpaddw %ymm0, %ymm1, %ymm0 892vmovdqa %ymm0, 4288(%rax) 893vpmullw %ymm3, %ymm4, %ymm0 894vpaddw 256(%rsp), %ymm0, %ymm0 895vpmullw %ymm3, %ymm0, %ymm0 896vpaddw 128(%rsp), %ymm0, %ymm0 897vpmullw %ymm3, %ymm0, %ymm0 898vpaddw 0(%rsp), %ymm0, %ymm12 899vpmullw %ymm3, %ymm5, %ymm0 900vpaddw 288(%rsp), %ymm0, %ymm0 901vpmullw %ymm3, %ymm0, %ymm0 902vpaddw 160(%rsp), %ymm0, %ymm0 903vpmullw %ymm3, %ymm0, %ymm0 904vpaddw 32(%rsp), %ymm0, %ymm13 905vpmullw %ymm3, %ymm6, %ymm0 906vpaddw 320(%rsp), %ymm0, %ymm0 907vpmullw %ymm3, %ymm0, %ymm0 908vpaddw 192(%rsp), %ymm0, %ymm0 909vpmullw %ymm3, %ymm0, %ymm0 910vpaddw 64(%rsp), %ymm0, %ymm14 911vpmullw %ymm3, %ymm7, %ymm0 912vpaddw 352(%rsp), %ymm0, %ymm0 913vpmullw %ymm3, %ymm0, %ymm0 914vpaddw 224(%rsp), %ymm0, %ymm0 915vpmullw %ymm3, %ymm0, %ymm0 916vpaddw 96(%rsp), %ymm0, %ymm15 917vmovdqa %ymm12, 4384(%rax) 918vmovdqa %ymm13, 4480(%rax) 919vpaddw %ymm12, %ymm13, %ymm0 920vmovdqa %ymm0, 4576(%rax) 921vmovdqa %ymm14, 4672(%rax) 922vmovdqa %ymm15, 4768(%rax) 923vpaddw %ymm14, %ymm15, %ymm0 924vmovdqa %ymm0, 4864(%rax) 925vpaddw %ymm12, %ymm14, %ymm0 926vmovdqa %ymm0, 4960(%rax) 927vpaddw %ymm13, %ymm15, %ymm1 928vmovdqa %ymm1, 5056(%rax) 929vpaddw %ymm0, %ymm1, %ymm0 930vmovdqa %ymm0, 5152(%rax) 931vmovdqu 0(%rdx), %ymm0 932vmovdqu 88(%rdx), %ymm1 933vmovdqu 176(%rdx), %ymm2 934vmovdqu 264(%rdx), %ymm12 935vmovdqu 1056(%rdx), %ymm4 936vmovdqu 1144(%rdx), %ymm5 937vmovdqu 1232(%rdx), %ymm6 938vmovdqu 1320(%rdx), %ymm7 939vmovdqu 352(%rdx), %ymm8 940vmovdqu 440(%rdx), %ymm9 941vmovdqu 528(%rdx), %ymm10 942vmovdqu 616(%rdx), %ymm11 943vmovdqa %ymm0, 0(%r11) 944vmovdqa %ymm1, 96(%r11) 945vpaddw %ymm0, %ymm1, %ymm14 946vmovdqa %ymm14, 192(%r11) 947vmovdqa %ymm2, 288(%r11) 948vmovdqa %ymm12, 384(%r11) 949vpaddw %ymm2, %ymm12, %ymm14 950vmovdqa %ymm14, 480(%r11) 951vpaddw %ymm0, %ymm2, %ymm14 952vmovdqa %ymm14, 576(%r11) 953vpaddw %ymm1, %ymm12, %ymm15 954vmovdqa %ymm15, 672(%r11) 955vpaddw %ymm14, %ymm15, %ymm14 956vmovdqa %ymm14, 768(%r11) 957vmovdqa %ymm4, 5184(%r11) 958vmovdqa %ymm5, 5280(%r11) 959vpaddw %ymm4, %ymm5, %ymm14 960vmovdqa %ymm14, 5376(%r11) 961vmovdqa %ymm6, 5472(%r11) 962vmovdqa %ymm7, 5568(%r11) 963vpaddw %ymm6, %ymm7, %ymm14 964vmovdqa %ymm14, 5664(%r11) 965vpaddw %ymm4, %ymm6, %ymm14 966vmovdqa %ymm14, 5760(%r11) 967vpaddw %ymm5, %ymm7, %ymm15 968vmovdqa %ymm15, 5856(%r11) 969vpaddw %ymm14, %ymm15, %ymm14 970vmovdqa %ymm14, 5952(%r11) 971vmovdqa %ymm0, 0(%rsp) 972vmovdqa %ymm1, 32(%rsp) 973vmovdqa %ymm2, 64(%rsp) 974vmovdqa %ymm12, 96(%rsp) 975vmovdqa %ymm8, 128(%rsp) 976vmovdqa %ymm9, 160(%rsp) 977vmovdqa %ymm10, 192(%rsp) 978vmovdqa %ymm11, 224(%rsp) 979vmovdqu 704(%rdx), %ymm0 980vpaddw 0(%rsp), %ymm0, %ymm1 981vpaddw 128(%rsp), %ymm4, %ymm2 982vpaddw %ymm2, %ymm1, %ymm8 983vpsubw %ymm2, %ymm1, %ymm12 984vmovdqa %ymm0, 256(%rsp) 985vmovdqu 792(%rdx), %ymm0 986vpaddw 32(%rsp), %ymm0, %ymm1 987vpaddw 160(%rsp), %ymm5, %ymm2 988vpaddw %ymm2, %ymm1, %ymm9 989vpsubw %ymm2, %ymm1, %ymm13 990vmovdqa %ymm0, 288(%rsp) 991vmovdqu 880(%rdx), %ymm0 992vpaddw 64(%rsp), %ymm0, %ymm1 993vpaddw 192(%rsp), %ymm6, %ymm2 994vpaddw %ymm2, %ymm1, %ymm10 995vpsubw %ymm2, %ymm1, %ymm14 996vmovdqa %ymm0, 320(%rsp) 997vmovdqu 968(%rdx), %ymm0 998vpaddw 96(%rsp), %ymm0, %ymm1 999vpaddw 224(%rsp), %ymm7, %ymm2 1000vpaddw %ymm2, %ymm1, %ymm11 1001vpsubw %ymm2, %ymm1, %ymm15 1002vmovdqa %ymm0, 352(%rsp) 1003vmovdqa %ymm8, 864(%r11) 1004vmovdqa %ymm9, 960(%r11) 1005vpaddw %ymm8, %ymm9, %ymm0 1006vmovdqa %ymm0, 1056(%r11) 1007vmovdqa %ymm10, 1152(%r11) 1008vmovdqa %ymm11, 1248(%r11) 1009vpaddw %ymm10, %ymm11, %ymm0 1010vmovdqa %ymm0, 1344(%r11) 1011vpaddw %ymm8, %ymm10, %ymm0 1012vmovdqa %ymm0, 1440(%r11) 1013vpaddw %ymm9, %ymm11, %ymm1 1014vmovdqa %ymm1, 1536(%r11) 1015vpaddw %ymm0, %ymm1, %ymm0 1016vmovdqa %ymm0, 1632(%r11) 1017vmovdqa %ymm12, 1728(%r11) 1018vmovdqa %ymm13, 1824(%r11) 1019vpaddw %ymm12, %ymm13, %ymm0 1020vmovdqa %ymm0, 1920(%r11) 1021vmovdqa %ymm14, 2016(%r11) 1022vmovdqa %ymm15, 2112(%r11) 1023vpaddw %ymm14, %ymm15, %ymm0 1024vmovdqa %ymm0, 2208(%r11) 1025vpaddw %ymm12, %ymm14, %ymm0 1026vmovdqa %ymm0, 2304(%r11) 1027vpaddw %ymm13, %ymm15, %ymm1 1028vmovdqa %ymm1, 2400(%r11) 1029vpaddw %ymm0, %ymm1, %ymm0 1030vmovdqa %ymm0, 2496(%r11) 1031vmovdqa 256(%rsp), %ymm0 1032vpsllw $2, %ymm0, %ymm0 1033vpaddw 0(%rsp), %ymm0, %ymm0 1034vpsllw $2, %ymm4, %ymm1 1035vpaddw 128(%rsp), %ymm1, %ymm1 1036vpsllw $1, %ymm1, %ymm1 1037vpaddw %ymm1, %ymm0, %ymm8 1038vpsubw %ymm1, %ymm0, %ymm12 1039vmovdqa 288(%rsp), %ymm0 1040vpsllw $2, %ymm0, %ymm0 1041vpaddw 32(%rsp), %ymm0, %ymm0 1042vpsllw $2, %ymm5, %ymm1 1043vpaddw 160(%rsp), %ymm1, %ymm1 1044vpsllw $1, %ymm1, %ymm1 1045vpaddw %ymm1, %ymm0, %ymm9 1046vpsubw %ymm1, %ymm0, %ymm13 1047vmovdqa 320(%rsp), %ymm0 1048vpsllw $2, %ymm0, %ymm0 1049vpaddw 64(%rsp), %ymm0, %ymm0 1050vpsllw $2, %ymm6, %ymm1 1051vpaddw 192(%rsp), %ymm1, %ymm1 1052vpsllw $1, %ymm1, %ymm1 1053vpaddw %ymm1, %ymm0, %ymm10 1054vpsubw %ymm1, %ymm0, %ymm14 1055vmovdqa 352(%rsp), %ymm0 1056vpsllw $2, %ymm0, %ymm0 1057vpaddw 96(%rsp), %ymm0, %ymm0 1058vpsllw $2, %ymm7, %ymm1 1059vpaddw 224(%rsp), %ymm1, %ymm1 1060vpsllw $1, %ymm1, %ymm1 1061vpaddw %ymm1, %ymm0, %ymm11 1062vpsubw %ymm1, %ymm0, %ymm15 1063vmovdqa %ymm8, 2592(%r11) 1064vmovdqa %ymm9, 2688(%r11) 1065vpaddw %ymm8, %ymm9, %ymm0 1066vmovdqa %ymm0, 2784(%r11) 1067vmovdqa %ymm10, 2880(%r11) 1068vmovdqa %ymm11, 2976(%r11) 1069vpaddw %ymm10, %ymm11, %ymm0 1070vmovdqa %ymm0, 3072(%r11) 1071vpaddw %ymm8, %ymm10, %ymm0 1072vmovdqa %ymm0, 3168(%r11) 1073vpaddw %ymm9, %ymm11, %ymm1 1074vmovdqa %ymm1, 3264(%r11) 1075vpaddw %ymm0, %ymm1, %ymm0 1076vmovdqa %ymm0, 3360(%r11) 1077vmovdqa %ymm12, 3456(%r11) 1078vmovdqa %ymm13, 3552(%r11) 1079vpaddw %ymm12, %ymm13, %ymm0 1080vmovdqa %ymm0, 3648(%r11) 1081vmovdqa %ymm14, 3744(%r11) 1082vmovdqa %ymm15, 3840(%r11) 1083vpaddw %ymm14, %ymm15, %ymm0 1084vmovdqa %ymm0, 3936(%r11) 1085vpaddw %ymm12, %ymm14, %ymm0 1086vmovdqa %ymm0, 4032(%r11) 1087vpaddw %ymm13, %ymm15, %ymm1 1088vmovdqa %ymm1, 4128(%r11) 1089vpaddw %ymm0, %ymm1, %ymm0 1090vmovdqa %ymm0, 4224(%r11) 1091vpmullw %ymm3, %ymm4, %ymm0 1092vpaddw 256(%rsp), %ymm0, %ymm0 1093vpmullw %ymm3, %ymm0, %ymm0 1094vpaddw 128(%rsp), %ymm0, %ymm0 1095vpmullw %ymm3, %ymm0, %ymm0 1096vpaddw 0(%rsp), %ymm0, %ymm12 1097vpmullw %ymm3, %ymm5, %ymm0 1098vpaddw 288(%rsp), %ymm0, %ymm0 1099vpmullw %ymm3, %ymm0, %ymm0 1100vpaddw 160(%rsp), %ymm0, %ymm0 1101vpmullw %ymm3, %ymm0, %ymm0 1102vpaddw 32(%rsp), %ymm0, %ymm13 1103vpmullw %ymm3, %ymm6, %ymm0 1104vpaddw 320(%rsp), %ymm0, %ymm0 1105vpmullw %ymm3, %ymm0, %ymm0 1106vpaddw 192(%rsp), %ymm0, %ymm0 1107vpmullw %ymm3, %ymm0, %ymm0 1108vpaddw 64(%rsp), %ymm0, %ymm14 1109vpmullw %ymm3, %ymm7, %ymm0 1110vpaddw 352(%rsp), %ymm0, %ymm0 1111vpmullw %ymm3, %ymm0, %ymm0 1112vpaddw 224(%rsp), %ymm0, %ymm0 1113vpmullw %ymm3, %ymm0, %ymm0 1114vpaddw 96(%rsp), %ymm0, %ymm15 1115vmovdqa %ymm12, 4320(%r11) 1116vmovdqa %ymm13, 4416(%r11) 1117vpaddw %ymm12, %ymm13, %ymm0 1118vmovdqa %ymm0, 4512(%r11) 1119vmovdqa %ymm14, 4608(%r11) 1120vmovdqa %ymm15, 4704(%r11) 1121vpaddw %ymm14, %ymm15, %ymm0 1122vmovdqa %ymm0, 4800(%r11) 1123vpaddw %ymm12, %ymm14, %ymm0 1124vmovdqa %ymm0, 4896(%r11) 1125vpaddw %ymm13, %ymm15, %ymm1 1126vmovdqa %ymm1, 4992(%r11) 1127vpaddw %ymm0, %ymm1, %ymm0 1128vmovdqa %ymm0, 5088(%r11) 1129vmovdqu 32(%rdx), %ymm0 1130vmovdqu 120(%rdx), %ymm1 1131vmovdqu 208(%rdx), %ymm2 1132vmovdqu 296(%rdx), %ymm12 1133vmovdqu 1088(%rdx), %ymm4 1134vmovdqu 1176(%rdx), %ymm5 1135vmovdqu 1264(%rdx), %ymm6 1136vmovdqu 1352(%rdx), %ymm7 1137vmovdqu 384(%rdx), %ymm8 1138vmovdqu 472(%rdx), %ymm9 1139vmovdqu 560(%rdx), %ymm10 1140vmovdqu 648(%rdx), %ymm11 1141vmovdqa %ymm0, 32(%r11) 1142vmovdqa %ymm1, 128(%r11) 1143vpaddw %ymm0, %ymm1, %ymm14 1144vmovdqa %ymm14, 224(%r11) 1145vmovdqa %ymm2, 320(%r11) 1146vmovdqa %ymm12, 416(%r11) 1147vpaddw %ymm2, %ymm12, %ymm14 1148vmovdqa %ymm14, 512(%r11) 1149vpaddw %ymm0, %ymm2, %ymm14 1150vmovdqa %ymm14, 608(%r11) 1151vpaddw %ymm1, %ymm12, %ymm15 1152vmovdqa %ymm15, 704(%r11) 1153vpaddw %ymm14, %ymm15, %ymm14 1154vmovdqa %ymm14, 800(%r11) 1155vmovdqa %ymm4, 5216(%r11) 1156vmovdqa %ymm5, 5312(%r11) 1157vpaddw %ymm4, %ymm5, %ymm14 1158vmovdqa %ymm14, 5408(%r11) 1159vmovdqa %ymm6, 5504(%r11) 1160vmovdqa %ymm7, 5600(%r11) 1161vpaddw %ymm6, %ymm7, %ymm14 1162vmovdqa %ymm14, 5696(%r11) 1163vpaddw %ymm4, %ymm6, %ymm14 1164vmovdqa %ymm14, 5792(%r11) 1165vpaddw %ymm5, %ymm7, %ymm15 1166vmovdqa %ymm15, 5888(%r11) 1167vpaddw %ymm14, %ymm15, %ymm14 1168vmovdqa %ymm14, 5984(%r11) 1169vmovdqa %ymm0, 0(%rsp) 1170vmovdqa %ymm1, 32(%rsp) 1171vmovdqa %ymm2, 64(%rsp) 1172vmovdqa %ymm12, 96(%rsp) 1173vmovdqa %ymm8, 128(%rsp) 1174vmovdqa %ymm9, 160(%rsp) 1175vmovdqa %ymm10, 192(%rsp) 1176vmovdqa %ymm11, 224(%rsp) 1177vmovdqu 736(%rdx), %ymm0 1178vpaddw 0(%rsp), %ymm0, %ymm1 1179vpaddw 128(%rsp), %ymm4, %ymm2 1180vpaddw %ymm2, %ymm1, %ymm8 1181vpsubw %ymm2, %ymm1, %ymm12 1182vmovdqa %ymm0, 256(%rsp) 1183vmovdqu 824(%rdx), %ymm0 1184vpaddw 32(%rsp), %ymm0, %ymm1 1185vpaddw 160(%rsp), %ymm5, %ymm2 1186vpaddw %ymm2, %ymm1, %ymm9 1187vpsubw %ymm2, %ymm1, %ymm13 1188vmovdqa %ymm0, 288(%rsp) 1189vmovdqu 912(%rdx), %ymm0 1190vpaddw 64(%rsp), %ymm0, %ymm1 1191vpaddw 192(%rsp), %ymm6, %ymm2 1192vpaddw %ymm2, %ymm1, %ymm10 1193vpsubw %ymm2, %ymm1, %ymm14 1194vmovdqa %ymm0, 320(%rsp) 1195vmovdqu 1000(%rdx), %ymm0 1196vpaddw 96(%rsp), %ymm0, %ymm1 1197vpaddw 224(%rsp), %ymm7, %ymm2 1198vpaddw %ymm2, %ymm1, %ymm11 1199vpsubw %ymm2, %ymm1, %ymm15 1200vmovdqa %ymm0, 352(%rsp) 1201vmovdqa %ymm8, 896(%r11) 1202vmovdqa %ymm9, 992(%r11) 1203vpaddw %ymm8, %ymm9, %ymm0 1204vmovdqa %ymm0, 1088(%r11) 1205vmovdqa %ymm10, 1184(%r11) 1206vmovdqa %ymm11, 1280(%r11) 1207vpaddw %ymm10, %ymm11, %ymm0 1208vmovdqa %ymm0, 1376(%r11) 1209vpaddw %ymm8, %ymm10, %ymm0 1210vmovdqa %ymm0, 1472(%r11) 1211vpaddw %ymm9, %ymm11, %ymm1 1212vmovdqa %ymm1, 1568(%r11) 1213vpaddw %ymm0, %ymm1, %ymm0 1214vmovdqa %ymm0, 1664(%r11) 1215vmovdqa %ymm12, 1760(%r11) 1216vmovdqa %ymm13, 1856(%r11) 1217vpaddw %ymm12, %ymm13, %ymm0 1218vmovdqa %ymm0, 1952(%r11) 1219vmovdqa %ymm14, 2048(%r11) 1220vmovdqa %ymm15, 2144(%r11) 1221vpaddw %ymm14, %ymm15, %ymm0 1222vmovdqa %ymm0, 2240(%r11) 1223vpaddw %ymm12, %ymm14, %ymm0 1224vmovdqa %ymm0, 2336(%r11) 1225vpaddw %ymm13, %ymm15, %ymm1 1226vmovdqa %ymm1, 2432(%r11) 1227vpaddw %ymm0, %ymm1, %ymm0 1228vmovdqa %ymm0, 2528(%r11) 1229vmovdqa 256(%rsp), %ymm0 1230vpsllw $2, %ymm0, %ymm0 1231vpaddw 0(%rsp), %ymm0, %ymm0 1232vpsllw $2, %ymm4, %ymm1 1233vpaddw 128(%rsp), %ymm1, %ymm1 1234vpsllw $1, %ymm1, %ymm1 1235vpaddw %ymm1, %ymm0, %ymm8 1236vpsubw %ymm1, %ymm0, %ymm12 1237vmovdqa 288(%rsp), %ymm0 1238vpsllw $2, %ymm0, %ymm0 1239vpaddw 32(%rsp), %ymm0, %ymm0 1240vpsllw $2, %ymm5, %ymm1 1241vpaddw 160(%rsp), %ymm1, %ymm1 1242vpsllw $1, %ymm1, %ymm1 1243vpaddw %ymm1, %ymm0, %ymm9 1244vpsubw %ymm1, %ymm0, %ymm13 1245vmovdqa 320(%rsp), %ymm0 1246vpsllw $2, %ymm0, %ymm0 1247vpaddw 64(%rsp), %ymm0, %ymm0 1248vpsllw $2, %ymm6, %ymm1 1249vpaddw 192(%rsp), %ymm1, %ymm1 1250vpsllw $1, %ymm1, %ymm1 1251vpaddw %ymm1, %ymm0, %ymm10 1252vpsubw %ymm1, %ymm0, %ymm14 1253vmovdqa 352(%rsp), %ymm0 1254vpsllw $2, %ymm0, %ymm0 1255vpaddw 96(%rsp), %ymm0, %ymm0 1256vpsllw $2, %ymm7, %ymm1 1257vpaddw 224(%rsp), %ymm1, %ymm1 1258vpsllw $1, %ymm1, %ymm1 1259vpaddw %ymm1, %ymm0, %ymm11 1260vpsubw %ymm1, %ymm0, %ymm15 1261vmovdqa %ymm8, 2624(%r11) 1262vmovdqa %ymm9, 2720(%r11) 1263vpaddw %ymm8, %ymm9, %ymm0 1264vmovdqa %ymm0, 2816(%r11) 1265vmovdqa %ymm10, 2912(%r11) 1266vmovdqa %ymm11, 3008(%r11) 1267vpaddw %ymm10, %ymm11, %ymm0 1268vmovdqa %ymm0, 3104(%r11) 1269vpaddw %ymm8, %ymm10, %ymm0 1270vmovdqa %ymm0, 3200(%r11) 1271vpaddw %ymm9, %ymm11, %ymm1 1272vmovdqa %ymm1, 3296(%r11) 1273vpaddw %ymm0, %ymm1, %ymm0 1274vmovdqa %ymm0, 3392(%r11) 1275vmovdqa %ymm12, 3488(%r11) 1276vmovdqa %ymm13, 3584(%r11) 1277vpaddw %ymm12, %ymm13, %ymm0 1278vmovdqa %ymm0, 3680(%r11) 1279vmovdqa %ymm14, 3776(%r11) 1280vmovdqa %ymm15, 3872(%r11) 1281vpaddw %ymm14, %ymm15, %ymm0 1282vmovdqa %ymm0, 3968(%r11) 1283vpaddw %ymm12, %ymm14, %ymm0 1284vmovdqa %ymm0, 4064(%r11) 1285vpaddw %ymm13, %ymm15, %ymm1 1286vmovdqa %ymm1, 4160(%r11) 1287vpaddw %ymm0, %ymm1, %ymm0 1288vmovdqa %ymm0, 4256(%r11) 1289vpmullw %ymm3, %ymm4, %ymm0 1290vpaddw 256(%rsp), %ymm0, %ymm0 1291vpmullw %ymm3, %ymm0, %ymm0 1292vpaddw 128(%rsp), %ymm0, %ymm0 1293vpmullw %ymm3, %ymm0, %ymm0 1294vpaddw 0(%rsp), %ymm0, %ymm12 1295vpmullw %ymm3, %ymm5, %ymm0 1296vpaddw 288(%rsp), %ymm0, %ymm0 1297vpmullw %ymm3, %ymm0, %ymm0 1298vpaddw 160(%rsp), %ymm0, %ymm0 1299vpmullw %ymm3, %ymm0, %ymm0 1300vpaddw 32(%rsp), %ymm0, %ymm13 1301vpmullw %ymm3, %ymm6, %ymm0 1302vpaddw 320(%rsp), %ymm0, %ymm0 1303vpmullw %ymm3, %ymm0, %ymm0 1304vpaddw 192(%rsp), %ymm0, %ymm0 1305vpmullw %ymm3, %ymm0, %ymm0 1306vpaddw 64(%rsp), %ymm0, %ymm14 1307vpmullw %ymm3, %ymm7, %ymm0 1308vpaddw 352(%rsp), %ymm0, %ymm0 1309vpmullw %ymm3, %ymm0, %ymm0 1310vpaddw 224(%rsp), %ymm0, %ymm0 1311vpmullw %ymm3, %ymm0, %ymm0 1312vpaddw 96(%rsp), %ymm0, %ymm15 1313vmovdqa %ymm12, 4352(%r11) 1314vmovdqa %ymm13, 4448(%r11) 1315vpaddw %ymm12, %ymm13, %ymm0 1316vmovdqa %ymm0, 4544(%r11) 1317vmovdqa %ymm14, 4640(%r11) 1318vmovdqa %ymm15, 4736(%r11) 1319vpaddw %ymm14, %ymm15, %ymm0 1320vmovdqa %ymm0, 4832(%r11) 1321vpaddw %ymm12, %ymm14, %ymm0 1322vmovdqa %ymm0, 4928(%r11) 1323vpaddw %ymm13, %ymm15, %ymm1 1324vmovdqa %ymm1, 5024(%r11) 1325vpaddw %ymm0, %ymm1, %ymm0 1326vmovdqa %ymm0, 5120(%r11) 1327vmovdqu 64(%rdx), %ymm0 1328vmovdqu 152(%rdx), %ymm1 1329vmovdqu 240(%rdx), %ymm2 1330vmovdqu 328(%rdx), %ymm12 1331vmovdqu 1120(%rdx), %ymm4 1332vmovdqu 1208(%rdx), %ymm5 1333vmovdqu 1296(%rdx), %ymm6 1334vmovdqu 1384(%rdx), %ymm7 1335vpand mask_low9words(%rip), %ymm7, %ymm7 1336vmovdqu 416(%rdx), %ymm8 1337vmovdqu 504(%rdx), %ymm9 1338vmovdqu 592(%rdx), %ymm10 1339vmovdqu 680(%rdx), %ymm11 1340vmovdqa %ymm0, 64(%r11) 1341vmovdqa %ymm1, 160(%r11) 1342vpaddw %ymm0, %ymm1, %ymm14 1343vmovdqa %ymm14, 256(%r11) 1344vmovdqa %ymm2, 352(%r11) 1345vmovdqa %ymm12, 448(%r11) 1346vpaddw %ymm2, %ymm12, %ymm14 1347vmovdqa %ymm14, 544(%r11) 1348vpaddw %ymm0, %ymm2, %ymm14 1349vmovdqa %ymm14, 640(%r11) 1350vpaddw %ymm1, %ymm12, %ymm15 1351vmovdqa %ymm15, 736(%r11) 1352vpaddw %ymm14, %ymm15, %ymm14 1353vmovdqa %ymm14, 832(%r11) 1354vmovdqa %ymm4, 5248(%r11) 1355vmovdqa %ymm5, 5344(%r11) 1356vpaddw %ymm4, %ymm5, %ymm14 1357vmovdqa %ymm14, 5440(%r11) 1358vmovdqa %ymm6, 5536(%r11) 1359vmovdqa %ymm7, 5632(%r11) 1360vpaddw %ymm6, %ymm7, %ymm14 1361vmovdqa %ymm14, 5728(%r11) 1362vpaddw %ymm4, %ymm6, %ymm14 1363vmovdqa %ymm14, 5824(%r11) 1364vpaddw %ymm5, %ymm7, %ymm15 1365vmovdqa %ymm15, 5920(%r11) 1366vpaddw %ymm14, %ymm15, %ymm14 1367vmovdqa %ymm14, 6016(%r11) 1368vmovdqa %ymm0, 0(%rsp) 1369vmovdqa %ymm1, 32(%rsp) 1370vmovdqa %ymm2, 64(%rsp) 1371vmovdqa %ymm12, 96(%rsp) 1372vmovdqa %ymm8, 128(%rsp) 1373vmovdqa %ymm9, 160(%rsp) 1374vmovdqa %ymm10, 192(%rsp) 1375vmovdqa %ymm11, 224(%rsp) 1376vmovdqu 768(%rdx), %ymm0 1377vpaddw 0(%rsp), %ymm0, %ymm1 1378vpaddw 128(%rsp), %ymm4, %ymm2 1379vpaddw %ymm2, %ymm1, %ymm8 1380vpsubw %ymm2, %ymm1, %ymm12 1381vmovdqa %ymm0, 256(%rsp) 1382vmovdqu 856(%rdx), %ymm0 1383vpaddw 32(%rsp), %ymm0, %ymm1 1384vpaddw 160(%rsp), %ymm5, %ymm2 1385vpaddw %ymm2, %ymm1, %ymm9 1386vpsubw %ymm2, %ymm1, %ymm13 1387vmovdqa %ymm0, 288(%rsp) 1388vmovdqu 944(%rdx), %ymm0 1389vpaddw 64(%rsp), %ymm0, %ymm1 1390vpaddw 192(%rsp), %ymm6, %ymm2 1391vpaddw %ymm2, %ymm1, %ymm10 1392vpsubw %ymm2, %ymm1, %ymm14 1393vmovdqa %ymm0, 320(%rsp) 1394vmovdqu 1032(%rdx), %ymm0 1395vpaddw 96(%rsp), %ymm0, %ymm1 1396vpaddw 224(%rsp), %ymm7, %ymm2 1397vpaddw %ymm2, %ymm1, %ymm11 1398vpsubw %ymm2, %ymm1, %ymm15 1399vmovdqa %ymm0, 352(%rsp) 1400vmovdqa %ymm8, 928(%r11) 1401vmovdqa %ymm9, 1024(%r11) 1402vpaddw %ymm8, %ymm9, %ymm0 1403vmovdqa %ymm0, 1120(%r11) 1404vmovdqa %ymm10, 1216(%r11) 1405vmovdqa %ymm11, 1312(%r11) 1406vpaddw %ymm10, %ymm11, %ymm0 1407vmovdqa %ymm0, 1408(%r11) 1408vpaddw %ymm8, %ymm10, %ymm0 1409vmovdqa %ymm0, 1504(%r11) 1410vpaddw %ymm9, %ymm11, %ymm1 1411vmovdqa %ymm1, 1600(%r11) 1412vpaddw %ymm0, %ymm1, %ymm0 1413vmovdqa %ymm0, 1696(%r11) 1414vmovdqa %ymm12, 1792(%r11) 1415vmovdqa %ymm13, 1888(%r11) 1416vpaddw %ymm12, %ymm13, %ymm0 1417vmovdqa %ymm0, 1984(%r11) 1418vmovdqa %ymm14, 2080(%r11) 1419vmovdqa %ymm15, 2176(%r11) 1420vpaddw %ymm14, %ymm15, %ymm0 1421vmovdqa %ymm0, 2272(%r11) 1422vpaddw %ymm12, %ymm14, %ymm0 1423vmovdqa %ymm0, 2368(%r11) 1424vpaddw %ymm13, %ymm15, %ymm1 1425vmovdqa %ymm1, 2464(%r11) 1426vpaddw %ymm0, %ymm1, %ymm0 1427vmovdqa %ymm0, 2560(%r11) 1428vmovdqa 256(%rsp), %ymm0 1429vpsllw $2, %ymm0, %ymm0 1430vpaddw 0(%rsp), %ymm0, %ymm0 1431vpsllw $2, %ymm4, %ymm1 1432vpaddw 128(%rsp), %ymm1, %ymm1 1433vpsllw $1, %ymm1, %ymm1 1434vpaddw %ymm1, %ymm0, %ymm8 1435vpsubw %ymm1, %ymm0, %ymm12 1436vmovdqa 288(%rsp), %ymm0 1437vpsllw $2, %ymm0, %ymm0 1438vpaddw 32(%rsp), %ymm0, %ymm0 1439vpsllw $2, %ymm5, %ymm1 1440vpaddw 160(%rsp), %ymm1, %ymm1 1441vpsllw $1, %ymm1, %ymm1 1442vpaddw %ymm1, %ymm0, %ymm9 1443vpsubw %ymm1, %ymm0, %ymm13 1444vmovdqa 320(%rsp), %ymm0 1445vpsllw $2, %ymm0, %ymm0 1446vpaddw 64(%rsp), %ymm0, %ymm0 1447vpsllw $2, %ymm6, %ymm1 1448vpaddw 192(%rsp), %ymm1, %ymm1 1449vpsllw $1, %ymm1, %ymm1 1450vpaddw %ymm1, %ymm0, %ymm10 1451vpsubw %ymm1, %ymm0, %ymm14 1452vmovdqa 352(%rsp), %ymm0 1453vpsllw $2, %ymm0, %ymm0 1454vpaddw 96(%rsp), %ymm0, %ymm0 1455vpsllw $2, %ymm7, %ymm1 1456vpaddw 224(%rsp), %ymm1, %ymm1 1457vpsllw $1, %ymm1, %ymm1 1458vpaddw %ymm1, %ymm0, %ymm11 1459vpsubw %ymm1, %ymm0, %ymm15 1460vmovdqa %ymm8, 2656(%r11) 1461vmovdqa %ymm9, 2752(%r11) 1462vpaddw %ymm8, %ymm9, %ymm0 1463vmovdqa %ymm0, 2848(%r11) 1464vmovdqa %ymm10, 2944(%r11) 1465vmovdqa %ymm11, 3040(%r11) 1466vpaddw %ymm10, %ymm11, %ymm0 1467vmovdqa %ymm0, 3136(%r11) 1468vpaddw %ymm8, %ymm10, %ymm0 1469vmovdqa %ymm0, 3232(%r11) 1470vpaddw %ymm9, %ymm11, %ymm1 1471vmovdqa %ymm1, 3328(%r11) 1472vpaddw %ymm0, %ymm1, %ymm0 1473vmovdqa %ymm0, 3424(%r11) 1474vmovdqa %ymm12, 3520(%r11) 1475vmovdqa %ymm13, 3616(%r11) 1476vpaddw %ymm12, %ymm13, %ymm0 1477vmovdqa %ymm0, 3712(%r11) 1478vmovdqa %ymm14, 3808(%r11) 1479vmovdqa %ymm15, 3904(%r11) 1480vpaddw %ymm14, %ymm15, %ymm0 1481vmovdqa %ymm0, 4000(%r11) 1482vpaddw %ymm12, %ymm14, %ymm0 1483vmovdqa %ymm0, 4096(%r11) 1484vpaddw %ymm13, %ymm15, %ymm1 1485vmovdqa %ymm1, 4192(%r11) 1486vpaddw %ymm0, %ymm1, %ymm0 1487vmovdqa %ymm0, 4288(%r11) 1488vpmullw %ymm3, %ymm4, %ymm0 1489vpaddw 256(%rsp), %ymm0, %ymm0 1490vpmullw %ymm3, %ymm0, %ymm0 1491vpaddw 128(%rsp), %ymm0, %ymm0 1492vpmullw %ymm3, %ymm0, %ymm0 1493vpaddw 0(%rsp), %ymm0, %ymm12 1494vpmullw %ymm3, %ymm5, %ymm0 1495vpaddw 288(%rsp), %ymm0, %ymm0 1496vpmullw %ymm3, %ymm0, %ymm0 1497vpaddw 160(%rsp), %ymm0, %ymm0 1498vpmullw %ymm3, %ymm0, %ymm0 1499vpaddw 32(%rsp), %ymm0, %ymm13 1500vpmullw %ymm3, %ymm6, %ymm0 1501vpaddw 320(%rsp), %ymm0, %ymm0 1502vpmullw %ymm3, %ymm0, %ymm0 1503vpaddw 192(%rsp), %ymm0, %ymm0 1504vpmullw %ymm3, %ymm0, %ymm0 1505vpaddw 64(%rsp), %ymm0, %ymm14 1506vpmullw %ymm3, %ymm7, %ymm0 1507vpaddw 352(%rsp), %ymm0, %ymm0 1508vpmullw %ymm3, %ymm0, %ymm0 1509vpaddw 224(%rsp), %ymm0, %ymm0 1510vpmullw %ymm3, %ymm0, %ymm0 1511vpaddw 96(%rsp), %ymm0, %ymm15 1512vmovdqa %ymm12, 4384(%r11) 1513vmovdqa %ymm13, 4480(%r11) 1514vpaddw %ymm12, %ymm13, %ymm0 1515vmovdqa %ymm0, 4576(%r11) 1516vmovdqa %ymm14, 4672(%r11) 1517vmovdqa %ymm15, 4768(%r11) 1518vpaddw %ymm14, %ymm15, %ymm0 1519vmovdqa %ymm0, 4864(%r11) 1520vpaddw %ymm12, %ymm14, %ymm0 1521vmovdqa %ymm0, 4960(%r11) 1522vpaddw %ymm13, %ymm15, %ymm1 1523vmovdqa %ymm1, 5056(%r11) 1524vpaddw %ymm0, %ymm1, %ymm0 1525vmovdqa %ymm0, 5152(%r11) 1526subq $9408, %rsp 1527mov $4, %ecx 1528karatsuba_loop_4eced63f144beffcb0247f9c6f67d165: 1529mov %rsp, %r9 1530mov %rsp, %r10 1531subq $32, %rsp 1532vmovdqa 0(%rax), %ymm0 1533vmovdqa 192(%rax), %ymm1 1534vmovdqa 384(%rax), %ymm2 1535vmovdqa 576(%rax), %ymm3 1536vpunpcklwd 96(%rax), %ymm0, %ymm4 1537vpunpckhwd 96(%rax), %ymm0, %ymm5 1538vpunpcklwd 288(%rax), %ymm1, %ymm6 1539vpunpckhwd 288(%rax), %ymm1, %ymm7 1540vpunpcklwd 480(%rax), %ymm2, %ymm8 1541vpunpckhwd 480(%rax), %ymm2, %ymm9 1542vpunpcklwd 672(%rax), %ymm3, %ymm10 1543vpunpckhwd 672(%rax), %ymm3, %ymm11 1544vpunpckldq %ymm6, %ymm4, %ymm0 1545vpunpckhdq %ymm6, %ymm4, %ymm1 1546vpunpckldq %ymm7, %ymm5, %ymm2 1547vpunpckhdq %ymm7, %ymm5, %ymm3 1548vpunpckldq %ymm10, %ymm8, %ymm12 1549vpunpckhdq %ymm10, %ymm8, %ymm13 1550vpunpckldq %ymm11, %ymm9, %ymm14 1551vpunpckhdq %ymm11, %ymm9, %ymm15 1552vpunpcklqdq %ymm12, %ymm0, %ymm4 1553vpunpckhqdq %ymm12, %ymm0, %ymm5 1554vpunpcklqdq %ymm13, %ymm1, %ymm6 1555vpunpckhqdq %ymm13, %ymm1, %ymm7 1556vpunpcklqdq %ymm14, %ymm2, %ymm8 1557vpunpckhqdq %ymm14, %ymm2, %ymm9 1558vpunpcklqdq %ymm15, %ymm3, %ymm10 1559vpunpckhqdq %ymm15, %ymm3, %ymm11 1560vmovdqa 768(%rax), %ymm0 1561vmovdqa 960(%rax), %ymm1 1562vmovdqa 1152(%rax), %ymm2 1563vmovdqa 1344(%rax), %ymm3 1564vpunpcklwd 864(%rax), %ymm0, %ymm12 1565vpunpckhwd 864(%rax), %ymm0, %ymm13 1566vpunpcklwd 1056(%rax), %ymm1, %ymm14 1567vpunpckhwd 1056(%rax), %ymm1, %ymm15 1568vpunpcklwd 1248(%rax), %ymm2, %ymm0 1569vpunpckhwd 1248(%rax), %ymm2, %ymm1 1570vpunpcklwd 1440(%rax), %ymm3, %ymm2 1571vpunpckhwd 1440(%rax), %ymm3, %ymm3 1572vmovdqa %ymm11, 0(%rsp) 1573vpunpckldq %ymm14, %ymm12, %ymm11 1574vpunpckhdq %ymm14, %ymm12, %ymm12 1575vpunpckldq %ymm15, %ymm13, %ymm14 1576vpunpckhdq %ymm15, %ymm13, %ymm15 1577vpunpckldq %ymm2, %ymm0, %ymm13 1578vpunpckhdq %ymm2, %ymm0, %ymm0 1579vpunpckldq %ymm3, %ymm1, %ymm2 1580vpunpckhdq %ymm3, %ymm1, %ymm1 1581vpunpcklqdq %ymm13, %ymm11, %ymm3 1582vpunpckhqdq %ymm13, %ymm11, %ymm13 1583vpunpcklqdq %ymm0, %ymm12, %ymm11 1584vpunpckhqdq %ymm0, %ymm12, %ymm0 1585vpunpcklqdq %ymm2, %ymm14, %ymm12 1586vpunpckhqdq %ymm2, %ymm14, %ymm2 1587vpunpcklqdq %ymm1, %ymm15, %ymm14 1588vpunpckhqdq %ymm1, %ymm15, %ymm1 1589vinserti128 $1, %xmm3, %ymm4, %ymm15 1590vmovdqa %ymm15, 0(%r9) 1591vinserti128 $1, %xmm13, %ymm5, %ymm15 1592vmovdqa %ymm15, 32(%r9) 1593vinserti128 $1, %xmm11, %ymm6, %ymm15 1594vmovdqa %ymm15, 64(%r9) 1595vinserti128 $1, %xmm0, %ymm7, %ymm15 1596vmovdqa %ymm15, 96(%r9) 1597vinserti128 $1, %xmm12, %ymm8, %ymm15 1598vmovdqa %ymm15, 128(%r9) 1599vinserti128 $1, %xmm2, %ymm9, %ymm15 1600vmovdqa %ymm15, 160(%r9) 1601vinserti128 $1, %xmm14, %ymm10, %ymm15 1602vmovdqa %ymm15, 192(%r9) 1603vpermq $78, %ymm4, %ymm4 1604vpermq $78, %ymm5, %ymm5 1605vpermq $78, %ymm6, %ymm6 1606vpermq $78, %ymm7, %ymm7 1607vpermq $78, %ymm8, %ymm8 1608vpermq $78, %ymm9, %ymm9 1609vpermq $78, %ymm10, %ymm10 1610vinserti128 $0, %xmm4, %ymm3, %ymm15 1611vmovdqa %ymm15, 256(%r9) 1612vinserti128 $0, %xmm5, %ymm13, %ymm15 1613vmovdqa %ymm15, 288(%r9) 1614vinserti128 $0, %xmm6, %ymm11, %ymm15 1615vmovdqa %ymm15, 320(%r9) 1616vinserti128 $0, %xmm7, %ymm0, %ymm15 1617vmovdqa %ymm15, 352(%r9) 1618vinserti128 $0, %xmm8, %ymm12, %ymm15 1619vmovdqa %ymm15, 384(%r9) 1620vinserti128 $0, %xmm9, %ymm2, %ymm15 1621vmovdqa %ymm15, 416(%r9) 1622vinserti128 $0, %xmm10, %ymm14, %ymm15 1623vmovdqa %ymm15, 448(%r9) 1624vmovdqa 0(%rsp), %ymm11 1625vinserti128 $1, %xmm1, %ymm11, %ymm14 1626vmovdqa %ymm14, 224(%r9) 1627vpermq $78, %ymm11, %ymm11 1628vinserti128 $0, %xmm11, %ymm1, %ymm1 1629vmovdqa %ymm1, 480(%r9) 1630vmovdqa 32(%rax), %ymm0 1631vmovdqa 224(%rax), %ymm1 1632vmovdqa 416(%rax), %ymm2 1633vmovdqa 608(%rax), %ymm3 1634vpunpcklwd 128(%rax), %ymm0, %ymm4 1635vpunpckhwd 128(%rax), %ymm0, %ymm5 1636vpunpcklwd 320(%rax), %ymm1, %ymm6 1637vpunpckhwd 320(%rax), %ymm1, %ymm7 1638vpunpcklwd 512(%rax), %ymm2, %ymm8 1639vpunpckhwd 512(%rax), %ymm2, %ymm9 1640vpunpcklwd 704(%rax), %ymm3, %ymm10 1641vpunpckhwd 704(%rax), %ymm3, %ymm11 1642vpunpckldq %ymm6, %ymm4, %ymm0 1643vpunpckhdq %ymm6, %ymm4, %ymm1 1644vpunpckldq %ymm7, %ymm5, %ymm2 1645vpunpckhdq %ymm7, %ymm5, %ymm3 1646vpunpckldq %ymm10, %ymm8, %ymm12 1647vpunpckhdq %ymm10, %ymm8, %ymm13 1648vpunpckldq %ymm11, %ymm9, %ymm14 1649vpunpckhdq %ymm11, %ymm9, %ymm15 1650vpunpcklqdq %ymm12, %ymm0, %ymm4 1651vpunpckhqdq %ymm12, %ymm0, %ymm5 1652vpunpcklqdq %ymm13, %ymm1, %ymm6 1653vpunpckhqdq %ymm13, %ymm1, %ymm7 1654vpunpcklqdq %ymm14, %ymm2, %ymm8 1655vpunpckhqdq %ymm14, %ymm2, %ymm9 1656vpunpcklqdq %ymm15, %ymm3, %ymm10 1657vpunpckhqdq %ymm15, %ymm3, %ymm11 1658vmovdqa 800(%rax), %ymm0 1659vmovdqa 992(%rax), %ymm1 1660vmovdqa 1184(%rax), %ymm2 1661vmovdqa 1376(%rax), %ymm3 1662vpunpcklwd 896(%rax), %ymm0, %ymm12 1663vpunpckhwd 896(%rax), %ymm0, %ymm13 1664vpunpcklwd 1088(%rax), %ymm1, %ymm14 1665vpunpckhwd 1088(%rax), %ymm1, %ymm15 1666vpunpcklwd 1280(%rax), %ymm2, %ymm0 1667vpunpckhwd 1280(%rax), %ymm2, %ymm1 1668vpunpcklwd 1472(%rax), %ymm3, %ymm2 1669vpunpckhwd 1472(%rax), %ymm3, %ymm3 1670vmovdqa %ymm11, 0(%rsp) 1671vpunpckldq %ymm14, %ymm12, %ymm11 1672vpunpckhdq %ymm14, %ymm12, %ymm12 1673vpunpckldq %ymm15, %ymm13, %ymm14 1674vpunpckhdq %ymm15, %ymm13, %ymm15 1675vpunpckldq %ymm2, %ymm0, %ymm13 1676vpunpckhdq %ymm2, %ymm0, %ymm0 1677vpunpckldq %ymm3, %ymm1, %ymm2 1678vpunpckhdq %ymm3, %ymm1, %ymm1 1679vpunpcklqdq %ymm13, %ymm11, %ymm3 1680vpunpckhqdq %ymm13, %ymm11, %ymm13 1681vpunpcklqdq %ymm0, %ymm12, %ymm11 1682vpunpckhqdq %ymm0, %ymm12, %ymm0 1683vpunpcklqdq %ymm2, %ymm14, %ymm12 1684vpunpckhqdq %ymm2, %ymm14, %ymm2 1685vpunpcklqdq %ymm1, %ymm15, %ymm14 1686vpunpckhqdq %ymm1, %ymm15, %ymm1 1687vinserti128 $1, %xmm3, %ymm4, %ymm15 1688vmovdqa %ymm15, 512(%r9) 1689vinserti128 $1, %xmm13, %ymm5, %ymm15 1690vmovdqa %ymm15, 544(%r9) 1691vinserti128 $1, %xmm11, %ymm6, %ymm15 1692vmovdqa %ymm15, 576(%r9) 1693vinserti128 $1, %xmm0, %ymm7, %ymm15 1694vmovdqa %ymm15, 608(%r9) 1695vinserti128 $1, %xmm12, %ymm8, %ymm15 1696vmovdqa %ymm15, 640(%r9) 1697vinserti128 $1, %xmm2, %ymm9, %ymm15 1698vmovdqa %ymm15, 672(%r9) 1699vinserti128 $1, %xmm14, %ymm10, %ymm15 1700vmovdqa %ymm15, 704(%r9) 1701vpermq $78, %ymm4, %ymm4 1702vpermq $78, %ymm5, %ymm5 1703vpermq $78, %ymm6, %ymm6 1704vpermq $78, %ymm7, %ymm7 1705vpermq $78, %ymm8, %ymm8 1706vpermq $78, %ymm9, %ymm9 1707vpermq $78, %ymm10, %ymm10 1708vinserti128 $0, %xmm4, %ymm3, %ymm15 1709vmovdqa %ymm15, 768(%r9) 1710vinserti128 $0, %xmm5, %ymm13, %ymm15 1711vmovdqa %ymm15, 800(%r9) 1712vinserti128 $0, %xmm6, %ymm11, %ymm15 1713vmovdqa %ymm15, 832(%r9) 1714vinserti128 $0, %xmm7, %ymm0, %ymm15 1715vmovdqa %ymm15, 864(%r9) 1716vinserti128 $0, %xmm8, %ymm12, %ymm15 1717vmovdqa %ymm15, 896(%r9) 1718vinserti128 $0, %xmm9, %ymm2, %ymm15 1719vmovdqa %ymm15, 928(%r9) 1720vinserti128 $0, %xmm10, %ymm14, %ymm15 1721vmovdqa %ymm15, 960(%r9) 1722vmovdqa 0(%rsp), %ymm11 1723vinserti128 $1, %xmm1, %ymm11, %ymm14 1724vmovdqa %ymm14, 736(%r9) 1725vpermq $78, %ymm11, %ymm11 1726vinserti128 $0, %xmm11, %ymm1, %ymm1 1727vmovdqa %ymm1, 992(%r9) 1728vmovdqa 64(%rax), %ymm0 1729vmovdqa 256(%rax), %ymm1 1730vmovdqa 448(%rax), %ymm2 1731vmovdqa 640(%rax), %ymm3 1732vpunpcklwd 160(%rax), %ymm0, %ymm4 1733vpunpckhwd 160(%rax), %ymm0, %ymm5 1734vpunpcklwd 352(%rax), %ymm1, %ymm6 1735vpunpckhwd 352(%rax), %ymm1, %ymm7 1736vpunpcklwd 544(%rax), %ymm2, %ymm8 1737vpunpckhwd 544(%rax), %ymm2, %ymm9 1738vpunpcklwd 736(%rax), %ymm3, %ymm10 1739vpunpckhwd 736(%rax), %ymm3, %ymm11 1740vpunpckldq %ymm6, %ymm4, %ymm0 1741vpunpckhdq %ymm6, %ymm4, %ymm1 1742vpunpckldq %ymm7, %ymm5, %ymm2 1743vpunpckhdq %ymm7, %ymm5, %ymm3 1744vpunpckldq %ymm10, %ymm8, %ymm12 1745vpunpckhdq %ymm10, %ymm8, %ymm13 1746vpunpckldq %ymm11, %ymm9, %ymm14 1747vpunpckhdq %ymm11, %ymm9, %ymm15 1748vpunpcklqdq %ymm12, %ymm0, %ymm4 1749vpunpckhqdq %ymm12, %ymm0, %ymm5 1750vpunpcklqdq %ymm13, %ymm1, %ymm6 1751vpunpckhqdq %ymm13, %ymm1, %ymm7 1752vpunpcklqdq %ymm14, %ymm2, %ymm8 1753vpunpckhqdq %ymm14, %ymm2, %ymm9 1754vpunpcklqdq %ymm15, %ymm3, %ymm10 1755vpunpckhqdq %ymm15, %ymm3, %ymm11 1756vmovdqa 832(%rax), %ymm0 1757vmovdqa 1024(%rax), %ymm1 1758vmovdqa 1216(%rax), %ymm2 1759vmovdqa 1408(%rax), %ymm3 1760vpunpcklwd 928(%rax), %ymm0, %ymm12 1761vpunpckhwd 928(%rax), %ymm0, %ymm13 1762vpunpcklwd 1120(%rax), %ymm1, %ymm14 1763vpunpckhwd 1120(%rax), %ymm1, %ymm15 1764vpunpcklwd 1312(%rax), %ymm2, %ymm0 1765vpunpckhwd 1312(%rax), %ymm2, %ymm1 1766vpunpcklwd 1504(%rax), %ymm3, %ymm2 1767vpunpckhwd 1504(%rax), %ymm3, %ymm3 1768vmovdqa %ymm11, 0(%rsp) 1769vpunpckldq %ymm14, %ymm12, %ymm11 1770vpunpckhdq %ymm14, %ymm12, %ymm12 1771vpunpckldq %ymm15, %ymm13, %ymm14 1772vpunpckhdq %ymm15, %ymm13, %ymm15 1773vpunpckldq %ymm2, %ymm0, %ymm13 1774vpunpckhdq %ymm2, %ymm0, %ymm0 1775vpunpckldq %ymm3, %ymm1, %ymm2 1776vpunpckhdq %ymm3, %ymm1, %ymm1 1777vpunpcklqdq %ymm13, %ymm11, %ymm3 1778vpunpckhqdq %ymm13, %ymm11, %ymm13 1779vpunpcklqdq %ymm0, %ymm12, %ymm11 1780vpunpckhqdq %ymm0, %ymm12, %ymm0 1781vpunpcklqdq %ymm2, %ymm14, %ymm12 1782vpunpckhqdq %ymm2, %ymm14, %ymm2 1783vpunpcklqdq %ymm1, %ymm15, %ymm14 1784vpunpckhqdq %ymm1, %ymm15, %ymm1 1785vinserti128 $1, %xmm3, %ymm4, %ymm15 1786vmovdqa %ymm15, 1024(%r9) 1787vinserti128 $1, %xmm13, %ymm5, %ymm15 1788vmovdqa %ymm15, 1056(%r9) 1789vinserti128 $1, %xmm11, %ymm6, %ymm15 1790vmovdqa %ymm15, 1088(%r9) 1791vinserti128 $1, %xmm0, %ymm7, %ymm15 1792vmovdqa %ymm15, 1120(%r9) 1793vinserti128 $1, %xmm12, %ymm8, %ymm15 1794vmovdqa %ymm15, 1152(%r9) 1795vinserti128 $1, %xmm2, %ymm9, %ymm15 1796vmovdqa %ymm15, 1184(%r9) 1797vinserti128 $1, %xmm14, %ymm10, %ymm15 1798vmovdqa %ymm15, 1216(%r9) 1799vpermq $78, %ymm4, %ymm4 1800vpermq $78, %ymm5, %ymm5 1801vpermq $78, %ymm6, %ymm6 1802vpermq $78, %ymm7, %ymm7 1803vpermq $78, %ymm8, %ymm8 1804vpermq $78, %ymm9, %ymm9 1805vpermq $78, %ymm10, %ymm10 1806vinserti128 $0, %xmm4, %ymm3, %ymm15 1807vmovdqa %ymm15, 1280(%r9) 1808vinserti128 $0, %xmm5, %ymm13, %ymm15 1809vmovdqa %ymm15, 1312(%r9) 1810vinserti128 $0, %xmm6, %ymm11, %ymm15 1811vmovdqa %ymm15, 1344(%r9) 1812vinserti128 $0, %xmm7, %ymm0, %ymm15 1813vmovdqa %ymm15, 1376(%r9) 1814vmovdqa 0(%rsp), %ymm11 1815vinserti128 $1, %xmm1, %ymm11, %ymm14 1816vmovdqa %ymm14, 1248(%r9) 1817addq $32, %rsp 1818subq $32, %rsp 1819vmovdqa 0(%r11), %ymm0 1820vmovdqa 192(%r11), %ymm1 1821vmovdqa 384(%r11), %ymm2 1822vmovdqa 576(%r11), %ymm3 1823vpunpcklwd 96(%r11), %ymm0, %ymm4 1824vpunpckhwd 96(%r11), %ymm0, %ymm5 1825vpunpcklwd 288(%r11), %ymm1, %ymm6 1826vpunpckhwd 288(%r11), %ymm1, %ymm7 1827vpunpcklwd 480(%r11), %ymm2, %ymm8 1828vpunpckhwd 480(%r11), %ymm2, %ymm9 1829vpunpcklwd 672(%r11), %ymm3, %ymm10 1830vpunpckhwd 672(%r11), %ymm3, %ymm11 1831vpunpckldq %ymm6, %ymm4, %ymm0 1832vpunpckhdq %ymm6, %ymm4, %ymm1 1833vpunpckldq %ymm7, %ymm5, %ymm2 1834vpunpckhdq %ymm7, %ymm5, %ymm3 1835vpunpckldq %ymm10, %ymm8, %ymm12 1836vpunpckhdq %ymm10, %ymm8, %ymm13 1837vpunpckldq %ymm11, %ymm9, %ymm14 1838vpunpckhdq %ymm11, %ymm9, %ymm15 1839vpunpcklqdq %ymm12, %ymm0, %ymm4 1840vpunpckhqdq %ymm12, %ymm0, %ymm5 1841vpunpcklqdq %ymm13, %ymm1, %ymm6 1842vpunpckhqdq %ymm13, %ymm1, %ymm7 1843vpunpcklqdq %ymm14, %ymm2, %ymm8 1844vpunpckhqdq %ymm14, %ymm2, %ymm9 1845vpunpcklqdq %ymm15, %ymm3, %ymm10 1846vpunpckhqdq %ymm15, %ymm3, %ymm11 1847vmovdqa 768(%r11), %ymm0 1848vmovdqa 960(%r11), %ymm1 1849vmovdqa 1152(%r11), %ymm2 1850vmovdqa 1344(%r11), %ymm3 1851vpunpcklwd 864(%r11), %ymm0, %ymm12 1852vpunpckhwd 864(%r11), %ymm0, %ymm13 1853vpunpcklwd 1056(%r11), %ymm1, %ymm14 1854vpunpckhwd 1056(%r11), %ymm1, %ymm15 1855vpunpcklwd 1248(%r11), %ymm2, %ymm0 1856vpunpckhwd 1248(%r11), %ymm2, %ymm1 1857vpunpcklwd 1440(%r11), %ymm3, %ymm2 1858vpunpckhwd 1440(%r11), %ymm3, %ymm3 1859vmovdqa %ymm11, 0(%rsp) 1860vpunpckldq %ymm14, %ymm12, %ymm11 1861vpunpckhdq %ymm14, %ymm12, %ymm12 1862vpunpckldq %ymm15, %ymm13, %ymm14 1863vpunpckhdq %ymm15, %ymm13, %ymm15 1864vpunpckldq %ymm2, %ymm0, %ymm13 1865vpunpckhdq %ymm2, %ymm0, %ymm0 1866vpunpckldq %ymm3, %ymm1, %ymm2 1867vpunpckhdq %ymm3, %ymm1, %ymm1 1868vpunpcklqdq %ymm13, %ymm11, %ymm3 1869vpunpckhqdq %ymm13, %ymm11, %ymm13 1870vpunpcklqdq %ymm0, %ymm12, %ymm11 1871vpunpckhqdq %ymm0, %ymm12, %ymm0 1872vpunpcklqdq %ymm2, %ymm14, %ymm12 1873vpunpckhqdq %ymm2, %ymm14, %ymm2 1874vpunpcklqdq %ymm1, %ymm15, %ymm14 1875vpunpckhqdq %ymm1, %ymm15, %ymm1 1876vinserti128 $1, %xmm3, %ymm4, %ymm15 1877vmovdqa %ymm15, 1408(%r9) 1878vinserti128 $1, %xmm13, %ymm5, %ymm15 1879vmovdqa %ymm15, 1440(%r9) 1880vinserti128 $1, %xmm11, %ymm6, %ymm15 1881vmovdqa %ymm15, 1472(%r9) 1882vinserti128 $1, %xmm0, %ymm7, %ymm15 1883vmovdqa %ymm15, 1504(%r9) 1884vinserti128 $1, %xmm12, %ymm8, %ymm15 1885vmovdqa %ymm15, 1536(%r9) 1886vinserti128 $1, %xmm2, %ymm9, %ymm15 1887vmovdqa %ymm15, 1568(%r9) 1888vinserti128 $1, %xmm14, %ymm10, %ymm15 1889vmovdqa %ymm15, 1600(%r9) 1890vpermq $78, %ymm4, %ymm4 1891vpermq $78, %ymm5, %ymm5 1892vpermq $78, %ymm6, %ymm6 1893vpermq $78, %ymm7, %ymm7 1894vpermq $78, %ymm8, %ymm8 1895vpermq $78, %ymm9, %ymm9 1896vpermq $78, %ymm10, %ymm10 1897vinserti128 $0, %xmm4, %ymm3, %ymm15 1898vmovdqa %ymm15, 1664(%r9) 1899vinserti128 $0, %xmm5, %ymm13, %ymm15 1900vmovdqa %ymm15, 1696(%r9) 1901vinserti128 $0, %xmm6, %ymm11, %ymm15 1902vmovdqa %ymm15, 1728(%r9) 1903vinserti128 $0, %xmm7, %ymm0, %ymm15 1904vmovdqa %ymm15, 1760(%r9) 1905vinserti128 $0, %xmm8, %ymm12, %ymm15 1906vmovdqa %ymm15, 1792(%r9) 1907vinserti128 $0, %xmm9, %ymm2, %ymm15 1908vmovdqa %ymm15, 1824(%r9) 1909vinserti128 $0, %xmm10, %ymm14, %ymm15 1910vmovdqa %ymm15, 1856(%r9) 1911vmovdqa 0(%rsp), %ymm11 1912vinserti128 $1, %xmm1, %ymm11, %ymm14 1913vmovdqa %ymm14, 1632(%r9) 1914vpermq $78, %ymm11, %ymm11 1915vinserti128 $0, %xmm11, %ymm1, %ymm1 1916vmovdqa %ymm1, 1888(%r9) 1917vmovdqa 32(%r11), %ymm0 1918vmovdqa 224(%r11), %ymm1 1919vmovdqa 416(%r11), %ymm2 1920vmovdqa 608(%r11), %ymm3 1921vpunpcklwd 128(%r11), %ymm0, %ymm4 1922vpunpckhwd 128(%r11), %ymm0, %ymm5 1923vpunpcklwd 320(%r11), %ymm1, %ymm6 1924vpunpckhwd 320(%r11), %ymm1, %ymm7 1925vpunpcklwd 512(%r11), %ymm2, %ymm8 1926vpunpckhwd 512(%r11), %ymm2, %ymm9 1927vpunpcklwd 704(%r11), %ymm3, %ymm10 1928vpunpckhwd 704(%r11), %ymm3, %ymm11 1929vpunpckldq %ymm6, %ymm4, %ymm0 1930vpunpckhdq %ymm6, %ymm4, %ymm1 1931vpunpckldq %ymm7, %ymm5, %ymm2 1932vpunpckhdq %ymm7, %ymm5, %ymm3 1933vpunpckldq %ymm10, %ymm8, %ymm12 1934vpunpckhdq %ymm10, %ymm8, %ymm13 1935vpunpckldq %ymm11, %ymm9, %ymm14 1936vpunpckhdq %ymm11, %ymm9, %ymm15 1937vpunpcklqdq %ymm12, %ymm0, %ymm4 1938vpunpckhqdq %ymm12, %ymm0, %ymm5 1939vpunpcklqdq %ymm13, %ymm1, %ymm6 1940vpunpckhqdq %ymm13, %ymm1, %ymm7 1941vpunpcklqdq %ymm14, %ymm2, %ymm8 1942vpunpckhqdq %ymm14, %ymm2, %ymm9 1943vpunpcklqdq %ymm15, %ymm3, %ymm10 1944vpunpckhqdq %ymm15, %ymm3, %ymm11 1945vmovdqa 800(%r11), %ymm0 1946vmovdqa 992(%r11), %ymm1 1947vmovdqa 1184(%r11), %ymm2 1948vmovdqa 1376(%r11), %ymm3 1949vpunpcklwd 896(%r11), %ymm0, %ymm12 1950vpunpckhwd 896(%r11), %ymm0, %ymm13 1951vpunpcklwd 1088(%r11), %ymm1, %ymm14 1952vpunpckhwd 1088(%r11), %ymm1, %ymm15 1953vpunpcklwd 1280(%r11), %ymm2, %ymm0 1954vpunpckhwd 1280(%r11), %ymm2, %ymm1 1955vpunpcklwd 1472(%r11), %ymm3, %ymm2 1956vpunpckhwd 1472(%r11), %ymm3, %ymm3 1957vmovdqa %ymm11, 0(%rsp) 1958vpunpckldq %ymm14, %ymm12, %ymm11 1959vpunpckhdq %ymm14, %ymm12, %ymm12 1960vpunpckldq %ymm15, %ymm13, %ymm14 1961vpunpckhdq %ymm15, %ymm13, %ymm15 1962vpunpckldq %ymm2, %ymm0, %ymm13 1963vpunpckhdq %ymm2, %ymm0, %ymm0 1964vpunpckldq %ymm3, %ymm1, %ymm2 1965vpunpckhdq %ymm3, %ymm1, %ymm1 1966vpunpcklqdq %ymm13, %ymm11, %ymm3 1967vpunpckhqdq %ymm13, %ymm11, %ymm13 1968vpunpcklqdq %ymm0, %ymm12, %ymm11 1969vpunpckhqdq %ymm0, %ymm12, %ymm0 1970vpunpcklqdq %ymm2, %ymm14, %ymm12 1971vpunpckhqdq %ymm2, %ymm14, %ymm2 1972vpunpcklqdq %ymm1, %ymm15, %ymm14 1973vpunpckhqdq %ymm1, %ymm15, %ymm1 1974vinserti128 $1, %xmm3, %ymm4, %ymm15 1975vmovdqa %ymm15, 1920(%r9) 1976vinserti128 $1, %xmm13, %ymm5, %ymm15 1977vmovdqa %ymm15, 1952(%r9) 1978vinserti128 $1, %xmm11, %ymm6, %ymm15 1979vmovdqa %ymm15, 1984(%r9) 1980vinserti128 $1, %xmm0, %ymm7, %ymm15 1981vmovdqa %ymm15, 2016(%r9) 1982vinserti128 $1, %xmm12, %ymm8, %ymm15 1983vmovdqa %ymm15, 2048(%r9) 1984vinserti128 $1, %xmm2, %ymm9, %ymm15 1985vmovdqa %ymm15, 2080(%r9) 1986vinserti128 $1, %xmm14, %ymm10, %ymm15 1987vmovdqa %ymm15, 2112(%r9) 1988vpermq $78, %ymm4, %ymm4 1989vpermq $78, %ymm5, %ymm5 1990vpermq $78, %ymm6, %ymm6 1991vpermq $78, %ymm7, %ymm7 1992vpermq $78, %ymm8, %ymm8 1993vpermq $78, %ymm9, %ymm9 1994vpermq $78, %ymm10, %ymm10 1995vinserti128 $0, %xmm4, %ymm3, %ymm15 1996vmovdqa %ymm15, 2176(%r9) 1997vinserti128 $0, %xmm5, %ymm13, %ymm15 1998vmovdqa %ymm15, 2208(%r9) 1999vinserti128 $0, %xmm6, %ymm11, %ymm15 2000vmovdqa %ymm15, 2240(%r9) 2001vinserti128 $0, %xmm7, %ymm0, %ymm15 2002vmovdqa %ymm15, 2272(%r9) 2003vinserti128 $0, %xmm8, %ymm12, %ymm15 2004vmovdqa %ymm15, 2304(%r9) 2005vinserti128 $0, %xmm9, %ymm2, %ymm15 2006vmovdqa %ymm15, 2336(%r9) 2007vinserti128 $0, %xmm10, %ymm14, %ymm15 2008vmovdqa %ymm15, 2368(%r9) 2009vmovdqa 0(%rsp), %ymm11 2010vinserti128 $1, %xmm1, %ymm11, %ymm14 2011vmovdqa %ymm14, 2144(%r9) 2012vpermq $78, %ymm11, %ymm11 2013vinserti128 $0, %xmm11, %ymm1, %ymm1 2014vmovdqa %ymm1, 2400(%r9) 2015vmovdqa 64(%r11), %ymm0 2016vmovdqa 256(%r11), %ymm1 2017vmovdqa 448(%r11), %ymm2 2018vmovdqa 640(%r11), %ymm3 2019vpunpcklwd 160(%r11), %ymm0, %ymm4 2020vpunpckhwd 160(%r11), %ymm0, %ymm5 2021vpunpcklwd 352(%r11), %ymm1, %ymm6 2022vpunpckhwd 352(%r11), %ymm1, %ymm7 2023vpunpcklwd 544(%r11), %ymm2, %ymm8 2024vpunpckhwd 544(%r11), %ymm2, %ymm9 2025vpunpcklwd 736(%r11), %ymm3, %ymm10 2026vpunpckhwd 736(%r11), %ymm3, %ymm11 2027vpunpckldq %ymm6, %ymm4, %ymm0 2028vpunpckhdq %ymm6, %ymm4, %ymm1 2029vpunpckldq %ymm7, %ymm5, %ymm2 2030vpunpckhdq %ymm7, %ymm5, %ymm3 2031vpunpckldq %ymm10, %ymm8, %ymm12 2032vpunpckhdq %ymm10, %ymm8, %ymm13 2033vpunpckldq %ymm11, %ymm9, %ymm14 2034vpunpckhdq %ymm11, %ymm9, %ymm15 2035vpunpcklqdq %ymm12, %ymm0, %ymm4 2036vpunpckhqdq %ymm12, %ymm0, %ymm5 2037vpunpcklqdq %ymm13, %ymm1, %ymm6 2038vpunpckhqdq %ymm13, %ymm1, %ymm7 2039vpunpcklqdq %ymm14, %ymm2, %ymm8 2040vpunpckhqdq %ymm14, %ymm2, %ymm9 2041vpunpcklqdq %ymm15, %ymm3, %ymm10 2042vpunpckhqdq %ymm15, %ymm3, %ymm11 2043vmovdqa 832(%r11), %ymm0 2044vmovdqa 1024(%r11), %ymm1 2045vmovdqa 1216(%r11), %ymm2 2046vmovdqa 1408(%r11), %ymm3 2047vpunpcklwd 928(%r11), %ymm0, %ymm12 2048vpunpckhwd 928(%r11), %ymm0, %ymm13 2049vpunpcklwd 1120(%r11), %ymm1, %ymm14 2050vpunpckhwd 1120(%r11), %ymm1, %ymm15 2051vpunpcklwd 1312(%r11), %ymm2, %ymm0 2052vpunpckhwd 1312(%r11), %ymm2, %ymm1 2053vpunpcklwd 1504(%r11), %ymm3, %ymm2 2054vpunpckhwd 1504(%r11), %ymm3, %ymm3 2055vmovdqa %ymm11, 0(%rsp) 2056vpunpckldq %ymm14, %ymm12, %ymm11 2057vpunpckhdq %ymm14, %ymm12, %ymm12 2058vpunpckldq %ymm15, %ymm13, %ymm14 2059vpunpckhdq %ymm15, %ymm13, %ymm15 2060vpunpckldq %ymm2, %ymm0, %ymm13 2061vpunpckhdq %ymm2, %ymm0, %ymm0 2062vpunpckldq %ymm3, %ymm1, %ymm2 2063vpunpckhdq %ymm3, %ymm1, %ymm1 2064vpunpcklqdq %ymm13, %ymm11, %ymm3 2065vpunpckhqdq %ymm13, %ymm11, %ymm13 2066vpunpcklqdq %ymm0, %ymm12, %ymm11 2067vpunpckhqdq %ymm0, %ymm12, %ymm0 2068vpunpcklqdq %ymm2, %ymm14, %ymm12 2069vpunpckhqdq %ymm2, %ymm14, %ymm2 2070vpunpcklqdq %ymm1, %ymm15, %ymm14 2071vpunpckhqdq %ymm1, %ymm15, %ymm1 2072vinserti128 $1, %xmm3, %ymm4, %ymm15 2073vmovdqa %ymm15, 2432(%r9) 2074vinserti128 $1, %xmm13, %ymm5, %ymm15 2075vmovdqa %ymm15, 2464(%r9) 2076vinserti128 $1, %xmm11, %ymm6, %ymm15 2077vmovdqa %ymm15, 2496(%r9) 2078vinserti128 $1, %xmm0, %ymm7, %ymm15 2079vmovdqa %ymm15, 2528(%r9) 2080vinserti128 $1, %xmm12, %ymm8, %ymm15 2081vmovdqa %ymm15, 2560(%r9) 2082vinserti128 $1, %xmm2, %ymm9, %ymm15 2083vmovdqa %ymm15, 2592(%r9) 2084vinserti128 $1, %xmm14, %ymm10, %ymm15 2085vmovdqa %ymm15, 2624(%r9) 2086vpermq $78, %ymm4, %ymm4 2087vpermq $78, %ymm5, %ymm5 2088vpermq $78, %ymm6, %ymm6 2089vpermq $78, %ymm7, %ymm7 2090vpermq $78, %ymm8, %ymm8 2091vpermq $78, %ymm9, %ymm9 2092vpermq $78, %ymm10, %ymm10 2093vinserti128 $0, %xmm4, %ymm3, %ymm15 2094vmovdqa %ymm15, 2688(%r9) 2095vinserti128 $0, %xmm5, %ymm13, %ymm15 2096vmovdqa %ymm15, 2720(%r9) 2097vinserti128 $0, %xmm6, %ymm11, %ymm15 2098vmovdqa %ymm15, 2752(%r9) 2099vinserti128 $0, %xmm7, %ymm0, %ymm15 2100vmovdqa %ymm15, 2784(%r9) 2101vmovdqa 0(%rsp), %ymm11 2102vinserti128 $1, %xmm1, %ymm11, %ymm14 2103vmovdqa %ymm14, 2656(%r9) 2104addq $32, %rsp 2105innerloop_4eced63f144beffcb0247f9c6f67d165: 2106vmovdqa 0(%r9), %ymm0 2107vmovdqa 1408(%r9), %ymm6 2108vmovdqa 32(%r9), %ymm1 2109vmovdqa 1440(%r9), %ymm7 2110vmovdqa 64(%r9), %ymm2 2111vmovdqa 1472(%r9), %ymm8 2112vmovdqa 96(%r9), %ymm3 2113vmovdqa 1504(%r9), %ymm9 2114vmovdqa 128(%r9), %ymm4 2115vmovdqa 1536(%r9), %ymm10 2116vmovdqa 160(%r9), %ymm5 2117vmovdqa 1568(%r9), %ymm11 2118vpmullw %ymm0, %ymm6, %ymm12 2119vmovdqa %ymm12, 2816(%r10) 2120vpmullw %ymm0, %ymm7, %ymm13 2121vpmullw %ymm1, %ymm6, %ymm15 2122vpaddw %ymm13, %ymm15, %ymm13 2123vmovdqa %ymm13, 2848(%r10) 2124vpmullw %ymm0, %ymm8, %ymm12 2125vpmullw %ymm1, %ymm7, %ymm15 2126vpaddw %ymm12, %ymm15, %ymm12 2127vpmullw %ymm2, %ymm6, %ymm15 2128vpaddw %ymm12, %ymm15, %ymm12 2129vmovdqa %ymm12, 2880(%r10) 2130vpmullw %ymm0, %ymm9, %ymm13 2131vpmullw %ymm1, %ymm8, %ymm15 2132vpaddw %ymm13, %ymm15, %ymm13 2133vpmullw %ymm2, %ymm7, %ymm15 2134vpaddw %ymm13, %ymm15, %ymm13 2135vpmullw %ymm3, %ymm6, %ymm15 2136vpaddw %ymm13, %ymm15, %ymm13 2137vmovdqa %ymm13, 2912(%r10) 2138vpmullw %ymm0, %ymm10, %ymm12 2139vpmullw %ymm1, %ymm9, %ymm15 2140vpaddw %ymm12, %ymm15, %ymm12 2141vpmullw %ymm2, %ymm8, %ymm15 2142vpaddw %ymm12, %ymm15, %ymm12 2143vpmullw %ymm3, %ymm7, %ymm15 2144vpaddw %ymm12, %ymm15, %ymm12 2145vpmullw %ymm4, %ymm6, %ymm15 2146vpaddw %ymm12, %ymm15, %ymm12 2147vmovdqa %ymm12, 2944(%r10) 2148vpmullw %ymm0, %ymm11, %ymm13 2149vpmullw %ymm1, %ymm10, %ymm15 2150vpaddw %ymm13, %ymm15, %ymm13 2151vpmullw %ymm2, %ymm9, %ymm15 2152vpaddw %ymm13, %ymm15, %ymm13 2153vpmullw %ymm3, %ymm8, %ymm15 2154vpaddw %ymm13, %ymm15, %ymm13 2155vpmullw %ymm4, %ymm7, %ymm15 2156vpaddw %ymm13, %ymm15, %ymm13 2157vpmullw %ymm5, %ymm6, %ymm15 2158vpaddw %ymm13, %ymm15, %ymm13 2159vmovdqa %ymm13, 2976(%r10) 2160vpmullw %ymm1, %ymm11, %ymm12 2161vpmullw %ymm2, %ymm10, %ymm15 2162vpaddw %ymm12, %ymm15, %ymm12 2163vpmullw %ymm3, %ymm9, %ymm15 2164vpaddw %ymm12, %ymm15, %ymm12 2165vpmullw %ymm4, %ymm8, %ymm15 2166vpaddw %ymm12, %ymm15, %ymm12 2167vpmullw %ymm5, %ymm7, %ymm15 2168vpaddw %ymm12, %ymm15, %ymm12 2169vmovdqa %ymm12, 3008(%r10) 2170vpmullw %ymm2, %ymm11, %ymm13 2171vpmullw %ymm3, %ymm10, %ymm15 2172vpaddw %ymm13, %ymm15, %ymm13 2173vpmullw %ymm4, %ymm9, %ymm15 2174vpaddw %ymm13, %ymm15, %ymm13 2175vpmullw %ymm5, %ymm8, %ymm15 2176vpaddw %ymm13, %ymm15, %ymm13 2177vmovdqa %ymm13, 3040(%r10) 2178vpmullw %ymm3, %ymm11, %ymm12 2179vpmullw %ymm4, %ymm10, %ymm15 2180vpaddw %ymm12, %ymm15, %ymm12 2181vpmullw %ymm5, %ymm9, %ymm15 2182vpaddw %ymm12, %ymm15, %ymm12 2183vmovdqa %ymm12, 3072(%r10) 2184vpmullw %ymm4, %ymm11, %ymm13 2185vpmullw %ymm5, %ymm10, %ymm15 2186vpaddw %ymm13, %ymm15, %ymm13 2187vmovdqa %ymm13, 3104(%r10) 2188vpmullw %ymm5, %ymm11, %ymm12 2189vmovdqa %ymm12, 3136(%r10) 2190vmovdqa 192(%r9), %ymm0 2191vmovdqa 1600(%r9), %ymm6 2192vmovdqa 224(%r9), %ymm1 2193vmovdqa 1632(%r9), %ymm7 2194vmovdqa 256(%r9), %ymm2 2195vmovdqa 1664(%r9), %ymm8 2196vmovdqa 288(%r9), %ymm3 2197vmovdqa 1696(%r9), %ymm9 2198vmovdqa 320(%r9), %ymm4 2199vmovdqa 1728(%r9), %ymm10 2200vpmullw %ymm0, %ymm6, %ymm12 2201vmovdqa %ymm12, 3200(%r10) 2202vpmullw %ymm0, %ymm7, %ymm13 2203vpmullw %ymm1, %ymm6, %ymm15 2204vpaddw %ymm13, %ymm15, %ymm13 2205vmovdqa %ymm13, 3232(%r10) 2206vpmullw %ymm0, %ymm8, %ymm12 2207vpmullw %ymm1, %ymm7, %ymm15 2208vpaddw %ymm12, %ymm15, %ymm12 2209vpmullw %ymm2, %ymm6, %ymm15 2210vpaddw %ymm12, %ymm15, %ymm12 2211vmovdqa %ymm12, 3264(%r10) 2212vpmullw %ymm0, %ymm9, %ymm13 2213vpmullw %ymm1, %ymm8, %ymm15 2214vpaddw %ymm13, %ymm15, %ymm13 2215vpmullw %ymm2, %ymm7, %ymm15 2216vpaddw %ymm13, %ymm15, %ymm13 2217vpmullw %ymm3, %ymm6, %ymm15 2218vpaddw %ymm13, %ymm15, %ymm13 2219vmovdqa %ymm13, 3296(%r10) 2220vpmullw %ymm0, %ymm10, %ymm12 2221vpmullw %ymm1, %ymm9, %ymm15 2222vpaddw %ymm12, %ymm15, %ymm12 2223vpmullw %ymm2, %ymm8, %ymm15 2224vpaddw %ymm12, %ymm15, %ymm12 2225vpmullw %ymm3, %ymm7, %ymm15 2226vpaddw %ymm12, %ymm15, %ymm12 2227vpmullw %ymm4, %ymm6, %ymm15 2228vpaddw %ymm12, %ymm15, %ymm12 2229vmovdqa %ymm12, 3328(%r10) 2230vpmullw %ymm1, %ymm10, %ymm13 2231vpmullw %ymm2, %ymm9, %ymm15 2232vpaddw %ymm13, %ymm15, %ymm13 2233vpmullw %ymm3, %ymm8, %ymm15 2234vpaddw %ymm13, %ymm15, %ymm13 2235vpmullw %ymm4, %ymm7, %ymm15 2236vpaddw %ymm13, %ymm15, %ymm13 2237vmovdqa %ymm13, 3360(%r10) 2238vpmullw %ymm2, %ymm10, %ymm12 2239vpmullw %ymm3, %ymm9, %ymm15 2240vpaddw %ymm12, %ymm15, %ymm12 2241vpmullw %ymm4, %ymm8, %ymm15 2242vpaddw %ymm12, %ymm15, %ymm12 2243vmovdqa %ymm12, 3392(%r10) 2244vpmullw %ymm3, %ymm10, %ymm13 2245vpmullw %ymm4, %ymm9, %ymm15 2246vpaddw %ymm13, %ymm15, %ymm13 2247vmovdqa %ymm13, 3424(%r10) 2248vpmullw %ymm4, %ymm10, %ymm12 2249vmovdqa %ymm12, 3456(%r10) 2250vpaddw 0(%r9), %ymm0, %ymm0 2251vpaddw 1408(%r9), %ymm6, %ymm6 2252vpaddw 32(%r9), %ymm1, %ymm1 2253vpaddw 1440(%r9), %ymm7, %ymm7 2254vpaddw 64(%r9), %ymm2, %ymm2 2255vpaddw 1472(%r9), %ymm8, %ymm8 2256vpaddw 96(%r9), %ymm3, %ymm3 2257vpaddw 1504(%r9), %ymm9, %ymm9 2258vpaddw 128(%r9), %ymm4, %ymm4 2259vpaddw 1536(%r9), %ymm10, %ymm10 2260vpmullw %ymm0, %ymm11, %ymm12 2261vpmullw %ymm1, %ymm10, %ymm15 2262vpaddw %ymm15, %ymm12, %ymm12 2263vpmullw %ymm2, %ymm9, %ymm15 2264vpaddw %ymm15, %ymm12, %ymm12 2265vpmullw %ymm3, %ymm8, %ymm15 2266vpaddw %ymm15, %ymm12, %ymm12 2267vpmullw %ymm4, %ymm7, %ymm15 2268vpaddw %ymm15, %ymm12, %ymm12 2269vpmullw %ymm5, %ymm6, %ymm15 2270vpaddw %ymm15, %ymm12, %ymm12 2271vpsubw 2976(%r10), %ymm12, %ymm12 2272vpsubw 3360(%r10), %ymm12, %ymm12 2273vmovdqa %ymm12, 3168(%r10) 2274vpmullw %ymm5, %ymm7, %ymm12 2275vpmullw %ymm5, %ymm8, %ymm13 2276vpmullw %ymm5, %ymm9, %ymm14 2277vpmullw %ymm5, %ymm10, %ymm15 2278vpmullw %ymm1, %ymm11, %ymm5 2279vpaddw %ymm5, %ymm12, %ymm12 2280vpmullw %ymm2, %ymm10, %ymm5 2281vpaddw %ymm5, %ymm12, %ymm12 2282vpmullw %ymm3, %ymm9, %ymm5 2283vpaddw %ymm5, %ymm12, %ymm12 2284vpmullw %ymm4, %ymm8, %ymm5 2285vpaddw %ymm5, %ymm12, %ymm12 2286vpmullw %ymm2, %ymm11, %ymm5 2287vpaddw %ymm5, %ymm13, %ymm13 2288vpmullw %ymm3, %ymm10, %ymm5 2289vpaddw %ymm5, %ymm13, %ymm13 2290vpmullw %ymm4, %ymm9, %ymm5 2291vpaddw %ymm5, %ymm13, %ymm13 2292vpmullw %ymm3, %ymm11, %ymm5 2293vpaddw %ymm5, %ymm14, %ymm14 2294vpmullw %ymm4, %ymm10, %ymm5 2295vpaddw %ymm5, %ymm14, %ymm14 2296vpmullw %ymm4, %ymm11, %ymm5 2297vpaddw %ymm5, %ymm15, %ymm15 2298vpmullw %ymm0, %ymm10, %ymm11 2299vpmullw %ymm1, %ymm9, %ymm5 2300vpaddw %ymm5, %ymm11, %ymm11 2301vpmullw %ymm2, %ymm8, %ymm5 2302vpaddw %ymm5, %ymm11, %ymm11 2303vpmullw %ymm3, %ymm7, %ymm5 2304vpaddw %ymm5, %ymm11, %ymm11 2305vpmullw %ymm4, %ymm6, %ymm5 2306vpaddw %ymm5, %ymm11, %ymm11 2307vpmullw %ymm0, %ymm9, %ymm10 2308vpmullw %ymm1, %ymm8, %ymm5 2309vpaddw %ymm5, %ymm10, %ymm10 2310vpmullw %ymm2, %ymm7, %ymm5 2311vpaddw %ymm5, %ymm10, %ymm10 2312vpmullw %ymm3, %ymm6, %ymm5 2313vpaddw %ymm5, %ymm10, %ymm10 2314vpmullw %ymm0, %ymm8, %ymm9 2315vpmullw %ymm1, %ymm7, %ymm5 2316vpaddw %ymm5, %ymm9, %ymm9 2317vpmullw %ymm2, %ymm6, %ymm5 2318vpaddw %ymm5, %ymm9, %ymm9 2319vpmullw %ymm0, %ymm7, %ymm8 2320vpmullw %ymm1, %ymm6, %ymm5 2321vpaddw %ymm5, %ymm8, %ymm8 2322vpmullw %ymm0, %ymm6, %ymm7 2323vmovdqa 3008(%r10), %ymm0 2324vpsubw 3200(%r10), %ymm0, %ymm0 2325vpsubw %ymm0, %ymm12, %ymm6 2326vpsubw 3392(%r10), %ymm6, %ymm6 2327vmovdqa %ymm6, 3200(%r10) 2328vpaddw %ymm7, %ymm0, %ymm0 2329vpsubw 2816(%r10), %ymm0, %ymm0 2330vmovdqa %ymm0, 3008(%r10) 2331vmovdqa 3040(%r10), %ymm1 2332vpsubw 3232(%r10), %ymm1, %ymm1 2333vpsubw %ymm1, %ymm13, %ymm7 2334vpsubw 3424(%r10), %ymm7, %ymm7 2335vmovdqa %ymm7, 3232(%r10) 2336vpaddw %ymm8, %ymm1, %ymm1 2337vpsubw 2848(%r10), %ymm1, %ymm1 2338vmovdqa %ymm1, 3040(%r10) 2339vmovdqa 3072(%r10), %ymm2 2340vpsubw 3264(%r10), %ymm2, %ymm2 2341vpsubw %ymm2, %ymm14, %ymm8 2342vpsubw 3456(%r10), %ymm8, %ymm8 2343vmovdqa %ymm8, 3264(%r10) 2344vpaddw %ymm9, %ymm2, %ymm2 2345vpsubw 2880(%r10), %ymm2, %ymm2 2346vmovdqa %ymm2, 3072(%r10) 2347vmovdqa 3104(%r10), %ymm3 2348vpsubw 3296(%r10), %ymm3, %ymm3 2349vpsubw %ymm3, %ymm15, %ymm9 2350vmovdqa %ymm9, 3296(%r10) 2351vpaddw %ymm10, %ymm3, %ymm3 2352vpsubw 2912(%r10), %ymm3, %ymm3 2353vmovdqa %ymm3, 3104(%r10) 2354vmovdqa 3136(%r10), %ymm4 2355vpsubw 3328(%r10), %ymm4, %ymm4 2356vpaddw %ymm11, %ymm4, %ymm4 2357vpsubw 2944(%r10), %ymm4, %ymm4 2358vmovdqa %ymm4, 3136(%r10) 2359vmovdqa 352(%r9), %ymm0 2360vmovdqa 1760(%r9), %ymm6 2361vmovdqa 384(%r9), %ymm1 2362vmovdqa 1792(%r9), %ymm7 2363vmovdqa 416(%r9), %ymm2 2364vmovdqa 1824(%r9), %ymm8 2365vmovdqa 448(%r9), %ymm3 2366vmovdqa 1856(%r9), %ymm9 2367vmovdqa 480(%r9), %ymm4 2368vmovdqa 1888(%r9), %ymm10 2369vmovdqa 512(%r9), %ymm5 2370vmovdqa 1920(%r9), %ymm11 2371vpmullw %ymm0, %ymm6, %ymm12 2372vmovdqa %ymm12, 3520(%r10) 2373vpmullw %ymm0, %ymm7, %ymm13 2374vpmullw %ymm1, %ymm6, %ymm15 2375vpaddw %ymm13, %ymm15, %ymm13 2376vmovdqa %ymm13, 3552(%r10) 2377vpmullw %ymm0, %ymm8, %ymm12 2378vpmullw %ymm1, %ymm7, %ymm15 2379vpaddw %ymm12, %ymm15, %ymm12 2380vpmullw %ymm2, %ymm6, %ymm15 2381vpaddw %ymm12, %ymm15, %ymm12 2382vmovdqa %ymm12, 3584(%r10) 2383vpmullw %ymm0, %ymm9, %ymm13 2384vpmullw %ymm1, %ymm8, %ymm15 2385vpaddw %ymm13, %ymm15, %ymm13 2386vpmullw %ymm2, %ymm7, %ymm15 2387vpaddw %ymm13, %ymm15, %ymm13 2388vpmullw %ymm3, %ymm6, %ymm15 2389vpaddw %ymm13, %ymm15, %ymm13 2390vmovdqa %ymm13, 3616(%r10) 2391vpmullw %ymm0, %ymm10, %ymm12 2392vpmullw %ymm1, %ymm9, %ymm15 2393vpaddw %ymm12, %ymm15, %ymm12 2394vpmullw %ymm2, %ymm8, %ymm15 2395vpaddw %ymm12, %ymm15, %ymm12 2396vpmullw %ymm3, %ymm7, %ymm15 2397vpaddw %ymm12, %ymm15, %ymm12 2398vpmullw %ymm4, %ymm6, %ymm15 2399vpaddw %ymm12, %ymm15, %ymm12 2400vmovdqa %ymm12, 3648(%r10) 2401vpmullw %ymm0, %ymm11, %ymm13 2402vpmullw %ymm1, %ymm10, %ymm15 2403vpaddw %ymm13, %ymm15, %ymm13 2404vpmullw %ymm2, %ymm9, %ymm15 2405vpaddw %ymm13, %ymm15, %ymm13 2406vpmullw %ymm3, %ymm8, %ymm15 2407vpaddw %ymm13, %ymm15, %ymm13 2408vpmullw %ymm4, %ymm7, %ymm15 2409vpaddw %ymm13, %ymm15, %ymm13 2410vpmullw %ymm5, %ymm6, %ymm15 2411vpaddw %ymm13, %ymm15, %ymm13 2412vmovdqa %ymm13, 3680(%r10) 2413vpmullw %ymm1, %ymm11, %ymm12 2414vpmullw %ymm2, %ymm10, %ymm15 2415vpaddw %ymm12, %ymm15, %ymm12 2416vpmullw %ymm3, %ymm9, %ymm15 2417vpaddw %ymm12, %ymm15, %ymm12 2418vpmullw %ymm4, %ymm8, %ymm15 2419vpaddw %ymm12, %ymm15, %ymm12 2420vpmullw %ymm5, %ymm7, %ymm15 2421vpaddw %ymm12, %ymm15, %ymm12 2422vmovdqa %ymm12, 3712(%r10) 2423vpmullw %ymm2, %ymm11, %ymm13 2424vpmullw %ymm3, %ymm10, %ymm15 2425vpaddw %ymm13, %ymm15, %ymm13 2426vpmullw %ymm4, %ymm9, %ymm15 2427vpaddw %ymm13, %ymm15, %ymm13 2428vpmullw %ymm5, %ymm8, %ymm15 2429vpaddw %ymm13, %ymm15, %ymm13 2430vmovdqa %ymm13, 3744(%r10) 2431vpmullw %ymm3, %ymm11, %ymm12 2432vpmullw %ymm4, %ymm10, %ymm15 2433vpaddw %ymm12, %ymm15, %ymm12 2434vpmullw %ymm5, %ymm9, %ymm15 2435vpaddw %ymm12, %ymm15, %ymm12 2436vmovdqa %ymm12, 3776(%r10) 2437vpmullw %ymm4, %ymm11, %ymm13 2438vpmullw %ymm5, %ymm10, %ymm15 2439vpaddw %ymm13, %ymm15, %ymm13 2440vmovdqa %ymm13, 3808(%r10) 2441vpmullw %ymm5, %ymm11, %ymm12 2442vmovdqa %ymm12, 3840(%r10) 2443vmovdqa 544(%r9), %ymm0 2444vmovdqa 1952(%r9), %ymm6 2445vmovdqa 576(%r9), %ymm1 2446vmovdqa 1984(%r9), %ymm7 2447vmovdqa 608(%r9), %ymm2 2448vmovdqa 2016(%r9), %ymm8 2449vmovdqa 640(%r9), %ymm3 2450vmovdqa 2048(%r9), %ymm9 2451vmovdqa 672(%r9), %ymm4 2452vmovdqa 2080(%r9), %ymm10 2453vpmullw %ymm0, %ymm6, %ymm12 2454vmovdqa %ymm12, 3904(%r10) 2455vpmullw %ymm0, %ymm7, %ymm13 2456vpmullw %ymm1, %ymm6, %ymm15 2457vpaddw %ymm13, %ymm15, %ymm13 2458vmovdqa %ymm13, 3936(%r10) 2459vpmullw %ymm0, %ymm8, %ymm12 2460vpmullw %ymm1, %ymm7, %ymm15 2461vpaddw %ymm12, %ymm15, %ymm12 2462vpmullw %ymm2, %ymm6, %ymm15 2463vpaddw %ymm12, %ymm15, %ymm12 2464vmovdqa %ymm12, 3968(%r10) 2465vpmullw %ymm0, %ymm9, %ymm13 2466vpmullw %ymm1, %ymm8, %ymm15 2467vpaddw %ymm13, %ymm15, %ymm13 2468vpmullw %ymm2, %ymm7, %ymm15 2469vpaddw %ymm13, %ymm15, %ymm13 2470vpmullw %ymm3, %ymm6, %ymm15 2471vpaddw %ymm13, %ymm15, %ymm13 2472vmovdqa %ymm13, 4000(%r10) 2473vpmullw %ymm0, %ymm10, %ymm12 2474vpmullw %ymm1, %ymm9, %ymm15 2475vpaddw %ymm12, %ymm15, %ymm12 2476vpmullw %ymm2, %ymm8, %ymm15 2477vpaddw %ymm12, %ymm15, %ymm12 2478vpmullw %ymm3, %ymm7, %ymm15 2479vpaddw %ymm12, %ymm15, %ymm12 2480vpmullw %ymm4, %ymm6, %ymm15 2481vpaddw %ymm12, %ymm15, %ymm12 2482vmovdqa %ymm12, 4032(%r10) 2483vpmullw %ymm1, %ymm10, %ymm13 2484vpmullw %ymm2, %ymm9, %ymm15 2485vpaddw %ymm13, %ymm15, %ymm13 2486vpmullw %ymm3, %ymm8, %ymm15 2487vpaddw %ymm13, %ymm15, %ymm13 2488vpmullw %ymm4, %ymm7, %ymm15 2489vpaddw %ymm13, %ymm15, %ymm13 2490vmovdqa %ymm13, 4064(%r10) 2491vpmullw %ymm2, %ymm10, %ymm12 2492vpmullw %ymm3, %ymm9, %ymm15 2493vpaddw %ymm12, %ymm15, %ymm12 2494vpmullw %ymm4, %ymm8, %ymm15 2495vpaddw %ymm12, %ymm15, %ymm12 2496vmovdqa %ymm12, 4096(%r10) 2497vpmullw %ymm3, %ymm10, %ymm13 2498vpmullw %ymm4, %ymm9, %ymm15 2499vpaddw %ymm13, %ymm15, %ymm13 2500vmovdqa %ymm13, 4128(%r10) 2501vpmullw %ymm4, %ymm10, %ymm12 2502vmovdqa %ymm12, 4160(%r10) 2503vpaddw 352(%r9), %ymm0, %ymm0 2504vpaddw 1760(%r9), %ymm6, %ymm6 2505vpaddw 384(%r9), %ymm1, %ymm1 2506vpaddw 1792(%r9), %ymm7, %ymm7 2507vpaddw 416(%r9), %ymm2, %ymm2 2508vpaddw 1824(%r9), %ymm8, %ymm8 2509vpaddw 448(%r9), %ymm3, %ymm3 2510vpaddw 1856(%r9), %ymm9, %ymm9 2511vpaddw 480(%r9), %ymm4, %ymm4 2512vpaddw 1888(%r9), %ymm10, %ymm10 2513vpmullw %ymm0, %ymm11, %ymm12 2514vpmullw %ymm1, %ymm10, %ymm15 2515vpaddw %ymm15, %ymm12, %ymm12 2516vpmullw %ymm2, %ymm9, %ymm15 2517vpaddw %ymm15, %ymm12, %ymm12 2518vpmullw %ymm3, %ymm8, %ymm15 2519vpaddw %ymm15, %ymm12, %ymm12 2520vpmullw %ymm4, %ymm7, %ymm15 2521vpaddw %ymm15, %ymm12, %ymm12 2522vpmullw %ymm5, %ymm6, %ymm15 2523vpaddw %ymm15, %ymm12, %ymm12 2524vpsubw 3680(%r10), %ymm12, %ymm12 2525vpsubw 4064(%r10), %ymm12, %ymm12 2526vmovdqa %ymm12, 3872(%r10) 2527vpmullw %ymm5, %ymm7, %ymm12 2528vpmullw %ymm5, %ymm8, %ymm13 2529vpmullw %ymm5, %ymm9, %ymm14 2530vpmullw %ymm5, %ymm10, %ymm15 2531vpmullw %ymm1, %ymm11, %ymm5 2532vpaddw %ymm5, %ymm12, %ymm12 2533vpmullw %ymm2, %ymm10, %ymm5 2534vpaddw %ymm5, %ymm12, %ymm12 2535vpmullw %ymm3, %ymm9, %ymm5 2536vpaddw %ymm5, %ymm12, %ymm12 2537vpmullw %ymm4, %ymm8, %ymm5 2538vpaddw %ymm5, %ymm12, %ymm12 2539vpmullw %ymm2, %ymm11, %ymm5 2540vpaddw %ymm5, %ymm13, %ymm13 2541vpmullw %ymm3, %ymm10, %ymm5 2542vpaddw %ymm5, %ymm13, %ymm13 2543vpmullw %ymm4, %ymm9, %ymm5 2544vpaddw %ymm5, %ymm13, %ymm13 2545vpmullw %ymm3, %ymm11, %ymm5 2546vpaddw %ymm5, %ymm14, %ymm14 2547vpmullw %ymm4, %ymm10, %ymm5 2548vpaddw %ymm5, %ymm14, %ymm14 2549vpmullw %ymm4, %ymm11, %ymm5 2550vpaddw %ymm5, %ymm15, %ymm15 2551vpmullw %ymm0, %ymm10, %ymm11 2552vpmullw %ymm1, %ymm9, %ymm5 2553vpaddw %ymm5, %ymm11, %ymm11 2554vpmullw %ymm2, %ymm8, %ymm5 2555vpaddw %ymm5, %ymm11, %ymm11 2556vpmullw %ymm3, %ymm7, %ymm5 2557vpaddw %ymm5, %ymm11, %ymm11 2558vpmullw %ymm4, %ymm6, %ymm5 2559vpaddw %ymm5, %ymm11, %ymm11 2560vpmullw %ymm0, %ymm9, %ymm10 2561vpmullw %ymm1, %ymm8, %ymm5 2562vpaddw %ymm5, %ymm10, %ymm10 2563vpmullw %ymm2, %ymm7, %ymm5 2564vpaddw %ymm5, %ymm10, %ymm10 2565vpmullw %ymm3, %ymm6, %ymm5 2566vpaddw %ymm5, %ymm10, %ymm10 2567vpmullw %ymm0, %ymm8, %ymm9 2568vpmullw %ymm1, %ymm7, %ymm5 2569vpaddw %ymm5, %ymm9, %ymm9 2570vpmullw %ymm2, %ymm6, %ymm5 2571vpaddw %ymm5, %ymm9, %ymm9 2572vpmullw %ymm0, %ymm7, %ymm8 2573vpmullw %ymm1, %ymm6, %ymm5 2574vpaddw %ymm5, %ymm8, %ymm8 2575vpmullw %ymm0, %ymm6, %ymm7 2576vmovdqa 3712(%r10), %ymm0 2577vpsubw 3904(%r10), %ymm0, %ymm0 2578vpsubw %ymm0, %ymm12, %ymm6 2579vpsubw 4096(%r10), %ymm6, %ymm6 2580vmovdqa %ymm6, 3904(%r10) 2581vpaddw %ymm7, %ymm0, %ymm0 2582vpsubw 3520(%r10), %ymm0, %ymm0 2583vmovdqa %ymm0, 3712(%r10) 2584vmovdqa 3744(%r10), %ymm1 2585vpsubw 3936(%r10), %ymm1, %ymm1 2586vpsubw %ymm1, %ymm13, %ymm7 2587vpsubw 4128(%r10), %ymm7, %ymm7 2588vmovdqa %ymm7, 3936(%r10) 2589vpaddw %ymm8, %ymm1, %ymm1 2590vpsubw 3552(%r10), %ymm1, %ymm1 2591vmovdqa %ymm1, 3744(%r10) 2592vmovdqa 3776(%r10), %ymm2 2593vpsubw 3968(%r10), %ymm2, %ymm2 2594vpsubw %ymm2, %ymm14, %ymm8 2595vpsubw 4160(%r10), %ymm8, %ymm8 2596vmovdqa %ymm8, 3968(%r10) 2597vpaddw %ymm9, %ymm2, %ymm2 2598vpsubw 3584(%r10), %ymm2, %ymm2 2599vmovdqa %ymm2, 3776(%r10) 2600vmovdqa 3808(%r10), %ymm3 2601vpsubw 4000(%r10), %ymm3, %ymm3 2602vpsubw %ymm3, %ymm15, %ymm9 2603vmovdqa %ymm9, 4000(%r10) 2604vpaddw %ymm10, %ymm3, %ymm3 2605vpsubw 3616(%r10), %ymm3, %ymm3 2606vmovdqa %ymm3, 3808(%r10) 2607vmovdqa 3840(%r10), %ymm4 2608vpsubw 4032(%r10), %ymm4, %ymm4 2609vpaddw %ymm11, %ymm4, %ymm4 2610vpsubw 3648(%r10), %ymm4, %ymm4 2611vmovdqa %ymm4, 3840(%r10) 2612vmovdqa 0(%r9), %ymm0 2613vmovdqa 1408(%r9), %ymm6 2614vpaddw 352(%r9), %ymm0, %ymm0 2615vpaddw 1760(%r9), %ymm6, %ymm6 2616vmovdqa 32(%r9), %ymm1 2617vmovdqa 1440(%r9), %ymm7 2618vpaddw 384(%r9), %ymm1, %ymm1 2619vpaddw 1792(%r9), %ymm7, %ymm7 2620vmovdqa 64(%r9), %ymm2 2621vmovdqa 1472(%r9), %ymm8 2622vpaddw 416(%r9), %ymm2, %ymm2 2623vpaddw 1824(%r9), %ymm8, %ymm8 2624vmovdqa 96(%r9), %ymm3 2625vmovdqa 1504(%r9), %ymm9 2626vpaddw 448(%r9), %ymm3, %ymm3 2627vpaddw 1856(%r9), %ymm9, %ymm9 2628vmovdqa 128(%r9), %ymm4 2629vmovdqa 1536(%r9), %ymm10 2630vpaddw 480(%r9), %ymm4, %ymm4 2631vpaddw 1888(%r9), %ymm10, %ymm10 2632vmovdqa 160(%r9), %ymm5 2633vmovdqa 1568(%r9), %ymm11 2634vpaddw 512(%r9), %ymm5, %ymm5 2635vpaddw 1920(%r9), %ymm11, %ymm11 2636vpmullw %ymm0, %ymm6, %ymm12 2637vmovdqa %ymm12, 5888(%rsp) 2638vpmullw %ymm0, %ymm7, %ymm13 2639vpmullw %ymm1, %ymm6, %ymm15 2640vpaddw %ymm13, %ymm15, %ymm13 2641vmovdqa %ymm13, 5920(%rsp) 2642vpmullw %ymm0, %ymm8, %ymm12 2643vpmullw %ymm1, %ymm7, %ymm15 2644vpaddw %ymm12, %ymm15, %ymm12 2645vpmullw %ymm2, %ymm6, %ymm15 2646vpaddw %ymm12, %ymm15, %ymm12 2647vmovdqa %ymm12, 5952(%rsp) 2648vpmullw %ymm0, %ymm9, %ymm13 2649vpmullw %ymm1, %ymm8, %ymm15 2650vpaddw %ymm13, %ymm15, %ymm13 2651vpmullw %ymm2, %ymm7, %ymm15 2652vpaddw %ymm13, %ymm15, %ymm13 2653vpmullw %ymm3, %ymm6, %ymm15 2654vpaddw %ymm13, %ymm15, %ymm13 2655vmovdqa %ymm13, 5984(%rsp) 2656vpmullw %ymm0, %ymm10, %ymm12 2657vpmullw %ymm1, %ymm9, %ymm15 2658vpaddw %ymm12, %ymm15, %ymm12 2659vpmullw %ymm2, %ymm8, %ymm15 2660vpaddw %ymm12, %ymm15, %ymm12 2661vpmullw %ymm3, %ymm7, %ymm15 2662vpaddw %ymm12, %ymm15, %ymm12 2663vpmullw %ymm4, %ymm6, %ymm15 2664vpaddw %ymm12, %ymm15, %ymm12 2665vmovdqa %ymm12, 6016(%rsp) 2666vpmullw %ymm0, %ymm11, %ymm13 2667vpmullw %ymm1, %ymm10, %ymm15 2668vpaddw %ymm13, %ymm15, %ymm13 2669vpmullw %ymm2, %ymm9, %ymm15 2670vpaddw %ymm13, %ymm15, %ymm13 2671vpmullw %ymm3, %ymm8, %ymm15 2672vpaddw %ymm13, %ymm15, %ymm13 2673vpmullw %ymm4, %ymm7, %ymm15 2674vpaddw %ymm13, %ymm15, %ymm13 2675vpmullw %ymm5, %ymm6, %ymm15 2676vpaddw %ymm13, %ymm15, %ymm13 2677vmovdqa %ymm13, 6048(%rsp) 2678vpmullw %ymm1, %ymm11, %ymm12 2679vpmullw %ymm2, %ymm10, %ymm15 2680vpaddw %ymm12, %ymm15, %ymm12 2681vpmullw %ymm3, %ymm9, %ymm15 2682vpaddw %ymm12, %ymm15, %ymm12 2683vpmullw %ymm4, %ymm8, %ymm15 2684vpaddw %ymm12, %ymm15, %ymm12 2685vpmullw %ymm5, %ymm7, %ymm15 2686vpaddw %ymm12, %ymm15, %ymm12 2687vmovdqa %ymm12, 6080(%rsp) 2688vpmullw %ymm2, %ymm11, %ymm13 2689vpmullw %ymm3, %ymm10, %ymm15 2690vpaddw %ymm13, %ymm15, %ymm13 2691vpmullw %ymm4, %ymm9, %ymm15 2692vpaddw %ymm13, %ymm15, %ymm13 2693vpmullw %ymm5, %ymm8, %ymm15 2694vpaddw %ymm13, %ymm15, %ymm13 2695vmovdqa %ymm13, 6112(%rsp) 2696vpmullw %ymm3, %ymm11, %ymm12 2697vpmullw %ymm4, %ymm10, %ymm15 2698vpaddw %ymm12, %ymm15, %ymm12 2699vpmullw %ymm5, %ymm9, %ymm15 2700vpaddw %ymm12, %ymm15, %ymm12 2701vmovdqa %ymm12, 6144(%rsp) 2702vpmullw %ymm4, %ymm11, %ymm13 2703vpmullw %ymm5, %ymm10, %ymm15 2704vpaddw %ymm13, %ymm15, %ymm13 2705vmovdqa %ymm13, 6176(%rsp) 2706vpmullw %ymm5, %ymm11, %ymm12 2707vmovdqa %ymm12, 6208(%rsp) 2708vmovdqa 192(%r9), %ymm0 2709vmovdqa 1600(%r9), %ymm6 2710vpaddw 544(%r9), %ymm0, %ymm0 2711vpaddw 1952(%r9), %ymm6, %ymm6 2712vmovdqa 224(%r9), %ymm1 2713vmovdqa 1632(%r9), %ymm7 2714vpaddw 576(%r9), %ymm1, %ymm1 2715vpaddw 1984(%r9), %ymm7, %ymm7 2716vmovdqa 256(%r9), %ymm2 2717vmovdqa 1664(%r9), %ymm8 2718vpaddw 608(%r9), %ymm2, %ymm2 2719vpaddw 2016(%r9), %ymm8, %ymm8 2720vmovdqa 288(%r9), %ymm3 2721vmovdqa 1696(%r9), %ymm9 2722vpaddw 640(%r9), %ymm3, %ymm3 2723vpaddw 2048(%r9), %ymm9, %ymm9 2724vmovdqa 320(%r9), %ymm4 2725vmovdqa 1728(%r9), %ymm10 2726vpaddw 672(%r9), %ymm4, %ymm4 2727vpaddw 2080(%r9), %ymm10, %ymm10 2728vpmullw %ymm0, %ymm6, %ymm12 2729vmovdqa %ymm12, 6272(%rsp) 2730vpmullw %ymm0, %ymm7, %ymm13 2731vpmullw %ymm1, %ymm6, %ymm15 2732vpaddw %ymm13, %ymm15, %ymm13 2733vmovdqa %ymm13, 6304(%rsp) 2734vpmullw %ymm0, %ymm8, %ymm12 2735vpmullw %ymm1, %ymm7, %ymm15 2736vpaddw %ymm12, %ymm15, %ymm12 2737vpmullw %ymm2, %ymm6, %ymm15 2738vpaddw %ymm12, %ymm15, %ymm12 2739vmovdqa %ymm12, 6336(%rsp) 2740vpmullw %ymm0, %ymm9, %ymm13 2741vpmullw %ymm1, %ymm8, %ymm15 2742vpaddw %ymm13, %ymm15, %ymm13 2743vpmullw %ymm2, %ymm7, %ymm15 2744vpaddw %ymm13, %ymm15, %ymm13 2745vpmullw %ymm3, %ymm6, %ymm15 2746vpaddw %ymm13, %ymm15, %ymm13 2747vmovdqa %ymm13, 6368(%rsp) 2748vpmullw %ymm0, %ymm10, %ymm12 2749vpmullw %ymm1, %ymm9, %ymm15 2750vpaddw %ymm12, %ymm15, %ymm12 2751vpmullw %ymm2, %ymm8, %ymm15 2752vpaddw %ymm12, %ymm15, %ymm12 2753vpmullw %ymm3, %ymm7, %ymm15 2754vpaddw %ymm12, %ymm15, %ymm12 2755vpmullw %ymm4, %ymm6, %ymm15 2756vpaddw %ymm12, %ymm15, %ymm12 2757vmovdqa %ymm12, 6400(%rsp) 2758vpmullw %ymm1, %ymm10, %ymm13 2759vpmullw %ymm2, %ymm9, %ymm15 2760vpaddw %ymm13, %ymm15, %ymm13 2761vpmullw %ymm3, %ymm8, %ymm15 2762vpaddw %ymm13, %ymm15, %ymm13 2763vpmullw %ymm4, %ymm7, %ymm15 2764vpaddw %ymm13, %ymm15, %ymm13 2765vmovdqa %ymm13, 6432(%rsp) 2766vpmullw %ymm2, %ymm10, %ymm12 2767vpmullw %ymm3, %ymm9, %ymm15 2768vpaddw %ymm12, %ymm15, %ymm12 2769vpmullw %ymm4, %ymm8, %ymm15 2770vpaddw %ymm12, %ymm15, %ymm12 2771vmovdqa %ymm12, 6464(%rsp) 2772vpmullw %ymm3, %ymm10, %ymm13 2773vpmullw %ymm4, %ymm9, %ymm15 2774vpaddw %ymm13, %ymm15, %ymm13 2775vmovdqa %ymm13, 6496(%rsp) 2776vpmullw %ymm4, %ymm10, %ymm12 2777vmovdqa %ymm12, 6528(%rsp) 2778vpaddw 0(%r9), %ymm0, %ymm0 2779vpaddw 1408(%r9), %ymm6, %ymm6 2780vpaddw 352(%r9), %ymm0, %ymm0 2781vpaddw 1760(%r9), %ymm6, %ymm6 2782vpaddw 32(%r9), %ymm1, %ymm1 2783vpaddw 1440(%r9), %ymm7, %ymm7 2784vpaddw 384(%r9), %ymm1, %ymm1 2785vpaddw 1792(%r9), %ymm7, %ymm7 2786vpaddw 64(%r9), %ymm2, %ymm2 2787vpaddw 1472(%r9), %ymm8, %ymm8 2788vpaddw 416(%r9), %ymm2, %ymm2 2789vpaddw 1824(%r9), %ymm8, %ymm8 2790vpaddw 96(%r9), %ymm3, %ymm3 2791vpaddw 1504(%r9), %ymm9, %ymm9 2792vpaddw 448(%r9), %ymm3, %ymm3 2793vpaddw 1856(%r9), %ymm9, %ymm9 2794vpaddw 128(%r9), %ymm4, %ymm4 2795vpaddw 1536(%r9), %ymm10, %ymm10 2796vpaddw 480(%r9), %ymm4, %ymm4 2797vpaddw 1888(%r9), %ymm10, %ymm10 2798vpmullw %ymm0, %ymm11, %ymm12 2799vpmullw %ymm1, %ymm10, %ymm15 2800vpaddw %ymm15, %ymm12, %ymm12 2801vpmullw %ymm2, %ymm9, %ymm15 2802vpaddw %ymm15, %ymm12, %ymm12 2803vpmullw %ymm3, %ymm8, %ymm15 2804vpaddw %ymm15, %ymm12, %ymm12 2805vpmullw %ymm4, %ymm7, %ymm15 2806vpaddw %ymm15, %ymm12, %ymm12 2807vpmullw %ymm5, %ymm6, %ymm15 2808vpaddw %ymm15, %ymm12, %ymm12 2809vpsubw 6048(%rsp), %ymm12, %ymm12 2810vpsubw 6432(%rsp), %ymm12, %ymm12 2811vmovdqa %ymm12, 6240(%rsp) 2812vpmullw %ymm5, %ymm7, %ymm12 2813vpmullw %ymm5, %ymm8, %ymm13 2814vpmullw %ymm5, %ymm9, %ymm14 2815vpmullw %ymm5, %ymm10, %ymm15 2816vpmullw %ymm1, %ymm11, %ymm5 2817vpaddw %ymm5, %ymm12, %ymm12 2818vpmullw %ymm2, %ymm10, %ymm5 2819vpaddw %ymm5, %ymm12, %ymm12 2820vpmullw %ymm3, %ymm9, %ymm5 2821vpaddw %ymm5, %ymm12, %ymm12 2822vpmullw %ymm4, %ymm8, %ymm5 2823vpaddw %ymm5, %ymm12, %ymm12 2824vpmullw %ymm2, %ymm11, %ymm5 2825vpaddw %ymm5, %ymm13, %ymm13 2826vpmullw %ymm3, %ymm10, %ymm5 2827vpaddw %ymm5, %ymm13, %ymm13 2828vpmullw %ymm4, %ymm9, %ymm5 2829vpaddw %ymm5, %ymm13, %ymm13 2830vpmullw %ymm3, %ymm11, %ymm5 2831vpaddw %ymm5, %ymm14, %ymm14 2832vpmullw %ymm4, %ymm10, %ymm5 2833vpaddw %ymm5, %ymm14, %ymm14 2834vpmullw %ymm4, %ymm11, %ymm5 2835vpaddw %ymm5, %ymm15, %ymm15 2836vpmullw %ymm0, %ymm10, %ymm11 2837vpmullw %ymm1, %ymm9, %ymm5 2838vpaddw %ymm5, %ymm11, %ymm11 2839vpmullw %ymm2, %ymm8, %ymm5 2840vpaddw %ymm5, %ymm11, %ymm11 2841vpmullw %ymm3, %ymm7, %ymm5 2842vpaddw %ymm5, %ymm11, %ymm11 2843vpmullw %ymm4, %ymm6, %ymm5 2844vpaddw %ymm5, %ymm11, %ymm11 2845vpmullw %ymm0, %ymm9, %ymm10 2846vpmullw %ymm1, %ymm8, %ymm5 2847vpaddw %ymm5, %ymm10, %ymm10 2848vpmullw %ymm2, %ymm7, %ymm5 2849vpaddw %ymm5, %ymm10, %ymm10 2850vpmullw %ymm3, %ymm6, %ymm5 2851vpaddw %ymm5, %ymm10, %ymm10 2852vpmullw %ymm0, %ymm8, %ymm9 2853vpmullw %ymm1, %ymm7, %ymm5 2854vpaddw %ymm5, %ymm9, %ymm9 2855vpmullw %ymm2, %ymm6, %ymm5 2856vpaddw %ymm5, %ymm9, %ymm9 2857vpmullw %ymm0, %ymm7, %ymm8 2858vpmullw %ymm1, %ymm6, %ymm5 2859vpaddw %ymm5, %ymm8, %ymm8 2860vpmullw %ymm0, %ymm6, %ymm7 2861vmovdqa 6080(%rsp), %ymm0 2862vpsubw 6272(%rsp), %ymm0, %ymm0 2863vpsubw %ymm0, %ymm12, %ymm6 2864vpsubw 6464(%rsp), %ymm6, %ymm6 2865vmovdqa %ymm6, 6272(%rsp) 2866vpaddw %ymm7, %ymm0, %ymm0 2867vpsubw 5888(%rsp), %ymm0, %ymm0 2868vmovdqa %ymm0, 6080(%rsp) 2869vmovdqa 6112(%rsp), %ymm1 2870vpsubw 6304(%rsp), %ymm1, %ymm1 2871vpsubw %ymm1, %ymm13, %ymm7 2872vpsubw 6496(%rsp), %ymm7, %ymm7 2873vmovdqa %ymm7, 6304(%rsp) 2874vpaddw %ymm8, %ymm1, %ymm1 2875vpsubw 5920(%rsp), %ymm1, %ymm1 2876vmovdqa %ymm1, 6112(%rsp) 2877vmovdqa 6144(%rsp), %ymm2 2878vpsubw 6336(%rsp), %ymm2, %ymm2 2879vpsubw %ymm2, %ymm14, %ymm8 2880vpsubw 6528(%rsp), %ymm8, %ymm8 2881vmovdqa %ymm8, 6336(%rsp) 2882vpaddw %ymm9, %ymm2, %ymm2 2883vpsubw 5952(%rsp), %ymm2, %ymm2 2884vmovdqa %ymm2, 6144(%rsp) 2885vmovdqa 6176(%rsp), %ymm3 2886vpsubw 6368(%rsp), %ymm3, %ymm3 2887vpsubw %ymm3, %ymm15, %ymm9 2888vmovdqa %ymm9, 6368(%rsp) 2889vpaddw %ymm10, %ymm3, %ymm3 2890vpsubw 5984(%rsp), %ymm3, %ymm3 2891vmovdqa %ymm3, 6176(%rsp) 2892vmovdqa 6208(%rsp), %ymm4 2893vpsubw 6400(%rsp), %ymm4, %ymm4 2894vpaddw %ymm11, %ymm4, %ymm4 2895vpsubw 6016(%rsp), %ymm4, %ymm4 2896vmovdqa %ymm4, 6208(%rsp) 2897vmovdqa 6208(%rsp), %ymm0 2898vpsubw 3136(%r10), %ymm0, %ymm0 2899vpsubw 3840(%r10), %ymm0, %ymm0 2900vmovdqa %ymm0, 3488(%r10) 2901vmovdqa 3168(%r10), %ymm0 2902vpsubw 3520(%r10), %ymm0, %ymm0 2903vmovdqa 6240(%rsp), %ymm1 2904vpsubw %ymm0, %ymm1, %ymm1 2905vpsubw 3872(%r10), %ymm1, %ymm1 2906vpsubw 2816(%r10), %ymm0, %ymm0 2907vpaddw 5888(%rsp), %ymm0, %ymm0 2908vmovdqa %ymm0, 3168(%r10) 2909vmovdqa %ymm1, 3520(%r10) 2910vmovdqa 3200(%r10), %ymm0 2911vpsubw 3552(%r10), %ymm0, %ymm0 2912vmovdqa 6272(%rsp), %ymm1 2913vpsubw %ymm0, %ymm1, %ymm1 2914vpsubw 3904(%r10), %ymm1, %ymm1 2915vpsubw 2848(%r10), %ymm0, %ymm0 2916vpaddw 5920(%rsp), %ymm0, %ymm0 2917vmovdqa %ymm0, 3200(%r10) 2918vmovdqa %ymm1, 3552(%r10) 2919vmovdqa 3232(%r10), %ymm0 2920vpsubw 3584(%r10), %ymm0, %ymm0 2921vmovdqa 6304(%rsp), %ymm1 2922vpsubw %ymm0, %ymm1, %ymm1 2923vpsubw 3936(%r10), %ymm1, %ymm1 2924vpsubw 2880(%r10), %ymm0, %ymm0 2925vpaddw 5952(%rsp), %ymm0, %ymm0 2926vmovdqa %ymm0, 3232(%r10) 2927vmovdqa %ymm1, 3584(%r10) 2928vmovdqa 3264(%r10), %ymm0 2929vpsubw 3616(%r10), %ymm0, %ymm0 2930vmovdqa 6336(%rsp), %ymm1 2931vpsubw %ymm0, %ymm1, %ymm1 2932vpsubw 3968(%r10), %ymm1, %ymm1 2933vpsubw 2912(%r10), %ymm0, %ymm0 2934vpaddw 5984(%rsp), %ymm0, %ymm0 2935vmovdqa %ymm0, 3264(%r10) 2936vmovdqa %ymm1, 3616(%r10) 2937vmovdqa 3296(%r10), %ymm0 2938vpsubw 3648(%r10), %ymm0, %ymm0 2939vmovdqa 6368(%rsp), %ymm1 2940vpsubw %ymm0, %ymm1, %ymm1 2941vpsubw 4000(%r10), %ymm1, %ymm1 2942vpsubw 2944(%r10), %ymm0, %ymm0 2943vpaddw 6016(%rsp), %ymm0, %ymm0 2944vmovdqa %ymm0, 3296(%r10) 2945vmovdqa %ymm1, 3648(%r10) 2946vmovdqa 3328(%r10), %ymm0 2947vpsubw 3680(%r10), %ymm0, %ymm0 2948vmovdqa 6400(%rsp), %ymm1 2949vpsubw %ymm0, %ymm1, %ymm1 2950vpsubw 4032(%r10), %ymm1, %ymm1 2951vpsubw 2976(%r10), %ymm0, %ymm0 2952vpaddw 6048(%rsp), %ymm0, %ymm0 2953vmovdqa %ymm0, 3328(%r10) 2954vmovdqa %ymm1, 3680(%r10) 2955vmovdqa 3360(%r10), %ymm0 2956vpsubw 3712(%r10), %ymm0, %ymm0 2957vmovdqa 6432(%rsp), %ymm1 2958vpsubw %ymm0, %ymm1, %ymm1 2959vpsubw 4064(%r10), %ymm1, %ymm1 2960vpsubw 3008(%r10), %ymm0, %ymm0 2961vpaddw 6080(%rsp), %ymm0, %ymm0 2962vmovdqa %ymm0, 3360(%r10) 2963vmovdqa %ymm1, 3712(%r10) 2964vmovdqa 3392(%r10), %ymm0 2965vpsubw 3744(%r10), %ymm0, %ymm0 2966vmovdqa 6464(%rsp), %ymm1 2967vpsubw %ymm0, %ymm1, %ymm1 2968vpsubw 4096(%r10), %ymm1, %ymm1 2969vpsubw 3040(%r10), %ymm0, %ymm0 2970vpaddw 6112(%rsp), %ymm0, %ymm0 2971vmovdqa %ymm0, 3392(%r10) 2972vmovdqa %ymm1, 3744(%r10) 2973vmovdqa 3424(%r10), %ymm0 2974vpsubw 3776(%r10), %ymm0, %ymm0 2975vmovdqa 6496(%rsp), %ymm1 2976vpsubw %ymm0, %ymm1, %ymm1 2977vpsubw 4128(%r10), %ymm1, %ymm1 2978vpsubw 3072(%r10), %ymm0, %ymm0 2979vpaddw 6144(%rsp), %ymm0, %ymm0 2980vmovdqa %ymm0, 3424(%r10) 2981vmovdqa %ymm1, 3776(%r10) 2982vmovdqa 3456(%r10), %ymm0 2983vpsubw 3808(%r10), %ymm0, %ymm0 2984vmovdqa 6528(%rsp), %ymm1 2985vpsubw %ymm0, %ymm1, %ymm1 2986vpsubw 4160(%r10), %ymm1, %ymm1 2987vpsubw 3104(%r10), %ymm0, %ymm0 2988vpaddw 6176(%rsp), %ymm0, %ymm0 2989vmovdqa %ymm0, 3456(%r10) 2990vmovdqa %ymm1, 3808(%r10) 2991neg %ecx 2992jns done_4eced63f144beffcb0247f9c6f67d165 2993add $704, %r9 2994add $1408, %r10 2995jmp innerloop_4eced63f144beffcb0247f9c6f67d165 2996done_4eced63f144beffcb0247f9c6f67d165: 2997sub $704, %r9 2998sub $1408, %r10 2999vmovdqa 0(%r9), %ymm0 3000vpaddw 704(%r9), %ymm0, %ymm0 3001vmovdqa %ymm0, 6592(%rsp) 3002vmovdqa 1408(%r9), %ymm0 3003vpaddw 2112(%r9), %ymm0, %ymm0 3004vmovdqa %ymm0, 7296(%rsp) 3005vmovdqa 32(%r9), %ymm0 3006vpaddw 736(%r9), %ymm0, %ymm0 3007vmovdqa %ymm0, 6624(%rsp) 3008vmovdqa 1440(%r9), %ymm0 3009vpaddw 2144(%r9), %ymm0, %ymm0 3010vmovdqa %ymm0, 7328(%rsp) 3011vmovdqa 64(%r9), %ymm0 3012vpaddw 768(%r9), %ymm0, %ymm0 3013vmovdqa %ymm0, 6656(%rsp) 3014vmovdqa 1472(%r9), %ymm0 3015vpaddw 2176(%r9), %ymm0, %ymm0 3016vmovdqa %ymm0, 7360(%rsp) 3017vmovdqa 96(%r9), %ymm0 3018vpaddw 800(%r9), %ymm0, %ymm0 3019vmovdqa %ymm0, 6688(%rsp) 3020vmovdqa 1504(%r9), %ymm0 3021vpaddw 2208(%r9), %ymm0, %ymm0 3022vmovdqa %ymm0, 7392(%rsp) 3023vmovdqa 128(%r9), %ymm0 3024vpaddw 832(%r9), %ymm0, %ymm0 3025vmovdqa %ymm0, 6720(%rsp) 3026vmovdqa 1536(%r9), %ymm0 3027vpaddw 2240(%r9), %ymm0, %ymm0 3028vmovdqa %ymm0, 7424(%rsp) 3029vmovdqa 160(%r9), %ymm0 3030vpaddw 864(%r9), %ymm0, %ymm0 3031vmovdqa %ymm0, 6752(%rsp) 3032vmovdqa 1568(%r9), %ymm0 3033vpaddw 2272(%r9), %ymm0, %ymm0 3034vmovdqa %ymm0, 7456(%rsp) 3035vmovdqa 192(%r9), %ymm0 3036vpaddw 896(%r9), %ymm0, %ymm0 3037vmovdqa %ymm0, 6784(%rsp) 3038vmovdqa 1600(%r9), %ymm0 3039vpaddw 2304(%r9), %ymm0, %ymm0 3040vmovdqa %ymm0, 7488(%rsp) 3041vmovdqa 224(%r9), %ymm0 3042vpaddw 928(%r9), %ymm0, %ymm0 3043vmovdqa %ymm0, 6816(%rsp) 3044vmovdqa 1632(%r9), %ymm0 3045vpaddw 2336(%r9), %ymm0, %ymm0 3046vmovdqa %ymm0, 7520(%rsp) 3047vmovdqa 256(%r9), %ymm0 3048vpaddw 960(%r9), %ymm0, %ymm0 3049vmovdqa %ymm0, 6848(%rsp) 3050vmovdqa 1664(%r9), %ymm0 3051vpaddw 2368(%r9), %ymm0, %ymm0 3052vmovdqa %ymm0, 7552(%rsp) 3053vmovdqa 288(%r9), %ymm0 3054vpaddw 992(%r9), %ymm0, %ymm0 3055vmovdqa %ymm0, 6880(%rsp) 3056vmovdqa 1696(%r9), %ymm0 3057vpaddw 2400(%r9), %ymm0, %ymm0 3058vmovdqa %ymm0, 7584(%rsp) 3059vmovdqa 320(%r9), %ymm0 3060vpaddw 1024(%r9), %ymm0, %ymm0 3061vmovdqa %ymm0, 6912(%rsp) 3062vmovdqa 1728(%r9), %ymm0 3063vpaddw 2432(%r9), %ymm0, %ymm0 3064vmovdqa %ymm0, 7616(%rsp) 3065vmovdqa 352(%r9), %ymm0 3066vpaddw 1056(%r9), %ymm0, %ymm0 3067vmovdqa %ymm0, 6944(%rsp) 3068vmovdqa 1760(%r9), %ymm0 3069vpaddw 2464(%r9), %ymm0, %ymm0 3070vmovdqa %ymm0, 7648(%rsp) 3071vmovdqa 384(%r9), %ymm0 3072vpaddw 1088(%r9), %ymm0, %ymm0 3073vmovdqa %ymm0, 6976(%rsp) 3074vmovdqa 1792(%r9), %ymm0 3075vpaddw 2496(%r9), %ymm0, %ymm0 3076vmovdqa %ymm0, 7680(%rsp) 3077vmovdqa 416(%r9), %ymm0 3078vpaddw 1120(%r9), %ymm0, %ymm0 3079vmovdqa %ymm0, 7008(%rsp) 3080vmovdqa 1824(%r9), %ymm0 3081vpaddw 2528(%r9), %ymm0, %ymm0 3082vmovdqa %ymm0, 7712(%rsp) 3083vmovdqa 448(%r9), %ymm0 3084vpaddw 1152(%r9), %ymm0, %ymm0 3085vmovdqa %ymm0, 7040(%rsp) 3086vmovdqa 1856(%r9), %ymm0 3087vpaddw 2560(%r9), %ymm0, %ymm0 3088vmovdqa %ymm0, 7744(%rsp) 3089vmovdqa 480(%r9), %ymm0 3090vpaddw 1184(%r9), %ymm0, %ymm0 3091vmovdqa %ymm0, 7072(%rsp) 3092vmovdqa 1888(%r9), %ymm0 3093vpaddw 2592(%r9), %ymm0, %ymm0 3094vmovdqa %ymm0, 7776(%rsp) 3095vmovdqa 512(%r9), %ymm0 3096vpaddw 1216(%r9), %ymm0, %ymm0 3097vmovdqa %ymm0, 7104(%rsp) 3098vmovdqa 1920(%r9), %ymm0 3099vpaddw 2624(%r9), %ymm0, %ymm0 3100vmovdqa %ymm0, 7808(%rsp) 3101vmovdqa 544(%r9), %ymm0 3102vpaddw 1248(%r9), %ymm0, %ymm0 3103vmovdqa %ymm0, 7136(%rsp) 3104vmovdqa 1952(%r9), %ymm0 3105vpaddw 2656(%r9), %ymm0, %ymm0 3106vmovdqa %ymm0, 7840(%rsp) 3107vmovdqa 576(%r9), %ymm0 3108vpaddw 1280(%r9), %ymm0, %ymm0 3109vmovdqa %ymm0, 7168(%rsp) 3110vmovdqa 1984(%r9), %ymm0 3111vpaddw 2688(%r9), %ymm0, %ymm0 3112vmovdqa %ymm0, 7872(%rsp) 3113vmovdqa 608(%r9), %ymm0 3114vpaddw 1312(%r9), %ymm0, %ymm0 3115vmovdqa %ymm0, 7200(%rsp) 3116vmovdqa 2016(%r9), %ymm0 3117vpaddw 2720(%r9), %ymm0, %ymm0 3118vmovdqa %ymm0, 7904(%rsp) 3119vmovdqa 640(%r9), %ymm0 3120vpaddw 1344(%r9), %ymm0, %ymm0 3121vmovdqa %ymm0, 7232(%rsp) 3122vmovdqa 2048(%r9), %ymm0 3123vpaddw 2752(%r9), %ymm0, %ymm0 3124vmovdqa %ymm0, 7936(%rsp) 3125vmovdqa 672(%r9), %ymm0 3126vpaddw 1376(%r9), %ymm0, %ymm0 3127vmovdqa %ymm0, 7264(%rsp) 3128vmovdqa 2080(%r9), %ymm0 3129vpaddw 2784(%r9), %ymm0, %ymm0 3130vmovdqa %ymm0, 7968(%rsp) 3131vmovdqa 6592(%rsp), %ymm0 3132vmovdqa 7296(%rsp), %ymm6 3133vmovdqa 6624(%rsp), %ymm1 3134vmovdqa 7328(%rsp), %ymm7 3135vmovdqa 6656(%rsp), %ymm2 3136vmovdqa 7360(%rsp), %ymm8 3137vmovdqa 6688(%rsp), %ymm3 3138vmovdqa 7392(%rsp), %ymm9 3139vmovdqa 6720(%rsp), %ymm4 3140vmovdqa 7424(%rsp), %ymm10 3141vmovdqa 6752(%rsp), %ymm5 3142vmovdqa 7456(%rsp), %ymm11 3143vpmullw %ymm0, %ymm6, %ymm12 3144vmovdqa %ymm12, 8000(%rsp) 3145vpmullw %ymm0, %ymm7, %ymm13 3146vpmullw %ymm1, %ymm6, %ymm15 3147vpaddw %ymm13, %ymm15, %ymm13 3148vmovdqa %ymm13, 8032(%rsp) 3149vpmullw %ymm0, %ymm8, %ymm12 3150vpmullw %ymm1, %ymm7, %ymm15 3151vpaddw %ymm12, %ymm15, %ymm12 3152vpmullw %ymm2, %ymm6, %ymm15 3153vpaddw %ymm12, %ymm15, %ymm12 3154vmovdqa %ymm12, 8064(%rsp) 3155vpmullw %ymm0, %ymm9, %ymm13 3156vpmullw %ymm1, %ymm8, %ymm15 3157vpaddw %ymm13, %ymm15, %ymm13 3158vpmullw %ymm2, %ymm7, %ymm15 3159vpaddw %ymm13, %ymm15, %ymm13 3160vpmullw %ymm3, %ymm6, %ymm15 3161vpaddw %ymm13, %ymm15, %ymm13 3162vmovdqa %ymm13, 8096(%rsp) 3163vpmullw %ymm0, %ymm10, %ymm12 3164vpmullw %ymm1, %ymm9, %ymm15 3165vpaddw %ymm12, %ymm15, %ymm12 3166vpmullw %ymm2, %ymm8, %ymm15 3167vpaddw %ymm12, %ymm15, %ymm12 3168vpmullw %ymm3, %ymm7, %ymm15 3169vpaddw %ymm12, %ymm15, %ymm12 3170vpmullw %ymm4, %ymm6, %ymm15 3171vpaddw %ymm12, %ymm15, %ymm12 3172vmovdqa %ymm12, 8128(%rsp) 3173vpmullw %ymm0, %ymm11, %ymm13 3174vpmullw %ymm1, %ymm10, %ymm15 3175vpaddw %ymm13, %ymm15, %ymm13 3176vpmullw %ymm2, %ymm9, %ymm15 3177vpaddw %ymm13, %ymm15, %ymm13 3178vpmullw %ymm3, %ymm8, %ymm15 3179vpaddw %ymm13, %ymm15, %ymm13 3180vpmullw %ymm4, %ymm7, %ymm15 3181vpaddw %ymm13, %ymm15, %ymm13 3182vpmullw %ymm5, %ymm6, %ymm15 3183vpaddw %ymm13, %ymm15, %ymm13 3184vmovdqa %ymm13, 8160(%rsp) 3185vpmullw %ymm1, %ymm11, %ymm12 3186vpmullw %ymm2, %ymm10, %ymm15 3187vpaddw %ymm12, %ymm15, %ymm12 3188vpmullw %ymm3, %ymm9, %ymm15 3189vpaddw %ymm12, %ymm15, %ymm12 3190vpmullw %ymm4, %ymm8, %ymm15 3191vpaddw %ymm12, %ymm15, %ymm12 3192vpmullw %ymm5, %ymm7, %ymm15 3193vpaddw %ymm12, %ymm15, %ymm12 3194vmovdqa %ymm12, 8192(%rsp) 3195vpmullw %ymm2, %ymm11, %ymm13 3196vpmullw %ymm3, %ymm10, %ymm15 3197vpaddw %ymm13, %ymm15, %ymm13 3198vpmullw %ymm4, %ymm9, %ymm15 3199vpaddw %ymm13, %ymm15, %ymm13 3200vpmullw %ymm5, %ymm8, %ymm15 3201vpaddw %ymm13, %ymm15, %ymm13 3202vmovdqa %ymm13, 8224(%rsp) 3203vpmullw %ymm3, %ymm11, %ymm12 3204vpmullw %ymm4, %ymm10, %ymm15 3205vpaddw %ymm12, %ymm15, %ymm12 3206vpmullw %ymm5, %ymm9, %ymm15 3207vpaddw %ymm12, %ymm15, %ymm12 3208vmovdqa %ymm12, 8256(%rsp) 3209vpmullw %ymm4, %ymm11, %ymm13 3210vpmullw %ymm5, %ymm10, %ymm15 3211vpaddw %ymm13, %ymm15, %ymm13 3212vmovdqa %ymm13, 8288(%rsp) 3213vpmullw %ymm5, %ymm11, %ymm12 3214vmovdqa %ymm12, 8320(%rsp) 3215vmovdqa 6784(%rsp), %ymm0 3216vmovdqa 7488(%rsp), %ymm6 3217vmovdqa 6816(%rsp), %ymm1 3218vmovdqa 7520(%rsp), %ymm7 3219vmovdqa 6848(%rsp), %ymm2 3220vmovdqa 7552(%rsp), %ymm8 3221vmovdqa 6880(%rsp), %ymm3 3222vmovdqa 7584(%rsp), %ymm9 3223vmovdqa 6912(%rsp), %ymm4 3224vmovdqa 7616(%rsp), %ymm10 3225vpmullw %ymm0, %ymm6, %ymm12 3226vmovdqa %ymm12, 8384(%rsp) 3227vpmullw %ymm0, %ymm7, %ymm13 3228vpmullw %ymm1, %ymm6, %ymm15 3229vpaddw %ymm13, %ymm15, %ymm13 3230vmovdqa %ymm13, 8416(%rsp) 3231vpmullw %ymm0, %ymm8, %ymm12 3232vpmullw %ymm1, %ymm7, %ymm15 3233vpaddw %ymm12, %ymm15, %ymm12 3234vpmullw %ymm2, %ymm6, %ymm15 3235vpaddw %ymm12, %ymm15, %ymm12 3236vmovdqa %ymm12, 8448(%rsp) 3237vpmullw %ymm0, %ymm9, %ymm13 3238vpmullw %ymm1, %ymm8, %ymm15 3239vpaddw %ymm13, %ymm15, %ymm13 3240vpmullw %ymm2, %ymm7, %ymm15 3241vpaddw %ymm13, %ymm15, %ymm13 3242vpmullw %ymm3, %ymm6, %ymm15 3243vpaddw %ymm13, %ymm15, %ymm13 3244vmovdqa %ymm13, 8480(%rsp) 3245vpmullw %ymm0, %ymm10, %ymm12 3246vpmullw %ymm1, %ymm9, %ymm15 3247vpaddw %ymm12, %ymm15, %ymm12 3248vpmullw %ymm2, %ymm8, %ymm15 3249vpaddw %ymm12, %ymm15, %ymm12 3250vpmullw %ymm3, %ymm7, %ymm15 3251vpaddw %ymm12, %ymm15, %ymm12 3252vpmullw %ymm4, %ymm6, %ymm15 3253vpaddw %ymm12, %ymm15, %ymm12 3254vmovdqa %ymm12, 8512(%rsp) 3255vpmullw %ymm1, %ymm10, %ymm13 3256vpmullw %ymm2, %ymm9, %ymm15 3257vpaddw %ymm13, %ymm15, %ymm13 3258vpmullw %ymm3, %ymm8, %ymm15 3259vpaddw %ymm13, %ymm15, %ymm13 3260vpmullw %ymm4, %ymm7, %ymm15 3261vpaddw %ymm13, %ymm15, %ymm13 3262vmovdqa %ymm13, 8544(%rsp) 3263vpmullw %ymm2, %ymm10, %ymm12 3264vpmullw %ymm3, %ymm9, %ymm15 3265vpaddw %ymm12, %ymm15, %ymm12 3266vpmullw %ymm4, %ymm8, %ymm15 3267vpaddw %ymm12, %ymm15, %ymm12 3268vmovdqa %ymm12, 8576(%rsp) 3269vpmullw %ymm3, %ymm10, %ymm13 3270vpmullw %ymm4, %ymm9, %ymm15 3271vpaddw %ymm13, %ymm15, %ymm13 3272vmovdqa %ymm13, 8608(%rsp) 3273vpmullw %ymm4, %ymm10, %ymm12 3274vmovdqa %ymm12, 8640(%rsp) 3275vpaddw 6592(%rsp), %ymm0, %ymm0 3276vpaddw 7296(%rsp), %ymm6, %ymm6 3277vpaddw 6624(%rsp), %ymm1, %ymm1 3278vpaddw 7328(%rsp), %ymm7, %ymm7 3279vpaddw 6656(%rsp), %ymm2, %ymm2 3280vpaddw 7360(%rsp), %ymm8, %ymm8 3281vpaddw 6688(%rsp), %ymm3, %ymm3 3282vpaddw 7392(%rsp), %ymm9, %ymm9 3283vpaddw 6720(%rsp), %ymm4, %ymm4 3284vpaddw 7424(%rsp), %ymm10, %ymm10 3285vpmullw %ymm0, %ymm11, %ymm12 3286vpmullw %ymm1, %ymm10, %ymm15 3287vpaddw %ymm15, %ymm12, %ymm12 3288vpmullw %ymm2, %ymm9, %ymm15 3289vpaddw %ymm15, %ymm12, %ymm12 3290vpmullw %ymm3, %ymm8, %ymm15 3291vpaddw %ymm15, %ymm12, %ymm12 3292vpmullw %ymm4, %ymm7, %ymm15 3293vpaddw %ymm15, %ymm12, %ymm12 3294vpmullw %ymm5, %ymm6, %ymm15 3295vpaddw %ymm15, %ymm12, %ymm12 3296vpsubw 8160(%rsp), %ymm12, %ymm12 3297vpsubw 8544(%rsp), %ymm12, %ymm12 3298vmovdqa %ymm12, 8352(%rsp) 3299vpmullw %ymm5, %ymm7, %ymm12 3300vpmullw %ymm5, %ymm8, %ymm13 3301vpmullw %ymm5, %ymm9, %ymm14 3302vpmullw %ymm5, %ymm10, %ymm15 3303vpmullw %ymm1, %ymm11, %ymm5 3304vpaddw %ymm5, %ymm12, %ymm12 3305vpmullw %ymm2, %ymm10, %ymm5 3306vpaddw %ymm5, %ymm12, %ymm12 3307vpmullw %ymm3, %ymm9, %ymm5 3308vpaddw %ymm5, %ymm12, %ymm12 3309vpmullw %ymm4, %ymm8, %ymm5 3310vpaddw %ymm5, %ymm12, %ymm12 3311vpmullw %ymm2, %ymm11, %ymm5 3312vpaddw %ymm5, %ymm13, %ymm13 3313vpmullw %ymm3, %ymm10, %ymm5 3314vpaddw %ymm5, %ymm13, %ymm13 3315vpmullw %ymm4, %ymm9, %ymm5 3316vpaddw %ymm5, %ymm13, %ymm13 3317vpmullw %ymm3, %ymm11, %ymm5 3318vpaddw %ymm5, %ymm14, %ymm14 3319vpmullw %ymm4, %ymm10, %ymm5 3320vpaddw %ymm5, %ymm14, %ymm14 3321vpmullw %ymm4, %ymm11, %ymm5 3322vpaddw %ymm5, %ymm15, %ymm15 3323vpmullw %ymm0, %ymm10, %ymm11 3324vpmullw %ymm1, %ymm9, %ymm5 3325vpaddw %ymm5, %ymm11, %ymm11 3326vpmullw %ymm2, %ymm8, %ymm5 3327vpaddw %ymm5, %ymm11, %ymm11 3328vpmullw %ymm3, %ymm7, %ymm5 3329vpaddw %ymm5, %ymm11, %ymm11 3330vpmullw %ymm4, %ymm6, %ymm5 3331vpaddw %ymm5, %ymm11, %ymm11 3332vpmullw %ymm0, %ymm9, %ymm10 3333vpmullw %ymm1, %ymm8, %ymm5 3334vpaddw %ymm5, %ymm10, %ymm10 3335vpmullw %ymm2, %ymm7, %ymm5 3336vpaddw %ymm5, %ymm10, %ymm10 3337vpmullw %ymm3, %ymm6, %ymm5 3338vpaddw %ymm5, %ymm10, %ymm10 3339vpmullw %ymm0, %ymm8, %ymm9 3340vpmullw %ymm1, %ymm7, %ymm5 3341vpaddw %ymm5, %ymm9, %ymm9 3342vpmullw %ymm2, %ymm6, %ymm5 3343vpaddw %ymm5, %ymm9, %ymm9 3344vpmullw %ymm0, %ymm7, %ymm8 3345vpmullw %ymm1, %ymm6, %ymm5 3346vpaddw %ymm5, %ymm8, %ymm8 3347vpmullw %ymm0, %ymm6, %ymm7 3348vmovdqa 8192(%rsp), %ymm0 3349vpsubw 8384(%rsp), %ymm0, %ymm0 3350vpsubw %ymm0, %ymm12, %ymm6 3351vpsubw 8576(%rsp), %ymm6, %ymm6 3352vmovdqa %ymm6, 8384(%rsp) 3353vpaddw %ymm7, %ymm0, %ymm0 3354vpsubw 8000(%rsp), %ymm0, %ymm0 3355vmovdqa %ymm0, 8192(%rsp) 3356vmovdqa 8224(%rsp), %ymm1 3357vpsubw 8416(%rsp), %ymm1, %ymm1 3358vpsubw %ymm1, %ymm13, %ymm7 3359vpsubw 8608(%rsp), %ymm7, %ymm7 3360vmovdqa %ymm7, 8416(%rsp) 3361vpaddw %ymm8, %ymm1, %ymm1 3362vpsubw 8032(%rsp), %ymm1, %ymm1 3363vmovdqa %ymm1, 8224(%rsp) 3364vmovdqa 8256(%rsp), %ymm2 3365vpsubw 8448(%rsp), %ymm2, %ymm2 3366vpsubw %ymm2, %ymm14, %ymm8 3367vpsubw 8640(%rsp), %ymm8, %ymm8 3368vmovdqa %ymm8, 8448(%rsp) 3369vpaddw %ymm9, %ymm2, %ymm2 3370vpsubw 8064(%rsp), %ymm2, %ymm2 3371vmovdqa %ymm2, 8256(%rsp) 3372vmovdqa 8288(%rsp), %ymm3 3373vpsubw 8480(%rsp), %ymm3, %ymm3 3374vpsubw %ymm3, %ymm15, %ymm9 3375vmovdqa %ymm9, 8480(%rsp) 3376vpaddw %ymm10, %ymm3, %ymm3 3377vpsubw 8096(%rsp), %ymm3, %ymm3 3378vmovdqa %ymm3, 8288(%rsp) 3379vmovdqa 8320(%rsp), %ymm4 3380vpsubw 8512(%rsp), %ymm4, %ymm4 3381vpaddw %ymm11, %ymm4, %ymm4 3382vpsubw 8128(%rsp), %ymm4, %ymm4 3383vmovdqa %ymm4, 8320(%rsp) 3384vmovdqa 6944(%rsp), %ymm0 3385vmovdqa 7648(%rsp), %ymm6 3386vmovdqa 6976(%rsp), %ymm1 3387vmovdqa 7680(%rsp), %ymm7 3388vmovdqa 7008(%rsp), %ymm2 3389vmovdqa 7712(%rsp), %ymm8 3390vmovdqa 7040(%rsp), %ymm3 3391vmovdqa 7744(%rsp), %ymm9 3392vmovdqa 7072(%rsp), %ymm4 3393vmovdqa 7776(%rsp), %ymm10 3394vmovdqa 7104(%rsp), %ymm5 3395vmovdqa 7808(%rsp), %ymm11 3396vpmullw %ymm0, %ymm6, %ymm12 3397vmovdqa %ymm12, 8704(%rsp) 3398vpmullw %ymm0, %ymm7, %ymm13 3399vpmullw %ymm1, %ymm6, %ymm15 3400vpaddw %ymm13, %ymm15, %ymm13 3401vmovdqa %ymm13, 8736(%rsp) 3402vpmullw %ymm0, %ymm8, %ymm12 3403vpmullw %ymm1, %ymm7, %ymm15 3404vpaddw %ymm12, %ymm15, %ymm12 3405vpmullw %ymm2, %ymm6, %ymm15 3406vpaddw %ymm12, %ymm15, %ymm12 3407vmovdqa %ymm12, 8768(%rsp) 3408vpmullw %ymm0, %ymm9, %ymm13 3409vpmullw %ymm1, %ymm8, %ymm15 3410vpaddw %ymm13, %ymm15, %ymm13 3411vpmullw %ymm2, %ymm7, %ymm15 3412vpaddw %ymm13, %ymm15, %ymm13 3413vpmullw %ymm3, %ymm6, %ymm15 3414vpaddw %ymm13, %ymm15, %ymm13 3415vmovdqa %ymm13, 8800(%rsp) 3416vpmullw %ymm0, %ymm10, %ymm12 3417vpmullw %ymm1, %ymm9, %ymm15 3418vpaddw %ymm12, %ymm15, %ymm12 3419vpmullw %ymm2, %ymm8, %ymm15 3420vpaddw %ymm12, %ymm15, %ymm12 3421vpmullw %ymm3, %ymm7, %ymm15 3422vpaddw %ymm12, %ymm15, %ymm12 3423vpmullw %ymm4, %ymm6, %ymm15 3424vpaddw %ymm12, %ymm15, %ymm12 3425vmovdqa %ymm12, 8832(%rsp) 3426vpmullw %ymm0, %ymm11, %ymm13 3427vpmullw %ymm1, %ymm10, %ymm15 3428vpaddw %ymm13, %ymm15, %ymm13 3429vpmullw %ymm2, %ymm9, %ymm15 3430vpaddw %ymm13, %ymm15, %ymm13 3431vpmullw %ymm3, %ymm8, %ymm15 3432vpaddw %ymm13, %ymm15, %ymm13 3433vpmullw %ymm4, %ymm7, %ymm15 3434vpaddw %ymm13, %ymm15, %ymm13 3435vpmullw %ymm5, %ymm6, %ymm15 3436vpaddw %ymm13, %ymm15, %ymm13 3437vmovdqa %ymm13, 8864(%rsp) 3438vpmullw %ymm1, %ymm11, %ymm12 3439vpmullw %ymm2, %ymm10, %ymm15 3440vpaddw %ymm12, %ymm15, %ymm12 3441vpmullw %ymm3, %ymm9, %ymm15 3442vpaddw %ymm12, %ymm15, %ymm12 3443vpmullw %ymm4, %ymm8, %ymm15 3444vpaddw %ymm12, %ymm15, %ymm12 3445vpmullw %ymm5, %ymm7, %ymm15 3446vpaddw %ymm12, %ymm15, %ymm12 3447vmovdqa %ymm12, 8896(%rsp) 3448vpmullw %ymm2, %ymm11, %ymm13 3449vpmullw %ymm3, %ymm10, %ymm15 3450vpaddw %ymm13, %ymm15, %ymm13 3451vpmullw %ymm4, %ymm9, %ymm15 3452vpaddw %ymm13, %ymm15, %ymm13 3453vpmullw %ymm5, %ymm8, %ymm15 3454vpaddw %ymm13, %ymm15, %ymm13 3455vmovdqa %ymm13, 8928(%rsp) 3456vpmullw %ymm3, %ymm11, %ymm12 3457vpmullw %ymm4, %ymm10, %ymm15 3458vpaddw %ymm12, %ymm15, %ymm12 3459vpmullw %ymm5, %ymm9, %ymm15 3460vpaddw %ymm12, %ymm15, %ymm12 3461vmovdqa %ymm12, 8960(%rsp) 3462vpmullw %ymm4, %ymm11, %ymm13 3463vpmullw %ymm5, %ymm10, %ymm15 3464vpaddw %ymm13, %ymm15, %ymm13 3465vmovdqa %ymm13, 8992(%rsp) 3466vpmullw %ymm5, %ymm11, %ymm12 3467vmovdqa %ymm12, 9024(%rsp) 3468vmovdqa 7136(%rsp), %ymm0 3469vmovdqa 7840(%rsp), %ymm6 3470vmovdqa 7168(%rsp), %ymm1 3471vmovdqa 7872(%rsp), %ymm7 3472vmovdqa 7200(%rsp), %ymm2 3473vmovdqa 7904(%rsp), %ymm8 3474vmovdqa 7232(%rsp), %ymm3 3475vmovdqa 7936(%rsp), %ymm9 3476vmovdqa 7264(%rsp), %ymm4 3477vmovdqa 7968(%rsp), %ymm10 3478vpmullw %ymm0, %ymm6, %ymm12 3479vmovdqa %ymm12, 9088(%rsp) 3480vpmullw %ymm0, %ymm7, %ymm13 3481vpmullw %ymm1, %ymm6, %ymm15 3482vpaddw %ymm13, %ymm15, %ymm13 3483vmovdqa %ymm13, 9120(%rsp) 3484vpmullw %ymm0, %ymm8, %ymm12 3485vpmullw %ymm1, %ymm7, %ymm15 3486vpaddw %ymm12, %ymm15, %ymm12 3487vpmullw %ymm2, %ymm6, %ymm15 3488vpaddw %ymm12, %ymm15, %ymm12 3489vmovdqa %ymm12, 9152(%rsp) 3490vpmullw %ymm0, %ymm9, %ymm13 3491vpmullw %ymm1, %ymm8, %ymm15 3492vpaddw %ymm13, %ymm15, %ymm13 3493vpmullw %ymm2, %ymm7, %ymm15 3494vpaddw %ymm13, %ymm15, %ymm13 3495vpmullw %ymm3, %ymm6, %ymm15 3496vpaddw %ymm13, %ymm15, %ymm13 3497vmovdqa %ymm13, 9184(%rsp) 3498vpmullw %ymm0, %ymm10, %ymm12 3499vpmullw %ymm1, %ymm9, %ymm15 3500vpaddw %ymm12, %ymm15, %ymm12 3501vpmullw %ymm2, %ymm8, %ymm15 3502vpaddw %ymm12, %ymm15, %ymm12 3503vpmullw %ymm3, %ymm7, %ymm15 3504vpaddw %ymm12, %ymm15, %ymm12 3505vpmullw %ymm4, %ymm6, %ymm15 3506vpaddw %ymm12, %ymm15, %ymm12 3507vmovdqa %ymm12, 9216(%rsp) 3508vpmullw %ymm1, %ymm10, %ymm13 3509vpmullw %ymm2, %ymm9, %ymm15 3510vpaddw %ymm13, %ymm15, %ymm13 3511vpmullw %ymm3, %ymm8, %ymm15 3512vpaddw %ymm13, %ymm15, %ymm13 3513vpmullw %ymm4, %ymm7, %ymm15 3514vpaddw %ymm13, %ymm15, %ymm13 3515vmovdqa %ymm13, 9248(%rsp) 3516vpmullw %ymm2, %ymm10, %ymm12 3517vpmullw %ymm3, %ymm9, %ymm15 3518vpaddw %ymm12, %ymm15, %ymm12 3519vpmullw %ymm4, %ymm8, %ymm15 3520vpaddw %ymm12, %ymm15, %ymm12 3521vmovdqa %ymm12, 9280(%rsp) 3522vpmullw %ymm3, %ymm10, %ymm13 3523vpmullw %ymm4, %ymm9, %ymm15 3524vpaddw %ymm13, %ymm15, %ymm13 3525vmovdqa %ymm13, 9312(%rsp) 3526vpmullw %ymm4, %ymm10, %ymm12 3527vmovdqa %ymm12, 9344(%rsp) 3528vpaddw 6944(%rsp), %ymm0, %ymm0 3529vpaddw 7648(%rsp), %ymm6, %ymm6 3530vpaddw 6976(%rsp), %ymm1, %ymm1 3531vpaddw 7680(%rsp), %ymm7, %ymm7 3532vpaddw 7008(%rsp), %ymm2, %ymm2 3533vpaddw 7712(%rsp), %ymm8, %ymm8 3534vpaddw 7040(%rsp), %ymm3, %ymm3 3535vpaddw 7744(%rsp), %ymm9, %ymm9 3536vpaddw 7072(%rsp), %ymm4, %ymm4 3537vpaddw 7776(%rsp), %ymm10, %ymm10 3538vpmullw %ymm0, %ymm11, %ymm12 3539vpmullw %ymm1, %ymm10, %ymm15 3540vpaddw %ymm15, %ymm12, %ymm12 3541vpmullw %ymm2, %ymm9, %ymm15 3542vpaddw %ymm15, %ymm12, %ymm12 3543vpmullw %ymm3, %ymm8, %ymm15 3544vpaddw %ymm15, %ymm12, %ymm12 3545vpmullw %ymm4, %ymm7, %ymm15 3546vpaddw %ymm15, %ymm12, %ymm12 3547vpmullw %ymm5, %ymm6, %ymm15 3548vpaddw %ymm15, %ymm12, %ymm12 3549vpsubw 8864(%rsp), %ymm12, %ymm12 3550vpsubw 9248(%rsp), %ymm12, %ymm12 3551vmovdqa %ymm12, 9056(%rsp) 3552vpmullw %ymm5, %ymm7, %ymm12 3553vpmullw %ymm5, %ymm8, %ymm13 3554vpmullw %ymm5, %ymm9, %ymm14 3555vpmullw %ymm5, %ymm10, %ymm15 3556vpmullw %ymm1, %ymm11, %ymm5 3557vpaddw %ymm5, %ymm12, %ymm12 3558vpmullw %ymm2, %ymm10, %ymm5 3559vpaddw %ymm5, %ymm12, %ymm12 3560vpmullw %ymm3, %ymm9, %ymm5 3561vpaddw %ymm5, %ymm12, %ymm12 3562vpmullw %ymm4, %ymm8, %ymm5 3563vpaddw %ymm5, %ymm12, %ymm12 3564vpmullw %ymm2, %ymm11, %ymm5 3565vpaddw %ymm5, %ymm13, %ymm13 3566vpmullw %ymm3, %ymm10, %ymm5 3567vpaddw %ymm5, %ymm13, %ymm13 3568vpmullw %ymm4, %ymm9, %ymm5 3569vpaddw %ymm5, %ymm13, %ymm13 3570vpmullw %ymm3, %ymm11, %ymm5 3571vpaddw %ymm5, %ymm14, %ymm14 3572vpmullw %ymm4, %ymm10, %ymm5 3573vpaddw %ymm5, %ymm14, %ymm14 3574vpmullw %ymm4, %ymm11, %ymm5 3575vpaddw %ymm5, %ymm15, %ymm15 3576vpmullw %ymm0, %ymm10, %ymm11 3577vpmullw %ymm1, %ymm9, %ymm5 3578vpaddw %ymm5, %ymm11, %ymm11 3579vpmullw %ymm2, %ymm8, %ymm5 3580vpaddw %ymm5, %ymm11, %ymm11 3581vpmullw %ymm3, %ymm7, %ymm5 3582vpaddw %ymm5, %ymm11, %ymm11 3583vpmullw %ymm4, %ymm6, %ymm5 3584vpaddw %ymm5, %ymm11, %ymm11 3585vpmullw %ymm0, %ymm9, %ymm10 3586vpmullw %ymm1, %ymm8, %ymm5 3587vpaddw %ymm5, %ymm10, %ymm10 3588vpmullw %ymm2, %ymm7, %ymm5 3589vpaddw %ymm5, %ymm10, %ymm10 3590vpmullw %ymm3, %ymm6, %ymm5 3591vpaddw %ymm5, %ymm10, %ymm10 3592vpmullw %ymm0, %ymm8, %ymm9 3593vpmullw %ymm1, %ymm7, %ymm5 3594vpaddw %ymm5, %ymm9, %ymm9 3595vpmullw %ymm2, %ymm6, %ymm5 3596vpaddw %ymm5, %ymm9, %ymm9 3597vpmullw %ymm0, %ymm7, %ymm8 3598vpmullw %ymm1, %ymm6, %ymm5 3599vpaddw %ymm5, %ymm8, %ymm8 3600vpmullw %ymm0, %ymm6, %ymm7 3601vmovdqa 8896(%rsp), %ymm0 3602vpsubw 9088(%rsp), %ymm0, %ymm0 3603vpsubw %ymm0, %ymm12, %ymm6 3604vpsubw 9280(%rsp), %ymm6, %ymm6 3605vmovdqa %ymm6, 9088(%rsp) 3606vpaddw %ymm7, %ymm0, %ymm0 3607vpsubw 8704(%rsp), %ymm0, %ymm0 3608vmovdqa %ymm0, 8896(%rsp) 3609vmovdqa 8928(%rsp), %ymm1 3610vpsubw 9120(%rsp), %ymm1, %ymm1 3611vpsubw %ymm1, %ymm13, %ymm7 3612vpsubw 9312(%rsp), %ymm7, %ymm7 3613vmovdqa %ymm7, 9120(%rsp) 3614vpaddw %ymm8, %ymm1, %ymm1 3615vpsubw 8736(%rsp), %ymm1, %ymm1 3616vmovdqa %ymm1, 8928(%rsp) 3617vmovdqa 8960(%rsp), %ymm2 3618vpsubw 9152(%rsp), %ymm2, %ymm2 3619vpsubw %ymm2, %ymm14, %ymm8 3620vpsubw 9344(%rsp), %ymm8, %ymm8 3621vmovdqa %ymm8, 9152(%rsp) 3622vpaddw %ymm9, %ymm2, %ymm2 3623vpsubw 8768(%rsp), %ymm2, %ymm2 3624vmovdqa %ymm2, 8960(%rsp) 3625vmovdqa 8992(%rsp), %ymm3 3626vpsubw 9184(%rsp), %ymm3, %ymm3 3627vpsubw %ymm3, %ymm15, %ymm9 3628vmovdqa %ymm9, 9184(%rsp) 3629vpaddw %ymm10, %ymm3, %ymm3 3630vpsubw 8800(%rsp), %ymm3, %ymm3 3631vmovdqa %ymm3, 8992(%rsp) 3632vmovdqa 9024(%rsp), %ymm4 3633vpsubw 9216(%rsp), %ymm4, %ymm4 3634vpaddw %ymm11, %ymm4, %ymm4 3635vpsubw 8832(%rsp), %ymm4, %ymm4 3636vmovdqa %ymm4, 9024(%rsp) 3637vmovdqa 6592(%rsp), %ymm0 3638vmovdqa 7296(%rsp), %ymm6 3639vpaddw 6944(%rsp), %ymm0, %ymm0 3640vpaddw 7648(%rsp), %ymm6, %ymm6 3641vmovdqa 6624(%rsp), %ymm1 3642vmovdqa 7328(%rsp), %ymm7 3643vpaddw 6976(%rsp), %ymm1, %ymm1 3644vpaddw 7680(%rsp), %ymm7, %ymm7 3645vmovdqa 6656(%rsp), %ymm2 3646vmovdqa 7360(%rsp), %ymm8 3647vpaddw 7008(%rsp), %ymm2, %ymm2 3648vpaddw 7712(%rsp), %ymm8, %ymm8 3649vmovdqa 6688(%rsp), %ymm3 3650vmovdqa 7392(%rsp), %ymm9 3651vpaddw 7040(%rsp), %ymm3, %ymm3 3652vpaddw 7744(%rsp), %ymm9, %ymm9 3653vmovdqa 6720(%rsp), %ymm4 3654vmovdqa 7424(%rsp), %ymm10 3655vpaddw 7072(%rsp), %ymm4, %ymm4 3656vpaddw 7776(%rsp), %ymm10, %ymm10 3657vmovdqa 6752(%rsp), %ymm5 3658vmovdqa 7456(%rsp), %ymm11 3659vpaddw 7104(%rsp), %ymm5, %ymm5 3660vpaddw 7808(%rsp), %ymm11, %ymm11 3661vpmullw %ymm0, %ymm6, %ymm12 3662vmovdqa %ymm12, 5888(%rsp) 3663vpmullw %ymm0, %ymm7, %ymm13 3664vpmullw %ymm1, %ymm6, %ymm15 3665vpaddw %ymm13, %ymm15, %ymm13 3666vmovdqa %ymm13, 5920(%rsp) 3667vpmullw %ymm0, %ymm8, %ymm12 3668vpmullw %ymm1, %ymm7, %ymm15 3669vpaddw %ymm12, %ymm15, %ymm12 3670vpmullw %ymm2, %ymm6, %ymm15 3671vpaddw %ymm12, %ymm15, %ymm12 3672vmovdqa %ymm12, 5952(%rsp) 3673vpmullw %ymm0, %ymm9, %ymm13 3674vpmullw %ymm1, %ymm8, %ymm15 3675vpaddw %ymm13, %ymm15, %ymm13 3676vpmullw %ymm2, %ymm7, %ymm15 3677vpaddw %ymm13, %ymm15, %ymm13 3678vpmullw %ymm3, %ymm6, %ymm15 3679vpaddw %ymm13, %ymm15, %ymm13 3680vmovdqa %ymm13, 5984(%rsp) 3681vpmullw %ymm0, %ymm10, %ymm12 3682vpmullw %ymm1, %ymm9, %ymm15 3683vpaddw %ymm12, %ymm15, %ymm12 3684vpmullw %ymm2, %ymm8, %ymm15 3685vpaddw %ymm12, %ymm15, %ymm12 3686vpmullw %ymm3, %ymm7, %ymm15 3687vpaddw %ymm12, %ymm15, %ymm12 3688vpmullw %ymm4, %ymm6, %ymm15 3689vpaddw %ymm12, %ymm15, %ymm12 3690vmovdqa %ymm12, 6016(%rsp) 3691vpmullw %ymm0, %ymm11, %ymm13 3692vpmullw %ymm1, %ymm10, %ymm15 3693vpaddw %ymm13, %ymm15, %ymm13 3694vpmullw %ymm2, %ymm9, %ymm15 3695vpaddw %ymm13, %ymm15, %ymm13 3696vpmullw %ymm3, %ymm8, %ymm15 3697vpaddw %ymm13, %ymm15, %ymm13 3698vpmullw %ymm4, %ymm7, %ymm15 3699vpaddw %ymm13, %ymm15, %ymm13 3700vpmullw %ymm5, %ymm6, %ymm15 3701vpaddw %ymm13, %ymm15, %ymm13 3702vmovdqa %ymm13, 6048(%rsp) 3703vpmullw %ymm1, %ymm11, %ymm12 3704vpmullw %ymm2, %ymm10, %ymm15 3705vpaddw %ymm12, %ymm15, %ymm12 3706vpmullw %ymm3, %ymm9, %ymm15 3707vpaddw %ymm12, %ymm15, %ymm12 3708vpmullw %ymm4, %ymm8, %ymm15 3709vpaddw %ymm12, %ymm15, %ymm12 3710vpmullw %ymm5, %ymm7, %ymm15 3711vpaddw %ymm12, %ymm15, %ymm12 3712vmovdqa %ymm12, 6080(%rsp) 3713vpmullw %ymm2, %ymm11, %ymm13 3714vpmullw %ymm3, %ymm10, %ymm15 3715vpaddw %ymm13, %ymm15, %ymm13 3716vpmullw %ymm4, %ymm9, %ymm15 3717vpaddw %ymm13, %ymm15, %ymm13 3718vpmullw %ymm5, %ymm8, %ymm15 3719vpaddw %ymm13, %ymm15, %ymm13 3720vmovdqa %ymm13, 6112(%rsp) 3721vpmullw %ymm3, %ymm11, %ymm12 3722vpmullw %ymm4, %ymm10, %ymm15 3723vpaddw %ymm12, %ymm15, %ymm12 3724vpmullw %ymm5, %ymm9, %ymm15 3725vpaddw %ymm12, %ymm15, %ymm12 3726vmovdqa %ymm12, 6144(%rsp) 3727vpmullw %ymm4, %ymm11, %ymm13 3728vpmullw %ymm5, %ymm10, %ymm15 3729vpaddw %ymm13, %ymm15, %ymm13 3730vmovdqa %ymm13, 6176(%rsp) 3731vpmullw %ymm5, %ymm11, %ymm12 3732vmovdqa %ymm12, 6208(%rsp) 3733vmovdqa 6784(%rsp), %ymm0 3734vmovdqa 7488(%rsp), %ymm6 3735vpaddw 7136(%rsp), %ymm0, %ymm0 3736vpaddw 7840(%rsp), %ymm6, %ymm6 3737vmovdqa 6816(%rsp), %ymm1 3738vmovdqa 7520(%rsp), %ymm7 3739vpaddw 7168(%rsp), %ymm1, %ymm1 3740vpaddw 7872(%rsp), %ymm7, %ymm7 3741vmovdqa 6848(%rsp), %ymm2 3742vmovdqa 7552(%rsp), %ymm8 3743vpaddw 7200(%rsp), %ymm2, %ymm2 3744vpaddw 7904(%rsp), %ymm8, %ymm8 3745vmovdqa 6880(%rsp), %ymm3 3746vmovdqa 7584(%rsp), %ymm9 3747vpaddw 7232(%rsp), %ymm3, %ymm3 3748vpaddw 7936(%rsp), %ymm9, %ymm9 3749vmovdqa 6912(%rsp), %ymm4 3750vmovdqa 7616(%rsp), %ymm10 3751vpaddw 7264(%rsp), %ymm4, %ymm4 3752vpaddw 7968(%rsp), %ymm10, %ymm10 3753vpmullw %ymm0, %ymm6, %ymm12 3754vmovdqa %ymm12, 6272(%rsp) 3755vpmullw %ymm0, %ymm7, %ymm13 3756vpmullw %ymm1, %ymm6, %ymm15 3757vpaddw %ymm13, %ymm15, %ymm13 3758vmovdqa %ymm13, 6304(%rsp) 3759vpmullw %ymm0, %ymm8, %ymm12 3760vpmullw %ymm1, %ymm7, %ymm15 3761vpaddw %ymm12, %ymm15, %ymm12 3762vpmullw %ymm2, %ymm6, %ymm15 3763vpaddw %ymm12, %ymm15, %ymm12 3764vmovdqa %ymm12, 6336(%rsp) 3765vpmullw %ymm0, %ymm9, %ymm13 3766vpmullw %ymm1, %ymm8, %ymm15 3767vpaddw %ymm13, %ymm15, %ymm13 3768vpmullw %ymm2, %ymm7, %ymm15 3769vpaddw %ymm13, %ymm15, %ymm13 3770vpmullw %ymm3, %ymm6, %ymm15 3771vpaddw %ymm13, %ymm15, %ymm13 3772vmovdqa %ymm13, 6368(%rsp) 3773vpmullw %ymm0, %ymm10, %ymm12 3774vpmullw %ymm1, %ymm9, %ymm15 3775vpaddw %ymm12, %ymm15, %ymm12 3776vpmullw %ymm2, %ymm8, %ymm15 3777vpaddw %ymm12, %ymm15, %ymm12 3778vpmullw %ymm3, %ymm7, %ymm15 3779vpaddw %ymm12, %ymm15, %ymm12 3780vpmullw %ymm4, %ymm6, %ymm15 3781vpaddw %ymm12, %ymm15, %ymm12 3782vmovdqa %ymm12, 6400(%rsp) 3783vpmullw %ymm1, %ymm10, %ymm13 3784vpmullw %ymm2, %ymm9, %ymm15 3785vpaddw %ymm13, %ymm15, %ymm13 3786vpmullw %ymm3, %ymm8, %ymm15 3787vpaddw %ymm13, %ymm15, %ymm13 3788vpmullw %ymm4, %ymm7, %ymm15 3789vpaddw %ymm13, %ymm15, %ymm13 3790vmovdqa %ymm13, 6432(%rsp) 3791vpmullw %ymm2, %ymm10, %ymm12 3792vpmullw %ymm3, %ymm9, %ymm15 3793vpaddw %ymm12, %ymm15, %ymm12 3794vpmullw %ymm4, %ymm8, %ymm15 3795vpaddw %ymm12, %ymm15, %ymm12 3796vmovdqa %ymm12, 6464(%rsp) 3797vpmullw %ymm3, %ymm10, %ymm13 3798vpmullw %ymm4, %ymm9, %ymm15 3799vpaddw %ymm13, %ymm15, %ymm13 3800vmovdqa %ymm13, 6496(%rsp) 3801vpmullw %ymm4, %ymm10, %ymm12 3802vmovdqa %ymm12, 6528(%rsp) 3803vpaddw 6592(%rsp), %ymm0, %ymm0 3804vpaddw 7296(%rsp), %ymm6, %ymm6 3805vpaddw 6944(%rsp), %ymm0, %ymm0 3806vpaddw 7648(%rsp), %ymm6, %ymm6 3807vpaddw 6624(%rsp), %ymm1, %ymm1 3808vpaddw 7328(%rsp), %ymm7, %ymm7 3809vpaddw 6976(%rsp), %ymm1, %ymm1 3810vpaddw 7680(%rsp), %ymm7, %ymm7 3811vpaddw 6656(%rsp), %ymm2, %ymm2 3812vpaddw 7360(%rsp), %ymm8, %ymm8 3813vpaddw 7008(%rsp), %ymm2, %ymm2 3814vpaddw 7712(%rsp), %ymm8, %ymm8 3815vpaddw 6688(%rsp), %ymm3, %ymm3 3816vpaddw 7392(%rsp), %ymm9, %ymm9 3817vpaddw 7040(%rsp), %ymm3, %ymm3 3818vpaddw 7744(%rsp), %ymm9, %ymm9 3819vpaddw 6720(%rsp), %ymm4, %ymm4 3820vpaddw 7424(%rsp), %ymm10, %ymm10 3821vpaddw 7072(%rsp), %ymm4, %ymm4 3822vpaddw 7776(%rsp), %ymm10, %ymm10 3823vpmullw %ymm0, %ymm11, %ymm12 3824vpmullw %ymm1, %ymm10, %ymm15 3825vpaddw %ymm15, %ymm12, %ymm12 3826vpmullw %ymm2, %ymm9, %ymm15 3827vpaddw %ymm15, %ymm12, %ymm12 3828vpmullw %ymm3, %ymm8, %ymm15 3829vpaddw %ymm15, %ymm12, %ymm12 3830vpmullw %ymm4, %ymm7, %ymm15 3831vpaddw %ymm15, %ymm12, %ymm12 3832vpmullw %ymm5, %ymm6, %ymm15 3833vpaddw %ymm15, %ymm12, %ymm12 3834vpsubw 6048(%rsp), %ymm12, %ymm12 3835vpsubw 6432(%rsp), %ymm12, %ymm12 3836vmovdqa %ymm12, 6240(%rsp) 3837vpmullw %ymm5, %ymm7, %ymm12 3838vpmullw %ymm5, %ymm8, %ymm13 3839vpmullw %ymm5, %ymm9, %ymm14 3840vpmullw %ymm5, %ymm10, %ymm15 3841vpmullw %ymm1, %ymm11, %ymm5 3842vpaddw %ymm5, %ymm12, %ymm12 3843vpmullw %ymm2, %ymm10, %ymm5 3844vpaddw %ymm5, %ymm12, %ymm12 3845vpmullw %ymm3, %ymm9, %ymm5 3846vpaddw %ymm5, %ymm12, %ymm12 3847vpmullw %ymm4, %ymm8, %ymm5 3848vpaddw %ymm5, %ymm12, %ymm12 3849vpmullw %ymm2, %ymm11, %ymm5 3850vpaddw %ymm5, %ymm13, %ymm13 3851vpmullw %ymm3, %ymm10, %ymm5 3852vpaddw %ymm5, %ymm13, %ymm13 3853vpmullw %ymm4, %ymm9, %ymm5 3854vpaddw %ymm5, %ymm13, %ymm13 3855vpmullw %ymm3, %ymm11, %ymm5 3856vpaddw %ymm5, %ymm14, %ymm14 3857vpmullw %ymm4, %ymm10, %ymm5 3858vpaddw %ymm5, %ymm14, %ymm14 3859vpmullw %ymm4, %ymm11, %ymm5 3860vpaddw %ymm5, %ymm15, %ymm15 3861vpmullw %ymm0, %ymm10, %ymm11 3862vpmullw %ymm1, %ymm9, %ymm5 3863vpaddw %ymm5, %ymm11, %ymm11 3864vpmullw %ymm2, %ymm8, %ymm5 3865vpaddw %ymm5, %ymm11, %ymm11 3866vpmullw %ymm3, %ymm7, %ymm5 3867vpaddw %ymm5, %ymm11, %ymm11 3868vpmullw %ymm4, %ymm6, %ymm5 3869vpaddw %ymm5, %ymm11, %ymm11 3870vpmullw %ymm0, %ymm9, %ymm10 3871vpmullw %ymm1, %ymm8, %ymm5 3872vpaddw %ymm5, %ymm10, %ymm10 3873vpmullw %ymm2, %ymm7, %ymm5 3874vpaddw %ymm5, %ymm10, %ymm10 3875vpmullw %ymm3, %ymm6, %ymm5 3876vpaddw %ymm5, %ymm10, %ymm10 3877vpmullw %ymm0, %ymm8, %ymm9 3878vpmullw %ymm1, %ymm7, %ymm5 3879vpaddw %ymm5, %ymm9, %ymm9 3880vpmullw %ymm2, %ymm6, %ymm5 3881vpaddw %ymm5, %ymm9, %ymm9 3882vpmullw %ymm0, %ymm7, %ymm8 3883vpmullw %ymm1, %ymm6, %ymm5 3884vpaddw %ymm5, %ymm8, %ymm8 3885vpmullw %ymm0, %ymm6, %ymm7 3886vmovdqa 6080(%rsp), %ymm0 3887vpsubw 6272(%rsp), %ymm0, %ymm0 3888vpsubw %ymm0, %ymm12, %ymm6 3889vpsubw 6464(%rsp), %ymm6, %ymm6 3890vmovdqa %ymm6, 6272(%rsp) 3891vpaddw %ymm7, %ymm0, %ymm0 3892vpsubw 5888(%rsp), %ymm0, %ymm0 3893vmovdqa %ymm0, 6080(%rsp) 3894vmovdqa 6112(%rsp), %ymm1 3895vpsubw 6304(%rsp), %ymm1, %ymm1 3896vpsubw %ymm1, %ymm13, %ymm7 3897vpsubw 6496(%rsp), %ymm7, %ymm7 3898vmovdqa %ymm7, 6304(%rsp) 3899vpaddw %ymm8, %ymm1, %ymm1 3900vpsubw 5920(%rsp), %ymm1, %ymm1 3901vmovdqa %ymm1, 6112(%rsp) 3902vmovdqa 6144(%rsp), %ymm2 3903vpsubw 6336(%rsp), %ymm2, %ymm2 3904vpsubw %ymm2, %ymm14, %ymm8 3905vpsubw 6528(%rsp), %ymm8, %ymm8 3906vmovdqa %ymm8, 6336(%rsp) 3907vpaddw %ymm9, %ymm2, %ymm2 3908vpsubw 5952(%rsp), %ymm2, %ymm2 3909vmovdqa %ymm2, 6144(%rsp) 3910vmovdqa 6176(%rsp), %ymm3 3911vpsubw 6368(%rsp), %ymm3, %ymm3 3912vpsubw %ymm3, %ymm15, %ymm9 3913vmovdqa %ymm9, 6368(%rsp) 3914vpaddw %ymm10, %ymm3, %ymm3 3915vpsubw 5984(%rsp), %ymm3, %ymm3 3916vmovdqa %ymm3, 6176(%rsp) 3917vmovdqa 6208(%rsp), %ymm4 3918vpsubw 6400(%rsp), %ymm4, %ymm4 3919vpaddw %ymm11, %ymm4, %ymm4 3920vpsubw 6016(%rsp), %ymm4, %ymm4 3921vmovdqa %ymm4, 6208(%rsp) 3922vmovdqa 8352(%rsp), %ymm0 3923vpsubw 8704(%rsp), %ymm0, %ymm0 3924vmovdqa 6240(%rsp), %ymm1 3925vpsubw %ymm0, %ymm1, %ymm1 3926vpsubw 9056(%rsp), %ymm1, %ymm6 3927vpsubw 8000(%rsp), %ymm0, %ymm0 3928vpaddw 5888(%rsp), %ymm0, %ymm0 3929vmovdqa %ymm0, 8352(%rsp) 3930vmovdqa 8384(%rsp), %ymm0 3931vpsubw 8736(%rsp), %ymm0, %ymm0 3932vmovdqa 6272(%rsp), %ymm1 3933vpsubw %ymm0, %ymm1, %ymm1 3934vpsubw 9088(%rsp), %ymm1, %ymm7 3935vpsubw 8032(%rsp), %ymm0, %ymm0 3936vpaddw 5920(%rsp), %ymm0, %ymm0 3937vmovdqa %ymm0, 8384(%rsp) 3938vmovdqa 8416(%rsp), %ymm0 3939vpsubw 8768(%rsp), %ymm0, %ymm0 3940vmovdqa 6304(%rsp), %ymm1 3941vpsubw %ymm0, %ymm1, %ymm1 3942vpsubw 9120(%rsp), %ymm1, %ymm8 3943vpsubw 8064(%rsp), %ymm0, %ymm0 3944vpaddw 5952(%rsp), %ymm0, %ymm0 3945vmovdqa %ymm0, 8416(%rsp) 3946vmovdqa 8448(%rsp), %ymm0 3947vpsubw 8800(%rsp), %ymm0, %ymm0 3948vmovdqa 6336(%rsp), %ymm1 3949vpsubw %ymm0, %ymm1, %ymm1 3950vpsubw 9152(%rsp), %ymm1, %ymm9 3951vpsubw 8096(%rsp), %ymm0, %ymm0 3952vpaddw 5984(%rsp), %ymm0, %ymm0 3953vmovdqa %ymm0, 8448(%rsp) 3954vmovdqa 8480(%rsp), %ymm0 3955vpsubw 8832(%rsp), %ymm0, %ymm0 3956vmovdqa 6368(%rsp), %ymm1 3957vpsubw %ymm0, %ymm1, %ymm1 3958vpsubw 9184(%rsp), %ymm1, %ymm10 3959vpsubw 8128(%rsp), %ymm0, %ymm0 3960vpaddw 6016(%rsp), %ymm0, %ymm0 3961vmovdqa %ymm0, 8480(%rsp) 3962vmovdqa 8512(%rsp), %ymm0 3963vpsubw 8864(%rsp), %ymm0, %ymm0 3964vmovdqa 6400(%rsp), %ymm1 3965vpsubw %ymm0, %ymm1, %ymm1 3966vpsubw 9216(%rsp), %ymm1, %ymm11 3967vpsubw 8160(%rsp), %ymm0, %ymm0 3968vpaddw 6048(%rsp), %ymm0, %ymm0 3969vmovdqa %ymm0, 8512(%rsp) 3970vmovdqa 8544(%rsp), %ymm0 3971vpsubw 8896(%rsp), %ymm0, %ymm0 3972vmovdqa 6432(%rsp), %ymm1 3973vpsubw %ymm0, %ymm1, %ymm1 3974vpsubw 9248(%rsp), %ymm1, %ymm12 3975vpsubw 8192(%rsp), %ymm0, %ymm0 3976vpaddw 6080(%rsp), %ymm0, %ymm0 3977vmovdqa %ymm0, 8544(%rsp) 3978vmovdqa 8576(%rsp), %ymm0 3979vpsubw 8928(%rsp), %ymm0, %ymm0 3980vmovdqa 6464(%rsp), %ymm1 3981vpsubw %ymm0, %ymm1, %ymm1 3982vpsubw 9280(%rsp), %ymm1, %ymm13 3983vpsubw 8224(%rsp), %ymm0, %ymm0 3984vpaddw 6112(%rsp), %ymm0, %ymm0 3985vmovdqa %ymm0, 8576(%rsp) 3986vmovdqa 8608(%rsp), %ymm0 3987vpsubw 8960(%rsp), %ymm0, %ymm0 3988vmovdqa 6496(%rsp), %ymm1 3989vpsubw %ymm0, %ymm1, %ymm1 3990vpsubw 9312(%rsp), %ymm1, %ymm14 3991vpsubw 8256(%rsp), %ymm0, %ymm0 3992vpaddw 6144(%rsp), %ymm0, %ymm0 3993vmovdqa %ymm0, 8608(%rsp) 3994vmovdqa 8640(%rsp), %ymm0 3995vpsubw 8992(%rsp), %ymm0, %ymm0 3996vmovdqa 6528(%rsp), %ymm1 3997vpsubw %ymm0, %ymm1, %ymm1 3998vpsubw 9344(%rsp), %ymm1, %ymm15 3999vpsubw 8288(%rsp), %ymm0, %ymm0 4000vpaddw 6176(%rsp), %ymm0, %ymm0 4001vmovdqa %ymm0, 8640(%rsp) 4002vmovdqa 6208(%rsp), %ymm0 4003vpsubw 8320(%rsp), %ymm0, %ymm0 4004vpsubw 9024(%rsp), %ymm0, %ymm0 4005vpsubw 3488(%r10), %ymm0, %ymm0 4006vpsubw 4896(%r10), %ymm0, %ymm0 4007vmovdqa %ymm0, 4192(%r10) 4008vmovdqa 3520(%r10), %ymm0 4009vpsubw 4224(%r10), %ymm0, %ymm0 4010vpsubw %ymm0, %ymm6, %ymm6 4011vpsubw 4928(%r10), %ymm6, %ymm6 4012vpsubw 2816(%r10), %ymm0, %ymm0 4013vpaddw 8000(%rsp), %ymm0, %ymm0 4014vmovdqa %ymm0, 3520(%r10) 4015vmovdqa %ymm6, 4224(%r10) 4016vmovdqa 3552(%r10), %ymm0 4017vpsubw 4256(%r10), %ymm0, %ymm0 4018vpsubw %ymm0, %ymm7, %ymm7 4019vpsubw 4960(%r10), %ymm7, %ymm7 4020vpsubw 2848(%r10), %ymm0, %ymm0 4021vpaddw 8032(%rsp), %ymm0, %ymm0 4022vmovdqa %ymm0, 3552(%r10) 4023vmovdqa %ymm7, 4256(%r10) 4024vmovdqa 3584(%r10), %ymm0 4025vpsubw 4288(%r10), %ymm0, %ymm0 4026vpsubw %ymm0, %ymm8, %ymm8 4027vpsubw 4992(%r10), %ymm8, %ymm8 4028vpsubw 2880(%r10), %ymm0, %ymm0 4029vpaddw 8064(%rsp), %ymm0, %ymm0 4030vmovdqa %ymm0, 3584(%r10) 4031vmovdqa %ymm8, 4288(%r10) 4032vmovdqa 3616(%r10), %ymm0 4033vpsubw 4320(%r10), %ymm0, %ymm0 4034vpsubw %ymm0, %ymm9, %ymm9 4035vpsubw 5024(%r10), %ymm9, %ymm9 4036vpsubw 2912(%r10), %ymm0, %ymm0 4037vpaddw 8096(%rsp), %ymm0, %ymm0 4038vmovdqa %ymm0, 3616(%r10) 4039vmovdqa %ymm9, 4320(%r10) 4040vmovdqa 3648(%r10), %ymm0 4041vpsubw 4352(%r10), %ymm0, %ymm0 4042vpsubw %ymm0, %ymm10, %ymm10 4043vpsubw 5056(%r10), %ymm10, %ymm10 4044vpsubw 2944(%r10), %ymm0, %ymm0 4045vpaddw 8128(%rsp), %ymm0, %ymm0 4046vmovdqa %ymm0, 3648(%r10) 4047vmovdqa %ymm10, 4352(%r10) 4048vmovdqa 3680(%r10), %ymm0 4049vpsubw 4384(%r10), %ymm0, %ymm0 4050vpsubw %ymm0, %ymm11, %ymm11 4051vpsubw 5088(%r10), %ymm11, %ymm11 4052vpsubw 2976(%r10), %ymm0, %ymm0 4053vpaddw 8160(%rsp), %ymm0, %ymm0 4054vmovdqa %ymm0, 3680(%r10) 4055vmovdqa %ymm11, 4384(%r10) 4056vmovdqa 3712(%r10), %ymm0 4057vpsubw 4416(%r10), %ymm0, %ymm0 4058vpsubw %ymm0, %ymm12, %ymm12 4059vpsubw 5120(%r10), %ymm12, %ymm12 4060vpsubw 3008(%r10), %ymm0, %ymm0 4061vpaddw 8192(%rsp), %ymm0, %ymm0 4062vmovdqa %ymm0, 3712(%r10) 4063vmovdqa %ymm12, 4416(%r10) 4064vmovdqa 3744(%r10), %ymm0 4065vpsubw 4448(%r10), %ymm0, %ymm0 4066vpsubw %ymm0, %ymm13, %ymm13 4067vpsubw 5152(%r10), %ymm13, %ymm13 4068vpsubw 3040(%r10), %ymm0, %ymm0 4069vpaddw 8224(%rsp), %ymm0, %ymm0 4070vmovdqa %ymm0, 3744(%r10) 4071vmovdqa %ymm13, 4448(%r10) 4072vmovdqa 3776(%r10), %ymm0 4073vpsubw 4480(%r10), %ymm0, %ymm0 4074vpsubw %ymm0, %ymm14, %ymm14 4075vpsubw 5184(%r10), %ymm14, %ymm14 4076vpsubw 3072(%r10), %ymm0, %ymm0 4077vpaddw 8256(%rsp), %ymm0, %ymm0 4078vmovdqa %ymm0, 3776(%r10) 4079vmovdqa %ymm14, 4480(%r10) 4080vmovdqa 3808(%r10), %ymm0 4081vpsubw 4512(%r10), %ymm0, %ymm0 4082vpsubw %ymm0, %ymm15, %ymm15 4083vpsubw 5216(%r10), %ymm15, %ymm15 4084vpsubw 3104(%r10), %ymm0, %ymm0 4085vpaddw 8288(%rsp), %ymm0, %ymm0 4086vmovdqa %ymm0, 3808(%r10) 4087vmovdqa %ymm15, 4512(%r10) 4088vmovdqa 3840(%r10), %ymm0 4089vpsubw 4544(%r10), %ymm0, %ymm0 4090vmovdqa 9024(%rsp), %ymm1 4091vpsubw %ymm0, %ymm1, %ymm1 4092vpsubw 5248(%r10), %ymm1, %ymm1 4093vpsubw 3136(%r10), %ymm0, %ymm0 4094vpaddw 8320(%rsp), %ymm0, %ymm0 4095vmovdqa %ymm0, 3840(%r10) 4096vmovdqa %ymm1, 4544(%r10) 4097vmovdqa 3872(%r10), %ymm0 4098vpsubw 4576(%r10), %ymm0, %ymm0 4099vmovdqa 9056(%rsp), %ymm1 4100vpsubw %ymm0, %ymm1, %ymm1 4101vpsubw 5280(%r10), %ymm1, %ymm1 4102vpsubw 3168(%r10), %ymm0, %ymm0 4103vpaddw 8352(%rsp), %ymm0, %ymm0 4104vmovdqa %ymm0, 3872(%r10) 4105vmovdqa %ymm1, 4576(%r10) 4106vmovdqa 3904(%r10), %ymm0 4107vpsubw 4608(%r10), %ymm0, %ymm0 4108vmovdqa 9088(%rsp), %ymm1 4109vpsubw %ymm0, %ymm1, %ymm1 4110vpsubw 5312(%r10), %ymm1, %ymm1 4111vpsubw 3200(%r10), %ymm0, %ymm0 4112vpaddw 8384(%rsp), %ymm0, %ymm0 4113vmovdqa %ymm0, 3904(%r10) 4114vmovdqa %ymm1, 4608(%r10) 4115vmovdqa 3936(%r10), %ymm0 4116vpsubw 4640(%r10), %ymm0, %ymm0 4117vmovdqa 9120(%rsp), %ymm1 4118vpsubw %ymm0, %ymm1, %ymm1 4119vpsubw 5344(%r10), %ymm1, %ymm1 4120vpsubw 3232(%r10), %ymm0, %ymm0 4121vpaddw 8416(%rsp), %ymm0, %ymm0 4122vmovdqa %ymm0, 3936(%r10) 4123vmovdqa %ymm1, 4640(%r10) 4124vmovdqa 3968(%r10), %ymm0 4125vpsubw 4672(%r10), %ymm0, %ymm0 4126vmovdqa 9152(%rsp), %ymm1 4127vpsubw %ymm0, %ymm1, %ymm1 4128vpsubw 5376(%r10), %ymm1, %ymm1 4129vpsubw 3264(%r10), %ymm0, %ymm0 4130vpaddw 8448(%rsp), %ymm0, %ymm0 4131vmovdqa %ymm0, 3968(%r10) 4132vmovdqa %ymm1, 4672(%r10) 4133vmovdqa 4000(%r10), %ymm0 4134vpsubw 4704(%r10), %ymm0, %ymm0 4135vmovdqa 9184(%rsp), %ymm1 4136vpsubw %ymm0, %ymm1, %ymm1 4137vpsubw 5408(%r10), %ymm1, %ymm1 4138vpsubw 3296(%r10), %ymm0, %ymm0 4139vpaddw 8480(%rsp), %ymm0, %ymm0 4140vmovdqa %ymm0, 4000(%r10) 4141vmovdqa %ymm1, 4704(%r10) 4142vmovdqa 4032(%r10), %ymm0 4143vpsubw 4736(%r10), %ymm0, %ymm0 4144vmovdqa 9216(%rsp), %ymm1 4145vpsubw %ymm0, %ymm1, %ymm1 4146vpsubw 5440(%r10), %ymm1, %ymm1 4147vpsubw 3328(%r10), %ymm0, %ymm0 4148vpaddw 8512(%rsp), %ymm0, %ymm0 4149vmovdqa %ymm0, 4032(%r10) 4150vmovdqa %ymm1, 4736(%r10) 4151vmovdqa 4064(%r10), %ymm0 4152vpsubw 4768(%r10), %ymm0, %ymm0 4153vmovdqa 9248(%rsp), %ymm1 4154vpsubw %ymm0, %ymm1, %ymm1 4155vpsubw 5472(%r10), %ymm1, %ymm1 4156vpsubw 3360(%r10), %ymm0, %ymm0 4157vpaddw 8544(%rsp), %ymm0, %ymm0 4158vmovdqa %ymm0, 4064(%r10) 4159vmovdqa %ymm1, 4768(%r10) 4160vmovdqa 4096(%r10), %ymm0 4161vpsubw 4800(%r10), %ymm0, %ymm0 4162vmovdqa 9280(%rsp), %ymm1 4163vpsubw %ymm0, %ymm1, %ymm1 4164vpsubw 5504(%r10), %ymm1, %ymm1 4165vpsubw 3392(%r10), %ymm0, %ymm0 4166vpaddw 8576(%rsp), %ymm0, %ymm0 4167vmovdqa %ymm0, 4096(%r10) 4168vmovdqa %ymm1, 4800(%r10) 4169vmovdqa 4128(%r10), %ymm0 4170vpsubw 4832(%r10), %ymm0, %ymm0 4171vmovdqa 9312(%rsp), %ymm1 4172vpsubw %ymm0, %ymm1, %ymm1 4173vpsubw 5536(%r10), %ymm1, %ymm1 4174vpsubw 3424(%r10), %ymm0, %ymm0 4175vpaddw 8608(%rsp), %ymm0, %ymm0 4176vmovdqa %ymm0, 4128(%r10) 4177vmovdqa %ymm1, 4832(%r10) 4178vmovdqa 4160(%r10), %ymm0 4179vpsubw 4864(%r10), %ymm0, %ymm0 4180vmovdqa 9344(%rsp), %ymm1 4181vpsubw %ymm0, %ymm1, %ymm1 4182vpsubw 5568(%r10), %ymm1, %ymm1 4183vpsubw 3456(%r10), %ymm0, %ymm0 4184vpaddw 8640(%rsp), %ymm0, %ymm0 4185vmovdqa %ymm0, 4160(%r10) 4186vmovdqa %ymm1, 4864(%r10) 4187vpxor %ymm1, %ymm1, %ymm1 4188vmovdqa %ymm1, 5600(%r10) 4189subq $32, %rsp 4190vmovdqa 2816(%r10), %ymm0 4191vmovdqa 2880(%r10), %ymm1 4192vmovdqa 2944(%r10), %ymm2 4193vmovdqa 3008(%r10), %ymm3 4194vpunpcklwd 2848(%r10), %ymm0, %ymm4 4195vpunpckhwd 2848(%r10), %ymm0, %ymm5 4196vpunpcklwd 2912(%r10), %ymm1, %ymm6 4197vpunpckhwd 2912(%r10), %ymm1, %ymm7 4198vpunpcklwd 2976(%r10), %ymm2, %ymm8 4199vpunpckhwd 2976(%r10), %ymm2, %ymm9 4200vpunpcklwd 3040(%r10), %ymm3, %ymm10 4201vpunpckhwd 3040(%r10), %ymm3, %ymm11 4202vpunpckldq %ymm6, %ymm4, %ymm0 4203vpunpckhdq %ymm6, %ymm4, %ymm1 4204vpunpckldq %ymm7, %ymm5, %ymm2 4205vpunpckhdq %ymm7, %ymm5, %ymm3 4206vpunpckldq %ymm10, %ymm8, %ymm12 4207vpunpckhdq %ymm10, %ymm8, %ymm13 4208vpunpckldq %ymm11, %ymm9, %ymm14 4209vpunpckhdq %ymm11, %ymm9, %ymm15 4210vpunpcklqdq %ymm12, %ymm0, %ymm4 4211vpunpckhqdq %ymm12, %ymm0, %ymm5 4212vpunpcklqdq %ymm13, %ymm1, %ymm6 4213vpunpckhqdq %ymm13, %ymm1, %ymm7 4214vpunpcklqdq %ymm14, %ymm2, %ymm8 4215vpunpckhqdq %ymm14, %ymm2, %ymm9 4216vpunpcklqdq %ymm15, %ymm3, %ymm10 4217vpunpckhqdq %ymm15, %ymm3, %ymm11 4218vmovdqa 3072(%r10), %ymm0 4219vmovdqa 3136(%r10), %ymm1 4220vmovdqa 3200(%r10), %ymm2 4221vmovdqa 3264(%r10), %ymm3 4222vpunpcklwd 3104(%r10), %ymm0, %ymm12 4223vpunpckhwd 3104(%r10), %ymm0, %ymm13 4224vpunpcklwd 3168(%r10), %ymm1, %ymm14 4225vpunpckhwd 3168(%r10), %ymm1, %ymm15 4226vpunpcklwd 3232(%r10), %ymm2, %ymm0 4227vpunpckhwd 3232(%r10), %ymm2, %ymm1 4228vpunpcklwd 3296(%r10), %ymm3, %ymm2 4229vpunpckhwd 3296(%r10), %ymm3, %ymm3 4230vmovdqa %ymm11, 0(%rsp) 4231vpunpckldq %ymm14, %ymm12, %ymm11 4232vpunpckhdq %ymm14, %ymm12, %ymm12 4233vpunpckldq %ymm15, %ymm13, %ymm14 4234vpunpckhdq %ymm15, %ymm13, %ymm15 4235vpunpckldq %ymm2, %ymm0, %ymm13 4236vpunpckhdq %ymm2, %ymm0, %ymm0 4237vpunpckldq %ymm3, %ymm1, %ymm2 4238vpunpckhdq %ymm3, %ymm1, %ymm1 4239vpunpcklqdq %ymm13, %ymm11, %ymm3 4240vpunpckhqdq %ymm13, %ymm11, %ymm13 4241vpunpcklqdq %ymm0, %ymm12, %ymm11 4242vpunpckhqdq %ymm0, %ymm12, %ymm0 4243vpunpcklqdq %ymm2, %ymm14, %ymm12 4244vpunpckhqdq %ymm2, %ymm14, %ymm2 4245vpunpcklqdq %ymm1, %ymm15, %ymm14 4246vpunpckhqdq %ymm1, %ymm15, %ymm1 4247vinserti128 $1, %xmm3, %ymm4, %ymm15 4248vmovdqa %ymm15, 0(%r12) 4249vinserti128 $1, %xmm13, %ymm5, %ymm15 4250vmovdqa %ymm15, 192(%r12) 4251vinserti128 $1, %xmm11, %ymm6, %ymm15 4252vmovdqa %ymm15, 384(%r12) 4253vinserti128 $1, %xmm0, %ymm7, %ymm15 4254vmovdqa %ymm15, 576(%r12) 4255vinserti128 $1, %xmm12, %ymm8, %ymm15 4256vmovdqa %ymm15, 768(%r12) 4257vinserti128 $1, %xmm2, %ymm9, %ymm15 4258vmovdqa %ymm15, 960(%r12) 4259vinserti128 $1, %xmm14, %ymm10, %ymm15 4260vmovdqa %ymm15, 1152(%r12) 4261vpermq $78, %ymm4, %ymm4 4262vpermq $78, %ymm5, %ymm5 4263vpermq $78, %ymm6, %ymm6 4264vpermq $78, %ymm7, %ymm7 4265vpermq $78, %ymm8, %ymm8 4266vpermq $78, %ymm9, %ymm9 4267vpermq $78, %ymm10, %ymm10 4268vinserti128 $0, %xmm4, %ymm3, %ymm15 4269vmovdqa %ymm15, 1536(%r12) 4270vinserti128 $0, %xmm5, %ymm13, %ymm15 4271vmovdqa %ymm15, 1728(%r12) 4272vinserti128 $0, %xmm6, %ymm11, %ymm15 4273vmovdqa %ymm15, 1920(%r12) 4274vinserti128 $0, %xmm7, %ymm0, %ymm15 4275vmovdqa %ymm15, 2112(%r12) 4276vinserti128 $0, %xmm8, %ymm12, %ymm15 4277vmovdqa %ymm15, 2304(%r12) 4278vinserti128 $0, %xmm9, %ymm2, %ymm15 4279vmovdqa %ymm15, 2496(%r12) 4280vinserti128 $0, %xmm10, %ymm14, %ymm15 4281vmovdqa %ymm15, 2688(%r12) 4282vmovdqa 0(%rsp), %ymm11 4283vinserti128 $1, %xmm1, %ymm11, %ymm14 4284vmovdqa %ymm14, 1344(%r12) 4285vpermq $78, %ymm11, %ymm11 4286vinserti128 $0, %xmm11, %ymm1, %ymm1 4287vmovdqa %ymm1, 2880(%r12) 4288vmovdqa 3328(%r10), %ymm0 4289vmovdqa 3392(%r10), %ymm1 4290vmovdqa 3456(%r10), %ymm2 4291vmovdqa 3520(%r10), %ymm3 4292vpunpcklwd 3360(%r10), %ymm0, %ymm4 4293vpunpckhwd 3360(%r10), %ymm0, %ymm5 4294vpunpcklwd 3424(%r10), %ymm1, %ymm6 4295vpunpckhwd 3424(%r10), %ymm1, %ymm7 4296vpunpcklwd 3488(%r10), %ymm2, %ymm8 4297vpunpckhwd 3488(%r10), %ymm2, %ymm9 4298vpunpcklwd 3552(%r10), %ymm3, %ymm10 4299vpunpckhwd 3552(%r10), %ymm3, %ymm11 4300vpunpckldq %ymm6, %ymm4, %ymm0 4301vpunpckhdq %ymm6, %ymm4, %ymm1 4302vpunpckldq %ymm7, %ymm5, %ymm2 4303vpunpckhdq %ymm7, %ymm5, %ymm3 4304vpunpckldq %ymm10, %ymm8, %ymm12 4305vpunpckhdq %ymm10, %ymm8, %ymm13 4306vpunpckldq %ymm11, %ymm9, %ymm14 4307vpunpckhdq %ymm11, %ymm9, %ymm15 4308vpunpcklqdq %ymm12, %ymm0, %ymm4 4309vpunpckhqdq %ymm12, %ymm0, %ymm5 4310vpunpcklqdq %ymm13, %ymm1, %ymm6 4311vpunpckhqdq %ymm13, %ymm1, %ymm7 4312vpunpcklqdq %ymm14, %ymm2, %ymm8 4313vpunpckhqdq %ymm14, %ymm2, %ymm9 4314vpunpcklqdq %ymm15, %ymm3, %ymm10 4315vpunpckhqdq %ymm15, %ymm3, %ymm11 4316vmovdqa 3584(%r10), %ymm0 4317vmovdqa 3648(%r10), %ymm1 4318vmovdqa 3712(%r10), %ymm2 4319vmovdqa 3776(%r10), %ymm3 4320vpunpcklwd 3616(%r10), %ymm0, %ymm12 4321vpunpckhwd 3616(%r10), %ymm0, %ymm13 4322vpunpcklwd 3680(%r10), %ymm1, %ymm14 4323vpunpckhwd 3680(%r10), %ymm1, %ymm15 4324vpunpcklwd 3744(%r10), %ymm2, %ymm0 4325vpunpckhwd 3744(%r10), %ymm2, %ymm1 4326vpunpcklwd 3808(%r10), %ymm3, %ymm2 4327vpunpckhwd 3808(%r10), %ymm3, %ymm3 4328vmovdqa %ymm11, 0(%rsp) 4329vpunpckldq %ymm14, %ymm12, %ymm11 4330vpunpckhdq %ymm14, %ymm12, %ymm12 4331vpunpckldq %ymm15, %ymm13, %ymm14 4332vpunpckhdq %ymm15, %ymm13, %ymm15 4333vpunpckldq %ymm2, %ymm0, %ymm13 4334vpunpckhdq %ymm2, %ymm0, %ymm0 4335vpunpckldq %ymm3, %ymm1, %ymm2 4336vpunpckhdq %ymm3, %ymm1, %ymm1 4337vpunpcklqdq %ymm13, %ymm11, %ymm3 4338vpunpckhqdq %ymm13, %ymm11, %ymm13 4339vpunpcklqdq %ymm0, %ymm12, %ymm11 4340vpunpckhqdq %ymm0, %ymm12, %ymm0 4341vpunpcklqdq %ymm2, %ymm14, %ymm12 4342vpunpckhqdq %ymm2, %ymm14, %ymm2 4343vpunpcklqdq %ymm1, %ymm15, %ymm14 4344vpunpckhqdq %ymm1, %ymm15, %ymm1 4345vinserti128 $1, %xmm3, %ymm4, %ymm15 4346vmovdqa %ymm15, 32(%r12) 4347vinserti128 $1, %xmm13, %ymm5, %ymm15 4348vmovdqa %ymm15, 224(%r12) 4349vinserti128 $1, %xmm11, %ymm6, %ymm15 4350vmovdqa %ymm15, 416(%r12) 4351vinserti128 $1, %xmm0, %ymm7, %ymm15 4352vmovdqa %ymm15, 608(%r12) 4353vinserti128 $1, %xmm12, %ymm8, %ymm15 4354vmovdqa %ymm15, 800(%r12) 4355vinserti128 $1, %xmm2, %ymm9, %ymm15 4356vmovdqa %ymm15, 992(%r12) 4357vinserti128 $1, %xmm14, %ymm10, %ymm15 4358vmovdqa %ymm15, 1184(%r12) 4359vpermq $78, %ymm4, %ymm4 4360vpermq $78, %ymm5, %ymm5 4361vpermq $78, %ymm6, %ymm6 4362vpermq $78, %ymm7, %ymm7 4363vpermq $78, %ymm8, %ymm8 4364vpermq $78, %ymm9, %ymm9 4365vpermq $78, %ymm10, %ymm10 4366vinserti128 $0, %xmm4, %ymm3, %ymm15 4367vmovdqa %ymm15, 1568(%r12) 4368vinserti128 $0, %xmm5, %ymm13, %ymm15 4369vmovdqa %ymm15, 1760(%r12) 4370vinserti128 $0, %xmm6, %ymm11, %ymm15 4371vmovdqa %ymm15, 1952(%r12) 4372vinserti128 $0, %xmm7, %ymm0, %ymm15 4373vmovdqa %ymm15, 2144(%r12) 4374vinserti128 $0, %xmm8, %ymm12, %ymm15 4375vmovdqa %ymm15, 2336(%r12) 4376vinserti128 $0, %xmm9, %ymm2, %ymm15 4377vmovdqa %ymm15, 2528(%r12) 4378vinserti128 $0, %xmm10, %ymm14, %ymm15 4379vmovdqa %ymm15, 2720(%r12) 4380vmovdqa 0(%rsp), %ymm11 4381vinserti128 $1, %xmm1, %ymm11, %ymm14 4382vmovdqa %ymm14, 1376(%r12) 4383vpermq $78, %ymm11, %ymm11 4384vinserti128 $0, %xmm11, %ymm1, %ymm1 4385vmovdqa %ymm1, 2912(%r12) 4386vmovdqa 3840(%r10), %ymm0 4387vmovdqa 3904(%r10), %ymm1 4388vmovdqa 3968(%r10), %ymm2 4389vmovdqa 4032(%r10), %ymm3 4390vpunpcklwd 3872(%r10), %ymm0, %ymm4 4391vpunpckhwd 3872(%r10), %ymm0, %ymm5 4392vpunpcklwd 3936(%r10), %ymm1, %ymm6 4393vpunpckhwd 3936(%r10), %ymm1, %ymm7 4394vpunpcklwd 4000(%r10), %ymm2, %ymm8 4395vpunpckhwd 4000(%r10), %ymm2, %ymm9 4396vpunpcklwd 4064(%r10), %ymm3, %ymm10 4397vpunpckhwd 4064(%r10), %ymm3, %ymm11 4398vpunpckldq %ymm6, %ymm4, %ymm0 4399vpunpckhdq %ymm6, %ymm4, %ymm1 4400vpunpckldq %ymm7, %ymm5, %ymm2 4401vpunpckhdq %ymm7, %ymm5, %ymm3 4402vpunpckldq %ymm10, %ymm8, %ymm12 4403vpunpckhdq %ymm10, %ymm8, %ymm13 4404vpunpckldq %ymm11, %ymm9, %ymm14 4405vpunpckhdq %ymm11, %ymm9, %ymm15 4406vpunpcklqdq %ymm12, %ymm0, %ymm4 4407vpunpckhqdq %ymm12, %ymm0, %ymm5 4408vpunpcklqdq %ymm13, %ymm1, %ymm6 4409vpunpckhqdq %ymm13, %ymm1, %ymm7 4410vpunpcklqdq %ymm14, %ymm2, %ymm8 4411vpunpckhqdq %ymm14, %ymm2, %ymm9 4412vpunpcklqdq %ymm15, %ymm3, %ymm10 4413vpunpckhqdq %ymm15, %ymm3, %ymm11 4414vmovdqa 4096(%r10), %ymm0 4415vmovdqa 4160(%r10), %ymm1 4416vmovdqa 4224(%r10), %ymm2 4417vmovdqa 4288(%r10), %ymm3 4418vpunpcklwd 4128(%r10), %ymm0, %ymm12 4419vpunpckhwd 4128(%r10), %ymm0, %ymm13 4420vpunpcklwd 4192(%r10), %ymm1, %ymm14 4421vpunpckhwd 4192(%r10), %ymm1, %ymm15 4422vpunpcklwd 4256(%r10), %ymm2, %ymm0 4423vpunpckhwd 4256(%r10), %ymm2, %ymm1 4424vpunpcklwd 4320(%r10), %ymm3, %ymm2 4425vpunpckhwd 4320(%r10), %ymm3, %ymm3 4426vmovdqa %ymm11, 0(%rsp) 4427vpunpckldq %ymm14, %ymm12, %ymm11 4428vpunpckhdq %ymm14, %ymm12, %ymm12 4429vpunpckldq %ymm15, %ymm13, %ymm14 4430vpunpckhdq %ymm15, %ymm13, %ymm15 4431vpunpckldq %ymm2, %ymm0, %ymm13 4432vpunpckhdq %ymm2, %ymm0, %ymm0 4433vpunpckldq %ymm3, %ymm1, %ymm2 4434vpunpckhdq %ymm3, %ymm1, %ymm1 4435vpunpcklqdq %ymm13, %ymm11, %ymm3 4436vpunpckhqdq %ymm13, %ymm11, %ymm13 4437vpunpcklqdq %ymm0, %ymm12, %ymm11 4438vpunpckhqdq %ymm0, %ymm12, %ymm0 4439vpunpcklqdq %ymm2, %ymm14, %ymm12 4440vpunpckhqdq %ymm2, %ymm14, %ymm2 4441vpunpcklqdq %ymm1, %ymm15, %ymm14 4442vpunpckhqdq %ymm1, %ymm15, %ymm1 4443vinserti128 $1, %xmm3, %ymm4, %ymm15 4444vmovdqa %ymm15, 64(%r12) 4445vinserti128 $1, %xmm13, %ymm5, %ymm15 4446vmovdqa %ymm15, 256(%r12) 4447vinserti128 $1, %xmm11, %ymm6, %ymm15 4448vmovdqa %ymm15, 448(%r12) 4449vinserti128 $1, %xmm0, %ymm7, %ymm15 4450vmovdqa %ymm15, 640(%r12) 4451vinserti128 $1, %xmm12, %ymm8, %ymm15 4452vmovdqa %ymm15, 832(%r12) 4453vinserti128 $1, %xmm2, %ymm9, %ymm15 4454vmovdqa %ymm15, 1024(%r12) 4455vinserti128 $1, %xmm14, %ymm10, %ymm15 4456vmovdqa %ymm15, 1216(%r12) 4457vpermq $78, %ymm4, %ymm4 4458vpermq $78, %ymm5, %ymm5 4459vpermq $78, %ymm6, %ymm6 4460vpermq $78, %ymm7, %ymm7 4461vpermq $78, %ymm8, %ymm8 4462vpermq $78, %ymm9, %ymm9 4463vpermq $78, %ymm10, %ymm10 4464vinserti128 $0, %xmm4, %ymm3, %ymm15 4465vmovdqa %ymm15, 1600(%r12) 4466vinserti128 $0, %xmm5, %ymm13, %ymm15 4467vmovdqa %ymm15, 1792(%r12) 4468vinserti128 $0, %xmm6, %ymm11, %ymm15 4469vmovdqa %ymm15, 1984(%r12) 4470vinserti128 $0, %xmm7, %ymm0, %ymm15 4471vmovdqa %ymm15, 2176(%r12) 4472vinserti128 $0, %xmm8, %ymm12, %ymm15 4473vmovdqa %ymm15, 2368(%r12) 4474vinserti128 $0, %xmm9, %ymm2, %ymm15 4475vmovdqa %ymm15, 2560(%r12) 4476vinserti128 $0, %xmm10, %ymm14, %ymm15 4477vmovdqa %ymm15, 2752(%r12) 4478vmovdqa 0(%rsp), %ymm11 4479vinserti128 $1, %xmm1, %ymm11, %ymm14 4480vmovdqa %ymm14, 1408(%r12) 4481vpermq $78, %ymm11, %ymm11 4482vinserti128 $0, %xmm11, %ymm1, %ymm1 4483vmovdqa %ymm1, 2944(%r12) 4484vmovdqa 4224(%r10), %ymm0 4485vmovdqa 4288(%r10), %ymm1 4486vmovdqa 4352(%r10), %ymm2 4487vmovdqa 4416(%r10), %ymm3 4488vpunpcklwd 4256(%r10), %ymm0, %ymm4 4489vpunpckhwd 4256(%r10), %ymm0, %ymm5 4490vpunpcklwd 4320(%r10), %ymm1, %ymm6 4491vpunpckhwd 4320(%r10), %ymm1, %ymm7 4492vpunpcklwd 4384(%r10), %ymm2, %ymm8 4493vpunpckhwd 4384(%r10), %ymm2, %ymm9 4494vpunpcklwd 4448(%r10), %ymm3, %ymm10 4495vpunpckhwd 4448(%r10), %ymm3, %ymm11 4496vpunpckldq %ymm6, %ymm4, %ymm0 4497vpunpckhdq %ymm6, %ymm4, %ymm1 4498vpunpckldq %ymm7, %ymm5, %ymm2 4499vpunpckhdq %ymm7, %ymm5, %ymm3 4500vpunpckldq %ymm10, %ymm8, %ymm12 4501vpunpckhdq %ymm10, %ymm8, %ymm13 4502vpunpckldq %ymm11, %ymm9, %ymm14 4503vpunpckhdq %ymm11, %ymm9, %ymm15 4504vpunpcklqdq %ymm12, %ymm0, %ymm4 4505vpunpckhqdq %ymm12, %ymm0, %ymm5 4506vpunpcklqdq %ymm13, %ymm1, %ymm6 4507vpunpckhqdq %ymm13, %ymm1, %ymm7 4508vpunpcklqdq %ymm14, %ymm2, %ymm8 4509vpunpckhqdq %ymm14, %ymm2, %ymm9 4510vpunpcklqdq %ymm15, %ymm3, %ymm10 4511vpunpckhqdq %ymm15, %ymm3, %ymm11 4512vmovdqa 4480(%r10), %ymm0 4513vmovdqa 4544(%r10), %ymm1 4514vmovdqa 4608(%r10), %ymm2 4515vmovdqa 4672(%r10), %ymm3 4516vpunpcklwd 4512(%r10), %ymm0, %ymm12 4517vpunpckhwd 4512(%r10), %ymm0, %ymm13 4518vpunpcklwd 4576(%r10), %ymm1, %ymm14 4519vpunpckhwd 4576(%r10), %ymm1, %ymm15 4520vpunpcklwd 4640(%r10), %ymm2, %ymm0 4521vpunpckhwd 4640(%r10), %ymm2, %ymm1 4522vpunpcklwd 4704(%r10), %ymm3, %ymm2 4523vpunpckhwd 4704(%r10), %ymm3, %ymm3 4524vmovdqa %ymm11, 0(%rsp) 4525vpunpckldq %ymm14, %ymm12, %ymm11 4526vpunpckhdq %ymm14, %ymm12, %ymm12 4527vpunpckldq %ymm15, %ymm13, %ymm14 4528vpunpckhdq %ymm15, %ymm13, %ymm15 4529vpunpckldq %ymm2, %ymm0, %ymm13 4530vpunpckhdq %ymm2, %ymm0, %ymm0 4531vpunpckldq %ymm3, %ymm1, %ymm2 4532vpunpckhdq %ymm3, %ymm1, %ymm1 4533vpunpcklqdq %ymm13, %ymm11, %ymm3 4534vpunpckhqdq %ymm13, %ymm11, %ymm13 4535vpunpcklqdq %ymm0, %ymm12, %ymm11 4536vpunpckhqdq %ymm0, %ymm12, %ymm0 4537vpunpcklqdq %ymm2, %ymm14, %ymm12 4538vpunpckhqdq %ymm2, %ymm14, %ymm2 4539vpunpcklqdq %ymm1, %ymm15, %ymm14 4540vpunpckhqdq %ymm1, %ymm15, %ymm1 4541vinserti128 $1, %xmm3, %ymm4, %ymm15 4542vmovdqa %ymm15, 96(%r12) 4543vinserti128 $1, %xmm13, %ymm5, %ymm15 4544vmovdqa %ymm15, 288(%r12) 4545vinserti128 $1, %xmm11, %ymm6, %ymm15 4546vmovdqa %ymm15, 480(%r12) 4547vinserti128 $1, %xmm0, %ymm7, %ymm15 4548vmovdqa %ymm15, 672(%r12) 4549vinserti128 $1, %xmm12, %ymm8, %ymm15 4550vmovdqa %ymm15, 864(%r12) 4551vinserti128 $1, %xmm2, %ymm9, %ymm15 4552vmovdqa %ymm15, 1056(%r12) 4553vinserti128 $1, %xmm14, %ymm10, %ymm15 4554vmovdqa %ymm15, 1248(%r12) 4555vpermq $78, %ymm4, %ymm4 4556vpermq $78, %ymm5, %ymm5 4557vpermq $78, %ymm6, %ymm6 4558vpermq $78, %ymm7, %ymm7 4559vpermq $78, %ymm8, %ymm8 4560vpermq $78, %ymm9, %ymm9 4561vpermq $78, %ymm10, %ymm10 4562vinserti128 $0, %xmm4, %ymm3, %ymm15 4563vmovdqa %ymm15, 1632(%r12) 4564vinserti128 $0, %xmm5, %ymm13, %ymm15 4565vmovdqa %ymm15, 1824(%r12) 4566vinserti128 $0, %xmm6, %ymm11, %ymm15 4567vmovdqa %ymm15, 2016(%r12) 4568vinserti128 $0, %xmm7, %ymm0, %ymm15 4569vmovdqa %ymm15, 2208(%r12) 4570vinserti128 $0, %xmm8, %ymm12, %ymm15 4571vmovdqa %ymm15, 2400(%r12) 4572vinserti128 $0, %xmm9, %ymm2, %ymm15 4573vmovdqa %ymm15, 2592(%r12) 4574vinserti128 $0, %xmm10, %ymm14, %ymm15 4575vmovdqa %ymm15, 2784(%r12) 4576vmovdqa 0(%rsp), %ymm11 4577vinserti128 $1, %xmm1, %ymm11, %ymm14 4578vmovdqa %ymm14, 1440(%r12) 4579vpermq $78, %ymm11, %ymm11 4580vinserti128 $0, %xmm11, %ymm1, %ymm1 4581vmovdqa %ymm1, 2976(%r12) 4582vmovdqa 4736(%r10), %ymm0 4583vmovdqa 4800(%r10), %ymm1 4584vmovdqa 4864(%r10), %ymm2 4585vmovdqa 4928(%r10), %ymm3 4586vpunpcklwd 4768(%r10), %ymm0, %ymm4 4587vpunpckhwd 4768(%r10), %ymm0, %ymm5 4588vpunpcklwd 4832(%r10), %ymm1, %ymm6 4589vpunpckhwd 4832(%r10), %ymm1, %ymm7 4590vpunpcklwd 4896(%r10), %ymm2, %ymm8 4591vpunpckhwd 4896(%r10), %ymm2, %ymm9 4592vpunpcklwd 4960(%r10), %ymm3, %ymm10 4593vpunpckhwd 4960(%r10), %ymm3, %ymm11 4594vpunpckldq %ymm6, %ymm4, %ymm0 4595vpunpckhdq %ymm6, %ymm4, %ymm1 4596vpunpckldq %ymm7, %ymm5, %ymm2 4597vpunpckhdq %ymm7, %ymm5, %ymm3 4598vpunpckldq %ymm10, %ymm8, %ymm12 4599vpunpckhdq %ymm10, %ymm8, %ymm13 4600vpunpckldq %ymm11, %ymm9, %ymm14 4601vpunpckhdq %ymm11, %ymm9, %ymm15 4602vpunpcklqdq %ymm12, %ymm0, %ymm4 4603vpunpckhqdq %ymm12, %ymm0, %ymm5 4604vpunpcklqdq %ymm13, %ymm1, %ymm6 4605vpunpckhqdq %ymm13, %ymm1, %ymm7 4606vpunpcklqdq %ymm14, %ymm2, %ymm8 4607vpunpckhqdq %ymm14, %ymm2, %ymm9 4608vpunpcklqdq %ymm15, %ymm3, %ymm10 4609vpunpckhqdq %ymm15, %ymm3, %ymm11 4610vmovdqa 4992(%r10), %ymm0 4611vmovdqa 5056(%r10), %ymm1 4612vmovdqa 5120(%r10), %ymm2 4613vmovdqa 5184(%r10), %ymm3 4614vpunpcklwd 5024(%r10), %ymm0, %ymm12 4615vpunpckhwd 5024(%r10), %ymm0, %ymm13 4616vpunpcklwd 5088(%r10), %ymm1, %ymm14 4617vpunpckhwd 5088(%r10), %ymm1, %ymm15 4618vpunpcklwd 5152(%r10), %ymm2, %ymm0 4619vpunpckhwd 5152(%r10), %ymm2, %ymm1 4620vpunpcklwd 5216(%r10), %ymm3, %ymm2 4621vpunpckhwd 5216(%r10), %ymm3, %ymm3 4622vmovdqa %ymm11, 0(%rsp) 4623vpunpckldq %ymm14, %ymm12, %ymm11 4624vpunpckhdq %ymm14, %ymm12, %ymm12 4625vpunpckldq %ymm15, %ymm13, %ymm14 4626vpunpckhdq %ymm15, %ymm13, %ymm15 4627vpunpckldq %ymm2, %ymm0, %ymm13 4628vpunpckhdq %ymm2, %ymm0, %ymm0 4629vpunpckldq %ymm3, %ymm1, %ymm2 4630vpunpckhdq %ymm3, %ymm1, %ymm1 4631vpunpcklqdq %ymm13, %ymm11, %ymm3 4632vpunpckhqdq %ymm13, %ymm11, %ymm13 4633vpunpcklqdq %ymm0, %ymm12, %ymm11 4634vpunpckhqdq %ymm0, %ymm12, %ymm0 4635vpunpcklqdq %ymm2, %ymm14, %ymm12 4636vpunpckhqdq %ymm2, %ymm14, %ymm2 4637vpunpcklqdq %ymm1, %ymm15, %ymm14 4638vpunpckhqdq %ymm1, %ymm15, %ymm1 4639vinserti128 $1, %xmm3, %ymm4, %ymm15 4640vmovdqa %ymm15, 128(%r12) 4641vinserti128 $1, %xmm13, %ymm5, %ymm15 4642vmovdqa %ymm15, 320(%r12) 4643vinserti128 $1, %xmm11, %ymm6, %ymm15 4644vmovdqa %ymm15, 512(%r12) 4645vinserti128 $1, %xmm0, %ymm7, %ymm15 4646vmovdqa %ymm15, 704(%r12) 4647vinserti128 $1, %xmm12, %ymm8, %ymm15 4648vmovdqa %ymm15, 896(%r12) 4649vinserti128 $1, %xmm2, %ymm9, %ymm15 4650vmovdqa %ymm15, 1088(%r12) 4651vinserti128 $1, %xmm14, %ymm10, %ymm15 4652vmovdqa %ymm15, 1280(%r12) 4653vpermq $78, %ymm4, %ymm4 4654vpermq $78, %ymm5, %ymm5 4655vpermq $78, %ymm6, %ymm6 4656vpermq $78, %ymm7, %ymm7 4657vpermq $78, %ymm8, %ymm8 4658vpermq $78, %ymm9, %ymm9 4659vpermq $78, %ymm10, %ymm10 4660vinserti128 $0, %xmm4, %ymm3, %ymm15 4661vmovdqa %ymm15, 1664(%r12) 4662vinserti128 $0, %xmm5, %ymm13, %ymm15 4663vmovdqa %ymm15, 1856(%r12) 4664vinserti128 $0, %xmm6, %ymm11, %ymm15 4665vmovdqa %ymm15, 2048(%r12) 4666vinserti128 $0, %xmm7, %ymm0, %ymm15 4667vmovdqa %ymm15, 2240(%r12) 4668vinserti128 $0, %xmm8, %ymm12, %ymm15 4669vmovdqa %ymm15, 2432(%r12) 4670vinserti128 $0, %xmm9, %ymm2, %ymm15 4671vmovdqa %ymm15, 2624(%r12) 4672vinserti128 $0, %xmm10, %ymm14, %ymm15 4673vmovdqa %ymm15, 2816(%r12) 4674vmovdqa 0(%rsp), %ymm11 4675vinserti128 $1, %xmm1, %ymm11, %ymm14 4676vmovdqa %ymm14, 1472(%r12) 4677vpermq $78, %ymm11, %ymm11 4678vinserti128 $0, %xmm11, %ymm1, %ymm1 4679vmovdqa %ymm1, 3008(%r12) 4680vmovdqa 5248(%r10), %ymm0 4681vmovdqa 5312(%r10), %ymm1 4682vmovdqa 5376(%r10), %ymm2 4683vmovdqa 5440(%r10), %ymm3 4684vpunpcklwd 5280(%r10), %ymm0, %ymm4 4685vpunpckhwd 5280(%r10), %ymm0, %ymm5 4686vpunpcklwd 5344(%r10), %ymm1, %ymm6 4687vpunpckhwd 5344(%r10), %ymm1, %ymm7 4688vpunpcklwd 5408(%r10), %ymm2, %ymm8 4689vpunpckhwd 5408(%r10), %ymm2, %ymm9 4690vpunpcklwd 5472(%r10), %ymm3, %ymm10 4691vpunpckhwd 5472(%r10), %ymm3, %ymm11 4692vpunpckldq %ymm6, %ymm4, %ymm0 4693vpunpckhdq %ymm6, %ymm4, %ymm1 4694vpunpckldq %ymm7, %ymm5, %ymm2 4695vpunpckhdq %ymm7, %ymm5, %ymm3 4696vpunpckldq %ymm10, %ymm8, %ymm12 4697vpunpckhdq %ymm10, %ymm8, %ymm13 4698vpunpckldq %ymm11, %ymm9, %ymm14 4699vpunpckhdq %ymm11, %ymm9, %ymm15 4700vpunpcklqdq %ymm12, %ymm0, %ymm4 4701vpunpckhqdq %ymm12, %ymm0, %ymm5 4702vpunpcklqdq %ymm13, %ymm1, %ymm6 4703vpunpckhqdq %ymm13, %ymm1, %ymm7 4704vpunpcklqdq %ymm14, %ymm2, %ymm8 4705vpunpckhqdq %ymm14, %ymm2, %ymm9 4706vpunpcklqdq %ymm15, %ymm3, %ymm10 4707vpunpckhqdq %ymm15, %ymm3, %ymm11 4708vmovdqa 5504(%r10), %ymm0 4709vmovdqa 5568(%r10), %ymm1 4710vmovdqa 5632(%r10), %ymm2 4711vmovdqa 5696(%r10), %ymm3 4712vpunpcklwd 5536(%r10), %ymm0, %ymm12 4713vpunpckhwd 5536(%r10), %ymm0, %ymm13 4714vpunpcklwd 5600(%r10), %ymm1, %ymm14 4715vpunpckhwd 5600(%r10), %ymm1, %ymm15 4716vpunpcklwd 5664(%r10), %ymm2, %ymm0 4717vpunpckhwd 5664(%r10), %ymm2, %ymm1 4718vpunpcklwd 5728(%r10), %ymm3, %ymm2 4719vpunpckhwd 5728(%r10), %ymm3, %ymm3 4720vmovdqa %ymm11, 0(%rsp) 4721vpunpckldq %ymm14, %ymm12, %ymm11 4722vpunpckhdq %ymm14, %ymm12, %ymm12 4723vpunpckldq %ymm15, %ymm13, %ymm14 4724vpunpckhdq %ymm15, %ymm13, %ymm15 4725vpunpckldq %ymm2, %ymm0, %ymm13 4726vpunpckhdq %ymm2, %ymm0, %ymm0 4727vpunpckldq %ymm3, %ymm1, %ymm2 4728vpunpckhdq %ymm3, %ymm1, %ymm1 4729vpunpcklqdq %ymm13, %ymm11, %ymm3 4730vpunpckhqdq %ymm13, %ymm11, %ymm13 4731vpunpcklqdq %ymm0, %ymm12, %ymm11 4732vpunpckhqdq %ymm0, %ymm12, %ymm0 4733vpunpcklqdq %ymm2, %ymm14, %ymm12 4734vpunpckhqdq %ymm2, %ymm14, %ymm2 4735vpunpcklqdq %ymm1, %ymm15, %ymm14 4736vpunpckhqdq %ymm1, %ymm15, %ymm1 4737vinserti128 $1, %xmm3, %ymm4, %ymm15 4738vmovdqa %ymm15, 160(%r12) 4739vinserti128 $1, %xmm13, %ymm5, %ymm15 4740vmovdqa %ymm15, 352(%r12) 4741vinserti128 $1, %xmm11, %ymm6, %ymm15 4742vmovdqa %ymm15, 544(%r12) 4743vinserti128 $1, %xmm0, %ymm7, %ymm15 4744vmovdqa %ymm15, 736(%r12) 4745vinserti128 $1, %xmm12, %ymm8, %ymm15 4746vmovdqa %ymm15, 928(%r12) 4747vinserti128 $1, %xmm2, %ymm9, %ymm15 4748vmovdqa %ymm15, 1120(%r12) 4749vinserti128 $1, %xmm14, %ymm10, %ymm15 4750vmovdqa %ymm15, 1312(%r12) 4751vpermq $78, %ymm4, %ymm4 4752vpermq $78, %ymm5, %ymm5 4753vpermq $78, %ymm6, %ymm6 4754vpermq $78, %ymm7, %ymm7 4755vpermq $78, %ymm8, %ymm8 4756vpermq $78, %ymm9, %ymm9 4757vpermq $78, %ymm10, %ymm10 4758vinserti128 $0, %xmm4, %ymm3, %ymm15 4759vmovdqa %ymm15, 1696(%r12) 4760vinserti128 $0, %xmm5, %ymm13, %ymm15 4761vmovdqa %ymm15, 1888(%r12) 4762vinserti128 $0, %xmm6, %ymm11, %ymm15 4763vmovdqa %ymm15, 2080(%r12) 4764vinserti128 $0, %xmm7, %ymm0, %ymm15 4765vmovdqa %ymm15, 2272(%r12) 4766vinserti128 $0, %xmm8, %ymm12, %ymm15 4767vmovdqa %ymm15, 2464(%r12) 4768vinserti128 $0, %xmm9, %ymm2, %ymm15 4769vmovdqa %ymm15, 2656(%r12) 4770vinserti128 $0, %xmm10, %ymm14, %ymm15 4771vmovdqa %ymm15, 2848(%r12) 4772vmovdqa 0(%rsp), %ymm11 4773vinserti128 $1, %xmm1, %ymm11, %ymm14 4774vmovdqa %ymm14, 1504(%r12) 4775vpermq $78, %ymm11, %ymm11 4776vinserti128 $0, %xmm11, %ymm1, %ymm1 4777vmovdqa %ymm1, 3040(%r12) 4778addq $32, %rsp 4779add $1536, %rax 4780add $1536, %r11 4781add $3072, %r12 4782dec %ecx 4783jnz karatsuba_loop_4eced63f144beffcb0247f9c6f67d165 4784sub $12288, %r12 4785add $9408, %rsp 4786subq $2400, %rsp 4787vpxor %ymm0, %ymm0, %ymm0 4788vmovdqa %ymm0, 1792(%rsp) 4789vmovdqa %ymm0, 1824(%rsp) 4790vmovdqa %ymm0, 1856(%rsp) 4791vmovdqa %ymm0, 1888(%rsp) 4792vmovdqa %ymm0, 1920(%rsp) 4793vmovdqa %ymm0, 1952(%rsp) 4794vmovdqa %ymm0, 1984(%rsp) 4795vmovdqa %ymm0, 2016(%rsp) 4796vmovdqa %ymm0, 2048(%rsp) 4797vmovdqa %ymm0, 2080(%rsp) 4798vmovdqa %ymm0, 2112(%rsp) 4799vmovdqa %ymm0, 2144(%rsp) 4800vmovdqa %ymm0, 2176(%rsp) 4801vmovdqa %ymm0, 2208(%rsp) 4802vmovdqa %ymm0, 2240(%rsp) 4803vmovdqa %ymm0, 2272(%rsp) 4804vmovdqa %ymm0, 2304(%rsp) 4805vmovdqa %ymm0, 2336(%rsp) 4806vmovdqa %ymm0, 2368(%rsp) 4807vmovdqa %ymm0, 2400(%rsp) 4808vmovdqa %ymm0, 2432(%rsp) 4809vmovdqa %ymm0, 2464(%rsp) 4810vmovdqa %ymm0, 2496(%rsp) 4811vmovdqa %ymm0, 2528(%rsp) 4812vmovdqa %ymm0, 2560(%rsp) 4813vmovdqa %ymm0, 2592(%rsp) 4814vmovdqa %ymm0, 2624(%rsp) 4815vmovdqa %ymm0, 2656(%rsp) 4816vmovdqa %ymm0, 2688(%rsp) 4817vmovdqa %ymm0, 2720(%rsp) 4818vmovdqa %ymm0, 2752(%rsp) 4819vmovdqa %ymm0, 2784(%rsp) 4820vmovdqa const729(%rip), %ymm15 4821vmovdqa const3_inv(%rip), %ymm14 4822vmovdqa const5_inv(%rip), %ymm13 4823vmovdqa const9(%rip), %ymm12 4824vmovdqa 96(%r12), %ymm0 4825vpsubw 192(%r12), %ymm0, %ymm0 4826vmovdqa 480(%r12), %ymm1 4827vpsubw %ymm0, %ymm1, %ymm1 4828vpsubw 288(%r12), %ymm1, %ymm1 4829vpsubw 0(%r12), %ymm0, %ymm0 4830vpaddw 384(%r12), %ymm0, %ymm0 4831vmovdqa 672(%r12), %ymm2 4832vpsubw 768(%r12), %ymm2, %ymm2 4833vmovdqa 1056(%r12), %ymm3 4834vpsubw %ymm2, %ymm3, %ymm3 4835vpsubw 864(%r12), %ymm3, %ymm3 4836vpsubw 576(%r12), %ymm2, %ymm2 4837vpaddw 960(%r12), %ymm2, %ymm2 4838vmovdqa 1248(%r12), %ymm4 4839vpsubw 1344(%r12), %ymm4, %ymm4 4840vmovdqa 1632(%r12), %ymm5 4841vpsubw %ymm4, %ymm5, %ymm5 4842vpsubw 1440(%r12), %ymm5, %ymm5 4843vpsubw 1152(%r12), %ymm4, %ymm4 4844vpaddw 1536(%r12), %ymm4, %ymm4 4845vpsubw 576(%r12), %ymm1, %ymm1 4846vpsubw %ymm1, %ymm5, %ymm5 4847vpsubw %ymm3, %ymm5, %ymm5 4848vpsubw 0(%r12), %ymm1, %ymm1 4849vpaddw 1152(%r12), %ymm1, %ymm1 4850vmovdqa 288(%r12), %ymm6 4851vpsubw %ymm2, %ymm6, %ymm7 4852vmovdqa 1440(%r12), %ymm2 4853vpsubw %ymm7, %ymm2, %ymm2 4854vpsubw 864(%r12), %ymm2, %ymm2 4855vpsubw %ymm0, %ymm7, %ymm7 4856vpaddw %ymm4, %ymm7, %ymm7 4857vmovdqa 0(%r12), %ymm8 4858vmovdqa 864(%r12), %ymm9 4859vmovdqa %ymm8, 0(%rsp) 4860vmovdqa %ymm0, 32(%rsp) 4861vmovdqa %ymm1, 64(%rsp) 4862vmovdqa %ymm7, 96(%rsp) 4863vmovdqa %ymm5, 128(%rsp) 4864vmovdqa %ymm2, 160(%rsp) 4865vmovdqa %ymm3, 192(%rsp) 4866vmovdqa %ymm9, 224(%rsp) 4867vmovdqa 1824(%r12), %ymm0 4868vpsubw 1920(%r12), %ymm0, %ymm0 4869vmovdqa 2208(%r12), %ymm1 4870vpsubw %ymm0, %ymm1, %ymm1 4871vpsubw 2016(%r12), %ymm1, %ymm1 4872vpsubw 1728(%r12), %ymm0, %ymm0 4873vpaddw 2112(%r12), %ymm0, %ymm0 4874vmovdqa 2400(%r12), %ymm2 4875vpsubw 2496(%r12), %ymm2, %ymm2 4876vmovdqa 2784(%r12), %ymm3 4877vpsubw %ymm2, %ymm3, %ymm3 4878vpsubw 2592(%r12), %ymm3, %ymm3 4879vpsubw 2304(%r12), %ymm2, %ymm2 4880vpaddw 2688(%r12), %ymm2, %ymm2 4881vmovdqa 2976(%r12), %ymm4 4882vpsubw 3072(%r12), %ymm4, %ymm4 4883vmovdqa 3360(%r12), %ymm5 4884vpsubw %ymm4, %ymm5, %ymm5 4885vpsubw 3168(%r12), %ymm5, %ymm5 4886vpsubw 2880(%r12), %ymm4, %ymm4 4887vpaddw 3264(%r12), %ymm4, %ymm4 4888vpsubw 2304(%r12), %ymm1, %ymm1 4889vpsubw %ymm1, %ymm5, %ymm5 4890vpsubw %ymm3, %ymm5, %ymm5 4891vpsubw 1728(%r12), %ymm1, %ymm1 4892vpaddw 2880(%r12), %ymm1, %ymm1 4893vmovdqa 2016(%r12), %ymm6 4894vpsubw %ymm2, %ymm6, %ymm7 4895vmovdqa 3168(%r12), %ymm2 4896vpsubw %ymm7, %ymm2, %ymm2 4897vpsubw 2592(%r12), %ymm2, %ymm2 4898vpsubw %ymm0, %ymm7, %ymm7 4899vpaddw %ymm4, %ymm7, %ymm7 4900vmovdqa 1728(%r12), %ymm8 4901vmovdqa 2592(%r12), %ymm9 4902vmovdqa %ymm8, 256(%rsp) 4903vmovdqa %ymm0, 288(%rsp) 4904vmovdqa %ymm1, 320(%rsp) 4905vmovdqa %ymm7, 352(%rsp) 4906vmovdqa %ymm5, 384(%rsp) 4907vmovdqa %ymm2, 416(%rsp) 4908vmovdqa %ymm3, 448(%rsp) 4909vmovdqa %ymm9, 480(%rsp) 4910vmovdqa 3552(%r12), %ymm0 4911vpsubw 3648(%r12), %ymm0, %ymm0 4912vmovdqa 3936(%r12), %ymm1 4913vpsubw %ymm0, %ymm1, %ymm1 4914vpsubw 3744(%r12), %ymm1, %ymm1 4915vpsubw 3456(%r12), %ymm0, %ymm0 4916vpaddw 3840(%r12), %ymm0, %ymm0 4917vmovdqa 4128(%r12), %ymm2 4918vpsubw 4224(%r12), %ymm2, %ymm2 4919vmovdqa 4512(%r12), %ymm3 4920vpsubw %ymm2, %ymm3, %ymm3 4921vpsubw 4320(%r12), %ymm3, %ymm3 4922vpsubw 4032(%r12), %ymm2, %ymm2 4923vpaddw 4416(%r12), %ymm2, %ymm2 4924vmovdqa 4704(%r12), %ymm4 4925vpsubw 4800(%r12), %ymm4, %ymm4 4926vmovdqa 5088(%r12), %ymm5 4927vpsubw %ymm4, %ymm5, %ymm5 4928vpsubw 4896(%r12), %ymm5, %ymm5 4929vpsubw 4608(%r12), %ymm4, %ymm4 4930vpaddw 4992(%r12), %ymm4, %ymm4 4931vpsubw 4032(%r12), %ymm1, %ymm1 4932vpsubw %ymm1, %ymm5, %ymm5 4933vpsubw %ymm3, %ymm5, %ymm5 4934vpsubw 3456(%r12), %ymm1, %ymm1 4935vpaddw 4608(%r12), %ymm1, %ymm1 4936vmovdqa 3744(%r12), %ymm6 4937vpsubw %ymm2, %ymm6, %ymm7 4938vmovdqa 4896(%r12), %ymm2 4939vpsubw %ymm7, %ymm2, %ymm2 4940vpsubw 4320(%r12), %ymm2, %ymm2 4941vpsubw %ymm0, %ymm7, %ymm7 4942vpaddw %ymm4, %ymm7, %ymm7 4943vmovdqa 3456(%r12), %ymm8 4944vmovdqa 4320(%r12), %ymm9 4945vmovdqa %ymm8, 512(%rsp) 4946vmovdqa %ymm0, 544(%rsp) 4947vmovdqa %ymm1, 576(%rsp) 4948vmovdqa %ymm7, 608(%rsp) 4949vmovdqa %ymm5, 640(%rsp) 4950vmovdqa %ymm2, 672(%rsp) 4951vmovdqa %ymm3, 704(%rsp) 4952vmovdqa %ymm9, 736(%rsp) 4953vmovdqa 5280(%r12), %ymm0 4954vpsubw 5376(%r12), %ymm0, %ymm0 4955vmovdqa 5664(%r12), %ymm1 4956vpsubw %ymm0, %ymm1, %ymm1 4957vpsubw 5472(%r12), %ymm1, %ymm1 4958vpsubw 5184(%r12), %ymm0, %ymm0 4959vpaddw 5568(%r12), %ymm0, %ymm0 4960vmovdqa 5856(%r12), %ymm2 4961vpsubw 5952(%r12), %ymm2, %ymm2 4962vmovdqa 6240(%r12), %ymm3 4963vpsubw %ymm2, %ymm3, %ymm3 4964vpsubw 6048(%r12), %ymm3, %ymm3 4965vpsubw 5760(%r12), %ymm2, %ymm2 4966vpaddw 6144(%r12), %ymm2, %ymm2 4967vmovdqa 6432(%r12), %ymm4 4968vpsubw 6528(%r12), %ymm4, %ymm4 4969vmovdqa 6816(%r12), %ymm5 4970vpsubw %ymm4, %ymm5, %ymm5 4971vpsubw 6624(%r12), %ymm5, %ymm5 4972vpsubw 6336(%r12), %ymm4, %ymm4 4973vpaddw 6720(%r12), %ymm4, %ymm4 4974vpsubw 5760(%r12), %ymm1, %ymm1 4975vpsubw %ymm1, %ymm5, %ymm5 4976vpsubw %ymm3, %ymm5, %ymm5 4977vpsubw 5184(%r12), %ymm1, %ymm1 4978vpaddw 6336(%r12), %ymm1, %ymm1 4979vmovdqa 5472(%r12), %ymm6 4980vpsubw %ymm2, %ymm6, %ymm7 4981vmovdqa 6624(%r12), %ymm2 4982vpsubw %ymm7, %ymm2, %ymm2 4983vpsubw 6048(%r12), %ymm2, %ymm2 4984vpsubw %ymm0, %ymm7, %ymm7 4985vpaddw %ymm4, %ymm7, %ymm7 4986vmovdqa 5184(%r12), %ymm8 4987vmovdqa 6048(%r12), %ymm9 4988vmovdqa %ymm8, 768(%rsp) 4989vmovdqa %ymm0, 800(%rsp) 4990vmovdqa %ymm1, 832(%rsp) 4991vmovdqa %ymm7, 864(%rsp) 4992vmovdqa %ymm5, 896(%rsp) 4993vmovdqa %ymm2, 928(%rsp) 4994vmovdqa %ymm3, 960(%rsp) 4995vmovdqa %ymm9, 992(%rsp) 4996vmovdqa 7008(%r12), %ymm0 4997vpsubw 7104(%r12), %ymm0, %ymm0 4998vmovdqa 7392(%r12), %ymm1 4999vpsubw %ymm0, %ymm1, %ymm1 5000vpsubw 7200(%r12), %ymm1, %ymm1 5001vpsubw 6912(%r12), %ymm0, %ymm0 5002vpaddw 7296(%r12), %ymm0, %ymm0 5003vmovdqa 7584(%r12), %ymm2 5004vpsubw 7680(%r12), %ymm2, %ymm2 5005vmovdqa 7968(%r12), %ymm3 5006vpsubw %ymm2, %ymm3, %ymm3 5007vpsubw 7776(%r12), %ymm3, %ymm3 5008vpsubw 7488(%r12), %ymm2, %ymm2 5009vpaddw 7872(%r12), %ymm2, %ymm2 5010vmovdqa 8160(%r12), %ymm4 5011vpsubw 8256(%r12), %ymm4, %ymm4 5012vmovdqa 8544(%r12), %ymm5 5013vpsubw %ymm4, %ymm5, %ymm5 5014vpsubw 8352(%r12), %ymm5, %ymm5 5015vpsubw 8064(%r12), %ymm4, %ymm4 5016vpaddw 8448(%r12), %ymm4, %ymm4 5017vpsubw 7488(%r12), %ymm1, %ymm1 5018vpsubw %ymm1, %ymm5, %ymm5 5019vpsubw %ymm3, %ymm5, %ymm5 5020vpsubw 6912(%r12), %ymm1, %ymm1 5021vpaddw 8064(%r12), %ymm1, %ymm1 5022vmovdqa 7200(%r12), %ymm6 5023vpsubw %ymm2, %ymm6, %ymm7 5024vmovdqa 8352(%r12), %ymm2 5025vpsubw %ymm7, %ymm2, %ymm2 5026vpsubw 7776(%r12), %ymm2, %ymm2 5027vpsubw %ymm0, %ymm7, %ymm7 5028vpaddw %ymm4, %ymm7, %ymm7 5029vmovdqa 6912(%r12), %ymm8 5030vmovdqa 7776(%r12), %ymm9 5031vmovdqa %ymm8, 1024(%rsp) 5032vmovdqa %ymm0, 1056(%rsp) 5033vmovdqa %ymm1, 1088(%rsp) 5034vmovdqa %ymm7, 1120(%rsp) 5035vmovdqa %ymm5, 1152(%rsp) 5036vmovdqa %ymm2, 1184(%rsp) 5037vmovdqa %ymm3, 1216(%rsp) 5038vmovdqa %ymm9, 1248(%rsp) 5039vmovdqa 8736(%r12), %ymm0 5040vpsubw 8832(%r12), %ymm0, %ymm0 5041vmovdqa 9120(%r12), %ymm1 5042vpsubw %ymm0, %ymm1, %ymm1 5043vpsubw 8928(%r12), %ymm1, %ymm1 5044vpsubw 8640(%r12), %ymm0, %ymm0 5045vpaddw 9024(%r12), %ymm0, %ymm0 5046vmovdqa 9312(%r12), %ymm2 5047vpsubw 9408(%r12), %ymm2, %ymm2 5048vmovdqa 9696(%r12), %ymm3 5049vpsubw %ymm2, %ymm3, %ymm3 5050vpsubw 9504(%r12), %ymm3, %ymm3 5051vpsubw 9216(%r12), %ymm2, %ymm2 5052vpaddw 9600(%r12), %ymm2, %ymm2 5053vmovdqa 9888(%r12), %ymm4 5054vpsubw 9984(%r12), %ymm4, %ymm4 5055vmovdqa 10272(%r12), %ymm5 5056vpsubw %ymm4, %ymm5, %ymm5 5057vpsubw 10080(%r12), %ymm5, %ymm5 5058vpsubw 9792(%r12), %ymm4, %ymm4 5059vpaddw 10176(%r12), %ymm4, %ymm4 5060vpsubw 9216(%r12), %ymm1, %ymm1 5061vpsubw %ymm1, %ymm5, %ymm5 5062vpsubw %ymm3, %ymm5, %ymm5 5063vpsubw 8640(%r12), %ymm1, %ymm1 5064vpaddw 9792(%r12), %ymm1, %ymm1 5065vmovdqa 8928(%r12), %ymm6 5066vpsubw %ymm2, %ymm6, %ymm7 5067vmovdqa 10080(%r12), %ymm2 5068vpsubw %ymm7, %ymm2, %ymm2 5069vpsubw 9504(%r12), %ymm2, %ymm2 5070vpsubw %ymm0, %ymm7, %ymm7 5071vpaddw %ymm4, %ymm7, %ymm7 5072vmovdqa 8640(%r12), %ymm8 5073vmovdqa 9504(%r12), %ymm9 5074vmovdqa %ymm8, 1280(%rsp) 5075vmovdqa %ymm0, 1312(%rsp) 5076vmovdqa %ymm1, 1344(%rsp) 5077vmovdqa %ymm7, 1376(%rsp) 5078vmovdqa %ymm5, 1408(%rsp) 5079vmovdqa %ymm2, 1440(%rsp) 5080vmovdqa %ymm3, 1472(%rsp) 5081vmovdqa %ymm9, 1504(%rsp) 5082vmovdqa 10464(%r12), %ymm0 5083vpsubw 10560(%r12), %ymm0, %ymm0 5084vmovdqa 10848(%r12), %ymm1 5085vpsubw %ymm0, %ymm1, %ymm1 5086vpsubw 10656(%r12), %ymm1, %ymm1 5087vpsubw 10368(%r12), %ymm0, %ymm0 5088vpaddw 10752(%r12), %ymm0, %ymm0 5089vmovdqa 11040(%r12), %ymm2 5090vpsubw 11136(%r12), %ymm2, %ymm2 5091vmovdqa 11424(%r12), %ymm3 5092vpsubw %ymm2, %ymm3, %ymm3 5093vpsubw 11232(%r12), %ymm3, %ymm3 5094vpsubw 10944(%r12), %ymm2, %ymm2 5095vpaddw 11328(%r12), %ymm2, %ymm2 5096vmovdqa 11616(%r12), %ymm4 5097vpsubw 11712(%r12), %ymm4, %ymm4 5098vmovdqa 12000(%r12), %ymm5 5099vpsubw %ymm4, %ymm5, %ymm5 5100vpsubw 11808(%r12), %ymm5, %ymm5 5101vpsubw 11520(%r12), %ymm4, %ymm4 5102vpaddw 11904(%r12), %ymm4, %ymm4 5103vpsubw 10944(%r12), %ymm1, %ymm1 5104vpsubw %ymm1, %ymm5, %ymm5 5105vpsubw %ymm3, %ymm5, %ymm5 5106vpsubw 10368(%r12), %ymm1, %ymm1 5107vpaddw 11520(%r12), %ymm1, %ymm1 5108vmovdqa 10656(%r12), %ymm6 5109vpsubw %ymm2, %ymm6, %ymm7 5110vmovdqa 11808(%r12), %ymm2 5111vpsubw %ymm7, %ymm2, %ymm2 5112vpsubw 11232(%r12), %ymm2, %ymm2 5113vpsubw %ymm0, %ymm7, %ymm7 5114vpaddw %ymm4, %ymm7, %ymm7 5115vmovdqa 10368(%r12), %ymm8 5116vmovdqa 11232(%r12), %ymm9 5117vmovdqa %ymm8, 1536(%rsp) 5118vmovdqa %ymm0, 1568(%rsp) 5119vmovdqa %ymm1, 1600(%rsp) 5120vmovdqa %ymm7, 1632(%rsp) 5121vmovdqa %ymm5, 1664(%rsp) 5122vmovdqa %ymm2, 1696(%rsp) 5123vmovdqa %ymm3, 1728(%rsp) 5124vmovdqa %ymm9, 1760(%rsp) 5125vmovdqa 0(%rsp), %ymm11 5126vpunpcklwd const0(%rip), %ymm11, %ymm10 5127vpunpckhwd const0(%rip), %ymm11, %ymm9 5128vpslld $1, %ymm10, %ymm10 5129vpslld $1, %ymm9, %ymm9 5130vmovdqa 256(%rsp), %ymm8 5131vpunpcklwd const0(%rip), %ymm8, %ymm7 5132vpunpckhwd const0(%rip), %ymm8, %ymm8 5133vmovdqa 512(%rsp), %ymm6 5134vpunpcklwd const0(%rip), %ymm6, %ymm5 5135vpunpckhwd const0(%rip), %ymm6, %ymm6 5136vpaddd %ymm5, %ymm7, %ymm4 5137vpaddd %ymm6, %ymm8, %ymm3 5138vpsubd %ymm10, %ymm4, %ymm4 5139vpsubd %ymm9, %ymm3, %ymm3 5140vpsubd %ymm5, %ymm7, %ymm5 5141vpsubd %ymm6, %ymm8, %ymm6 5142vpsrld $1, %ymm5, %ymm5 5143vpsrld $1, %ymm6, %ymm6 5144vpand mask32_to_16(%rip), %ymm5, %ymm5 5145vpand mask32_to_16(%rip), %ymm6, %ymm6 5146vpackusdw %ymm6, %ymm5, %ymm6 5147vmovdqa 1536(%rsp), %ymm5 5148vpunpcklwd const0(%rip), %ymm5, %ymm8 5149vpunpckhwd const0(%rip), %ymm5, %ymm7 5150vpslld $1, %ymm8, %ymm8 5151vpslld $1, %ymm7, %ymm7 5152vpsubd %ymm8, %ymm4, %ymm4 5153vpsubd %ymm7, %ymm3, %ymm3 5154vpsrld $1, %ymm4, %ymm4 5155vpsrld $1, %ymm3, %ymm3 5156vpand mask32_to_16(%rip), %ymm4, %ymm4 5157vpand mask32_to_16(%rip), %ymm3, %ymm3 5158vpackusdw %ymm3, %ymm4, %ymm3 5159vmovdqa 768(%rsp), %ymm4 5160vpaddw 1024(%rsp), %ymm4, %ymm7 5161vpsubw 1024(%rsp), %ymm4, %ymm4 5162vpsrlw $2, %ymm4, %ymm4 5163vpsubw %ymm6, %ymm4, %ymm4 5164vpmullw %ymm14, %ymm4, %ymm4 5165vpsllw $1, %ymm11, %ymm8 5166vpsubw %ymm8, %ymm7, %ymm8 5167vpsllw $7, %ymm5, %ymm7 5168vpsubw %ymm7, %ymm8, %ymm7 5169vpsrlw $3, %ymm7, %ymm7 5170vpsubw %ymm3, %ymm7, %ymm7 5171vmovdqa 1280(%rsp), %ymm8 5172vpsubw %ymm11, %ymm8, %ymm8 5173vpmullw %ymm15, %ymm5, %ymm9 5174vpsubw %ymm9, %ymm8, %ymm9 5175vpmullw %ymm14, %ymm7, %ymm7 5176vpsubw %ymm7, %ymm3, %ymm3 5177vpmullw %ymm12, %ymm7, %ymm8 5178vpaddw %ymm8, %ymm3, %ymm8 5179vpmullw %ymm12, %ymm8, %ymm8 5180vpsubw %ymm8, %ymm9, %ymm8 5181vpmullw %ymm14, %ymm8, %ymm8 5182vpsubw %ymm6, %ymm8, %ymm8 5183vpsrlw $3, %ymm8, %ymm8 5184vpsubw %ymm4, %ymm8, %ymm8 5185vpsubw %ymm8, %ymm4, %ymm4 5186vpsubw %ymm4, %ymm6, %ymm6 5187vpmullw %ymm13, %ymm8, %ymm8 5188vpsubw %ymm8, %ymm6, %ymm6 5189vpshufb shuf48_16(%rip), %ymm7, %ymm7 5190vpand mask3_5_3_5(%rip), %ymm7, %ymm9 5191vpand mask5_3_5_3(%rip), %ymm7, %ymm7 5192vpermq $206, %ymm9, %ymm9 5193vpand mask_keephigh(%rip), %ymm9, %ymm10 5194vpor %ymm10, %ymm7, %ymm7 5195vpaddw %ymm7, %ymm11, %ymm11 5196vmovdqa %xmm9, 2048(%rsp) 5197vpshufb shuf48_16(%rip), %ymm8, %ymm8 5198vpand mask3_5_3_5(%rip), %ymm8, %ymm9 5199vpand mask5_3_5_3(%rip), %ymm8, %ymm8 5200vpermq $206, %ymm9, %ymm9 5201vpand mask_keephigh(%rip), %ymm9, %ymm10 5202vpor %ymm10, %ymm8, %ymm8 5203vpaddw %ymm8, %ymm6, %ymm6 5204vmovdqa %xmm9, 2304(%rsp) 5205vpshufb shuf48_16(%rip), %ymm5, %ymm5 5206vpand mask3_5_3_5(%rip), %ymm5, %ymm9 5207vpand mask5_3_5_3(%rip), %ymm5, %ymm5 5208vpermq $206, %ymm9, %ymm9 5209vpand mask_keephigh(%rip), %ymm9, %ymm10 5210vpor %ymm10, %ymm5, %ymm5 5211vpaddw %ymm5, %ymm3, %ymm3 5212vmovdqa %xmm9, 2560(%rsp) 5213vpand mask_mod8192(%rip), %ymm11, %ymm11 5214vmovdqu %ymm11, 0(%rdi) 5215vpand mask_mod8192(%rip), %ymm6, %ymm6 5216vmovdqu %ymm6, 352(%rdi) 5217vpand mask_mod8192(%rip), %ymm3, %ymm3 5218vmovdqu %ymm3, 704(%rdi) 5219vpand mask_mod8192(%rip), %ymm4, %ymm4 5220vmovdqu %ymm4, 1056(%rdi) 5221vmovdqa 32(%rsp), %ymm5 5222vpunpcklwd const0(%rip), %ymm5, %ymm8 5223vpunpckhwd const0(%rip), %ymm5, %ymm7 5224vpslld $1, %ymm8, %ymm8 5225vpslld $1, %ymm7, %ymm7 5226vmovdqa 288(%rsp), %ymm4 5227vpunpcklwd const0(%rip), %ymm4, %ymm3 5228vpunpckhwd const0(%rip), %ymm4, %ymm4 5229vmovdqa 544(%rsp), %ymm6 5230vpunpcklwd const0(%rip), %ymm6, %ymm11 5231vpunpckhwd const0(%rip), %ymm6, %ymm6 5232vpaddd %ymm11, %ymm3, %ymm9 5233vpaddd %ymm6, %ymm4, %ymm10 5234vpsubd %ymm8, %ymm9, %ymm9 5235vpsubd %ymm7, %ymm10, %ymm10 5236vpsubd %ymm11, %ymm3, %ymm11 5237vpsubd %ymm6, %ymm4, %ymm6 5238vpsrld $1, %ymm11, %ymm11 5239vpsrld $1, %ymm6, %ymm6 5240vpand mask32_to_16(%rip), %ymm11, %ymm11 5241vpand mask32_to_16(%rip), %ymm6, %ymm6 5242vpackusdw %ymm6, %ymm11, %ymm6 5243vmovdqa 1568(%rsp), %ymm11 5244vpunpcklwd const0(%rip), %ymm11, %ymm4 5245vpunpckhwd const0(%rip), %ymm11, %ymm3 5246vpslld $1, %ymm4, %ymm4 5247vpslld $1, %ymm3, %ymm3 5248vpsubd %ymm4, %ymm9, %ymm9 5249vpsubd %ymm3, %ymm10, %ymm10 5250vpsrld $1, %ymm9, %ymm9 5251vpsrld $1, %ymm10, %ymm10 5252vpand mask32_to_16(%rip), %ymm9, %ymm9 5253vpand mask32_to_16(%rip), %ymm10, %ymm10 5254vpackusdw %ymm10, %ymm9, %ymm10 5255vmovdqa 800(%rsp), %ymm9 5256vpaddw 1056(%rsp), %ymm9, %ymm3 5257vpsubw 1056(%rsp), %ymm9, %ymm9 5258vpsrlw $2, %ymm9, %ymm9 5259vpsubw %ymm6, %ymm9, %ymm9 5260vpmullw %ymm14, %ymm9, %ymm9 5261vpsllw $1, %ymm5, %ymm4 5262vpsubw %ymm4, %ymm3, %ymm4 5263vpsllw $7, %ymm11, %ymm3 5264vpsubw %ymm3, %ymm4, %ymm3 5265vpsrlw $3, %ymm3, %ymm3 5266vpsubw %ymm10, %ymm3, %ymm3 5267vmovdqa 1312(%rsp), %ymm4 5268vpsubw %ymm5, %ymm4, %ymm4 5269vpmullw %ymm15, %ymm11, %ymm7 5270vpsubw %ymm7, %ymm4, %ymm7 5271vpmullw %ymm14, %ymm3, %ymm3 5272vpsubw %ymm3, %ymm10, %ymm10 5273vpmullw %ymm12, %ymm3, %ymm4 5274vpaddw %ymm4, %ymm10, %ymm4 5275vpmullw %ymm12, %ymm4, %ymm4 5276vpsubw %ymm4, %ymm7, %ymm4 5277vpmullw %ymm14, %ymm4, %ymm4 5278vpsubw %ymm6, %ymm4, %ymm4 5279vpsrlw $3, %ymm4, %ymm4 5280vpsubw %ymm9, %ymm4, %ymm4 5281vpsubw %ymm4, %ymm9, %ymm9 5282vpsubw %ymm9, %ymm6, %ymm6 5283vpmullw %ymm13, %ymm4, %ymm4 5284vpsubw %ymm4, %ymm6, %ymm6 5285vpshufb shuf48_16(%rip), %ymm3, %ymm3 5286vpand mask3_5_3_5(%rip), %ymm3, %ymm7 5287vpand mask5_3_5_3(%rip), %ymm3, %ymm3 5288vpermq $206, %ymm7, %ymm7 5289vpand mask_keephigh(%rip), %ymm7, %ymm8 5290vpor %ymm8, %ymm3, %ymm3 5291vpaddw %ymm3, %ymm5, %ymm5 5292vmovdqa %xmm7, 2080(%rsp) 5293vpshufb shuf48_16(%rip), %ymm4, %ymm4 5294vpand mask3_5_3_5(%rip), %ymm4, %ymm7 5295vpand mask5_3_5_3(%rip), %ymm4, %ymm4 5296vpermq $206, %ymm7, %ymm7 5297vpand mask_keephigh(%rip), %ymm7, %ymm8 5298vpor %ymm8, %ymm4, %ymm4 5299vpaddw %ymm4, %ymm6, %ymm6 5300vmovdqa %xmm7, 2336(%rsp) 5301vpshufb shuf48_16(%rip), %ymm11, %ymm11 5302vpand mask3_5_3_5(%rip), %ymm11, %ymm7 5303vpand mask5_3_5_3(%rip), %ymm11, %ymm11 5304vpermq $206, %ymm7, %ymm7 5305vpand mask_keephigh(%rip), %ymm7, %ymm8 5306vpor %ymm8, %ymm11, %ymm11 5307vpaddw %ymm11, %ymm10, %ymm10 5308vmovdqa %xmm7, 2592(%rsp) 5309vpand mask_mod8192(%rip), %ymm5, %ymm5 5310vmovdqu %ymm5, 88(%rdi) 5311vpand mask_mod8192(%rip), %ymm6, %ymm6 5312vmovdqu %ymm6, 440(%rdi) 5313vpand mask_mod8192(%rip), %ymm10, %ymm10 5314vmovdqu %ymm10, 792(%rdi) 5315vpand mask_mod8192(%rip), %ymm9, %ymm9 5316vmovdqu %ymm9, 1144(%rdi) 5317vmovdqa 64(%rsp), %ymm11 5318vpunpcklwd const0(%rip), %ymm11, %ymm4 5319vpunpckhwd const0(%rip), %ymm11, %ymm3 5320vpslld $1, %ymm4, %ymm4 5321vpslld $1, %ymm3, %ymm3 5322vmovdqa 320(%rsp), %ymm9 5323vpunpcklwd const0(%rip), %ymm9, %ymm10 5324vpunpckhwd const0(%rip), %ymm9, %ymm9 5325vmovdqa 576(%rsp), %ymm6 5326vpunpcklwd const0(%rip), %ymm6, %ymm5 5327vpunpckhwd const0(%rip), %ymm6, %ymm6 5328vpaddd %ymm5, %ymm10, %ymm7 5329vpaddd %ymm6, %ymm9, %ymm8 5330vpsubd %ymm4, %ymm7, %ymm7 5331vpsubd %ymm3, %ymm8, %ymm8 5332vpsubd %ymm5, %ymm10, %ymm5 5333vpsubd %ymm6, %ymm9, %ymm6 5334vpsrld $1, %ymm5, %ymm5 5335vpsrld $1, %ymm6, %ymm6 5336vpand mask32_to_16(%rip), %ymm5, %ymm5 5337vpand mask32_to_16(%rip), %ymm6, %ymm6 5338vpackusdw %ymm6, %ymm5, %ymm6 5339vmovdqa 1600(%rsp), %ymm5 5340vpunpcklwd const0(%rip), %ymm5, %ymm9 5341vpunpckhwd const0(%rip), %ymm5, %ymm10 5342vpslld $1, %ymm9, %ymm9 5343vpslld $1, %ymm10, %ymm10 5344vpsubd %ymm9, %ymm7, %ymm7 5345vpsubd %ymm10, %ymm8, %ymm8 5346vpsrld $1, %ymm7, %ymm7 5347vpsrld $1, %ymm8, %ymm8 5348vpand mask32_to_16(%rip), %ymm7, %ymm7 5349vpand mask32_to_16(%rip), %ymm8, %ymm8 5350vpackusdw %ymm8, %ymm7, %ymm8 5351vmovdqa 832(%rsp), %ymm7 5352vpaddw 1088(%rsp), %ymm7, %ymm10 5353vpsubw 1088(%rsp), %ymm7, %ymm7 5354vpsrlw $2, %ymm7, %ymm7 5355vpsubw %ymm6, %ymm7, %ymm7 5356vpmullw %ymm14, %ymm7, %ymm7 5357vpsllw $1, %ymm11, %ymm9 5358vpsubw %ymm9, %ymm10, %ymm9 5359vpsllw $7, %ymm5, %ymm10 5360vpsubw %ymm10, %ymm9, %ymm10 5361vpsrlw $3, %ymm10, %ymm10 5362vpsubw %ymm8, %ymm10, %ymm10 5363vmovdqa 1344(%rsp), %ymm9 5364vpsubw %ymm11, %ymm9, %ymm9 5365vpmullw %ymm15, %ymm5, %ymm3 5366vpsubw %ymm3, %ymm9, %ymm3 5367vpmullw %ymm14, %ymm10, %ymm10 5368vpsubw %ymm10, %ymm8, %ymm8 5369vpmullw %ymm12, %ymm10, %ymm9 5370vpaddw %ymm9, %ymm8, %ymm9 5371vpmullw %ymm12, %ymm9, %ymm9 5372vpsubw %ymm9, %ymm3, %ymm9 5373vpmullw %ymm14, %ymm9, %ymm9 5374vpsubw %ymm6, %ymm9, %ymm9 5375vpsrlw $3, %ymm9, %ymm9 5376vpsubw %ymm7, %ymm9, %ymm9 5377vpsubw %ymm9, %ymm7, %ymm7 5378vpsubw %ymm7, %ymm6, %ymm6 5379vpmullw %ymm13, %ymm9, %ymm9 5380vpsubw %ymm9, %ymm6, %ymm6 5381vpshufb shuf48_16(%rip), %ymm10, %ymm10 5382vpand mask3_5_3_5(%rip), %ymm10, %ymm3 5383vpand mask5_3_5_3(%rip), %ymm10, %ymm10 5384vpermq $206, %ymm3, %ymm3 5385vpand mask_keephigh(%rip), %ymm3, %ymm4 5386vpor %ymm4, %ymm10, %ymm10 5387vpaddw %ymm10, %ymm11, %ymm11 5388vmovdqa %xmm3, 2112(%rsp) 5389vpshufb shuf48_16(%rip), %ymm9, %ymm9 5390vpand mask3_5_3_5(%rip), %ymm9, %ymm3 5391vpand mask5_3_5_3(%rip), %ymm9, %ymm9 5392vpermq $206, %ymm3, %ymm3 5393vpand mask_keephigh(%rip), %ymm3, %ymm4 5394vpor %ymm4, %ymm9, %ymm9 5395vpaddw %ymm9, %ymm6, %ymm6 5396vmovdqa %xmm3, 2368(%rsp) 5397vpshufb shuf48_16(%rip), %ymm5, %ymm5 5398vpand mask3_5_3_5(%rip), %ymm5, %ymm3 5399vpand mask5_3_5_3(%rip), %ymm5, %ymm5 5400vpermq $206, %ymm3, %ymm3 5401vpand mask_keephigh(%rip), %ymm3, %ymm4 5402vpor %ymm4, %ymm5, %ymm5 5403vpaddw %ymm5, %ymm8, %ymm8 5404vmovdqa %xmm3, 2624(%rsp) 5405vpand mask_mod8192(%rip), %ymm11, %ymm11 5406vmovdqu %ymm11, 176(%rdi) 5407vpand mask_mod8192(%rip), %ymm6, %ymm6 5408vmovdqu %ymm6, 528(%rdi) 5409vpand mask_mod8192(%rip), %ymm8, %ymm8 5410vmovdqu %ymm8, 880(%rdi) 5411vpand mask_mod8192(%rip), %ymm7, %ymm7 5412vmovdqu %ymm7, 1232(%rdi) 5413vmovdqa 96(%rsp), %ymm5 5414vpunpcklwd const0(%rip), %ymm5, %ymm9 5415vpunpckhwd const0(%rip), %ymm5, %ymm10 5416vpslld $1, %ymm9, %ymm9 5417vpslld $1, %ymm10, %ymm10 5418vmovdqa 352(%rsp), %ymm7 5419vpunpcklwd const0(%rip), %ymm7, %ymm8 5420vpunpckhwd const0(%rip), %ymm7, %ymm7 5421vmovdqa 608(%rsp), %ymm6 5422vpunpcklwd const0(%rip), %ymm6, %ymm11 5423vpunpckhwd const0(%rip), %ymm6, %ymm6 5424vpaddd %ymm11, %ymm8, %ymm3 5425vpaddd %ymm6, %ymm7, %ymm4 5426vpsubd %ymm9, %ymm3, %ymm3 5427vpsubd %ymm10, %ymm4, %ymm4 5428vpsubd %ymm11, %ymm8, %ymm11 5429vpsubd %ymm6, %ymm7, %ymm6 5430vpsrld $1, %ymm11, %ymm11 5431vpsrld $1, %ymm6, %ymm6 5432vpand mask32_to_16(%rip), %ymm11, %ymm11 5433vpand mask32_to_16(%rip), %ymm6, %ymm6 5434vpackusdw %ymm6, %ymm11, %ymm6 5435vmovdqa 1632(%rsp), %ymm11 5436vpunpcklwd const0(%rip), %ymm11, %ymm7 5437vpunpckhwd const0(%rip), %ymm11, %ymm8 5438vpslld $1, %ymm7, %ymm7 5439vpslld $1, %ymm8, %ymm8 5440vpsubd %ymm7, %ymm3, %ymm3 5441vpsubd %ymm8, %ymm4, %ymm4 5442vpsrld $1, %ymm3, %ymm3 5443vpsrld $1, %ymm4, %ymm4 5444vpand mask32_to_16(%rip), %ymm3, %ymm3 5445vpand mask32_to_16(%rip), %ymm4, %ymm4 5446vpackusdw %ymm4, %ymm3, %ymm4 5447vmovdqa 864(%rsp), %ymm3 5448vpaddw 1120(%rsp), %ymm3, %ymm8 5449vpsubw 1120(%rsp), %ymm3, %ymm3 5450vpsrlw $2, %ymm3, %ymm3 5451vpsubw %ymm6, %ymm3, %ymm3 5452vpmullw %ymm14, %ymm3, %ymm3 5453vpsllw $1, %ymm5, %ymm7 5454vpsubw %ymm7, %ymm8, %ymm7 5455vpsllw $7, %ymm11, %ymm8 5456vpsubw %ymm8, %ymm7, %ymm8 5457vpsrlw $3, %ymm8, %ymm8 5458vpsubw %ymm4, %ymm8, %ymm8 5459vmovdqa 1376(%rsp), %ymm7 5460vpsubw %ymm5, %ymm7, %ymm7 5461vpmullw %ymm15, %ymm11, %ymm10 5462vpsubw %ymm10, %ymm7, %ymm10 5463vpmullw %ymm14, %ymm8, %ymm8 5464vpsubw %ymm8, %ymm4, %ymm4 5465vpmullw %ymm12, %ymm8, %ymm7 5466vpaddw %ymm7, %ymm4, %ymm7 5467vpmullw %ymm12, %ymm7, %ymm7 5468vpsubw %ymm7, %ymm10, %ymm7 5469vpmullw %ymm14, %ymm7, %ymm7 5470vpsubw %ymm6, %ymm7, %ymm7 5471vpsrlw $3, %ymm7, %ymm7 5472vpsubw %ymm3, %ymm7, %ymm7 5473vpsubw %ymm7, %ymm3, %ymm3 5474vpsubw %ymm3, %ymm6, %ymm6 5475vpmullw %ymm13, %ymm7, %ymm7 5476vpsubw %ymm7, %ymm6, %ymm6 5477vpshufb shuf48_16(%rip), %ymm8, %ymm8 5478vpand mask3_5_3_5(%rip), %ymm8, %ymm10 5479vpand mask5_3_5_3(%rip), %ymm8, %ymm8 5480vpermq $206, %ymm10, %ymm10 5481vpand mask_keephigh(%rip), %ymm10, %ymm9 5482vpor %ymm9, %ymm8, %ymm8 5483vpaddw %ymm8, %ymm5, %ymm5 5484vmovdqa %xmm10, 2144(%rsp) 5485vpshufb shuf48_16(%rip), %ymm7, %ymm7 5486vpand mask3_5_3_5(%rip), %ymm7, %ymm10 5487vpand mask5_3_5_3(%rip), %ymm7, %ymm7 5488vpermq $206, %ymm10, %ymm10 5489vpand mask_keephigh(%rip), %ymm10, %ymm9 5490vpor %ymm9, %ymm7, %ymm7 5491vpaddw %ymm7, %ymm6, %ymm6 5492vmovdqa %xmm10, 2400(%rsp) 5493vpshufb shuf48_16(%rip), %ymm11, %ymm11 5494vpand mask3_5_3_5(%rip), %ymm11, %ymm10 5495vpand mask5_3_5_3(%rip), %ymm11, %ymm11 5496vpermq $206, %ymm10, %ymm10 5497vpand mask_keephigh(%rip), %ymm10, %ymm9 5498vpor %ymm9, %ymm11, %ymm11 5499vpaddw %ymm11, %ymm4, %ymm4 5500vmovdqa %xmm10, 2656(%rsp) 5501vpand mask_mod8192(%rip), %ymm5, %ymm5 5502vmovdqu %ymm5, 264(%rdi) 5503vpand mask_mod8192(%rip), %ymm6, %ymm6 5504vmovdqu %ymm6, 616(%rdi) 5505vpand mask_mod8192(%rip), %ymm4, %ymm4 5506vmovdqu %ymm4, 968(%rdi) 5507vpand mask_mod8192(%rip), %ymm3, %ymm3 5508vmovdqu %ymm3, 1320(%rdi) 5509vmovdqa 128(%rsp), %ymm11 5510vpunpcklwd const0(%rip), %ymm11, %ymm7 5511vpunpckhwd const0(%rip), %ymm11, %ymm8 5512vpslld $1, %ymm7, %ymm7 5513vpslld $1, %ymm8, %ymm8 5514vmovdqa 384(%rsp), %ymm3 5515vpunpcklwd const0(%rip), %ymm3, %ymm4 5516vpunpckhwd const0(%rip), %ymm3, %ymm3 5517vmovdqa 640(%rsp), %ymm6 5518vpunpcklwd const0(%rip), %ymm6, %ymm5 5519vpunpckhwd const0(%rip), %ymm6, %ymm6 5520vpaddd %ymm5, %ymm4, %ymm10 5521vpaddd %ymm6, %ymm3, %ymm9 5522vpsubd %ymm7, %ymm10, %ymm10 5523vpsubd %ymm8, %ymm9, %ymm9 5524vpsubd %ymm5, %ymm4, %ymm5 5525vpsubd %ymm6, %ymm3, %ymm6 5526vpsrld $1, %ymm5, %ymm5 5527vpsrld $1, %ymm6, %ymm6 5528vpand mask32_to_16(%rip), %ymm5, %ymm5 5529vpand mask32_to_16(%rip), %ymm6, %ymm6 5530vpackusdw %ymm6, %ymm5, %ymm6 5531vmovdqa 1664(%rsp), %ymm5 5532vpunpcklwd const0(%rip), %ymm5, %ymm3 5533vpunpckhwd const0(%rip), %ymm5, %ymm4 5534vpslld $1, %ymm3, %ymm3 5535vpslld $1, %ymm4, %ymm4 5536vpsubd %ymm3, %ymm10, %ymm10 5537vpsubd %ymm4, %ymm9, %ymm9 5538vpsrld $1, %ymm10, %ymm10 5539vpsrld $1, %ymm9, %ymm9 5540vpand mask32_to_16(%rip), %ymm10, %ymm10 5541vpand mask32_to_16(%rip), %ymm9, %ymm9 5542vpackusdw %ymm9, %ymm10, %ymm9 5543vmovdqa 896(%rsp), %ymm10 5544vpaddw 1152(%rsp), %ymm10, %ymm4 5545vpsubw 1152(%rsp), %ymm10, %ymm10 5546vpsrlw $2, %ymm10, %ymm10 5547vpsubw %ymm6, %ymm10, %ymm10 5548vpmullw %ymm14, %ymm10, %ymm10 5549vpsllw $1, %ymm11, %ymm3 5550vpsubw %ymm3, %ymm4, %ymm3 5551vpsllw $7, %ymm5, %ymm4 5552vpsubw %ymm4, %ymm3, %ymm4 5553vpsrlw $3, %ymm4, %ymm4 5554vpsubw %ymm9, %ymm4, %ymm4 5555vmovdqa 1408(%rsp), %ymm3 5556vpsubw %ymm11, %ymm3, %ymm3 5557vpmullw %ymm15, %ymm5, %ymm8 5558vpsubw %ymm8, %ymm3, %ymm8 5559vpmullw %ymm14, %ymm4, %ymm4 5560vpsubw %ymm4, %ymm9, %ymm9 5561vpmullw %ymm12, %ymm4, %ymm3 5562vpaddw %ymm3, %ymm9, %ymm3 5563vpmullw %ymm12, %ymm3, %ymm3 5564vpsubw %ymm3, %ymm8, %ymm3 5565vpmullw %ymm14, %ymm3, %ymm3 5566vpsubw %ymm6, %ymm3, %ymm3 5567vpsrlw $3, %ymm3, %ymm3 5568vpsubw %ymm10, %ymm3, %ymm3 5569vpsubw %ymm3, %ymm10, %ymm10 5570vpsubw %ymm10, %ymm6, %ymm6 5571vpmullw %ymm13, %ymm3, %ymm3 5572vpsubw %ymm3, %ymm6, %ymm6 5573vmovdqu 352(%rdi), %ymm8 5574vmovdqu 704(%rdi), %ymm7 5575vmovdqu 1056(%rdi), %ymm2 5576vpaddw %ymm11, %ymm8, %ymm11 5577vpaddw %ymm6, %ymm7, %ymm6 5578vpaddw %ymm9, %ymm2, %ymm9 5579vpshufb shuf48_16(%rip), %ymm10, %ymm10 5580vpand mask3_5_3_5(%rip), %ymm10, %ymm2 5581vpand mask5_3_5_3(%rip), %ymm10, %ymm10 5582vpermq $206, %ymm2, %ymm2 5583vpand mask_keephigh(%rip), %ymm2, %ymm7 5584vpor %ymm7, %ymm10, %ymm10 5585vmovdqu 0(%rdi), %ymm7 5586vpaddw %ymm10, %ymm7, %ymm7 5587vpand mask_mod8192(%rip), %ymm7, %ymm7 5588vmovdqu %ymm7, 0(%rdi) 5589vmovdqa %xmm2, 1920(%rsp) 5590vpshufb shuf48_16(%rip), %ymm4, %ymm4 5591vpand mask3_5_3_5(%rip), %ymm4, %ymm2 5592vpand mask5_3_5_3(%rip), %ymm4, %ymm4 5593vpermq $206, %ymm2, %ymm2 5594vpand mask_keephigh(%rip), %ymm2, %ymm7 5595vpor %ymm7, %ymm4, %ymm4 5596vpaddw %ymm4, %ymm11, %ymm11 5597vmovdqa %xmm2, 2176(%rsp) 5598vpshufb shuf48_16(%rip), %ymm3, %ymm3 5599vpand mask3_5_3_5(%rip), %ymm3, %ymm2 5600vpand mask5_3_5_3(%rip), %ymm3, %ymm3 5601vpermq $206, %ymm2, %ymm2 5602vpand mask_keephigh(%rip), %ymm2, %ymm7 5603vpor %ymm7, %ymm3, %ymm3 5604vpaddw %ymm3, %ymm6, %ymm6 5605vmovdqa %xmm2, 2432(%rsp) 5606vpshufb shuf48_16(%rip), %ymm5, %ymm5 5607vpand mask3_5_3_5(%rip), %ymm5, %ymm2 5608vpand mask5_3_5_3(%rip), %ymm5, %ymm5 5609vpermq $206, %ymm2, %ymm2 5610vpand mask_keephigh(%rip), %ymm2, %ymm7 5611vpor %ymm7, %ymm5, %ymm5 5612vpaddw %ymm5, %ymm9, %ymm9 5613vmovdqa %xmm2, 2688(%rsp) 5614vpand mask_mod8192(%rip), %ymm11, %ymm11 5615vmovdqu %ymm11, 352(%rdi) 5616vpand mask_mod8192(%rip), %ymm6, %ymm6 5617vmovdqu %ymm6, 704(%rdi) 5618vpand mask_mod8192(%rip), %ymm9, %ymm9 5619vmovdqu %ymm9, 1056(%rdi) 5620vmovdqa 160(%rsp), %ymm5 5621vpunpcklwd const0(%rip), %ymm5, %ymm3 5622vpunpckhwd const0(%rip), %ymm5, %ymm4 5623vpslld $1, %ymm3, %ymm3 5624vpslld $1, %ymm4, %ymm4 5625vmovdqa 416(%rsp), %ymm10 5626vpunpcklwd const0(%rip), %ymm10, %ymm9 5627vpunpckhwd const0(%rip), %ymm10, %ymm10 5628vmovdqa 672(%rsp), %ymm6 5629vpunpcklwd const0(%rip), %ymm6, %ymm11 5630vpunpckhwd const0(%rip), %ymm6, %ymm6 5631vpaddd %ymm11, %ymm9, %ymm2 5632vpaddd %ymm6, %ymm10, %ymm7 5633vpsubd %ymm3, %ymm2, %ymm2 5634vpsubd %ymm4, %ymm7, %ymm7 5635vpsubd %ymm11, %ymm9, %ymm11 5636vpsubd %ymm6, %ymm10, %ymm6 5637vpsrld $1, %ymm11, %ymm11 5638vpsrld $1, %ymm6, %ymm6 5639vpand mask32_to_16(%rip), %ymm11, %ymm11 5640vpand mask32_to_16(%rip), %ymm6, %ymm6 5641vpackusdw %ymm6, %ymm11, %ymm6 5642vmovdqa 1696(%rsp), %ymm11 5643vpunpcklwd const0(%rip), %ymm11, %ymm10 5644vpunpckhwd const0(%rip), %ymm11, %ymm9 5645vpslld $1, %ymm10, %ymm10 5646vpslld $1, %ymm9, %ymm9 5647vpsubd %ymm10, %ymm2, %ymm2 5648vpsubd %ymm9, %ymm7, %ymm7 5649vpsrld $1, %ymm2, %ymm2 5650vpsrld $1, %ymm7, %ymm7 5651vpand mask32_to_16(%rip), %ymm2, %ymm2 5652vpand mask32_to_16(%rip), %ymm7, %ymm7 5653vpackusdw %ymm7, %ymm2, %ymm7 5654vmovdqa 928(%rsp), %ymm2 5655vpaddw 1184(%rsp), %ymm2, %ymm9 5656vpsubw 1184(%rsp), %ymm2, %ymm2 5657vpsrlw $2, %ymm2, %ymm2 5658vpsubw %ymm6, %ymm2, %ymm2 5659vpmullw %ymm14, %ymm2, %ymm2 5660vpsllw $1, %ymm5, %ymm10 5661vpsubw %ymm10, %ymm9, %ymm10 5662vpsllw $7, %ymm11, %ymm9 5663vpsubw %ymm9, %ymm10, %ymm9 5664vpsrlw $3, %ymm9, %ymm9 5665vpsubw %ymm7, %ymm9, %ymm9 5666vmovdqa 1440(%rsp), %ymm10 5667vpsubw %ymm5, %ymm10, %ymm10 5668vpmullw %ymm15, %ymm11, %ymm4 5669vpsubw %ymm4, %ymm10, %ymm4 5670vpmullw %ymm14, %ymm9, %ymm9 5671vpsubw %ymm9, %ymm7, %ymm7 5672vpmullw %ymm12, %ymm9, %ymm10 5673vpaddw %ymm10, %ymm7, %ymm10 5674vpmullw %ymm12, %ymm10, %ymm10 5675vpsubw %ymm10, %ymm4, %ymm10 5676vpmullw %ymm14, %ymm10, %ymm10 5677vpsubw %ymm6, %ymm10, %ymm10 5678vpsrlw $3, %ymm10, %ymm10 5679vpsubw %ymm2, %ymm10, %ymm10 5680vpsubw %ymm10, %ymm2, %ymm2 5681vpsubw %ymm2, %ymm6, %ymm6 5682vpmullw %ymm13, %ymm10, %ymm10 5683vpsubw %ymm10, %ymm6, %ymm6 5684vmovdqu 440(%rdi), %ymm4 5685vmovdqu 792(%rdi), %ymm3 5686vmovdqu 1144(%rdi), %ymm8 5687vpaddw %ymm5, %ymm4, %ymm5 5688vpaddw %ymm6, %ymm3, %ymm6 5689vpaddw %ymm7, %ymm8, %ymm7 5690vpshufb shuf48_16(%rip), %ymm2, %ymm2 5691vpand mask3_5_3_5(%rip), %ymm2, %ymm8 5692vpand mask5_3_5_3(%rip), %ymm2, %ymm2 5693vpermq $206, %ymm8, %ymm8 5694vpand mask_keephigh(%rip), %ymm8, %ymm3 5695vpor %ymm3, %ymm2, %ymm2 5696vmovdqu 88(%rdi), %ymm3 5697vpaddw %ymm2, %ymm3, %ymm3 5698vpand mask_mod8192(%rip), %ymm3, %ymm3 5699vmovdqu %ymm3, 88(%rdi) 5700vmovdqa %xmm8, 1952(%rsp) 5701vpshufb shuf48_16(%rip), %ymm9, %ymm9 5702vpand mask3_5_3_5(%rip), %ymm9, %ymm8 5703vpand mask5_3_5_3(%rip), %ymm9, %ymm9 5704vpermq $206, %ymm8, %ymm8 5705vpand mask_keephigh(%rip), %ymm8, %ymm3 5706vpor %ymm3, %ymm9, %ymm9 5707vpaddw %ymm9, %ymm5, %ymm5 5708vmovdqa %xmm8, 2208(%rsp) 5709vpshufb shuf48_16(%rip), %ymm10, %ymm10 5710vpand mask3_5_3_5(%rip), %ymm10, %ymm8 5711vpand mask5_3_5_3(%rip), %ymm10, %ymm10 5712vpermq $206, %ymm8, %ymm8 5713vpand mask_keephigh(%rip), %ymm8, %ymm3 5714vpor %ymm3, %ymm10, %ymm10 5715vpaddw %ymm10, %ymm6, %ymm6 5716vmovdqa %xmm8, 2464(%rsp) 5717vpshufb shuf48_16(%rip), %ymm11, %ymm11 5718vpand mask3_5_3_5(%rip), %ymm11, %ymm8 5719vpand mask5_3_5_3(%rip), %ymm11, %ymm11 5720vpermq $206, %ymm8, %ymm8 5721vpand mask_keephigh(%rip), %ymm8, %ymm3 5722vpor %ymm3, %ymm11, %ymm11 5723vpaddw %ymm11, %ymm7, %ymm7 5724vmovdqa %xmm8, 2720(%rsp) 5725vpand mask_mod8192(%rip), %ymm5, %ymm5 5726vmovdqu %ymm5, 440(%rdi) 5727vpand mask_mod8192(%rip), %ymm6, %ymm6 5728vmovdqu %ymm6, 792(%rdi) 5729vpand mask_mod8192(%rip), %ymm7, %ymm7 5730vmovdqu %ymm7, 1144(%rdi) 5731vmovdqa 192(%rsp), %ymm11 5732vpunpcklwd const0(%rip), %ymm11, %ymm10 5733vpunpckhwd const0(%rip), %ymm11, %ymm9 5734vpslld $1, %ymm10, %ymm10 5735vpslld $1, %ymm9, %ymm9 5736vmovdqa 448(%rsp), %ymm2 5737vpunpcklwd const0(%rip), %ymm2, %ymm7 5738vpunpckhwd const0(%rip), %ymm2, %ymm2 5739vmovdqa 704(%rsp), %ymm6 5740vpunpcklwd const0(%rip), %ymm6, %ymm5 5741vpunpckhwd const0(%rip), %ymm6, %ymm6 5742vpaddd %ymm5, %ymm7, %ymm8 5743vpaddd %ymm6, %ymm2, %ymm3 5744vpsubd %ymm10, %ymm8, %ymm8 5745vpsubd %ymm9, %ymm3, %ymm3 5746vpsubd %ymm5, %ymm7, %ymm5 5747vpsubd %ymm6, %ymm2, %ymm6 5748vpsrld $1, %ymm5, %ymm5 5749vpsrld $1, %ymm6, %ymm6 5750vpand mask32_to_16(%rip), %ymm5, %ymm5 5751vpand mask32_to_16(%rip), %ymm6, %ymm6 5752vpackusdw %ymm6, %ymm5, %ymm6 5753vmovdqa 1728(%rsp), %ymm5 5754vpunpcklwd const0(%rip), %ymm5, %ymm2 5755vpunpckhwd const0(%rip), %ymm5, %ymm7 5756vpslld $1, %ymm2, %ymm2 5757vpslld $1, %ymm7, %ymm7 5758vpsubd %ymm2, %ymm8, %ymm8 5759vpsubd %ymm7, %ymm3, %ymm3 5760vpsrld $1, %ymm8, %ymm8 5761vpsrld $1, %ymm3, %ymm3 5762vpand mask32_to_16(%rip), %ymm8, %ymm8 5763vpand mask32_to_16(%rip), %ymm3, %ymm3 5764vpackusdw %ymm3, %ymm8, %ymm3 5765vmovdqa 960(%rsp), %ymm8 5766vpaddw 1216(%rsp), %ymm8, %ymm7 5767vpsubw 1216(%rsp), %ymm8, %ymm8 5768vpsrlw $2, %ymm8, %ymm8 5769vpsubw %ymm6, %ymm8, %ymm8 5770vpmullw %ymm14, %ymm8, %ymm8 5771vpsllw $1, %ymm11, %ymm2 5772vpsubw %ymm2, %ymm7, %ymm2 5773vpsllw $7, %ymm5, %ymm7 5774vpsubw %ymm7, %ymm2, %ymm7 5775vpsrlw $3, %ymm7, %ymm7 5776vpsubw %ymm3, %ymm7, %ymm7 5777vmovdqa 1472(%rsp), %ymm2 5778vpsubw %ymm11, %ymm2, %ymm2 5779vpmullw %ymm15, %ymm5, %ymm9 5780vpsubw %ymm9, %ymm2, %ymm9 5781vpmullw %ymm14, %ymm7, %ymm7 5782vpsubw %ymm7, %ymm3, %ymm3 5783vpmullw %ymm12, %ymm7, %ymm2 5784vpaddw %ymm2, %ymm3, %ymm2 5785vpmullw %ymm12, %ymm2, %ymm2 5786vpsubw %ymm2, %ymm9, %ymm2 5787vpmullw %ymm14, %ymm2, %ymm2 5788vpsubw %ymm6, %ymm2, %ymm2 5789vpsrlw $3, %ymm2, %ymm2 5790vpsubw %ymm8, %ymm2, %ymm2 5791vpsubw %ymm2, %ymm8, %ymm8 5792vpsubw %ymm8, %ymm6, %ymm6 5793vpmullw %ymm13, %ymm2, %ymm2 5794vpsubw %ymm2, %ymm6, %ymm6 5795vmovdqu 528(%rdi), %ymm9 5796vmovdqu 880(%rdi), %ymm10 5797vmovdqu 1232(%rdi), %ymm4 5798vpaddw %ymm11, %ymm9, %ymm11 5799vpaddw %ymm6, %ymm10, %ymm6 5800vpaddw %ymm3, %ymm4, %ymm3 5801vpshufb shuf48_16(%rip), %ymm8, %ymm8 5802vpand mask3_5_3_5(%rip), %ymm8, %ymm4 5803vpand mask5_3_5_3(%rip), %ymm8, %ymm8 5804vpermq $206, %ymm4, %ymm4 5805vpand mask_keephigh(%rip), %ymm4, %ymm10 5806vpor %ymm10, %ymm8, %ymm8 5807vmovdqu 176(%rdi), %ymm10 5808vpaddw %ymm8, %ymm10, %ymm10 5809vpand mask_mod8192(%rip), %ymm10, %ymm10 5810vmovdqu %ymm10, 176(%rdi) 5811vmovdqa %xmm4, 1984(%rsp) 5812vpshufb shuf48_16(%rip), %ymm7, %ymm7 5813vpand mask3_5_3_5(%rip), %ymm7, %ymm4 5814vpand mask5_3_5_3(%rip), %ymm7, %ymm7 5815vpermq $206, %ymm4, %ymm4 5816vpand mask_keephigh(%rip), %ymm4, %ymm10 5817vpor %ymm10, %ymm7, %ymm7 5818vpaddw %ymm7, %ymm11, %ymm11 5819vmovdqa %xmm4, 2240(%rsp) 5820vpshufb shuf48_16(%rip), %ymm2, %ymm2 5821vpand mask3_5_3_5(%rip), %ymm2, %ymm4 5822vpand mask5_3_5_3(%rip), %ymm2, %ymm2 5823vpermq $206, %ymm4, %ymm4 5824vpand mask_keephigh(%rip), %ymm4, %ymm10 5825vpor %ymm10, %ymm2, %ymm2 5826vpaddw %ymm2, %ymm6, %ymm6 5827vmovdqa %xmm4, 2496(%rsp) 5828vpshufb shuf48_16(%rip), %ymm5, %ymm5 5829vpand mask3_5_3_5(%rip), %ymm5, %ymm4 5830vpand mask5_3_5_3(%rip), %ymm5, %ymm5 5831vpermq $206, %ymm4, %ymm4 5832vpand mask_keephigh(%rip), %ymm4, %ymm10 5833vpor %ymm10, %ymm5, %ymm5 5834vpaddw %ymm5, %ymm3, %ymm3 5835vmovdqa %xmm4, 2752(%rsp) 5836vpand mask_mod8192(%rip), %ymm11, %ymm11 5837vmovdqu %ymm11, 528(%rdi) 5838vpand mask_mod8192(%rip), %ymm6, %ymm6 5839vmovdqu %ymm6, 880(%rdi) 5840vpand mask_mod8192(%rip), %ymm3, %ymm3 5841vmovdqu %ymm3, 1232(%rdi) 5842vmovdqa 224(%rsp), %ymm5 5843vpunpcklwd const0(%rip), %ymm5, %ymm2 5844vpunpckhwd const0(%rip), %ymm5, %ymm7 5845vpslld $1, %ymm2, %ymm2 5846vpslld $1, %ymm7, %ymm7 5847vmovdqa 480(%rsp), %ymm8 5848vpunpcklwd const0(%rip), %ymm8, %ymm3 5849vpunpckhwd const0(%rip), %ymm8, %ymm8 5850vmovdqa 736(%rsp), %ymm6 5851vpunpcklwd const0(%rip), %ymm6, %ymm11 5852vpunpckhwd const0(%rip), %ymm6, %ymm6 5853vpaddd %ymm11, %ymm3, %ymm4 5854vpaddd %ymm6, %ymm8, %ymm10 5855vpsubd %ymm2, %ymm4, %ymm4 5856vpsubd %ymm7, %ymm10, %ymm10 5857vpsubd %ymm11, %ymm3, %ymm11 5858vpsubd %ymm6, %ymm8, %ymm6 5859vpsrld $1, %ymm11, %ymm11 5860vpsrld $1, %ymm6, %ymm6 5861vpand mask32_to_16(%rip), %ymm11, %ymm11 5862vpand mask32_to_16(%rip), %ymm6, %ymm6 5863vpackusdw %ymm6, %ymm11, %ymm6 5864vmovdqa 1760(%rsp), %ymm11 5865vpunpcklwd const0(%rip), %ymm11, %ymm8 5866vpunpckhwd const0(%rip), %ymm11, %ymm3 5867vpslld $1, %ymm8, %ymm8 5868vpslld $1, %ymm3, %ymm3 5869vpsubd %ymm8, %ymm4, %ymm4 5870vpsubd %ymm3, %ymm10, %ymm10 5871vpsrld $1, %ymm4, %ymm4 5872vpsrld $1, %ymm10, %ymm10 5873vpand mask32_to_16(%rip), %ymm4, %ymm4 5874vpand mask32_to_16(%rip), %ymm10, %ymm10 5875vpackusdw %ymm10, %ymm4, %ymm10 5876vmovdqa 992(%rsp), %ymm4 5877vpaddw 1248(%rsp), %ymm4, %ymm3 5878vpsubw 1248(%rsp), %ymm4, %ymm4 5879vpsrlw $2, %ymm4, %ymm4 5880vpsubw %ymm6, %ymm4, %ymm4 5881vpmullw %ymm14, %ymm4, %ymm4 5882vpsllw $1, %ymm5, %ymm8 5883vpsubw %ymm8, %ymm3, %ymm8 5884vpsllw $7, %ymm11, %ymm3 5885vpsubw %ymm3, %ymm8, %ymm3 5886vpsrlw $3, %ymm3, %ymm3 5887vpsubw %ymm10, %ymm3, %ymm3 5888vmovdqa 1504(%rsp), %ymm8 5889vpsubw %ymm5, %ymm8, %ymm8 5890vpmullw %ymm15, %ymm11, %ymm7 5891vpsubw %ymm7, %ymm8, %ymm7 5892vpmullw %ymm14, %ymm3, %ymm3 5893vpsubw %ymm3, %ymm10, %ymm10 5894vpmullw %ymm12, %ymm3, %ymm8 5895vpaddw %ymm8, %ymm10, %ymm8 5896vpmullw %ymm12, %ymm8, %ymm8 5897vpsubw %ymm8, %ymm7, %ymm8 5898vpmullw %ymm14, %ymm8, %ymm8 5899vpsubw %ymm6, %ymm8, %ymm8 5900vpsrlw $3, %ymm8, %ymm8 5901vpsubw %ymm4, %ymm8, %ymm8 5902vpsubw %ymm8, %ymm4, %ymm4 5903vpsubw %ymm4, %ymm6, %ymm6 5904vpmullw %ymm13, %ymm8, %ymm8 5905vpsubw %ymm8, %ymm6, %ymm6 5906vmovdqu 616(%rdi), %ymm7 5907vmovdqu 968(%rdi), %ymm2 5908vmovdqu 1320(%rdi), %ymm9 5909vpaddw %ymm5, %ymm7, %ymm5 5910vpaddw %ymm6, %ymm2, %ymm6 5911vpaddw %ymm10, %ymm9, %ymm10 5912vpshufb shuf48_16(%rip), %ymm4, %ymm4 5913vpand mask3_5_3_5(%rip), %ymm4, %ymm9 5914vpand mask5_3_5_3(%rip), %ymm4, %ymm4 5915vpermq $206, %ymm9, %ymm9 5916vpand mask_keephigh(%rip), %ymm9, %ymm2 5917vpor %ymm2, %ymm4, %ymm4 5918vmovdqu 264(%rdi), %ymm2 5919vpaddw %ymm4, %ymm2, %ymm2 5920vpand mask_mod8192(%rip), %ymm2, %ymm2 5921vmovdqu %ymm2, 264(%rdi) 5922vmovdqa %xmm9, 2016(%rsp) 5923vpshufb shuf48_16(%rip), %ymm3, %ymm3 5924vpand mask3_5_3_5(%rip), %ymm3, %ymm9 5925vpand mask5_3_5_3(%rip), %ymm3, %ymm3 5926vpermq $206, %ymm9, %ymm9 5927vpand mask_keephigh(%rip), %ymm9, %ymm2 5928vpor %ymm2, %ymm3, %ymm3 5929vpaddw %ymm3, %ymm5, %ymm5 5930vmovdqa %xmm9, 2272(%rsp) 5931vpshufb shuf48_16(%rip), %ymm8, %ymm8 5932vpand mask3_5_3_5(%rip), %ymm8, %ymm9 5933vpand mask5_3_5_3(%rip), %ymm8, %ymm8 5934vpermq $206, %ymm9, %ymm9 5935vpand mask_keephigh(%rip), %ymm9, %ymm2 5936vpor %ymm2, %ymm8, %ymm8 5937vpaddw %ymm8, %ymm6, %ymm6 5938vmovdqa %xmm9, 2528(%rsp) 5939vpshufb shuf48_16(%rip), %ymm11, %ymm11 5940vpand mask3_5_3_5(%rip), %ymm11, %ymm9 5941vpand mask5_3_5_3(%rip), %ymm11, %ymm11 5942vpermq $206, %ymm9, %ymm9 5943vpand mask_keephigh(%rip), %ymm9, %ymm2 5944vpor %ymm2, %ymm11, %ymm11 5945vpaddw %ymm11, %ymm10, %ymm10 5946vmovdqa %xmm9, 2784(%rsp) 5947vpand mask_mod8192(%rip), %ymm5, %ymm5 5948vmovdqu %ymm5, 616(%rdi) 5949vpand mask_mod8192(%rip), %ymm6, %ymm6 5950vmovdqu %ymm6, 968(%rdi) 5951vpand mask_mod8192(%rip), %ymm10, %ymm10 5952vmovdqu %ymm10, 1320(%rdi) 5953vmovdqa 128(%r12), %ymm0 5954vpsubw 224(%r12), %ymm0, %ymm0 5955vmovdqa 512(%r12), %ymm1 5956vpsubw %ymm0, %ymm1, %ymm1 5957vpsubw 320(%r12), %ymm1, %ymm1 5958vpsubw 32(%r12), %ymm0, %ymm0 5959vpaddw 416(%r12), %ymm0, %ymm0 5960vmovdqa 704(%r12), %ymm2 5961vpsubw 800(%r12), %ymm2, %ymm2 5962vmovdqa 1088(%r12), %ymm3 5963vpsubw %ymm2, %ymm3, %ymm3 5964vpsubw 896(%r12), %ymm3, %ymm3 5965vpsubw 608(%r12), %ymm2, %ymm2 5966vpaddw 992(%r12), %ymm2, %ymm2 5967vmovdqa 1280(%r12), %ymm4 5968vpsubw 1376(%r12), %ymm4, %ymm4 5969vmovdqa 1664(%r12), %ymm5 5970vpsubw %ymm4, %ymm5, %ymm5 5971vpsubw 1472(%r12), %ymm5, %ymm5 5972vpsubw 1184(%r12), %ymm4, %ymm4 5973vpaddw 1568(%r12), %ymm4, %ymm4 5974vpsubw 608(%r12), %ymm1, %ymm1 5975vpsubw %ymm1, %ymm5, %ymm5 5976vpsubw %ymm3, %ymm5, %ymm5 5977vpsubw 32(%r12), %ymm1, %ymm1 5978vpaddw 1184(%r12), %ymm1, %ymm1 5979vmovdqa 320(%r12), %ymm6 5980vpsubw %ymm2, %ymm6, %ymm7 5981vmovdqa 1472(%r12), %ymm2 5982vpsubw %ymm7, %ymm2, %ymm2 5983vpsubw 896(%r12), %ymm2, %ymm2 5984vpsubw %ymm0, %ymm7, %ymm7 5985vpaddw %ymm4, %ymm7, %ymm7 5986vmovdqa 32(%r12), %ymm8 5987vmovdqa 896(%r12), %ymm9 5988vmovdqa %ymm8, 0(%rsp) 5989vmovdqa %ymm0, 32(%rsp) 5990vmovdqa %ymm1, 64(%rsp) 5991vmovdqa %ymm7, 96(%rsp) 5992vmovdqa %ymm5, 128(%rsp) 5993vmovdqa %ymm2, 160(%rsp) 5994vmovdqa %ymm3, 192(%rsp) 5995vmovdqa %ymm9, 224(%rsp) 5996vmovdqa 1856(%r12), %ymm0 5997vpsubw 1952(%r12), %ymm0, %ymm0 5998vmovdqa 2240(%r12), %ymm1 5999vpsubw %ymm0, %ymm1, %ymm1 6000vpsubw 2048(%r12), %ymm1, %ymm1 6001vpsubw 1760(%r12), %ymm0, %ymm0 6002vpaddw 2144(%r12), %ymm0, %ymm0 6003vmovdqa 2432(%r12), %ymm2 6004vpsubw 2528(%r12), %ymm2, %ymm2 6005vmovdqa 2816(%r12), %ymm3 6006vpsubw %ymm2, %ymm3, %ymm3 6007vpsubw 2624(%r12), %ymm3, %ymm3 6008vpsubw 2336(%r12), %ymm2, %ymm2 6009vpaddw 2720(%r12), %ymm2, %ymm2 6010vmovdqa 3008(%r12), %ymm4 6011vpsubw 3104(%r12), %ymm4, %ymm4 6012vmovdqa 3392(%r12), %ymm5 6013vpsubw %ymm4, %ymm5, %ymm5 6014vpsubw 3200(%r12), %ymm5, %ymm5 6015vpsubw 2912(%r12), %ymm4, %ymm4 6016vpaddw 3296(%r12), %ymm4, %ymm4 6017vpsubw 2336(%r12), %ymm1, %ymm1 6018vpsubw %ymm1, %ymm5, %ymm5 6019vpsubw %ymm3, %ymm5, %ymm5 6020vpsubw 1760(%r12), %ymm1, %ymm1 6021vpaddw 2912(%r12), %ymm1, %ymm1 6022vmovdqa 2048(%r12), %ymm6 6023vpsubw %ymm2, %ymm6, %ymm7 6024vmovdqa 3200(%r12), %ymm2 6025vpsubw %ymm7, %ymm2, %ymm2 6026vpsubw 2624(%r12), %ymm2, %ymm2 6027vpsubw %ymm0, %ymm7, %ymm7 6028vpaddw %ymm4, %ymm7, %ymm7 6029vmovdqa 1760(%r12), %ymm8 6030vmovdqa 2624(%r12), %ymm9 6031vmovdqa %ymm8, 256(%rsp) 6032vmovdqa %ymm0, 288(%rsp) 6033vmovdqa %ymm1, 320(%rsp) 6034vmovdqa %ymm7, 352(%rsp) 6035vmovdqa %ymm5, 384(%rsp) 6036vmovdqa %ymm2, 416(%rsp) 6037vmovdqa %ymm3, 448(%rsp) 6038vmovdqa %ymm9, 480(%rsp) 6039vmovdqa 3584(%r12), %ymm0 6040vpsubw 3680(%r12), %ymm0, %ymm0 6041vmovdqa 3968(%r12), %ymm1 6042vpsubw %ymm0, %ymm1, %ymm1 6043vpsubw 3776(%r12), %ymm1, %ymm1 6044vpsubw 3488(%r12), %ymm0, %ymm0 6045vpaddw 3872(%r12), %ymm0, %ymm0 6046vmovdqa 4160(%r12), %ymm2 6047vpsubw 4256(%r12), %ymm2, %ymm2 6048vmovdqa 4544(%r12), %ymm3 6049vpsubw %ymm2, %ymm3, %ymm3 6050vpsubw 4352(%r12), %ymm3, %ymm3 6051vpsubw 4064(%r12), %ymm2, %ymm2 6052vpaddw 4448(%r12), %ymm2, %ymm2 6053vmovdqa 4736(%r12), %ymm4 6054vpsubw 4832(%r12), %ymm4, %ymm4 6055vmovdqa 5120(%r12), %ymm5 6056vpsubw %ymm4, %ymm5, %ymm5 6057vpsubw 4928(%r12), %ymm5, %ymm5 6058vpsubw 4640(%r12), %ymm4, %ymm4 6059vpaddw 5024(%r12), %ymm4, %ymm4 6060vpsubw 4064(%r12), %ymm1, %ymm1 6061vpsubw %ymm1, %ymm5, %ymm5 6062vpsubw %ymm3, %ymm5, %ymm5 6063vpsubw 3488(%r12), %ymm1, %ymm1 6064vpaddw 4640(%r12), %ymm1, %ymm1 6065vmovdqa 3776(%r12), %ymm6 6066vpsubw %ymm2, %ymm6, %ymm7 6067vmovdqa 4928(%r12), %ymm2 6068vpsubw %ymm7, %ymm2, %ymm2 6069vpsubw 4352(%r12), %ymm2, %ymm2 6070vpsubw %ymm0, %ymm7, %ymm7 6071vpaddw %ymm4, %ymm7, %ymm7 6072vmovdqa 3488(%r12), %ymm8 6073vmovdqa 4352(%r12), %ymm9 6074vmovdqa %ymm8, 512(%rsp) 6075vmovdqa %ymm0, 544(%rsp) 6076vmovdqa %ymm1, 576(%rsp) 6077vmovdqa %ymm7, 608(%rsp) 6078vmovdqa %ymm5, 640(%rsp) 6079vmovdqa %ymm2, 672(%rsp) 6080vmovdqa %ymm3, 704(%rsp) 6081vmovdqa %ymm9, 736(%rsp) 6082vmovdqa 5312(%r12), %ymm0 6083vpsubw 5408(%r12), %ymm0, %ymm0 6084vmovdqa 5696(%r12), %ymm1 6085vpsubw %ymm0, %ymm1, %ymm1 6086vpsubw 5504(%r12), %ymm1, %ymm1 6087vpsubw 5216(%r12), %ymm0, %ymm0 6088vpaddw 5600(%r12), %ymm0, %ymm0 6089vmovdqa 5888(%r12), %ymm2 6090vpsubw 5984(%r12), %ymm2, %ymm2 6091vmovdqa 6272(%r12), %ymm3 6092vpsubw %ymm2, %ymm3, %ymm3 6093vpsubw 6080(%r12), %ymm3, %ymm3 6094vpsubw 5792(%r12), %ymm2, %ymm2 6095vpaddw 6176(%r12), %ymm2, %ymm2 6096vmovdqa 6464(%r12), %ymm4 6097vpsubw 6560(%r12), %ymm4, %ymm4 6098vmovdqa 6848(%r12), %ymm5 6099vpsubw %ymm4, %ymm5, %ymm5 6100vpsubw 6656(%r12), %ymm5, %ymm5 6101vpsubw 6368(%r12), %ymm4, %ymm4 6102vpaddw 6752(%r12), %ymm4, %ymm4 6103vpsubw 5792(%r12), %ymm1, %ymm1 6104vpsubw %ymm1, %ymm5, %ymm5 6105vpsubw %ymm3, %ymm5, %ymm5 6106vpsubw 5216(%r12), %ymm1, %ymm1 6107vpaddw 6368(%r12), %ymm1, %ymm1 6108vmovdqa 5504(%r12), %ymm6 6109vpsubw %ymm2, %ymm6, %ymm7 6110vmovdqa 6656(%r12), %ymm2 6111vpsubw %ymm7, %ymm2, %ymm2 6112vpsubw 6080(%r12), %ymm2, %ymm2 6113vpsubw %ymm0, %ymm7, %ymm7 6114vpaddw %ymm4, %ymm7, %ymm7 6115vmovdqa 5216(%r12), %ymm8 6116vmovdqa 6080(%r12), %ymm9 6117vmovdqa %ymm8, 768(%rsp) 6118vmovdqa %ymm0, 800(%rsp) 6119vmovdqa %ymm1, 832(%rsp) 6120vmovdqa %ymm7, 864(%rsp) 6121vmovdqa %ymm5, 896(%rsp) 6122vmovdqa %ymm2, 928(%rsp) 6123vmovdqa %ymm3, 960(%rsp) 6124vmovdqa %ymm9, 992(%rsp) 6125vmovdqa 7040(%r12), %ymm0 6126vpsubw 7136(%r12), %ymm0, %ymm0 6127vmovdqa 7424(%r12), %ymm1 6128vpsubw %ymm0, %ymm1, %ymm1 6129vpsubw 7232(%r12), %ymm1, %ymm1 6130vpsubw 6944(%r12), %ymm0, %ymm0 6131vpaddw 7328(%r12), %ymm0, %ymm0 6132vmovdqa 7616(%r12), %ymm2 6133vpsubw 7712(%r12), %ymm2, %ymm2 6134vmovdqa 8000(%r12), %ymm3 6135vpsubw %ymm2, %ymm3, %ymm3 6136vpsubw 7808(%r12), %ymm3, %ymm3 6137vpsubw 7520(%r12), %ymm2, %ymm2 6138vpaddw 7904(%r12), %ymm2, %ymm2 6139vmovdqa 8192(%r12), %ymm4 6140vpsubw 8288(%r12), %ymm4, %ymm4 6141vmovdqa 8576(%r12), %ymm5 6142vpsubw %ymm4, %ymm5, %ymm5 6143vpsubw 8384(%r12), %ymm5, %ymm5 6144vpsubw 8096(%r12), %ymm4, %ymm4 6145vpaddw 8480(%r12), %ymm4, %ymm4 6146vpsubw 7520(%r12), %ymm1, %ymm1 6147vpsubw %ymm1, %ymm5, %ymm5 6148vpsubw %ymm3, %ymm5, %ymm5 6149vpsubw 6944(%r12), %ymm1, %ymm1 6150vpaddw 8096(%r12), %ymm1, %ymm1 6151vmovdqa 7232(%r12), %ymm6 6152vpsubw %ymm2, %ymm6, %ymm7 6153vmovdqa 8384(%r12), %ymm2 6154vpsubw %ymm7, %ymm2, %ymm2 6155vpsubw 7808(%r12), %ymm2, %ymm2 6156vpsubw %ymm0, %ymm7, %ymm7 6157vpaddw %ymm4, %ymm7, %ymm7 6158vmovdqa 6944(%r12), %ymm8 6159vmovdqa 7808(%r12), %ymm9 6160vmovdqa %ymm8, 1024(%rsp) 6161vmovdqa %ymm0, 1056(%rsp) 6162vmovdqa %ymm1, 1088(%rsp) 6163vmovdqa %ymm7, 1120(%rsp) 6164vmovdqa %ymm5, 1152(%rsp) 6165vmovdqa %ymm2, 1184(%rsp) 6166vmovdqa %ymm3, 1216(%rsp) 6167vmovdqa %ymm9, 1248(%rsp) 6168vmovdqa 8768(%r12), %ymm0 6169vpsubw 8864(%r12), %ymm0, %ymm0 6170vmovdqa 9152(%r12), %ymm1 6171vpsubw %ymm0, %ymm1, %ymm1 6172vpsubw 8960(%r12), %ymm1, %ymm1 6173vpsubw 8672(%r12), %ymm0, %ymm0 6174vpaddw 9056(%r12), %ymm0, %ymm0 6175vmovdqa 9344(%r12), %ymm2 6176vpsubw 9440(%r12), %ymm2, %ymm2 6177vmovdqa 9728(%r12), %ymm3 6178vpsubw %ymm2, %ymm3, %ymm3 6179vpsubw 9536(%r12), %ymm3, %ymm3 6180vpsubw 9248(%r12), %ymm2, %ymm2 6181vpaddw 9632(%r12), %ymm2, %ymm2 6182vmovdqa 9920(%r12), %ymm4 6183vpsubw 10016(%r12), %ymm4, %ymm4 6184vmovdqa 10304(%r12), %ymm5 6185vpsubw %ymm4, %ymm5, %ymm5 6186vpsubw 10112(%r12), %ymm5, %ymm5 6187vpsubw 9824(%r12), %ymm4, %ymm4 6188vpaddw 10208(%r12), %ymm4, %ymm4 6189vpsubw 9248(%r12), %ymm1, %ymm1 6190vpsubw %ymm1, %ymm5, %ymm5 6191vpsubw %ymm3, %ymm5, %ymm5 6192vpsubw 8672(%r12), %ymm1, %ymm1 6193vpaddw 9824(%r12), %ymm1, %ymm1 6194vmovdqa 8960(%r12), %ymm6 6195vpsubw %ymm2, %ymm6, %ymm7 6196vmovdqa 10112(%r12), %ymm2 6197vpsubw %ymm7, %ymm2, %ymm2 6198vpsubw 9536(%r12), %ymm2, %ymm2 6199vpsubw %ymm0, %ymm7, %ymm7 6200vpaddw %ymm4, %ymm7, %ymm7 6201vmovdqa 8672(%r12), %ymm8 6202vmovdqa 9536(%r12), %ymm9 6203vmovdqa %ymm8, 1280(%rsp) 6204vmovdqa %ymm0, 1312(%rsp) 6205vmovdqa %ymm1, 1344(%rsp) 6206vmovdqa %ymm7, 1376(%rsp) 6207vmovdqa %ymm5, 1408(%rsp) 6208vmovdqa %ymm2, 1440(%rsp) 6209vmovdqa %ymm3, 1472(%rsp) 6210vmovdqa %ymm9, 1504(%rsp) 6211vmovdqa 10496(%r12), %ymm0 6212vpsubw 10592(%r12), %ymm0, %ymm0 6213vmovdqa 10880(%r12), %ymm1 6214vpsubw %ymm0, %ymm1, %ymm1 6215vpsubw 10688(%r12), %ymm1, %ymm1 6216vpsubw 10400(%r12), %ymm0, %ymm0 6217vpaddw 10784(%r12), %ymm0, %ymm0 6218vmovdqa 11072(%r12), %ymm2 6219vpsubw 11168(%r12), %ymm2, %ymm2 6220vmovdqa 11456(%r12), %ymm3 6221vpsubw %ymm2, %ymm3, %ymm3 6222vpsubw 11264(%r12), %ymm3, %ymm3 6223vpsubw 10976(%r12), %ymm2, %ymm2 6224vpaddw 11360(%r12), %ymm2, %ymm2 6225vmovdqa 11648(%r12), %ymm4 6226vpsubw 11744(%r12), %ymm4, %ymm4 6227vmovdqa 12032(%r12), %ymm5 6228vpsubw %ymm4, %ymm5, %ymm5 6229vpsubw 11840(%r12), %ymm5, %ymm5 6230vpsubw 11552(%r12), %ymm4, %ymm4 6231vpaddw 11936(%r12), %ymm4, %ymm4 6232vpsubw 10976(%r12), %ymm1, %ymm1 6233vpsubw %ymm1, %ymm5, %ymm5 6234vpsubw %ymm3, %ymm5, %ymm5 6235vpsubw 10400(%r12), %ymm1, %ymm1 6236vpaddw 11552(%r12), %ymm1, %ymm1 6237vmovdqa 10688(%r12), %ymm6 6238vpsubw %ymm2, %ymm6, %ymm7 6239vmovdqa 11840(%r12), %ymm2 6240vpsubw %ymm7, %ymm2, %ymm2 6241vpsubw 11264(%r12), %ymm2, %ymm2 6242vpsubw %ymm0, %ymm7, %ymm7 6243vpaddw %ymm4, %ymm7, %ymm7 6244vmovdqa 10400(%r12), %ymm8 6245vmovdqa 11264(%r12), %ymm9 6246vmovdqa %ymm8, 1536(%rsp) 6247vmovdqa %ymm0, 1568(%rsp) 6248vmovdqa %ymm1, 1600(%rsp) 6249vmovdqa %ymm7, 1632(%rsp) 6250vmovdqa %ymm5, 1664(%rsp) 6251vmovdqa %ymm2, 1696(%rsp) 6252vmovdqa %ymm3, 1728(%rsp) 6253vmovdqa %ymm9, 1760(%rsp) 6254vmovdqa 0(%rsp), %ymm11 6255vpunpcklwd const0(%rip), %ymm11, %ymm8 6256vpunpckhwd const0(%rip), %ymm11, %ymm3 6257vpslld $1, %ymm8, %ymm8 6258vpslld $1, %ymm3, %ymm3 6259vmovdqa 256(%rsp), %ymm4 6260vpunpcklwd const0(%rip), %ymm4, %ymm10 6261vpunpckhwd const0(%rip), %ymm4, %ymm4 6262vmovdqa 512(%rsp), %ymm6 6263vpunpcklwd const0(%rip), %ymm6, %ymm5 6264vpunpckhwd const0(%rip), %ymm6, %ymm6 6265vpaddd %ymm5, %ymm10, %ymm9 6266vpaddd %ymm6, %ymm4, %ymm2 6267vpsubd %ymm8, %ymm9, %ymm9 6268vpsubd %ymm3, %ymm2, %ymm2 6269vpsubd %ymm5, %ymm10, %ymm5 6270vpsubd %ymm6, %ymm4, %ymm6 6271vpsrld $1, %ymm5, %ymm5 6272vpsrld $1, %ymm6, %ymm6 6273vpand mask32_to_16(%rip), %ymm5, %ymm5 6274vpand mask32_to_16(%rip), %ymm6, %ymm6 6275vpackusdw %ymm6, %ymm5, %ymm6 6276vmovdqa 1536(%rsp), %ymm5 6277vpunpcklwd const0(%rip), %ymm5, %ymm4 6278vpunpckhwd const0(%rip), %ymm5, %ymm10 6279vpslld $1, %ymm4, %ymm4 6280vpslld $1, %ymm10, %ymm10 6281vpsubd %ymm4, %ymm9, %ymm9 6282vpsubd %ymm10, %ymm2, %ymm2 6283vpsrld $1, %ymm9, %ymm9 6284vpsrld $1, %ymm2, %ymm2 6285vpand mask32_to_16(%rip), %ymm9, %ymm9 6286vpand mask32_to_16(%rip), %ymm2, %ymm2 6287vpackusdw %ymm2, %ymm9, %ymm2 6288vmovdqa 768(%rsp), %ymm9 6289vpaddw 1024(%rsp), %ymm9, %ymm10 6290vpsubw 1024(%rsp), %ymm9, %ymm9 6291vpsrlw $2, %ymm9, %ymm9 6292vpsubw %ymm6, %ymm9, %ymm9 6293vpmullw %ymm14, %ymm9, %ymm9 6294vpsllw $1, %ymm11, %ymm4 6295vpsubw %ymm4, %ymm10, %ymm4 6296vpsllw $7, %ymm5, %ymm10 6297vpsubw %ymm10, %ymm4, %ymm10 6298vpsrlw $3, %ymm10, %ymm10 6299vpsubw %ymm2, %ymm10, %ymm10 6300vmovdqa 1280(%rsp), %ymm4 6301vpsubw %ymm11, %ymm4, %ymm4 6302vpmullw %ymm15, %ymm5, %ymm3 6303vpsubw %ymm3, %ymm4, %ymm3 6304vpmullw %ymm14, %ymm10, %ymm10 6305vpsubw %ymm10, %ymm2, %ymm2 6306vpmullw %ymm12, %ymm10, %ymm4 6307vpaddw %ymm4, %ymm2, %ymm4 6308vpmullw %ymm12, %ymm4, %ymm4 6309vpsubw %ymm4, %ymm3, %ymm4 6310vpmullw %ymm14, %ymm4, %ymm4 6311vpsubw %ymm6, %ymm4, %ymm4 6312vpsrlw $3, %ymm4, %ymm4 6313vpsubw %ymm9, %ymm4, %ymm4 6314vpsubw %ymm4, %ymm9, %ymm9 6315vpsubw %ymm9, %ymm6, %ymm6 6316vpmullw %ymm13, %ymm4, %ymm4 6317vpsubw %ymm4, %ymm6, %ymm6 6318vpshufb shuf48_16(%rip), %ymm10, %ymm10 6319vpand mask3_5_3_5(%rip), %ymm10, %ymm3 6320vpand mask5_3_5_3(%rip), %ymm10, %ymm10 6321vpermq $206, %ymm3, %ymm3 6322vpand mask_keephigh(%rip), %ymm3, %ymm8 6323vpor %ymm8, %ymm10, %ymm10 6324vpaddw 2048(%rsp), %ymm11, %ymm11 6325vpaddw %ymm10, %ymm11, %ymm11 6326vmovdqa %xmm3, 2048(%rsp) 6327vpshufb shuf48_16(%rip), %ymm4, %ymm4 6328vpand mask3_5_3_5(%rip), %ymm4, %ymm3 6329vpand mask5_3_5_3(%rip), %ymm4, %ymm4 6330vpermq $206, %ymm3, %ymm3 6331vpand mask_keephigh(%rip), %ymm3, %ymm8 6332vpor %ymm8, %ymm4, %ymm4 6333vpaddw 2304(%rsp), %ymm6, %ymm6 6334vpaddw %ymm4, %ymm6, %ymm6 6335vmovdqa %xmm3, 2304(%rsp) 6336vpshufb shuf48_16(%rip), %ymm5, %ymm5 6337vpand mask3_5_3_5(%rip), %ymm5, %ymm3 6338vpand mask5_3_5_3(%rip), %ymm5, %ymm5 6339vpermq $206, %ymm3, %ymm3 6340vpand mask_keephigh(%rip), %ymm3, %ymm8 6341vpor %ymm8, %ymm5, %ymm5 6342vpaddw 2560(%rsp), %ymm2, %ymm2 6343vpaddw %ymm5, %ymm2, %ymm2 6344vmovdqa %xmm3, 2560(%rsp) 6345vpand mask_mod8192(%rip), %ymm11, %ymm11 6346vmovdqu %ymm11, 32(%rdi) 6347vpand mask_mod8192(%rip), %ymm6, %ymm6 6348vmovdqu %ymm6, 384(%rdi) 6349vpand mask_mod8192(%rip), %ymm2, %ymm2 6350vmovdqu %ymm2, 736(%rdi) 6351vpand mask_mod8192(%rip), %ymm9, %ymm9 6352vmovdqu %ymm9, 1088(%rdi) 6353vmovdqa 32(%rsp), %ymm5 6354vpunpcklwd const0(%rip), %ymm5, %ymm4 6355vpunpckhwd const0(%rip), %ymm5, %ymm10 6356vpslld $1, %ymm4, %ymm4 6357vpslld $1, %ymm10, %ymm10 6358vmovdqa 288(%rsp), %ymm9 6359vpunpcklwd const0(%rip), %ymm9, %ymm2 6360vpunpckhwd const0(%rip), %ymm9, %ymm9 6361vmovdqa 544(%rsp), %ymm6 6362vpunpcklwd const0(%rip), %ymm6, %ymm11 6363vpunpckhwd const0(%rip), %ymm6, %ymm6 6364vpaddd %ymm11, %ymm2, %ymm3 6365vpaddd %ymm6, %ymm9, %ymm8 6366vpsubd %ymm4, %ymm3, %ymm3 6367vpsubd %ymm10, %ymm8, %ymm8 6368vpsubd %ymm11, %ymm2, %ymm11 6369vpsubd %ymm6, %ymm9, %ymm6 6370vpsrld $1, %ymm11, %ymm11 6371vpsrld $1, %ymm6, %ymm6 6372vpand mask32_to_16(%rip), %ymm11, %ymm11 6373vpand mask32_to_16(%rip), %ymm6, %ymm6 6374vpackusdw %ymm6, %ymm11, %ymm6 6375vmovdqa 1568(%rsp), %ymm11 6376vpunpcklwd const0(%rip), %ymm11, %ymm9 6377vpunpckhwd const0(%rip), %ymm11, %ymm2 6378vpslld $1, %ymm9, %ymm9 6379vpslld $1, %ymm2, %ymm2 6380vpsubd %ymm9, %ymm3, %ymm3 6381vpsubd %ymm2, %ymm8, %ymm8 6382vpsrld $1, %ymm3, %ymm3 6383vpsrld $1, %ymm8, %ymm8 6384vpand mask32_to_16(%rip), %ymm3, %ymm3 6385vpand mask32_to_16(%rip), %ymm8, %ymm8 6386vpackusdw %ymm8, %ymm3, %ymm8 6387vmovdqa 800(%rsp), %ymm3 6388vpaddw 1056(%rsp), %ymm3, %ymm2 6389vpsubw 1056(%rsp), %ymm3, %ymm3 6390vpsrlw $2, %ymm3, %ymm3 6391vpsubw %ymm6, %ymm3, %ymm3 6392vpmullw %ymm14, %ymm3, %ymm3 6393vpsllw $1, %ymm5, %ymm9 6394vpsubw %ymm9, %ymm2, %ymm9 6395vpsllw $7, %ymm11, %ymm2 6396vpsubw %ymm2, %ymm9, %ymm2 6397vpsrlw $3, %ymm2, %ymm2 6398vpsubw %ymm8, %ymm2, %ymm2 6399vmovdqa 1312(%rsp), %ymm9 6400vpsubw %ymm5, %ymm9, %ymm9 6401vpmullw %ymm15, %ymm11, %ymm10 6402vpsubw %ymm10, %ymm9, %ymm10 6403vpmullw %ymm14, %ymm2, %ymm2 6404vpsubw %ymm2, %ymm8, %ymm8 6405vpmullw %ymm12, %ymm2, %ymm9 6406vpaddw %ymm9, %ymm8, %ymm9 6407vpmullw %ymm12, %ymm9, %ymm9 6408vpsubw %ymm9, %ymm10, %ymm9 6409vpmullw %ymm14, %ymm9, %ymm9 6410vpsubw %ymm6, %ymm9, %ymm9 6411vpsrlw $3, %ymm9, %ymm9 6412vpsubw %ymm3, %ymm9, %ymm9 6413vpsubw %ymm9, %ymm3, %ymm3 6414vpsubw %ymm3, %ymm6, %ymm6 6415vpmullw %ymm13, %ymm9, %ymm9 6416vpsubw %ymm9, %ymm6, %ymm6 6417vpshufb shuf48_16(%rip), %ymm2, %ymm2 6418vpand mask3_5_3_5(%rip), %ymm2, %ymm10 6419vpand mask5_3_5_3(%rip), %ymm2, %ymm2 6420vpermq $206, %ymm10, %ymm10 6421vpand mask_keephigh(%rip), %ymm10, %ymm4 6422vpor %ymm4, %ymm2, %ymm2 6423vpaddw 2080(%rsp), %ymm5, %ymm5 6424vpaddw %ymm2, %ymm5, %ymm5 6425vmovdqa %xmm10, 2080(%rsp) 6426vpshufb shuf48_16(%rip), %ymm9, %ymm9 6427vpand mask3_5_3_5(%rip), %ymm9, %ymm10 6428vpand mask5_3_5_3(%rip), %ymm9, %ymm9 6429vpermq $206, %ymm10, %ymm10 6430vpand mask_keephigh(%rip), %ymm10, %ymm4 6431vpor %ymm4, %ymm9, %ymm9 6432vpaddw 2336(%rsp), %ymm6, %ymm6 6433vpaddw %ymm9, %ymm6, %ymm6 6434vmovdqa %xmm10, 2336(%rsp) 6435vpshufb shuf48_16(%rip), %ymm11, %ymm11 6436vpand mask3_5_3_5(%rip), %ymm11, %ymm10 6437vpand mask5_3_5_3(%rip), %ymm11, %ymm11 6438vpermq $206, %ymm10, %ymm10 6439vpand mask_keephigh(%rip), %ymm10, %ymm4 6440vpor %ymm4, %ymm11, %ymm11 6441vpaddw 2592(%rsp), %ymm8, %ymm8 6442vpaddw %ymm11, %ymm8, %ymm8 6443vmovdqa %xmm10, 2592(%rsp) 6444vpand mask_mod8192(%rip), %ymm5, %ymm5 6445vmovdqu %ymm5, 120(%rdi) 6446vpand mask_mod8192(%rip), %ymm6, %ymm6 6447vmovdqu %ymm6, 472(%rdi) 6448vpand mask_mod8192(%rip), %ymm8, %ymm8 6449vmovdqu %ymm8, 824(%rdi) 6450vpand mask_mod8192(%rip), %ymm3, %ymm3 6451vmovdqu %ymm3, 1176(%rdi) 6452vmovdqa 64(%rsp), %ymm11 6453vpunpcklwd const0(%rip), %ymm11, %ymm9 6454vpunpckhwd const0(%rip), %ymm11, %ymm2 6455vpslld $1, %ymm9, %ymm9 6456vpslld $1, %ymm2, %ymm2 6457vmovdqa 320(%rsp), %ymm3 6458vpunpcklwd const0(%rip), %ymm3, %ymm8 6459vpunpckhwd const0(%rip), %ymm3, %ymm3 6460vmovdqa 576(%rsp), %ymm6 6461vpunpcklwd const0(%rip), %ymm6, %ymm5 6462vpunpckhwd const0(%rip), %ymm6, %ymm6 6463vpaddd %ymm5, %ymm8, %ymm10 6464vpaddd %ymm6, %ymm3, %ymm4 6465vpsubd %ymm9, %ymm10, %ymm10 6466vpsubd %ymm2, %ymm4, %ymm4 6467vpsubd %ymm5, %ymm8, %ymm5 6468vpsubd %ymm6, %ymm3, %ymm6 6469vpsrld $1, %ymm5, %ymm5 6470vpsrld $1, %ymm6, %ymm6 6471vpand mask32_to_16(%rip), %ymm5, %ymm5 6472vpand mask32_to_16(%rip), %ymm6, %ymm6 6473vpackusdw %ymm6, %ymm5, %ymm6 6474vmovdqa 1600(%rsp), %ymm5 6475vpunpcklwd const0(%rip), %ymm5, %ymm3 6476vpunpckhwd const0(%rip), %ymm5, %ymm8 6477vpslld $1, %ymm3, %ymm3 6478vpslld $1, %ymm8, %ymm8 6479vpsubd %ymm3, %ymm10, %ymm10 6480vpsubd %ymm8, %ymm4, %ymm4 6481vpsrld $1, %ymm10, %ymm10 6482vpsrld $1, %ymm4, %ymm4 6483vpand mask32_to_16(%rip), %ymm10, %ymm10 6484vpand mask32_to_16(%rip), %ymm4, %ymm4 6485vpackusdw %ymm4, %ymm10, %ymm4 6486vmovdqa 832(%rsp), %ymm10 6487vpaddw 1088(%rsp), %ymm10, %ymm8 6488vpsubw 1088(%rsp), %ymm10, %ymm10 6489vpsrlw $2, %ymm10, %ymm10 6490vpsubw %ymm6, %ymm10, %ymm10 6491vpmullw %ymm14, %ymm10, %ymm10 6492vpsllw $1, %ymm11, %ymm3 6493vpsubw %ymm3, %ymm8, %ymm3 6494vpsllw $7, %ymm5, %ymm8 6495vpsubw %ymm8, %ymm3, %ymm8 6496vpsrlw $3, %ymm8, %ymm8 6497vpsubw %ymm4, %ymm8, %ymm8 6498vmovdqa 1344(%rsp), %ymm3 6499vpsubw %ymm11, %ymm3, %ymm3 6500vpmullw %ymm15, %ymm5, %ymm2 6501vpsubw %ymm2, %ymm3, %ymm2 6502vpmullw %ymm14, %ymm8, %ymm8 6503vpsubw %ymm8, %ymm4, %ymm4 6504vpmullw %ymm12, %ymm8, %ymm3 6505vpaddw %ymm3, %ymm4, %ymm3 6506vpmullw %ymm12, %ymm3, %ymm3 6507vpsubw %ymm3, %ymm2, %ymm3 6508vpmullw %ymm14, %ymm3, %ymm3 6509vpsubw %ymm6, %ymm3, %ymm3 6510vpsrlw $3, %ymm3, %ymm3 6511vpsubw %ymm10, %ymm3, %ymm3 6512vpsubw %ymm3, %ymm10, %ymm10 6513vpsubw %ymm10, %ymm6, %ymm6 6514vpmullw %ymm13, %ymm3, %ymm3 6515vpsubw %ymm3, %ymm6, %ymm6 6516vpshufb shuf48_16(%rip), %ymm8, %ymm8 6517vpand mask3_5_3_5(%rip), %ymm8, %ymm2 6518vpand mask5_3_5_3(%rip), %ymm8, %ymm8 6519vpermq $206, %ymm2, %ymm2 6520vpand mask_keephigh(%rip), %ymm2, %ymm9 6521vpor %ymm9, %ymm8, %ymm8 6522vpaddw 2112(%rsp), %ymm11, %ymm11 6523vpaddw %ymm8, %ymm11, %ymm11 6524vmovdqa %xmm2, 2112(%rsp) 6525vpshufb shuf48_16(%rip), %ymm3, %ymm3 6526vpand mask3_5_3_5(%rip), %ymm3, %ymm2 6527vpand mask5_3_5_3(%rip), %ymm3, %ymm3 6528vpermq $206, %ymm2, %ymm2 6529vpand mask_keephigh(%rip), %ymm2, %ymm9 6530vpor %ymm9, %ymm3, %ymm3 6531vpaddw 2368(%rsp), %ymm6, %ymm6 6532vpaddw %ymm3, %ymm6, %ymm6 6533vmovdqa %xmm2, 2368(%rsp) 6534vpshufb shuf48_16(%rip), %ymm5, %ymm5 6535vpand mask3_5_3_5(%rip), %ymm5, %ymm2 6536vpand mask5_3_5_3(%rip), %ymm5, %ymm5 6537vpermq $206, %ymm2, %ymm2 6538vpand mask_keephigh(%rip), %ymm2, %ymm9 6539vpor %ymm9, %ymm5, %ymm5 6540vpaddw 2624(%rsp), %ymm4, %ymm4 6541vpaddw %ymm5, %ymm4, %ymm4 6542vmovdqa %xmm2, 2624(%rsp) 6543vpand mask_mod8192(%rip), %ymm11, %ymm11 6544vmovdqu %ymm11, 208(%rdi) 6545vpand mask_mod8192(%rip), %ymm6, %ymm6 6546vmovdqu %ymm6, 560(%rdi) 6547vpand mask_mod8192(%rip), %ymm4, %ymm4 6548vmovdqu %ymm4, 912(%rdi) 6549vpand mask_mod8192(%rip), %ymm10, %ymm10 6550vmovdqu %ymm10, 1264(%rdi) 6551vmovdqa 96(%rsp), %ymm5 6552vpunpcklwd const0(%rip), %ymm5, %ymm3 6553vpunpckhwd const0(%rip), %ymm5, %ymm8 6554vpslld $1, %ymm3, %ymm3 6555vpslld $1, %ymm8, %ymm8 6556vmovdqa 352(%rsp), %ymm10 6557vpunpcklwd const0(%rip), %ymm10, %ymm4 6558vpunpckhwd const0(%rip), %ymm10, %ymm10 6559vmovdqa 608(%rsp), %ymm6 6560vpunpcklwd const0(%rip), %ymm6, %ymm11 6561vpunpckhwd const0(%rip), %ymm6, %ymm6 6562vpaddd %ymm11, %ymm4, %ymm2 6563vpaddd %ymm6, %ymm10, %ymm9 6564vpsubd %ymm3, %ymm2, %ymm2 6565vpsubd %ymm8, %ymm9, %ymm9 6566vpsubd %ymm11, %ymm4, %ymm11 6567vpsubd %ymm6, %ymm10, %ymm6 6568vpsrld $1, %ymm11, %ymm11 6569vpsrld $1, %ymm6, %ymm6 6570vpand mask32_to_16(%rip), %ymm11, %ymm11 6571vpand mask32_to_16(%rip), %ymm6, %ymm6 6572vpackusdw %ymm6, %ymm11, %ymm6 6573vmovdqa 1632(%rsp), %ymm11 6574vpunpcklwd const0(%rip), %ymm11, %ymm10 6575vpunpckhwd const0(%rip), %ymm11, %ymm4 6576vpslld $1, %ymm10, %ymm10 6577vpslld $1, %ymm4, %ymm4 6578vpsubd %ymm10, %ymm2, %ymm2 6579vpsubd %ymm4, %ymm9, %ymm9 6580vpsrld $1, %ymm2, %ymm2 6581vpsrld $1, %ymm9, %ymm9 6582vpand mask32_to_16(%rip), %ymm2, %ymm2 6583vpand mask32_to_16(%rip), %ymm9, %ymm9 6584vpackusdw %ymm9, %ymm2, %ymm9 6585vmovdqa 864(%rsp), %ymm2 6586vpaddw 1120(%rsp), %ymm2, %ymm4 6587vpsubw 1120(%rsp), %ymm2, %ymm2 6588vpsrlw $2, %ymm2, %ymm2 6589vpsubw %ymm6, %ymm2, %ymm2 6590vpmullw %ymm14, %ymm2, %ymm2 6591vpsllw $1, %ymm5, %ymm10 6592vpsubw %ymm10, %ymm4, %ymm10 6593vpsllw $7, %ymm11, %ymm4 6594vpsubw %ymm4, %ymm10, %ymm4 6595vpsrlw $3, %ymm4, %ymm4 6596vpsubw %ymm9, %ymm4, %ymm4 6597vmovdqa 1376(%rsp), %ymm10 6598vpsubw %ymm5, %ymm10, %ymm10 6599vpmullw %ymm15, %ymm11, %ymm8 6600vpsubw %ymm8, %ymm10, %ymm8 6601vpmullw %ymm14, %ymm4, %ymm4 6602vpsubw %ymm4, %ymm9, %ymm9 6603vpmullw %ymm12, %ymm4, %ymm10 6604vpaddw %ymm10, %ymm9, %ymm10 6605vpmullw %ymm12, %ymm10, %ymm10 6606vpsubw %ymm10, %ymm8, %ymm10 6607vpmullw %ymm14, %ymm10, %ymm10 6608vpsubw %ymm6, %ymm10, %ymm10 6609vpsrlw $3, %ymm10, %ymm10 6610vpsubw %ymm2, %ymm10, %ymm10 6611vpsubw %ymm10, %ymm2, %ymm2 6612vpsubw %ymm2, %ymm6, %ymm6 6613vpmullw %ymm13, %ymm10, %ymm10 6614vpsubw %ymm10, %ymm6, %ymm6 6615vpshufb shuf48_16(%rip), %ymm4, %ymm4 6616vpand mask3_5_3_5(%rip), %ymm4, %ymm8 6617vpand mask5_3_5_3(%rip), %ymm4, %ymm4 6618vpermq $206, %ymm8, %ymm8 6619vpand mask_keephigh(%rip), %ymm8, %ymm3 6620vpor %ymm3, %ymm4, %ymm4 6621vpaddw 2144(%rsp), %ymm5, %ymm5 6622vpaddw %ymm4, %ymm5, %ymm5 6623vmovdqa %xmm8, 2144(%rsp) 6624vpshufb shuf48_16(%rip), %ymm10, %ymm10 6625vpand mask3_5_3_5(%rip), %ymm10, %ymm8 6626vpand mask5_3_5_3(%rip), %ymm10, %ymm10 6627vpermq $206, %ymm8, %ymm8 6628vpand mask_keephigh(%rip), %ymm8, %ymm3 6629vpor %ymm3, %ymm10, %ymm10 6630vpaddw 2400(%rsp), %ymm6, %ymm6 6631vpaddw %ymm10, %ymm6, %ymm6 6632vmovdqa %xmm8, 2400(%rsp) 6633vpshufb shuf48_16(%rip), %ymm11, %ymm11 6634vpand mask3_5_3_5(%rip), %ymm11, %ymm8 6635vpand mask5_3_5_3(%rip), %ymm11, %ymm11 6636vpermq $206, %ymm8, %ymm8 6637vpand mask_keephigh(%rip), %ymm8, %ymm3 6638vpor %ymm3, %ymm11, %ymm11 6639vpaddw 2656(%rsp), %ymm9, %ymm9 6640vpaddw %ymm11, %ymm9, %ymm9 6641vmovdqa %xmm8, 2656(%rsp) 6642vpand mask_mod8192(%rip), %ymm5, %ymm5 6643vmovdqu %ymm5, 296(%rdi) 6644vpand mask_mod8192(%rip), %ymm6, %ymm6 6645vmovdqu %ymm6, 648(%rdi) 6646vpand mask_mod8192(%rip), %ymm9, %ymm9 6647vmovdqu %ymm9, 1000(%rdi) 6648vpand mask_mod8192(%rip), %ymm2, %ymm2 6649vmovdqu %ymm2, 1352(%rdi) 6650vmovdqa 128(%rsp), %ymm11 6651vpunpcklwd const0(%rip), %ymm11, %ymm10 6652vpunpckhwd const0(%rip), %ymm11, %ymm4 6653vpslld $1, %ymm10, %ymm10 6654vpslld $1, %ymm4, %ymm4 6655vmovdqa 384(%rsp), %ymm2 6656vpunpcklwd const0(%rip), %ymm2, %ymm9 6657vpunpckhwd const0(%rip), %ymm2, %ymm2 6658vmovdqa 640(%rsp), %ymm6 6659vpunpcklwd const0(%rip), %ymm6, %ymm5 6660vpunpckhwd const0(%rip), %ymm6, %ymm6 6661vpaddd %ymm5, %ymm9, %ymm8 6662vpaddd %ymm6, %ymm2, %ymm3 6663vpsubd %ymm10, %ymm8, %ymm8 6664vpsubd %ymm4, %ymm3, %ymm3 6665vpsubd %ymm5, %ymm9, %ymm5 6666vpsubd %ymm6, %ymm2, %ymm6 6667vpsrld $1, %ymm5, %ymm5 6668vpsrld $1, %ymm6, %ymm6 6669vpand mask32_to_16(%rip), %ymm5, %ymm5 6670vpand mask32_to_16(%rip), %ymm6, %ymm6 6671vpackusdw %ymm6, %ymm5, %ymm6 6672vmovdqa 1664(%rsp), %ymm5 6673vpunpcklwd const0(%rip), %ymm5, %ymm2 6674vpunpckhwd const0(%rip), %ymm5, %ymm9 6675vpslld $1, %ymm2, %ymm2 6676vpslld $1, %ymm9, %ymm9 6677vpsubd %ymm2, %ymm8, %ymm8 6678vpsubd %ymm9, %ymm3, %ymm3 6679vpsrld $1, %ymm8, %ymm8 6680vpsrld $1, %ymm3, %ymm3 6681vpand mask32_to_16(%rip), %ymm8, %ymm8 6682vpand mask32_to_16(%rip), %ymm3, %ymm3 6683vpackusdw %ymm3, %ymm8, %ymm3 6684vmovdqa 896(%rsp), %ymm8 6685vpaddw 1152(%rsp), %ymm8, %ymm9 6686vpsubw 1152(%rsp), %ymm8, %ymm8 6687vpsrlw $2, %ymm8, %ymm8 6688vpsubw %ymm6, %ymm8, %ymm8 6689vpmullw %ymm14, %ymm8, %ymm8 6690vpsllw $1, %ymm11, %ymm2 6691vpsubw %ymm2, %ymm9, %ymm2 6692vpsllw $7, %ymm5, %ymm9 6693vpsubw %ymm9, %ymm2, %ymm9 6694vpsrlw $3, %ymm9, %ymm9 6695vpsubw %ymm3, %ymm9, %ymm9 6696vmovdqa 1408(%rsp), %ymm2 6697vpsubw %ymm11, %ymm2, %ymm2 6698vpmullw %ymm15, %ymm5, %ymm4 6699vpsubw %ymm4, %ymm2, %ymm4 6700vpmullw %ymm14, %ymm9, %ymm9 6701vpsubw %ymm9, %ymm3, %ymm3 6702vpmullw %ymm12, %ymm9, %ymm2 6703vpaddw %ymm2, %ymm3, %ymm2 6704vpmullw %ymm12, %ymm2, %ymm2 6705vpsubw %ymm2, %ymm4, %ymm2 6706vpmullw %ymm14, %ymm2, %ymm2 6707vpsubw %ymm6, %ymm2, %ymm2 6708vpsrlw $3, %ymm2, %ymm2 6709vpsubw %ymm8, %ymm2, %ymm2 6710vpsubw %ymm2, %ymm8, %ymm8 6711vpsubw %ymm8, %ymm6, %ymm6 6712vpmullw %ymm13, %ymm2, %ymm2 6713vpsubw %ymm2, %ymm6, %ymm6 6714vmovdqu 384(%rdi), %ymm4 6715vmovdqu 736(%rdi), %ymm10 6716vmovdqu 1088(%rdi), %ymm7 6717vpaddw %ymm11, %ymm4, %ymm11 6718vpaddw %ymm6, %ymm10, %ymm6 6719vpaddw %ymm3, %ymm7, %ymm3 6720vpshufb shuf48_16(%rip), %ymm8, %ymm8 6721vpand mask3_5_3_5(%rip), %ymm8, %ymm7 6722vpand mask5_3_5_3(%rip), %ymm8, %ymm8 6723vpermq $206, %ymm7, %ymm7 6724vpand mask_keephigh(%rip), %ymm7, %ymm10 6725vpor %ymm10, %ymm8, %ymm8 6726vmovdqu 32(%rdi), %ymm10 6727vpaddw 1920(%rsp), %ymm10, %ymm10 6728vpaddw %ymm8, %ymm10, %ymm10 6729vpand mask_mod8192(%rip), %ymm10, %ymm10 6730vmovdqu %ymm10, 32(%rdi) 6731vmovdqa %xmm7, 1920(%rsp) 6732vpshufb shuf48_16(%rip), %ymm9, %ymm9 6733vpand mask3_5_3_5(%rip), %ymm9, %ymm7 6734vpand mask5_3_5_3(%rip), %ymm9, %ymm9 6735vpermq $206, %ymm7, %ymm7 6736vpand mask_keephigh(%rip), %ymm7, %ymm10 6737vpor %ymm10, %ymm9, %ymm9 6738vpaddw 2176(%rsp), %ymm11, %ymm11 6739vpaddw %ymm9, %ymm11, %ymm11 6740vmovdqa %xmm7, 2176(%rsp) 6741vpshufb shuf48_16(%rip), %ymm2, %ymm2 6742vpand mask3_5_3_5(%rip), %ymm2, %ymm7 6743vpand mask5_3_5_3(%rip), %ymm2, %ymm2 6744vpermq $206, %ymm7, %ymm7 6745vpand mask_keephigh(%rip), %ymm7, %ymm10 6746vpor %ymm10, %ymm2, %ymm2 6747vpaddw 2432(%rsp), %ymm6, %ymm6 6748vpaddw %ymm2, %ymm6, %ymm6 6749vmovdqa %xmm7, 2432(%rsp) 6750vpshufb shuf48_16(%rip), %ymm5, %ymm5 6751vpand mask3_5_3_5(%rip), %ymm5, %ymm7 6752vpand mask5_3_5_3(%rip), %ymm5, %ymm5 6753vpermq $206, %ymm7, %ymm7 6754vpand mask_keephigh(%rip), %ymm7, %ymm10 6755vpor %ymm10, %ymm5, %ymm5 6756vpaddw 2688(%rsp), %ymm3, %ymm3 6757vpaddw %ymm5, %ymm3, %ymm3 6758vmovdqa %xmm7, 2688(%rsp) 6759vpand mask_mod8192(%rip), %ymm11, %ymm11 6760vmovdqu %ymm11, 384(%rdi) 6761vpand mask_mod8192(%rip), %ymm6, %ymm6 6762vmovdqu %ymm6, 736(%rdi) 6763vpand mask_mod8192(%rip), %ymm3, %ymm3 6764vmovdqu %ymm3, 1088(%rdi) 6765vmovdqa 160(%rsp), %ymm5 6766vpunpcklwd const0(%rip), %ymm5, %ymm2 6767vpunpckhwd const0(%rip), %ymm5, %ymm9 6768vpslld $1, %ymm2, %ymm2 6769vpslld $1, %ymm9, %ymm9 6770vmovdqa 416(%rsp), %ymm8 6771vpunpcklwd const0(%rip), %ymm8, %ymm3 6772vpunpckhwd const0(%rip), %ymm8, %ymm8 6773vmovdqa 672(%rsp), %ymm6 6774vpunpcklwd const0(%rip), %ymm6, %ymm11 6775vpunpckhwd const0(%rip), %ymm6, %ymm6 6776vpaddd %ymm11, %ymm3, %ymm7 6777vpaddd %ymm6, %ymm8, %ymm10 6778vpsubd %ymm2, %ymm7, %ymm7 6779vpsubd %ymm9, %ymm10, %ymm10 6780vpsubd %ymm11, %ymm3, %ymm11 6781vpsubd %ymm6, %ymm8, %ymm6 6782vpsrld $1, %ymm11, %ymm11 6783vpsrld $1, %ymm6, %ymm6 6784vpand mask32_to_16(%rip), %ymm11, %ymm11 6785vpand mask32_to_16(%rip), %ymm6, %ymm6 6786vpackusdw %ymm6, %ymm11, %ymm6 6787vmovdqa 1696(%rsp), %ymm11 6788vpunpcklwd const0(%rip), %ymm11, %ymm8 6789vpunpckhwd const0(%rip), %ymm11, %ymm3 6790vpslld $1, %ymm8, %ymm8 6791vpslld $1, %ymm3, %ymm3 6792vpsubd %ymm8, %ymm7, %ymm7 6793vpsubd %ymm3, %ymm10, %ymm10 6794vpsrld $1, %ymm7, %ymm7 6795vpsrld $1, %ymm10, %ymm10 6796vpand mask32_to_16(%rip), %ymm7, %ymm7 6797vpand mask32_to_16(%rip), %ymm10, %ymm10 6798vpackusdw %ymm10, %ymm7, %ymm10 6799vmovdqa 928(%rsp), %ymm7 6800vpaddw 1184(%rsp), %ymm7, %ymm3 6801vpsubw 1184(%rsp), %ymm7, %ymm7 6802vpsrlw $2, %ymm7, %ymm7 6803vpsubw %ymm6, %ymm7, %ymm7 6804vpmullw %ymm14, %ymm7, %ymm7 6805vpsllw $1, %ymm5, %ymm8 6806vpsubw %ymm8, %ymm3, %ymm8 6807vpsllw $7, %ymm11, %ymm3 6808vpsubw %ymm3, %ymm8, %ymm3 6809vpsrlw $3, %ymm3, %ymm3 6810vpsubw %ymm10, %ymm3, %ymm3 6811vmovdqa 1440(%rsp), %ymm8 6812vpsubw %ymm5, %ymm8, %ymm8 6813vpmullw %ymm15, %ymm11, %ymm9 6814vpsubw %ymm9, %ymm8, %ymm9 6815vpmullw %ymm14, %ymm3, %ymm3 6816vpsubw %ymm3, %ymm10, %ymm10 6817vpmullw %ymm12, %ymm3, %ymm8 6818vpaddw %ymm8, %ymm10, %ymm8 6819vpmullw %ymm12, %ymm8, %ymm8 6820vpsubw %ymm8, %ymm9, %ymm8 6821vpmullw %ymm14, %ymm8, %ymm8 6822vpsubw %ymm6, %ymm8, %ymm8 6823vpsrlw $3, %ymm8, %ymm8 6824vpsubw %ymm7, %ymm8, %ymm8 6825vpsubw %ymm8, %ymm7, %ymm7 6826vpsubw %ymm7, %ymm6, %ymm6 6827vpmullw %ymm13, %ymm8, %ymm8 6828vpsubw %ymm8, %ymm6, %ymm6 6829vmovdqu 472(%rdi), %ymm9 6830vmovdqu 824(%rdi), %ymm2 6831vmovdqu 1176(%rdi), %ymm4 6832vpaddw %ymm5, %ymm9, %ymm5 6833vpaddw %ymm6, %ymm2, %ymm6 6834vpaddw %ymm10, %ymm4, %ymm10 6835vpshufb shuf48_16(%rip), %ymm7, %ymm7 6836vpand mask3_5_3_5(%rip), %ymm7, %ymm4 6837vpand mask5_3_5_3(%rip), %ymm7, %ymm7 6838vpermq $206, %ymm4, %ymm4 6839vpand mask_keephigh(%rip), %ymm4, %ymm2 6840vpor %ymm2, %ymm7, %ymm7 6841vmovdqu 120(%rdi), %ymm2 6842vpaddw 1952(%rsp), %ymm2, %ymm2 6843vpaddw %ymm7, %ymm2, %ymm2 6844vpand mask_mod8192(%rip), %ymm2, %ymm2 6845vmovdqu %ymm2, 120(%rdi) 6846vmovdqa %xmm4, 1952(%rsp) 6847vpshufb shuf48_16(%rip), %ymm3, %ymm3 6848vpand mask3_5_3_5(%rip), %ymm3, %ymm4 6849vpand mask5_3_5_3(%rip), %ymm3, %ymm3 6850vpermq $206, %ymm4, %ymm4 6851vpand mask_keephigh(%rip), %ymm4, %ymm2 6852vpor %ymm2, %ymm3, %ymm3 6853vpaddw 2208(%rsp), %ymm5, %ymm5 6854vpaddw %ymm3, %ymm5, %ymm5 6855vmovdqa %xmm4, 2208(%rsp) 6856vpshufb shuf48_16(%rip), %ymm8, %ymm8 6857vpand mask3_5_3_5(%rip), %ymm8, %ymm4 6858vpand mask5_3_5_3(%rip), %ymm8, %ymm8 6859vpermq $206, %ymm4, %ymm4 6860vpand mask_keephigh(%rip), %ymm4, %ymm2 6861vpor %ymm2, %ymm8, %ymm8 6862vpaddw 2464(%rsp), %ymm6, %ymm6 6863vpaddw %ymm8, %ymm6, %ymm6 6864vmovdqa %xmm4, 2464(%rsp) 6865vpshufb shuf48_16(%rip), %ymm11, %ymm11 6866vpand mask3_5_3_5(%rip), %ymm11, %ymm4 6867vpand mask5_3_5_3(%rip), %ymm11, %ymm11 6868vpermq $206, %ymm4, %ymm4 6869vpand mask_keephigh(%rip), %ymm4, %ymm2 6870vpor %ymm2, %ymm11, %ymm11 6871vpaddw 2720(%rsp), %ymm10, %ymm10 6872vpaddw %ymm11, %ymm10, %ymm10 6873vmovdqa %xmm4, 2720(%rsp) 6874vpand mask_mod8192(%rip), %ymm5, %ymm5 6875vmovdqu %ymm5, 472(%rdi) 6876vpand mask_mod8192(%rip), %ymm6, %ymm6 6877vmovdqu %ymm6, 824(%rdi) 6878vpand mask_mod8192(%rip), %ymm10, %ymm10 6879vmovdqu %ymm10, 1176(%rdi) 6880vmovdqa 192(%rsp), %ymm11 6881vpunpcklwd const0(%rip), %ymm11, %ymm8 6882vpunpckhwd const0(%rip), %ymm11, %ymm3 6883vpslld $1, %ymm8, %ymm8 6884vpslld $1, %ymm3, %ymm3 6885vmovdqa 448(%rsp), %ymm7 6886vpunpcklwd const0(%rip), %ymm7, %ymm10 6887vpunpckhwd const0(%rip), %ymm7, %ymm7 6888vmovdqa 704(%rsp), %ymm6 6889vpunpcklwd const0(%rip), %ymm6, %ymm5 6890vpunpckhwd const0(%rip), %ymm6, %ymm6 6891vpaddd %ymm5, %ymm10, %ymm4 6892vpaddd %ymm6, %ymm7, %ymm2 6893vpsubd %ymm8, %ymm4, %ymm4 6894vpsubd %ymm3, %ymm2, %ymm2 6895vpsubd %ymm5, %ymm10, %ymm5 6896vpsubd %ymm6, %ymm7, %ymm6 6897vpsrld $1, %ymm5, %ymm5 6898vpsrld $1, %ymm6, %ymm6 6899vpand mask32_to_16(%rip), %ymm5, %ymm5 6900vpand mask32_to_16(%rip), %ymm6, %ymm6 6901vpackusdw %ymm6, %ymm5, %ymm6 6902vmovdqa 1728(%rsp), %ymm5 6903vpunpcklwd const0(%rip), %ymm5, %ymm7 6904vpunpckhwd const0(%rip), %ymm5, %ymm10 6905vpslld $1, %ymm7, %ymm7 6906vpslld $1, %ymm10, %ymm10 6907vpsubd %ymm7, %ymm4, %ymm4 6908vpsubd %ymm10, %ymm2, %ymm2 6909vpsrld $1, %ymm4, %ymm4 6910vpsrld $1, %ymm2, %ymm2 6911vpand mask32_to_16(%rip), %ymm4, %ymm4 6912vpand mask32_to_16(%rip), %ymm2, %ymm2 6913vpackusdw %ymm2, %ymm4, %ymm2 6914vmovdqa 960(%rsp), %ymm4 6915vpaddw 1216(%rsp), %ymm4, %ymm10 6916vpsubw 1216(%rsp), %ymm4, %ymm4 6917vpsrlw $2, %ymm4, %ymm4 6918vpsubw %ymm6, %ymm4, %ymm4 6919vpmullw %ymm14, %ymm4, %ymm4 6920vpsllw $1, %ymm11, %ymm7 6921vpsubw %ymm7, %ymm10, %ymm7 6922vpsllw $7, %ymm5, %ymm10 6923vpsubw %ymm10, %ymm7, %ymm10 6924vpsrlw $3, %ymm10, %ymm10 6925vpsubw %ymm2, %ymm10, %ymm10 6926vmovdqa 1472(%rsp), %ymm7 6927vpsubw %ymm11, %ymm7, %ymm7 6928vpmullw %ymm15, %ymm5, %ymm3 6929vpsubw %ymm3, %ymm7, %ymm3 6930vpmullw %ymm14, %ymm10, %ymm10 6931vpsubw %ymm10, %ymm2, %ymm2 6932vpmullw %ymm12, %ymm10, %ymm7 6933vpaddw %ymm7, %ymm2, %ymm7 6934vpmullw %ymm12, %ymm7, %ymm7 6935vpsubw %ymm7, %ymm3, %ymm7 6936vpmullw %ymm14, %ymm7, %ymm7 6937vpsubw %ymm6, %ymm7, %ymm7 6938vpsrlw $3, %ymm7, %ymm7 6939vpsubw %ymm4, %ymm7, %ymm7 6940vpsubw %ymm7, %ymm4, %ymm4 6941vpsubw %ymm4, %ymm6, %ymm6 6942vpmullw %ymm13, %ymm7, %ymm7 6943vpsubw %ymm7, %ymm6, %ymm6 6944vmovdqu 560(%rdi), %ymm3 6945vmovdqu 912(%rdi), %ymm8 6946vmovdqu 1264(%rdi), %ymm9 6947vpaddw %ymm11, %ymm3, %ymm11 6948vpaddw %ymm6, %ymm8, %ymm6 6949vpaddw %ymm2, %ymm9, %ymm2 6950vpshufb shuf48_16(%rip), %ymm4, %ymm4 6951vpand mask3_5_3_5(%rip), %ymm4, %ymm9 6952vpand mask5_3_5_3(%rip), %ymm4, %ymm4 6953vpermq $206, %ymm9, %ymm9 6954vpand mask_keephigh(%rip), %ymm9, %ymm8 6955vpor %ymm8, %ymm4, %ymm4 6956vmovdqu 208(%rdi), %ymm8 6957vpaddw 1984(%rsp), %ymm8, %ymm8 6958vpaddw %ymm4, %ymm8, %ymm8 6959vpand mask_mod8192(%rip), %ymm8, %ymm8 6960vmovdqu %ymm8, 208(%rdi) 6961vmovdqa %xmm9, 1984(%rsp) 6962vpshufb shuf48_16(%rip), %ymm10, %ymm10 6963vpand mask3_5_3_5(%rip), %ymm10, %ymm9 6964vpand mask5_3_5_3(%rip), %ymm10, %ymm10 6965vpermq $206, %ymm9, %ymm9 6966vpand mask_keephigh(%rip), %ymm9, %ymm8 6967vpor %ymm8, %ymm10, %ymm10 6968vpaddw 2240(%rsp), %ymm11, %ymm11 6969vpaddw %ymm10, %ymm11, %ymm11 6970vmovdqa %xmm9, 2240(%rsp) 6971vpshufb shuf48_16(%rip), %ymm7, %ymm7 6972vpand mask3_5_3_5(%rip), %ymm7, %ymm9 6973vpand mask5_3_5_3(%rip), %ymm7, %ymm7 6974vpermq $206, %ymm9, %ymm9 6975vpand mask_keephigh(%rip), %ymm9, %ymm8 6976vpor %ymm8, %ymm7, %ymm7 6977vpaddw 2496(%rsp), %ymm6, %ymm6 6978vpaddw %ymm7, %ymm6, %ymm6 6979vmovdqa %xmm9, 2496(%rsp) 6980vpshufb shuf48_16(%rip), %ymm5, %ymm5 6981vpand mask3_5_3_5(%rip), %ymm5, %ymm9 6982vpand mask5_3_5_3(%rip), %ymm5, %ymm5 6983vpermq $206, %ymm9, %ymm9 6984vpand mask_keephigh(%rip), %ymm9, %ymm8 6985vpor %ymm8, %ymm5, %ymm5 6986vpaddw 2752(%rsp), %ymm2, %ymm2 6987vpaddw %ymm5, %ymm2, %ymm2 6988vmovdqa %xmm9, 2752(%rsp) 6989vpand mask_mod8192(%rip), %ymm11, %ymm11 6990vmovdqu %ymm11, 560(%rdi) 6991vpand mask_mod8192(%rip), %ymm6, %ymm6 6992vmovdqu %ymm6, 912(%rdi) 6993vpand mask_mod8192(%rip), %ymm2, %ymm2 6994vmovdqu %ymm2, 1264(%rdi) 6995vmovdqa 224(%rsp), %ymm5 6996vpunpcklwd const0(%rip), %ymm5, %ymm7 6997vpunpckhwd const0(%rip), %ymm5, %ymm10 6998vpslld $1, %ymm7, %ymm7 6999vpslld $1, %ymm10, %ymm10 7000vmovdqa 480(%rsp), %ymm4 7001vpunpcklwd const0(%rip), %ymm4, %ymm2 7002vpunpckhwd const0(%rip), %ymm4, %ymm4 7003vmovdqa 736(%rsp), %ymm6 7004vpunpcklwd const0(%rip), %ymm6, %ymm11 7005vpunpckhwd const0(%rip), %ymm6, %ymm6 7006vpaddd %ymm11, %ymm2, %ymm9 7007vpaddd %ymm6, %ymm4, %ymm8 7008vpsubd %ymm7, %ymm9, %ymm9 7009vpsubd %ymm10, %ymm8, %ymm8 7010vpsubd %ymm11, %ymm2, %ymm11 7011vpsubd %ymm6, %ymm4, %ymm6 7012vpsrld $1, %ymm11, %ymm11 7013vpsrld $1, %ymm6, %ymm6 7014vpand mask32_to_16(%rip), %ymm11, %ymm11 7015vpand mask32_to_16(%rip), %ymm6, %ymm6 7016vpackusdw %ymm6, %ymm11, %ymm6 7017vmovdqa 1760(%rsp), %ymm11 7018vpunpcklwd const0(%rip), %ymm11, %ymm4 7019vpunpckhwd const0(%rip), %ymm11, %ymm2 7020vpslld $1, %ymm4, %ymm4 7021vpslld $1, %ymm2, %ymm2 7022vpsubd %ymm4, %ymm9, %ymm9 7023vpsubd %ymm2, %ymm8, %ymm8 7024vpsrld $1, %ymm9, %ymm9 7025vpsrld $1, %ymm8, %ymm8 7026vpand mask32_to_16(%rip), %ymm9, %ymm9 7027vpand mask32_to_16(%rip), %ymm8, %ymm8 7028vpackusdw %ymm8, %ymm9, %ymm8 7029vmovdqa 992(%rsp), %ymm9 7030vpaddw 1248(%rsp), %ymm9, %ymm2 7031vpsubw 1248(%rsp), %ymm9, %ymm9 7032vpsrlw $2, %ymm9, %ymm9 7033vpsubw %ymm6, %ymm9, %ymm9 7034vpmullw %ymm14, %ymm9, %ymm9 7035vpsllw $1, %ymm5, %ymm4 7036vpsubw %ymm4, %ymm2, %ymm4 7037vpsllw $7, %ymm11, %ymm2 7038vpsubw %ymm2, %ymm4, %ymm2 7039vpsrlw $3, %ymm2, %ymm2 7040vpsubw %ymm8, %ymm2, %ymm2 7041vmovdqa 1504(%rsp), %ymm4 7042vpsubw %ymm5, %ymm4, %ymm4 7043vpmullw %ymm15, %ymm11, %ymm10 7044vpsubw %ymm10, %ymm4, %ymm10 7045vpmullw %ymm14, %ymm2, %ymm2 7046vpsubw %ymm2, %ymm8, %ymm8 7047vpmullw %ymm12, %ymm2, %ymm4 7048vpaddw %ymm4, %ymm8, %ymm4 7049vpmullw %ymm12, %ymm4, %ymm4 7050vpsubw %ymm4, %ymm10, %ymm4 7051vpmullw %ymm14, %ymm4, %ymm4 7052vpsubw %ymm6, %ymm4, %ymm4 7053vpsrlw $3, %ymm4, %ymm4 7054vpsubw %ymm9, %ymm4, %ymm4 7055vpsubw %ymm4, %ymm9, %ymm9 7056vpsubw %ymm9, %ymm6, %ymm6 7057vpmullw %ymm13, %ymm4, %ymm4 7058vpsubw %ymm4, %ymm6, %ymm6 7059vmovdqu 648(%rdi), %ymm10 7060vmovdqu 1000(%rdi), %ymm7 7061vmovdqu 1352(%rdi), %ymm3 7062vpaddw %ymm5, %ymm10, %ymm5 7063vpaddw %ymm6, %ymm7, %ymm6 7064vpaddw %ymm8, %ymm3, %ymm8 7065vpshufb shuf48_16(%rip), %ymm9, %ymm9 7066vpand mask3_5_3_5(%rip), %ymm9, %ymm3 7067vpand mask5_3_5_3(%rip), %ymm9, %ymm9 7068vpermq $206, %ymm3, %ymm3 7069vpand mask_keephigh(%rip), %ymm3, %ymm7 7070vpor %ymm7, %ymm9, %ymm9 7071vmovdqu 296(%rdi), %ymm7 7072vpaddw 2016(%rsp), %ymm7, %ymm7 7073vpaddw %ymm9, %ymm7, %ymm7 7074vpand mask_mod8192(%rip), %ymm7, %ymm7 7075vmovdqu %ymm7, 296(%rdi) 7076vmovdqa %xmm3, 2016(%rsp) 7077vpshufb shuf48_16(%rip), %ymm2, %ymm2 7078vpand mask3_5_3_5(%rip), %ymm2, %ymm3 7079vpand mask5_3_5_3(%rip), %ymm2, %ymm2 7080vpermq $206, %ymm3, %ymm3 7081vpand mask_keephigh(%rip), %ymm3, %ymm7 7082vpor %ymm7, %ymm2, %ymm2 7083vpaddw 2272(%rsp), %ymm5, %ymm5 7084vpaddw %ymm2, %ymm5, %ymm5 7085vmovdqa %xmm3, 2272(%rsp) 7086vpshufb shuf48_16(%rip), %ymm4, %ymm4 7087vpand mask3_5_3_5(%rip), %ymm4, %ymm3 7088vpand mask5_3_5_3(%rip), %ymm4, %ymm4 7089vpermq $206, %ymm3, %ymm3 7090vpand mask_keephigh(%rip), %ymm3, %ymm7 7091vpor %ymm7, %ymm4, %ymm4 7092vpaddw 2528(%rsp), %ymm6, %ymm6 7093vpaddw %ymm4, %ymm6, %ymm6 7094vmovdqa %xmm3, 2528(%rsp) 7095vpshufb shuf48_16(%rip), %ymm11, %ymm11 7096vpand mask3_5_3_5(%rip), %ymm11, %ymm3 7097vpand mask5_3_5_3(%rip), %ymm11, %ymm11 7098vpermq $206, %ymm3, %ymm3 7099vpand mask_keephigh(%rip), %ymm3, %ymm7 7100vpor %ymm7, %ymm11, %ymm11 7101vpaddw 2784(%rsp), %ymm8, %ymm8 7102vpaddw %ymm11, %ymm8, %ymm8 7103vmovdqa %xmm3, 2784(%rsp) 7104vpand mask_mod8192(%rip), %ymm5, %ymm5 7105vmovdqu %ymm5, 648(%rdi) 7106vpand mask_mod8192(%rip), %ymm6, %ymm6 7107vmovdqu %ymm6, 1000(%rdi) 7108vpand mask_mod8192(%rip), %ymm8, %ymm8 7109vmovdqu %ymm8, 1352(%rdi) 7110vmovdqa 160(%r12), %ymm0 7111vpsubw 256(%r12), %ymm0, %ymm0 7112vmovdqa 544(%r12), %ymm1 7113vpsubw %ymm0, %ymm1, %ymm1 7114vpsubw 352(%r12), %ymm1, %ymm1 7115vpsubw 64(%r12), %ymm0, %ymm0 7116vpaddw 448(%r12), %ymm0, %ymm0 7117vmovdqa 736(%r12), %ymm2 7118vpsubw 832(%r12), %ymm2, %ymm2 7119vmovdqa 1120(%r12), %ymm3 7120vpsubw %ymm2, %ymm3, %ymm3 7121vpsubw 928(%r12), %ymm3, %ymm3 7122vpsubw 640(%r12), %ymm2, %ymm2 7123vpaddw 1024(%r12), %ymm2, %ymm2 7124vmovdqa 1312(%r12), %ymm4 7125vpsubw 1408(%r12), %ymm4, %ymm4 7126vmovdqa 1696(%r12), %ymm5 7127vpsubw %ymm4, %ymm5, %ymm5 7128vpsubw 1504(%r12), %ymm5, %ymm5 7129vpsubw 1216(%r12), %ymm4, %ymm4 7130vpaddw 1600(%r12), %ymm4, %ymm4 7131vpsubw 640(%r12), %ymm1, %ymm1 7132vpsubw %ymm1, %ymm5, %ymm5 7133vpsubw %ymm3, %ymm5, %ymm5 7134vpsubw 64(%r12), %ymm1, %ymm1 7135vpaddw 1216(%r12), %ymm1, %ymm1 7136vmovdqa 352(%r12), %ymm6 7137vpsubw %ymm2, %ymm6, %ymm7 7138vmovdqa 1504(%r12), %ymm2 7139vpsubw %ymm7, %ymm2, %ymm2 7140vpsubw 928(%r12), %ymm2, %ymm2 7141vpsubw %ymm0, %ymm7, %ymm7 7142vpaddw %ymm4, %ymm7, %ymm7 7143vmovdqa 64(%r12), %ymm8 7144vmovdqa 928(%r12), %ymm9 7145vmovdqa %ymm8, 0(%rsp) 7146vmovdqa %ymm0, 32(%rsp) 7147vmovdqa %ymm1, 64(%rsp) 7148vmovdqa %ymm7, 96(%rsp) 7149vmovdqa %ymm5, 128(%rsp) 7150vmovdqa %ymm2, 160(%rsp) 7151vmovdqa %ymm3, 192(%rsp) 7152vmovdqa %ymm9, 224(%rsp) 7153vmovdqa 1888(%r12), %ymm0 7154vpsubw 1984(%r12), %ymm0, %ymm0 7155vmovdqa 2272(%r12), %ymm1 7156vpsubw %ymm0, %ymm1, %ymm1 7157vpsubw 2080(%r12), %ymm1, %ymm1 7158vpsubw 1792(%r12), %ymm0, %ymm0 7159vpaddw 2176(%r12), %ymm0, %ymm0 7160vmovdqa 2464(%r12), %ymm2 7161vpsubw 2560(%r12), %ymm2, %ymm2 7162vmovdqa 2848(%r12), %ymm3 7163vpsubw %ymm2, %ymm3, %ymm3 7164vpsubw 2656(%r12), %ymm3, %ymm3 7165vpsubw 2368(%r12), %ymm2, %ymm2 7166vpaddw 2752(%r12), %ymm2, %ymm2 7167vmovdqa 3040(%r12), %ymm4 7168vpsubw 3136(%r12), %ymm4, %ymm4 7169vmovdqa 3424(%r12), %ymm5 7170vpsubw %ymm4, %ymm5, %ymm5 7171vpsubw 3232(%r12), %ymm5, %ymm5 7172vpsubw 2944(%r12), %ymm4, %ymm4 7173vpaddw 3328(%r12), %ymm4, %ymm4 7174vpsubw 2368(%r12), %ymm1, %ymm1 7175vpsubw %ymm1, %ymm5, %ymm5 7176vpsubw %ymm3, %ymm5, %ymm5 7177vpsubw 1792(%r12), %ymm1, %ymm1 7178vpaddw 2944(%r12), %ymm1, %ymm1 7179vmovdqa 2080(%r12), %ymm6 7180vpsubw %ymm2, %ymm6, %ymm7 7181vmovdqa 3232(%r12), %ymm2 7182vpsubw %ymm7, %ymm2, %ymm2 7183vpsubw 2656(%r12), %ymm2, %ymm2 7184vpsubw %ymm0, %ymm7, %ymm7 7185vpaddw %ymm4, %ymm7, %ymm7 7186vmovdqa 1792(%r12), %ymm8 7187vmovdqa 2656(%r12), %ymm9 7188vmovdqa %ymm8, 256(%rsp) 7189vmovdqa %ymm0, 288(%rsp) 7190vmovdqa %ymm1, 320(%rsp) 7191vmovdqa %ymm7, 352(%rsp) 7192vmovdqa %ymm5, 384(%rsp) 7193vmovdqa %ymm2, 416(%rsp) 7194vmovdqa %ymm3, 448(%rsp) 7195vmovdqa %ymm9, 480(%rsp) 7196vmovdqa 3616(%r12), %ymm0 7197vpsubw 3712(%r12), %ymm0, %ymm0 7198vmovdqa 4000(%r12), %ymm1 7199vpsubw %ymm0, %ymm1, %ymm1 7200vpsubw 3808(%r12), %ymm1, %ymm1 7201vpsubw 3520(%r12), %ymm0, %ymm0 7202vpaddw 3904(%r12), %ymm0, %ymm0 7203vmovdqa 4192(%r12), %ymm2 7204vpsubw 4288(%r12), %ymm2, %ymm2 7205vmovdqa 4576(%r12), %ymm3 7206vpsubw %ymm2, %ymm3, %ymm3 7207vpsubw 4384(%r12), %ymm3, %ymm3 7208vpsubw 4096(%r12), %ymm2, %ymm2 7209vpaddw 4480(%r12), %ymm2, %ymm2 7210vmovdqa 4768(%r12), %ymm4 7211vpsubw 4864(%r12), %ymm4, %ymm4 7212vmovdqa 5152(%r12), %ymm5 7213vpsubw %ymm4, %ymm5, %ymm5 7214vpsubw 4960(%r12), %ymm5, %ymm5 7215vpsubw 4672(%r12), %ymm4, %ymm4 7216vpaddw 5056(%r12), %ymm4, %ymm4 7217vpsubw 4096(%r12), %ymm1, %ymm1 7218vpsubw %ymm1, %ymm5, %ymm5 7219vpsubw %ymm3, %ymm5, %ymm5 7220vpsubw 3520(%r12), %ymm1, %ymm1 7221vpaddw 4672(%r12), %ymm1, %ymm1 7222vmovdqa 3808(%r12), %ymm6 7223vpsubw %ymm2, %ymm6, %ymm7 7224vmovdqa 4960(%r12), %ymm2 7225vpsubw %ymm7, %ymm2, %ymm2 7226vpsubw 4384(%r12), %ymm2, %ymm2 7227vpsubw %ymm0, %ymm7, %ymm7 7228vpaddw %ymm4, %ymm7, %ymm7 7229vmovdqa 3520(%r12), %ymm8 7230vmovdqa 4384(%r12), %ymm9 7231vmovdqa %ymm8, 512(%rsp) 7232vmovdqa %ymm0, 544(%rsp) 7233vmovdqa %ymm1, 576(%rsp) 7234vmovdqa %ymm7, 608(%rsp) 7235vmovdqa %ymm5, 640(%rsp) 7236vmovdqa %ymm2, 672(%rsp) 7237vmovdqa %ymm3, 704(%rsp) 7238vmovdqa %ymm9, 736(%rsp) 7239vmovdqa 5344(%r12), %ymm0 7240vpsubw 5440(%r12), %ymm0, %ymm0 7241vmovdqa 5728(%r12), %ymm1 7242vpsubw %ymm0, %ymm1, %ymm1 7243vpsubw 5536(%r12), %ymm1, %ymm1 7244vpsubw 5248(%r12), %ymm0, %ymm0 7245vpaddw 5632(%r12), %ymm0, %ymm0 7246vmovdqa 5920(%r12), %ymm2 7247vpsubw 6016(%r12), %ymm2, %ymm2 7248vmovdqa 6304(%r12), %ymm3 7249vpsubw %ymm2, %ymm3, %ymm3 7250vpsubw 6112(%r12), %ymm3, %ymm3 7251vpsubw 5824(%r12), %ymm2, %ymm2 7252vpaddw 6208(%r12), %ymm2, %ymm2 7253vmovdqa 6496(%r12), %ymm4 7254vpsubw 6592(%r12), %ymm4, %ymm4 7255vmovdqa 6880(%r12), %ymm5 7256vpsubw %ymm4, %ymm5, %ymm5 7257vpsubw 6688(%r12), %ymm5, %ymm5 7258vpsubw 6400(%r12), %ymm4, %ymm4 7259vpaddw 6784(%r12), %ymm4, %ymm4 7260vpsubw 5824(%r12), %ymm1, %ymm1 7261vpsubw %ymm1, %ymm5, %ymm5 7262vpsubw %ymm3, %ymm5, %ymm5 7263vpsubw 5248(%r12), %ymm1, %ymm1 7264vpaddw 6400(%r12), %ymm1, %ymm1 7265vmovdqa 5536(%r12), %ymm6 7266vpsubw %ymm2, %ymm6, %ymm7 7267vmovdqa 6688(%r12), %ymm2 7268vpsubw %ymm7, %ymm2, %ymm2 7269vpsubw 6112(%r12), %ymm2, %ymm2 7270vpsubw %ymm0, %ymm7, %ymm7 7271vpaddw %ymm4, %ymm7, %ymm7 7272vmovdqa 5248(%r12), %ymm8 7273vmovdqa 6112(%r12), %ymm9 7274vmovdqa %ymm8, 768(%rsp) 7275vmovdqa %ymm0, 800(%rsp) 7276vmovdqa %ymm1, 832(%rsp) 7277vmovdqa %ymm7, 864(%rsp) 7278vmovdqa %ymm5, 896(%rsp) 7279vmovdqa %ymm2, 928(%rsp) 7280vmovdqa %ymm3, 960(%rsp) 7281vmovdqa %ymm9, 992(%rsp) 7282vmovdqa 7072(%r12), %ymm0 7283vpsubw 7168(%r12), %ymm0, %ymm0 7284vmovdqa 7456(%r12), %ymm1 7285vpsubw %ymm0, %ymm1, %ymm1 7286vpsubw 7264(%r12), %ymm1, %ymm1 7287vpsubw 6976(%r12), %ymm0, %ymm0 7288vpaddw 7360(%r12), %ymm0, %ymm0 7289vmovdqa 7648(%r12), %ymm2 7290vpsubw 7744(%r12), %ymm2, %ymm2 7291vmovdqa 8032(%r12), %ymm3 7292vpsubw %ymm2, %ymm3, %ymm3 7293vpsubw 7840(%r12), %ymm3, %ymm3 7294vpsubw 7552(%r12), %ymm2, %ymm2 7295vpaddw 7936(%r12), %ymm2, %ymm2 7296vmovdqa 8224(%r12), %ymm4 7297vpsubw 8320(%r12), %ymm4, %ymm4 7298vmovdqa 8608(%r12), %ymm5 7299vpsubw %ymm4, %ymm5, %ymm5 7300vpsubw 8416(%r12), %ymm5, %ymm5 7301vpsubw 8128(%r12), %ymm4, %ymm4 7302vpaddw 8512(%r12), %ymm4, %ymm4 7303vpsubw 7552(%r12), %ymm1, %ymm1 7304vpsubw %ymm1, %ymm5, %ymm5 7305vpsubw %ymm3, %ymm5, %ymm5 7306vpsubw 6976(%r12), %ymm1, %ymm1 7307vpaddw 8128(%r12), %ymm1, %ymm1 7308vmovdqa 7264(%r12), %ymm6 7309vpsubw %ymm2, %ymm6, %ymm7 7310vmovdqa 8416(%r12), %ymm2 7311vpsubw %ymm7, %ymm2, %ymm2 7312vpsubw 7840(%r12), %ymm2, %ymm2 7313vpsubw %ymm0, %ymm7, %ymm7 7314vpaddw %ymm4, %ymm7, %ymm7 7315vmovdqa 6976(%r12), %ymm8 7316vmovdqa 7840(%r12), %ymm9 7317vmovdqa %ymm8, 1024(%rsp) 7318vmovdqa %ymm0, 1056(%rsp) 7319vmovdqa %ymm1, 1088(%rsp) 7320vmovdqa %ymm7, 1120(%rsp) 7321vmovdqa %ymm5, 1152(%rsp) 7322vmovdqa %ymm2, 1184(%rsp) 7323vmovdqa %ymm3, 1216(%rsp) 7324vmovdqa %ymm9, 1248(%rsp) 7325vmovdqa 8800(%r12), %ymm0 7326vpsubw 8896(%r12), %ymm0, %ymm0 7327vmovdqa 9184(%r12), %ymm1 7328vpsubw %ymm0, %ymm1, %ymm1 7329vpsubw 8992(%r12), %ymm1, %ymm1 7330vpsubw 8704(%r12), %ymm0, %ymm0 7331vpaddw 9088(%r12), %ymm0, %ymm0 7332vmovdqa 9376(%r12), %ymm2 7333vpsubw 9472(%r12), %ymm2, %ymm2 7334vmovdqa 9760(%r12), %ymm3 7335vpsubw %ymm2, %ymm3, %ymm3 7336vpsubw 9568(%r12), %ymm3, %ymm3 7337vpsubw 9280(%r12), %ymm2, %ymm2 7338vpaddw 9664(%r12), %ymm2, %ymm2 7339vmovdqa 9952(%r12), %ymm4 7340vpsubw 10048(%r12), %ymm4, %ymm4 7341vmovdqa 10336(%r12), %ymm5 7342vpsubw %ymm4, %ymm5, %ymm5 7343vpsubw 10144(%r12), %ymm5, %ymm5 7344vpsubw 9856(%r12), %ymm4, %ymm4 7345vpaddw 10240(%r12), %ymm4, %ymm4 7346vpsubw 9280(%r12), %ymm1, %ymm1 7347vpsubw %ymm1, %ymm5, %ymm5 7348vpsubw %ymm3, %ymm5, %ymm5 7349vpsubw 8704(%r12), %ymm1, %ymm1 7350vpaddw 9856(%r12), %ymm1, %ymm1 7351vmovdqa 8992(%r12), %ymm6 7352vpsubw %ymm2, %ymm6, %ymm7 7353vmovdqa 10144(%r12), %ymm2 7354vpsubw %ymm7, %ymm2, %ymm2 7355vpsubw 9568(%r12), %ymm2, %ymm2 7356vpsubw %ymm0, %ymm7, %ymm7 7357vpaddw %ymm4, %ymm7, %ymm7 7358vmovdqa 8704(%r12), %ymm8 7359vmovdqa 9568(%r12), %ymm9 7360vmovdqa %ymm8, 1280(%rsp) 7361vmovdqa %ymm0, 1312(%rsp) 7362vmovdqa %ymm1, 1344(%rsp) 7363vmovdqa %ymm7, 1376(%rsp) 7364vmovdqa %ymm5, 1408(%rsp) 7365vmovdqa %ymm2, 1440(%rsp) 7366vmovdqa %ymm3, 1472(%rsp) 7367vmovdqa %ymm9, 1504(%rsp) 7368vmovdqa 10528(%r12), %ymm0 7369vpsubw 10624(%r12), %ymm0, %ymm0 7370vmovdqa 10912(%r12), %ymm1 7371vpsubw %ymm0, %ymm1, %ymm1 7372vpsubw 10720(%r12), %ymm1, %ymm1 7373vpsubw 10432(%r12), %ymm0, %ymm0 7374vpaddw 10816(%r12), %ymm0, %ymm0 7375vmovdqa 11104(%r12), %ymm2 7376vpsubw 11200(%r12), %ymm2, %ymm2 7377vmovdqa 11488(%r12), %ymm3 7378vpsubw %ymm2, %ymm3, %ymm3 7379vpsubw 11296(%r12), %ymm3, %ymm3 7380vpsubw 11008(%r12), %ymm2, %ymm2 7381vpaddw 11392(%r12), %ymm2, %ymm2 7382vmovdqa 11680(%r12), %ymm4 7383vpsubw 11776(%r12), %ymm4, %ymm4 7384vmovdqa 12064(%r12), %ymm5 7385vpsubw %ymm4, %ymm5, %ymm5 7386vpsubw 11872(%r12), %ymm5, %ymm5 7387vpsubw 11584(%r12), %ymm4, %ymm4 7388vpaddw 11968(%r12), %ymm4, %ymm4 7389vpsubw 11008(%r12), %ymm1, %ymm1 7390vpsubw %ymm1, %ymm5, %ymm5 7391vpsubw %ymm3, %ymm5, %ymm5 7392vpsubw 10432(%r12), %ymm1, %ymm1 7393vpaddw 11584(%r12), %ymm1, %ymm1 7394vmovdqa 10720(%r12), %ymm6 7395vpsubw %ymm2, %ymm6, %ymm7 7396vmovdqa 11872(%r12), %ymm2 7397vpsubw %ymm7, %ymm2, %ymm2 7398vpsubw 11296(%r12), %ymm2, %ymm2 7399vpsubw %ymm0, %ymm7, %ymm7 7400vpaddw %ymm4, %ymm7, %ymm7 7401vmovdqa 10432(%r12), %ymm8 7402vmovdqa 11296(%r12), %ymm9 7403vmovdqa %ymm8, 1536(%rsp) 7404vmovdqa %ymm0, 1568(%rsp) 7405vmovdqa %ymm1, 1600(%rsp) 7406vmovdqa %ymm7, 1632(%rsp) 7407vmovdqa %ymm5, 1664(%rsp) 7408vmovdqa %ymm2, 1696(%rsp) 7409vmovdqa %ymm3, 1728(%rsp) 7410vmovdqa %ymm9, 1760(%rsp) 7411vmovdqa 0(%rsp), %ymm11 7412vpunpcklwd const0(%rip), %ymm11, %ymm4 7413vpunpckhwd const0(%rip), %ymm11, %ymm2 7414vpslld $1, %ymm4, %ymm4 7415vpslld $1, %ymm2, %ymm2 7416vmovdqa 256(%rsp), %ymm9 7417vpunpcklwd const0(%rip), %ymm9, %ymm8 7418vpunpckhwd const0(%rip), %ymm9, %ymm9 7419vmovdqa 512(%rsp), %ymm6 7420vpunpcklwd const0(%rip), %ymm6, %ymm5 7421vpunpckhwd const0(%rip), %ymm6, %ymm6 7422vpaddd %ymm5, %ymm8, %ymm3 7423vpaddd %ymm6, %ymm9, %ymm7 7424vpsubd %ymm4, %ymm3, %ymm3 7425vpsubd %ymm2, %ymm7, %ymm7 7426vpsubd %ymm5, %ymm8, %ymm5 7427vpsubd %ymm6, %ymm9, %ymm6 7428vpsrld $1, %ymm5, %ymm5 7429vpsrld $1, %ymm6, %ymm6 7430vpand mask32_to_16(%rip), %ymm5, %ymm5 7431vpand mask32_to_16(%rip), %ymm6, %ymm6 7432vpackusdw %ymm6, %ymm5, %ymm6 7433vmovdqa 1536(%rsp), %ymm5 7434vpunpcklwd const0(%rip), %ymm5, %ymm9 7435vpunpckhwd const0(%rip), %ymm5, %ymm8 7436vpslld $1, %ymm9, %ymm9 7437vpslld $1, %ymm8, %ymm8 7438vpsubd %ymm9, %ymm3, %ymm3 7439vpsubd %ymm8, %ymm7, %ymm7 7440vpsrld $1, %ymm3, %ymm3 7441vpsrld $1, %ymm7, %ymm7 7442vpand mask32_to_16(%rip), %ymm3, %ymm3 7443vpand mask32_to_16(%rip), %ymm7, %ymm7 7444vpackusdw %ymm7, %ymm3, %ymm7 7445vmovdqa 768(%rsp), %ymm3 7446vpaddw 1024(%rsp), %ymm3, %ymm8 7447vpsubw 1024(%rsp), %ymm3, %ymm3 7448vpsrlw $2, %ymm3, %ymm3 7449vpsubw %ymm6, %ymm3, %ymm3 7450vpmullw %ymm14, %ymm3, %ymm3 7451vpsllw $1, %ymm11, %ymm9 7452vpsubw %ymm9, %ymm8, %ymm9 7453vpsllw $7, %ymm5, %ymm8 7454vpsubw %ymm8, %ymm9, %ymm8 7455vpsrlw $3, %ymm8, %ymm8 7456vpsubw %ymm7, %ymm8, %ymm8 7457vmovdqa 1280(%rsp), %ymm9 7458vpsubw %ymm11, %ymm9, %ymm9 7459vpmullw %ymm15, %ymm5, %ymm2 7460vpsubw %ymm2, %ymm9, %ymm2 7461vpmullw %ymm14, %ymm8, %ymm8 7462vpsubw %ymm8, %ymm7, %ymm7 7463vpmullw %ymm12, %ymm8, %ymm9 7464vpaddw %ymm9, %ymm7, %ymm9 7465vpmullw %ymm12, %ymm9, %ymm9 7466vpsubw %ymm9, %ymm2, %ymm9 7467vpmullw %ymm14, %ymm9, %ymm9 7468vpsubw %ymm6, %ymm9, %ymm9 7469vpsrlw $3, %ymm9, %ymm9 7470vpsubw %ymm3, %ymm9, %ymm9 7471vpsubw %ymm9, %ymm3, %ymm3 7472vpsubw %ymm3, %ymm6, %ymm6 7473vpmullw %ymm13, %ymm9, %ymm9 7474vpsubw %ymm9, %ymm6, %ymm6 7475vpshufb shuf48_16(%rip), %ymm8, %ymm8 7476vpand mask3_5_4_3_1(%rip), %ymm8, %ymm2 7477vpand mask5_3_5_3(%rip), %ymm8, %ymm8 7478vpermq $139, %ymm2, %ymm2 7479vpand mask_keephigh(%rip), %ymm2, %ymm4 7480vpor %ymm4, %ymm8, %ymm8 7481vpaddw 2048(%rsp), %ymm11, %ymm11 7482vpaddw %ymm8, %ymm11, %ymm11 7483vmovdqa %xmm2, 2048(%rsp) 7484vpshufb shuf48_16(%rip), %ymm9, %ymm9 7485vpand mask3_5_4_3_1(%rip), %ymm9, %ymm2 7486vpand mask5_3_5_3(%rip), %ymm9, %ymm9 7487vpermq $139, %ymm2, %ymm2 7488vpand mask_keephigh(%rip), %ymm2, %ymm4 7489vpor %ymm4, %ymm9, %ymm9 7490vpaddw 2304(%rsp), %ymm6, %ymm6 7491vpaddw %ymm9, %ymm6, %ymm6 7492vmovdqa %xmm2, 2304(%rsp) 7493vpshufb shuf48_16(%rip), %ymm5, %ymm5 7494vpand mask3_5_4_3_1(%rip), %ymm5, %ymm2 7495vpand mask5_3_5_3(%rip), %ymm5, %ymm5 7496vpermq $139, %ymm2, %ymm2 7497vpand mask_keephigh(%rip), %ymm2, %ymm4 7498vpor %ymm4, %ymm5, %ymm5 7499vpaddw 2560(%rsp), %ymm7, %ymm7 7500vpaddw %ymm5, %ymm7, %ymm7 7501vmovdqa %xmm2, 2560(%rsp) 7502vpand mask_mod8192(%rip), %ymm11, %ymm11 7503vmovdqu %xmm11, 64(%rdi) 7504vextracti128 $1, %ymm11, %xmm11 7505vmovq %xmm11, 80(%rdi) 7506vpand mask_mod8192(%rip), %ymm6, %ymm6 7507vmovdqu %xmm6, 416(%rdi) 7508vextracti128 $1, %ymm6, %xmm6 7509vmovq %xmm6, 432(%rdi) 7510vpand mask_mod8192(%rip), %ymm7, %ymm7 7511vmovdqu %xmm7, 768(%rdi) 7512vextracti128 $1, %ymm7, %xmm7 7513vmovq %xmm7, 784(%rdi) 7514vpand mask_mod8192(%rip), %ymm3, %ymm3 7515vmovdqu %xmm3, 1120(%rdi) 7516vextracti128 $1, %ymm3, %xmm3 7517vmovq %xmm3, 1136(%rdi) 7518vmovdqa 32(%rsp), %ymm5 7519vpunpcklwd const0(%rip), %ymm5, %ymm9 7520vpunpckhwd const0(%rip), %ymm5, %ymm8 7521vpslld $1, %ymm9, %ymm9 7522vpslld $1, %ymm8, %ymm8 7523vmovdqa 288(%rsp), %ymm3 7524vpunpcklwd const0(%rip), %ymm3, %ymm7 7525vpunpckhwd const0(%rip), %ymm3, %ymm3 7526vmovdqa 544(%rsp), %ymm6 7527vpunpcklwd const0(%rip), %ymm6, %ymm11 7528vpunpckhwd const0(%rip), %ymm6, %ymm6 7529vpaddd %ymm11, %ymm7, %ymm2 7530vpaddd %ymm6, %ymm3, %ymm4 7531vpsubd %ymm9, %ymm2, %ymm2 7532vpsubd %ymm8, %ymm4, %ymm4 7533vpsubd %ymm11, %ymm7, %ymm11 7534vpsubd %ymm6, %ymm3, %ymm6 7535vpsrld $1, %ymm11, %ymm11 7536vpsrld $1, %ymm6, %ymm6 7537vpand mask32_to_16(%rip), %ymm11, %ymm11 7538vpand mask32_to_16(%rip), %ymm6, %ymm6 7539vpackusdw %ymm6, %ymm11, %ymm6 7540vmovdqa 1568(%rsp), %ymm11 7541vpunpcklwd const0(%rip), %ymm11, %ymm3 7542vpunpckhwd const0(%rip), %ymm11, %ymm7 7543vpslld $1, %ymm3, %ymm3 7544vpslld $1, %ymm7, %ymm7 7545vpsubd %ymm3, %ymm2, %ymm2 7546vpsubd %ymm7, %ymm4, %ymm4 7547vpsrld $1, %ymm2, %ymm2 7548vpsrld $1, %ymm4, %ymm4 7549vpand mask32_to_16(%rip), %ymm2, %ymm2 7550vpand mask32_to_16(%rip), %ymm4, %ymm4 7551vpackusdw %ymm4, %ymm2, %ymm4 7552vmovdqa 800(%rsp), %ymm2 7553vpaddw 1056(%rsp), %ymm2, %ymm7 7554vpsubw 1056(%rsp), %ymm2, %ymm2 7555vpsrlw $2, %ymm2, %ymm2 7556vpsubw %ymm6, %ymm2, %ymm2 7557vpmullw %ymm14, %ymm2, %ymm2 7558vpsllw $1, %ymm5, %ymm3 7559vpsubw %ymm3, %ymm7, %ymm3 7560vpsllw $7, %ymm11, %ymm7 7561vpsubw %ymm7, %ymm3, %ymm7 7562vpsrlw $3, %ymm7, %ymm7 7563vpsubw %ymm4, %ymm7, %ymm7 7564vmovdqa 1312(%rsp), %ymm3 7565vpsubw %ymm5, %ymm3, %ymm3 7566vpmullw %ymm15, %ymm11, %ymm8 7567vpsubw %ymm8, %ymm3, %ymm8 7568vpmullw %ymm14, %ymm7, %ymm7 7569vpsubw %ymm7, %ymm4, %ymm4 7570vpmullw %ymm12, %ymm7, %ymm3 7571vpaddw %ymm3, %ymm4, %ymm3 7572vpmullw %ymm12, %ymm3, %ymm3 7573vpsubw %ymm3, %ymm8, %ymm3 7574vpmullw %ymm14, %ymm3, %ymm3 7575vpsubw %ymm6, %ymm3, %ymm3 7576vpsrlw $3, %ymm3, %ymm3 7577vpsubw %ymm2, %ymm3, %ymm3 7578vpsubw %ymm3, %ymm2, %ymm2 7579vpsubw %ymm2, %ymm6, %ymm6 7580vpmullw %ymm13, %ymm3, %ymm3 7581vpsubw %ymm3, %ymm6, %ymm6 7582vpshufb shuf48_16(%rip), %ymm7, %ymm7 7583vpand mask3_5_4_3_1(%rip), %ymm7, %ymm8 7584vpand mask5_3_5_3(%rip), %ymm7, %ymm7 7585vpermq $139, %ymm8, %ymm8 7586vpand mask_keephigh(%rip), %ymm8, %ymm9 7587vpor %ymm9, %ymm7, %ymm7 7588vpaddw 2080(%rsp), %ymm5, %ymm5 7589vpaddw %ymm7, %ymm5, %ymm5 7590vmovdqa %xmm8, 2080(%rsp) 7591vpshufb shuf48_16(%rip), %ymm3, %ymm3 7592vpand mask3_5_4_3_1(%rip), %ymm3, %ymm8 7593vpand mask5_3_5_3(%rip), %ymm3, %ymm3 7594vpermq $139, %ymm8, %ymm8 7595vpand mask_keephigh(%rip), %ymm8, %ymm9 7596vpor %ymm9, %ymm3, %ymm3 7597vpaddw 2336(%rsp), %ymm6, %ymm6 7598vpaddw %ymm3, %ymm6, %ymm6 7599vmovdqa %xmm8, 2336(%rsp) 7600vpshufb shuf48_16(%rip), %ymm11, %ymm11 7601vpand mask3_5_4_3_1(%rip), %ymm11, %ymm8 7602vpand mask5_3_5_3(%rip), %ymm11, %ymm11 7603vpermq $139, %ymm8, %ymm8 7604vpand mask_keephigh(%rip), %ymm8, %ymm9 7605vpor %ymm9, %ymm11, %ymm11 7606vpaddw 2592(%rsp), %ymm4, %ymm4 7607vpaddw %ymm11, %ymm4, %ymm4 7608vmovdqa %xmm8, 2592(%rsp) 7609vpand mask_mod8192(%rip), %ymm5, %ymm5 7610vmovdqu %xmm5, 152(%rdi) 7611vextracti128 $1, %ymm5, %xmm5 7612vmovq %xmm5, 168(%rdi) 7613vpand mask_mod8192(%rip), %ymm6, %ymm6 7614vmovdqu %xmm6, 504(%rdi) 7615vextracti128 $1, %ymm6, %xmm6 7616vmovq %xmm6, 520(%rdi) 7617vpand mask_mod8192(%rip), %ymm4, %ymm4 7618vmovdqu %xmm4, 856(%rdi) 7619vextracti128 $1, %ymm4, %xmm4 7620vmovq %xmm4, 872(%rdi) 7621vpand mask_mod8192(%rip), %ymm2, %ymm2 7622vmovdqu %xmm2, 1208(%rdi) 7623vextracti128 $1, %ymm2, %xmm2 7624vmovq %xmm2, 1224(%rdi) 7625vmovdqa 64(%rsp), %ymm11 7626vpunpcklwd const0(%rip), %ymm11, %ymm3 7627vpunpckhwd const0(%rip), %ymm11, %ymm7 7628vpslld $1, %ymm3, %ymm3 7629vpslld $1, %ymm7, %ymm7 7630vmovdqa 320(%rsp), %ymm2 7631vpunpcklwd const0(%rip), %ymm2, %ymm4 7632vpunpckhwd const0(%rip), %ymm2, %ymm2 7633vmovdqa 576(%rsp), %ymm6 7634vpunpcklwd const0(%rip), %ymm6, %ymm5 7635vpunpckhwd const0(%rip), %ymm6, %ymm6 7636vpaddd %ymm5, %ymm4, %ymm8 7637vpaddd %ymm6, %ymm2, %ymm9 7638vpsubd %ymm3, %ymm8, %ymm8 7639vpsubd %ymm7, %ymm9, %ymm9 7640vpsubd %ymm5, %ymm4, %ymm5 7641vpsubd %ymm6, %ymm2, %ymm6 7642vpsrld $1, %ymm5, %ymm5 7643vpsrld $1, %ymm6, %ymm6 7644vpand mask32_to_16(%rip), %ymm5, %ymm5 7645vpand mask32_to_16(%rip), %ymm6, %ymm6 7646vpackusdw %ymm6, %ymm5, %ymm6 7647vmovdqa 1600(%rsp), %ymm5 7648vpunpcklwd const0(%rip), %ymm5, %ymm2 7649vpunpckhwd const0(%rip), %ymm5, %ymm4 7650vpslld $1, %ymm2, %ymm2 7651vpslld $1, %ymm4, %ymm4 7652vpsubd %ymm2, %ymm8, %ymm8 7653vpsubd %ymm4, %ymm9, %ymm9 7654vpsrld $1, %ymm8, %ymm8 7655vpsrld $1, %ymm9, %ymm9 7656vpand mask32_to_16(%rip), %ymm8, %ymm8 7657vpand mask32_to_16(%rip), %ymm9, %ymm9 7658vpackusdw %ymm9, %ymm8, %ymm9 7659vmovdqa 832(%rsp), %ymm8 7660vpaddw 1088(%rsp), %ymm8, %ymm4 7661vpsubw 1088(%rsp), %ymm8, %ymm8 7662vpsrlw $2, %ymm8, %ymm8 7663vpsubw %ymm6, %ymm8, %ymm8 7664vpmullw %ymm14, %ymm8, %ymm8 7665vpsllw $1, %ymm11, %ymm2 7666vpsubw %ymm2, %ymm4, %ymm2 7667vpsllw $7, %ymm5, %ymm4 7668vpsubw %ymm4, %ymm2, %ymm4 7669vpsrlw $3, %ymm4, %ymm4 7670vpsubw %ymm9, %ymm4, %ymm4 7671vmovdqa 1344(%rsp), %ymm2 7672vpsubw %ymm11, %ymm2, %ymm2 7673vpmullw %ymm15, %ymm5, %ymm7 7674vpsubw %ymm7, %ymm2, %ymm7 7675vpmullw %ymm14, %ymm4, %ymm4 7676vpsubw %ymm4, %ymm9, %ymm9 7677vpmullw %ymm12, %ymm4, %ymm2 7678vpaddw %ymm2, %ymm9, %ymm2 7679vpmullw %ymm12, %ymm2, %ymm2 7680vpsubw %ymm2, %ymm7, %ymm2 7681vpmullw %ymm14, %ymm2, %ymm2 7682vpsubw %ymm6, %ymm2, %ymm2 7683vpsrlw $3, %ymm2, %ymm2 7684vpsubw %ymm8, %ymm2, %ymm2 7685vpsubw %ymm2, %ymm8, %ymm8 7686vpsubw %ymm8, %ymm6, %ymm6 7687vpmullw %ymm13, %ymm2, %ymm2 7688vpsubw %ymm2, %ymm6, %ymm6 7689vpshufb shuf48_16(%rip), %ymm4, %ymm4 7690vpand mask3_5_4_3_1(%rip), %ymm4, %ymm7 7691vpand mask5_3_5_3(%rip), %ymm4, %ymm4 7692vpermq $139, %ymm7, %ymm7 7693vpand mask_keephigh(%rip), %ymm7, %ymm3 7694vpor %ymm3, %ymm4, %ymm4 7695vpaddw 2112(%rsp), %ymm11, %ymm11 7696vpaddw %ymm4, %ymm11, %ymm11 7697vmovdqa %xmm7, 2112(%rsp) 7698vpshufb shuf48_16(%rip), %ymm2, %ymm2 7699vpand mask3_5_4_3_1(%rip), %ymm2, %ymm7 7700vpand mask5_3_5_3(%rip), %ymm2, %ymm2 7701vpermq $139, %ymm7, %ymm7 7702vpand mask_keephigh(%rip), %ymm7, %ymm3 7703vpor %ymm3, %ymm2, %ymm2 7704vpaddw 2368(%rsp), %ymm6, %ymm6 7705vpaddw %ymm2, %ymm6, %ymm6 7706vmovdqa %xmm7, 2368(%rsp) 7707vpshufb shuf48_16(%rip), %ymm5, %ymm5 7708vpand mask3_5_4_3_1(%rip), %ymm5, %ymm7 7709vpand mask5_3_5_3(%rip), %ymm5, %ymm5 7710vpermq $139, %ymm7, %ymm7 7711vpand mask_keephigh(%rip), %ymm7, %ymm3 7712vpor %ymm3, %ymm5, %ymm5 7713vpaddw 2624(%rsp), %ymm9, %ymm9 7714vpaddw %ymm5, %ymm9, %ymm9 7715vmovdqa %xmm7, 2624(%rsp) 7716vpand mask_mod8192(%rip), %ymm11, %ymm11 7717vmovdqu %xmm11, 240(%rdi) 7718vextracti128 $1, %ymm11, %xmm11 7719vmovq %xmm11, 256(%rdi) 7720vpand mask_mod8192(%rip), %ymm6, %ymm6 7721vmovdqu %xmm6, 592(%rdi) 7722vextracti128 $1, %ymm6, %xmm6 7723vmovq %xmm6, 608(%rdi) 7724vpand mask_mod8192(%rip), %ymm9, %ymm9 7725vmovdqu %xmm9, 944(%rdi) 7726vextracti128 $1, %ymm9, %xmm9 7727vmovq %xmm9, 960(%rdi) 7728vpand mask_mod8192(%rip), %ymm8, %ymm8 7729vmovdqu %xmm8, 1296(%rdi) 7730vextracti128 $1, %ymm8, %xmm8 7731vmovq %xmm8, 1312(%rdi) 7732vmovdqa 96(%rsp), %ymm5 7733vpunpcklwd const0(%rip), %ymm5, %ymm2 7734vpunpckhwd const0(%rip), %ymm5, %ymm4 7735vpslld $1, %ymm2, %ymm2 7736vpslld $1, %ymm4, %ymm4 7737vmovdqa 352(%rsp), %ymm8 7738vpunpcklwd const0(%rip), %ymm8, %ymm9 7739vpunpckhwd const0(%rip), %ymm8, %ymm8 7740vmovdqa 608(%rsp), %ymm6 7741vpunpcklwd const0(%rip), %ymm6, %ymm11 7742vpunpckhwd const0(%rip), %ymm6, %ymm6 7743vpaddd %ymm11, %ymm9, %ymm7 7744vpaddd %ymm6, %ymm8, %ymm3 7745vpsubd %ymm2, %ymm7, %ymm7 7746vpsubd %ymm4, %ymm3, %ymm3 7747vpsubd %ymm11, %ymm9, %ymm11 7748vpsubd %ymm6, %ymm8, %ymm6 7749vpsrld $1, %ymm11, %ymm11 7750vpsrld $1, %ymm6, %ymm6 7751vpand mask32_to_16(%rip), %ymm11, %ymm11 7752vpand mask32_to_16(%rip), %ymm6, %ymm6 7753vpackusdw %ymm6, %ymm11, %ymm6 7754vmovdqa 1632(%rsp), %ymm11 7755vpunpcklwd const0(%rip), %ymm11, %ymm8 7756vpunpckhwd const0(%rip), %ymm11, %ymm9 7757vpslld $1, %ymm8, %ymm8 7758vpslld $1, %ymm9, %ymm9 7759vpsubd %ymm8, %ymm7, %ymm7 7760vpsubd %ymm9, %ymm3, %ymm3 7761vpsrld $1, %ymm7, %ymm7 7762vpsrld $1, %ymm3, %ymm3 7763vpand mask32_to_16(%rip), %ymm7, %ymm7 7764vpand mask32_to_16(%rip), %ymm3, %ymm3 7765vpackusdw %ymm3, %ymm7, %ymm3 7766vmovdqa 864(%rsp), %ymm7 7767vpaddw 1120(%rsp), %ymm7, %ymm9 7768vpsubw 1120(%rsp), %ymm7, %ymm7 7769vpsrlw $2, %ymm7, %ymm7 7770vpsubw %ymm6, %ymm7, %ymm7 7771vpmullw %ymm14, %ymm7, %ymm7 7772vpsllw $1, %ymm5, %ymm8 7773vpsubw %ymm8, %ymm9, %ymm8 7774vpsllw $7, %ymm11, %ymm9 7775vpsubw %ymm9, %ymm8, %ymm9 7776vpsrlw $3, %ymm9, %ymm9 7777vpsubw %ymm3, %ymm9, %ymm9 7778vmovdqa 1376(%rsp), %ymm8 7779vpsubw %ymm5, %ymm8, %ymm8 7780vpmullw %ymm15, %ymm11, %ymm4 7781vpsubw %ymm4, %ymm8, %ymm4 7782vpmullw %ymm14, %ymm9, %ymm9 7783vpsubw %ymm9, %ymm3, %ymm3 7784vpmullw %ymm12, %ymm9, %ymm8 7785vpaddw %ymm8, %ymm3, %ymm8 7786vpmullw %ymm12, %ymm8, %ymm8 7787vpsubw %ymm8, %ymm4, %ymm8 7788vpmullw %ymm14, %ymm8, %ymm8 7789vpsubw %ymm6, %ymm8, %ymm8 7790vpsrlw $3, %ymm8, %ymm8 7791vpsubw %ymm7, %ymm8, %ymm8 7792vpsubw %ymm8, %ymm7, %ymm7 7793vpsubw %ymm7, %ymm6, %ymm6 7794vpmullw %ymm13, %ymm8, %ymm8 7795vpsubw %ymm8, %ymm6, %ymm6 7796vpshufb shuf48_16(%rip), %ymm9, %ymm9 7797vpand mask3_5_4_3_1(%rip), %ymm9, %ymm4 7798vpand mask5_3_5_3(%rip), %ymm9, %ymm9 7799vpermq $139, %ymm4, %ymm4 7800vpand mask_keephigh(%rip), %ymm4, %ymm2 7801vpor %ymm2, %ymm9, %ymm9 7802vpaddw 2144(%rsp), %ymm5, %ymm5 7803vpaddw %ymm9, %ymm5, %ymm5 7804vmovdqa %xmm4, 2144(%rsp) 7805vpshufb shuf48_16(%rip), %ymm8, %ymm8 7806vpand mask3_5_4_3_1(%rip), %ymm8, %ymm4 7807vpand mask5_3_5_3(%rip), %ymm8, %ymm8 7808vpermq $139, %ymm4, %ymm4 7809vpand mask_keephigh(%rip), %ymm4, %ymm2 7810vpor %ymm2, %ymm8, %ymm8 7811vpaddw 2400(%rsp), %ymm6, %ymm6 7812vpaddw %ymm8, %ymm6, %ymm6 7813vmovdqa %xmm4, 2400(%rsp) 7814vpshufb shuf48_16(%rip), %ymm11, %ymm11 7815vpand mask3_5_4_3_1(%rip), %ymm11, %ymm4 7816vpand mask5_3_5_3(%rip), %ymm11, %ymm11 7817vpermq $139, %ymm4, %ymm4 7818vpand mask_keephigh(%rip), %ymm4, %ymm2 7819vpor %ymm2, %ymm11, %ymm11 7820vpaddw 2656(%rsp), %ymm3, %ymm3 7821vpaddw %ymm11, %ymm3, %ymm3 7822vmovdqa %xmm4, 2656(%rsp) 7823vpand mask_mod8192(%rip), %ymm5, %ymm5 7824vmovdqu %xmm5, 328(%rdi) 7825vextracti128 $1, %ymm5, %xmm5 7826vmovq %xmm5, 344(%rdi) 7827vpshufb shufmin1_mask3(%rip), %ymm5, %ymm5 7828vmovdqa %xmm5, 1792(%rsp) 7829vpand mask_mod8192(%rip), %ymm6, %ymm6 7830vmovdqu %xmm6, 680(%rdi) 7831vextracti128 $1, %ymm6, %xmm6 7832vmovq %xmm6, 696(%rdi) 7833vpshufb shufmin1_mask3(%rip), %ymm6, %ymm6 7834vmovdqa %xmm6, 1824(%rsp) 7835vpand mask_mod8192(%rip), %ymm3, %ymm3 7836vmovdqu %xmm3, 1032(%rdi) 7837vextracti128 $1, %ymm3, %xmm3 7838vmovq %xmm3, 1048(%rdi) 7839vpshufb shufmin1_mask3(%rip), %ymm3, %ymm3 7840vmovdqa %xmm3, 1856(%rsp) 7841vpand mask_mod8192(%rip), %ymm7, %ymm7 7842vmovdqu %xmm7, 1384(%rdi) 7843vextracti128 $1, %ymm7, %xmm7 7844vpextrw $0, %xmm7, 1400(%rdi) 7845vpshufb shufmin1_mask3(%rip), %ymm7, %ymm7 7846vmovdqa %xmm7, 1888(%rsp) 7847vmovdqa 128(%rsp), %ymm11 7848vpunpcklwd const0(%rip), %ymm11, %ymm8 7849vpunpckhwd const0(%rip), %ymm11, %ymm9 7850vpslld $1, %ymm8, %ymm8 7851vpslld $1, %ymm9, %ymm9 7852vmovdqa 384(%rsp), %ymm7 7853vpunpcklwd const0(%rip), %ymm7, %ymm3 7854vpunpckhwd const0(%rip), %ymm7, %ymm7 7855vmovdqa 640(%rsp), %ymm6 7856vpunpcklwd const0(%rip), %ymm6, %ymm5 7857vpunpckhwd const0(%rip), %ymm6, %ymm6 7858vpaddd %ymm5, %ymm3, %ymm4 7859vpaddd %ymm6, %ymm7, %ymm2 7860vpsubd %ymm8, %ymm4, %ymm4 7861vpsubd %ymm9, %ymm2, %ymm2 7862vpsubd %ymm5, %ymm3, %ymm5 7863vpsubd %ymm6, %ymm7, %ymm6 7864vpsrld $1, %ymm5, %ymm5 7865vpsrld $1, %ymm6, %ymm6 7866vpand mask32_to_16(%rip), %ymm5, %ymm5 7867vpand mask32_to_16(%rip), %ymm6, %ymm6 7868vpackusdw %ymm6, %ymm5, %ymm6 7869vmovdqa 1664(%rsp), %ymm5 7870vpunpcklwd const0(%rip), %ymm5, %ymm7 7871vpunpckhwd const0(%rip), %ymm5, %ymm3 7872vpslld $1, %ymm7, %ymm7 7873vpslld $1, %ymm3, %ymm3 7874vpsubd %ymm7, %ymm4, %ymm4 7875vpsubd %ymm3, %ymm2, %ymm2 7876vpsrld $1, %ymm4, %ymm4 7877vpsrld $1, %ymm2, %ymm2 7878vpand mask32_to_16(%rip), %ymm4, %ymm4 7879vpand mask32_to_16(%rip), %ymm2, %ymm2 7880vpackusdw %ymm2, %ymm4, %ymm2 7881vmovdqa 896(%rsp), %ymm4 7882vpaddw 1152(%rsp), %ymm4, %ymm3 7883vpsubw 1152(%rsp), %ymm4, %ymm4 7884vpsrlw $2, %ymm4, %ymm4 7885vpsubw %ymm6, %ymm4, %ymm4 7886vpmullw %ymm14, %ymm4, %ymm4 7887vpsllw $1, %ymm11, %ymm7 7888vpsubw %ymm7, %ymm3, %ymm7 7889vpsllw $7, %ymm5, %ymm3 7890vpsubw %ymm3, %ymm7, %ymm3 7891vpsrlw $3, %ymm3, %ymm3 7892vpsubw %ymm2, %ymm3, %ymm3 7893vmovdqa 1408(%rsp), %ymm7 7894vpsubw %ymm11, %ymm7, %ymm7 7895vpmullw %ymm15, %ymm5, %ymm9 7896vpsubw %ymm9, %ymm7, %ymm9 7897vpmullw %ymm14, %ymm3, %ymm3 7898vpsubw %ymm3, %ymm2, %ymm2 7899vpmullw %ymm12, %ymm3, %ymm7 7900vpaddw %ymm7, %ymm2, %ymm7 7901vpmullw %ymm12, %ymm7, %ymm7 7902vpsubw %ymm7, %ymm9, %ymm7 7903vpmullw %ymm14, %ymm7, %ymm7 7904vpsubw %ymm6, %ymm7, %ymm7 7905vpsrlw $3, %ymm7, %ymm7 7906vpsubw %ymm4, %ymm7, %ymm7 7907vpsubw %ymm7, %ymm4, %ymm4 7908vpsubw %ymm4, %ymm6, %ymm6 7909vpmullw %ymm13, %ymm7, %ymm7 7910vpsubw %ymm7, %ymm6, %ymm6 7911vmovdqu 416(%rdi), %ymm9 7912vmovdqu 768(%rdi), %ymm8 7913vmovdqu 1120(%rdi), %ymm10 7914vpaddw %ymm11, %ymm9, %ymm11 7915vpaddw %ymm6, %ymm8, %ymm6 7916vpaddw %ymm2, %ymm10, %ymm2 7917vpshufb shuf48_16(%rip), %ymm4, %ymm4 7918vpand mask3_5_4_3_1(%rip), %ymm4, %ymm10 7919vpand mask5_3_5_3(%rip), %ymm4, %ymm4 7920vpermq $139, %ymm10, %ymm10 7921vpand mask_keephigh(%rip), %ymm10, %ymm8 7922vpor %ymm8, %ymm4, %ymm4 7923vmovdqu 64(%rdi), %ymm8 7924vpaddw 1920(%rsp), %ymm8, %ymm8 7925vpaddw %ymm4, %ymm8, %ymm8 7926vpand mask_mod8192(%rip), %ymm8, %ymm8 7927vmovdqu %xmm8, 64(%rdi) 7928vextracti128 $1, %ymm8, %xmm8 7929vmovq %xmm8, 80(%rdi) 7930vmovdqa %xmm10, 1920(%rsp) 7931vpshufb shuf48_16(%rip), %ymm3, %ymm3 7932vpand mask3_5_4_3_1(%rip), %ymm3, %ymm10 7933vpand mask5_3_5_3(%rip), %ymm3, %ymm3 7934vpermq $139, %ymm10, %ymm10 7935vpand mask_keephigh(%rip), %ymm10, %ymm8 7936vpor %ymm8, %ymm3, %ymm3 7937vpaddw 2176(%rsp), %ymm11, %ymm11 7938vpaddw %ymm3, %ymm11, %ymm11 7939vmovdqa %xmm10, 2176(%rsp) 7940vpshufb shuf48_16(%rip), %ymm7, %ymm7 7941vpand mask3_5_4_3_1(%rip), %ymm7, %ymm10 7942vpand mask5_3_5_3(%rip), %ymm7, %ymm7 7943vpermq $139, %ymm10, %ymm10 7944vpand mask_keephigh(%rip), %ymm10, %ymm8 7945vpor %ymm8, %ymm7, %ymm7 7946vpaddw 2432(%rsp), %ymm6, %ymm6 7947vpaddw %ymm7, %ymm6, %ymm6 7948vmovdqa %xmm10, 2432(%rsp) 7949vpshufb shuf48_16(%rip), %ymm5, %ymm5 7950vpand mask3_5_4_3_1(%rip), %ymm5, %ymm10 7951vpand mask5_3_5_3(%rip), %ymm5, %ymm5 7952vpermq $139, %ymm10, %ymm10 7953vpand mask_keephigh(%rip), %ymm10, %ymm8 7954vpor %ymm8, %ymm5, %ymm5 7955vpaddw 2688(%rsp), %ymm2, %ymm2 7956vpaddw %ymm5, %ymm2, %ymm2 7957vmovdqa %xmm10, 2688(%rsp) 7958vpand mask_mod8192(%rip), %ymm11, %ymm11 7959vmovdqu %xmm11, 416(%rdi) 7960vextracti128 $1, %ymm11, %xmm11 7961vmovq %xmm11, 432(%rdi) 7962vpand mask_mod8192(%rip), %ymm6, %ymm6 7963vmovdqu %xmm6, 768(%rdi) 7964vextracti128 $1, %ymm6, %xmm6 7965vmovq %xmm6, 784(%rdi) 7966vpand mask_mod8192(%rip), %ymm2, %ymm2 7967vmovdqu %xmm2, 1120(%rdi) 7968vextracti128 $1, %ymm2, %xmm2 7969vmovq %xmm2, 1136(%rdi) 7970vmovdqa 160(%rsp), %ymm5 7971vpunpcklwd const0(%rip), %ymm5, %ymm7 7972vpunpckhwd const0(%rip), %ymm5, %ymm3 7973vpslld $1, %ymm7, %ymm7 7974vpslld $1, %ymm3, %ymm3 7975vmovdqa 416(%rsp), %ymm4 7976vpunpcklwd const0(%rip), %ymm4, %ymm2 7977vpunpckhwd const0(%rip), %ymm4, %ymm4 7978vmovdqa 672(%rsp), %ymm6 7979vpunpcklwd const0(%rip), %ymm6, %ymm11 7980vpunpckhwd const0(%rip), %ymm6, %ymm6 7981vpaddd %ymm11, %ymm2, %ymm10 7982vpaddd %ymm6, %ymm4, %ymm8 7983vpsubd %ymm7, %ymm10, %ymm10 7984vpsubd %ymm3, %ymm8, %ymm8 7985vpsubd %ymm11, %ymm2, %ymm11 7986vpsubd %ymm6, %ymm4, %ymm6 7987vpsrld $1, %ymm11, %ymm11 7988vpsrld $1, %ymm6, %ymm6 7989vpand mask32_to_16(%rip), %ymm11, %ymm11 7990vpand mask32_to_16(%rip), %ymm6, %ymm6 7991vpackusdw %ymm6, %ymm11, %ymm6 7992vmovdqa 1696(%rsp), %ymm11 7993vpunpcklwd const0(%rip), %ymm11, %ymm4 7994vpunpckhwd const0(%rip), %ymm11, %ymm2 7995vpslld $1, %ymm4, %ymm4 7996vpslld $1, %ymm2, %ymm2 7997vpsubd %ymm4, %ymm10, %ymm10 7998vpsubd %ymm2, %ymm8, %ymm8 7999vpsrld $1, %ymm10, %ymm10 8000vpsrld $1, %ymm8, %ymm8 8001vpand mask32_to_16(%rip), %ymm10, %ymm10 8002vpand mask32_to_16(%rip), %ymm8, %ymm8 8003vpackusdw %ymm8, %ymm10, %ymm8 8004vmovdqa 928(%rsp), %ymm10 8005vpaddw 1184(%rsp), %ymm10, %ymm2 8006vpsubw 1184(%rsp), %ymm10, %ymm10 8007vpsrlw $2, %ymm10, %ymm10 8008vpsubw %ymm6, %ymm10, %ymm10 8009vpmullw %ymm14, %ymm10, %ymm10 8010vpsllw $1, %ymm5, %ymm4 8011vpsubw %ymm4, %ymm2, %ymm4 8012vpsllw $7, %ymm11, %ymm2 8013vpsubw %ymm2, %ymm4, %ymm2 8014vpsrlw $3, %ymm2, %ymm2 8015vpsubw %ymm8, %ymm2, %ymm2 8016vmovdqa 1440(%rsp), %ymm4 8017vpsubw %ymm5, %ymm4, %ymm4 8018vpmullw %ymm15, %ymm11, %ymm3 8019vpsubw %ymm3, %ymm4, %ymm3 8020vpmullw %ymm14, %ymm2, %ymm2 8021vpsubw %ymm2, %ymm8, %ymm8 8022vpmullw %ymm12, %ymm2, %ymm4 8023vpaddw %ymm4, %ymm8, %ymm4 8024vpmullw %ymm12, %ymm4, %ymm4 8025vpsubw %ymm4, %ymm3, %ymm4 8026vpmullw %ymm14, %ymm4, %ymm4 8027vpsubw %ymm6, %ymm4, %ymm4 8028vpsrlw $3, %ymm4, %ymm4 8029vpsubw %ymm10, %ymm4, %ymm4 8030vpsubw %ymm4, %ymm10, %ymm10 8031vpsubw %ymm10, %ymm6, %ymm6 8032vpmullw %ymm13, %ymm4, %ymm4 8033vpsubw %ymm4, %ymm6, %ymm6 8034vmovdqu 504(%rdi), %ymm3 8035vmovdqu 856(%rdi), %ymm7 8036vmovdqu 1208(%rdi), %ymm9 8037vpaddw %ymm5, %ymm3, %ymm5 8038vpaddw %ymm6, %ymm7, %ymm6 8039vpaddw %ymm8, %ymm9, %ymm8 8040vpshufb shuf48_16(%rip), %ymm10, %ymm10 8041vpand mask3_5_4_3_1(%rip), %ymm10, %ymm9 8042vpand mask5_3_5_3(%rip), %ymm10, %ymm10 8043vpermq $139, %ymm9, %ymm9 8044vpand mask_keephigh(%rip), %ymm9, %ymm7 8045vpor %ymm7, %ymm10, %ymm10 8046vmovdqu 152(%rdi), %ymm7 8047vpaddw 1952(%rsp), %ymm7, %ymm7 8048vpaddw %ymm10, %ymm7, %ymm7 8049vpand mask_mod8192(%rip), %ymm7, %ymm7 8050vmovdqu %xmm7, 152(%rdi) 8051vextracti128 $1, %ymm7, %xmm7 8052vmovq %xmm7, 168(%rdi) 8053vmovdqa %xmm9, 1952(%rsp) 8054vpshufb shuf48_16(%rip), %ymm2, %ymm2 8055vpand mask3_5_4_3_1(%rip), %ymm2, %ymm9 8056vpand mask5_3_5_3(%rip), %ymm2, %ymm2 8057vpermq $139, %ymm9, %ymm9 8058vpand mask_keephigh(%rip), %ymm9, %ymm7 8059vpor %ymm7, %ymm2, %ymm2 8060vpaddw 2208(%rsp), %ymm5, %ymm5 8061vpaddw %ymm2, %ymm5, %ymm5 8062vmovdqa %xmm9, 2208(%rsp) 8063vpshufb shuf48_16(%rip), %ymm4, %ymm4 8064vpand mask3_5_4_3_1(%rip), %ymm4, %ymm9 8065vpand mask5_3_5_3(%rip), %ymm4, %ymm4 8066vpermq $139, %ymm9, %ymm9 8067vpand mask_keephigh(%rip), %ymm9, %ymm7 8068vpor %ymm7, %ymm4, %ymm4 8069vpaddw 2464(%rsp), %ymm6, %ymm6 8070vpaddw %ymm4, %ymm6, %ymm6 8071vmovdqa %xmm9, 2464(%rsp) 8072vpshufb shuf48_16(%rip), %ymm11, %ymm11 8073vpand mask3_5_4_3_1(%rip), %ymm11, %ymm9 8074vpand mask5_3_5_3(%rip), %ymm11, %ymm11 8075vpermq $139, %ymm9, %ymm9 8076vpand mask_keephigh(%rip), %ymm9, %ymm7 8077vpor %ymm7, %ymm11, %ymm11 8078vpaddw 2720(%rsp), %ymm8, %ymm8 8079vpaddw %ymm11, %ymm8, %ymm8 8080vmovdqa %xmm9, 2720(%rsp) 8081vpand mask_mod8192(%rip), %ymm5, %ymm5 8082vmovdqu %xmm5, 504(%rdi) 8083vextracti128 $1, %ymm5, %xmm5 8084vmovq %xmm5, 520(%rdi) 8085vpand mask_mod8192(%rip), %ymm6, %ymm6 8086vmovdqu %xmm6, 856(%rdi) 8087vextracti128 $1, %ymm6, %xmm6 8088vmovq %xmm6, 872(%rdi) 8089vpand mask_mod8192(%rip), %ymm8, %ymm8 8090vmovdqu %xmm8, 1208(%rdi) 8091vextracti128 $1, %ymm8, %xmm8 8092vmovq %xmm8, 1224(%rdi) 8093vmovdqa 192(%rsp), %ymm11 8094vpunpcklwd const0(%rip), %ymm11, %ymm4 8095vpunpckhwd const0(%rip), %ymm11, %ymm2 8096vpslld $1, %ymm4, %ymm4 8097vpslld $1, %ymm2, %ymm2 8098vmovdqa 448(%rsp), %ymm10 8099vpunpcklwd const0(%rip), %ymm10, %ymm8 8100vpunpckhwd const0(%rip), %ymm10, %ymm10 8101vmovdqa 704(%rsp), %ymm6 8102vpunpcklwd const0(%rip), %ymm6, %ymm5 8103vpunpckhwd const0(%rip), %ymm6, %ymm6 8104vpaddd %ymm5, %ymm8, %ymm9 8105vpaddd %ymm6, %ymm10, %ymm7 8106vpsubd %ymm4, %ymm9, %ymm9 8107vpsubd %ymm2, %ymm7, %ymm7 8108vpsubd %ymm5, %ymm8, %ymm5 8109vpsubd %ymm6, %ymm10, %ymm6 8110vpsrld $1, %ymm5, %ymm5 8111vpsrld $1, %ymm6, %ymm6 8112vpand mask32_to_16(%rip), %ymm5, %ymm5 8113vpand mask32_to_16(%rip), %ymm6, %ymm6 8114vpackusdw %ymm6, %ymm5, %ymm6 8115vmovdqa 1728(%rsp), %ymm5 8116vpunpcklwd const0(%rip), %ymm5, %ymm10 8117vpunpckhwd const0(%rip), %ymm5, %ymm8 8118vpslld $1, %ymm10, %ymm10 8119vpslld $1, %ymm8, %ymm8 8120vpsubd %ymm10, %ymm9, %ymm9 8121vpsubd %ymm8, %ymm7, %ymm7 8122vpsrld $1, %ymm9, %ymm9 8123vpsrld $1, %ymm7, %ymm7 8124vpand mask32_to_16(%rip), %ymm9, %ymm9 8125vpand mask32_to_16(%rip), %ymm7, %ymm7 8126vpackusdw %ymm7, %ymm9, %ymm7 8127vmovdqa 960(%rsp), %ymm9 8128vpaddw 1216(%rsp), %ymm9, %ymm8 8129vpsubw 1216(%rsp), %ymm9, %ymm9 8130vpsrlw $2, %ymm9, %ymm9 8131vpsubw %ymm6, %ymm9, %ymm9 8132vpmullw %ymm14, %ymm9, %ymm9 8133vpsllw $1, %ymm11, %ymm10 8134vpsubw %ymm10, %ymm8, %ymm10 8135vpsllw $7, %ymm5, %ymm8 8136vpsubw %ymm8, %ymm10, %ymm8 8137vpsrlw $3, %ymm8, %ymm8 8138vpsubw %ymm7, %ymm8, %ymm8 8139vmovdqa 1472(%rsp), %ymm10 8140vpsubw %ymm11, %ymm10, %ymm10 8141vpmullw %ymm15, %ymm5, %ymm2 8142vpsubw %ymm2, %ymm10, %ymm2 8143vpmullw %ymm14, %ymm8, %ymm8 8144vpsubw %ymm8, %ymm7, %ymm7 8145vpmullw %ymm12, %ymm8, %ymm10 8146vpaddw %ymm10, %ymm7, %ymm10 8147vpmullw %ymm12, %ymm10, %ymm10 8148vpsubw %ymm10, %ymm2, %ymm10 8149vpmullw %ymm14, %ymm10, %ymm10 8150vpsubw %ymm6, %ymm10, %ymm10 8151vpsrlw $3, %ymm10, %ymm10 8152vpsubw %ymm9, %ymm10, %ymm10 8153vpsubw %ymm10, %ymm9, %ymm9 8154vpsubw %ymm9, %ymm6, %ymm6 8155vpmullw %ymm13, %ymm10, %ymm10 8156vpsubw %ymm10, %ymm6, %ymm6 8157vmovdqu 592(%rdi), %ymm2 8158vmovdqu 944(%rdi), %ymm4 8159vmovdqu 1296(%rdi), %ymm3 8160vpaddw %ymm11, %ymm2, %ymm11 8161vpaddw %ymm6, %ymm4, %ymm6 8162vpaddw %ymm7, %ymm3, %ymm7 8163vpshufb shuf48_16(%rip), %ymm9, %ymm9 8164vpand mask3_5_4_3_1(%rip), %ymm9, %ymm3 8165vpand mask5_3_5_3(%rip), %ymm9, %ymm9 8166vpermq $139, %ymm3, %ymm3 8167vpand mask_keephigh(%rip), %ymm3, %ymm4 8168vpor %ymm4, %ymm9, %ymm9 8169vmovdqu 240(%rdi), %ymm4 8170vpaddw 1984(%rsp), %ymm4, %ymm4 8171vpaddw %ymm9, %ymm4, %ymm4 8172vpand mask_mod8192(%rip), %ymm4, %ymm4 8173vmovdqu %xmm4, 240(%rdi) 8174vextracti128 $1, %ymm4, %xmm4 8175vmovq %xmm4, 256(%rdi) 8176vmovdqa %xmm3, 1984(%rsp) 8177vpshufb shuf48_16(%rip), %ymm8, %ymm8 8178vpand mask3_5_4_3_1(%rip), %ymm8, %ymm3 8179vpand mask5_3_5_3(%rip), %ymm8, %ymm8 8180vpermq $139, %ymm3, %ymm3 8181vpand mask_keephigh(%rip), %ymm3, %ymm4 8182vpor %ymm4, %ymm8, %ymm8 8183vpaddw 2240(%rsp), %ymm11, %ymm11 8184vpaddw %ymm8, %ymm11, %ymm11 8185vmovdqa %xmm3, 2240(%rsp) 8186vpshufb shuf48_16(%rip), %ymm10, %ymm10 8187vpand mask3_5_4_3_1(%rip), %ymm10, %ymm3 8188vpand mask5_3_5_3(%rip), %ymm10, %ymm10 8189vpermq $139, %ymm3, %ymm3 8190vpand mask_keephigh(%rip), %ymm3, %ymm4 8191vpor %ymm4, %ymm10, %ymm10 8192vpaddw 2496(%rsp), %ymm6, %ymm6 8193vpaddw %ymm10, %ymm6, %ymm6 8194vmovdqa %xmm3, 2496(%rsp) 8195vpshufb shuf48_16(%rip), %ymm5, %ymm5 8196vpand mask3_5_4_3_1(%rip), %ymm5, %ymm3 8197vpand mask5_3_5_3(%rip), %ymm5, %ymm5 8198vpermq $139, %ymm3, %ymm3 8199vpand mask_keephigh(%rip), %ymm3, %ymm4 8200vpor %ymm4, %ymm5, %ymm5 8201vpaddw 2752(%rsp), %ymm7, %ymm7 8202vpaddw %ymm5, %ymm7, %ymm7 8203vmovdqa %xmm3, 2752(%rsp) 8204vpand mask_mod8192(%rip), %ymm11, %ymm11 8205vmovdqu %xmm11, 592(%rdi) 8206vextracti128 $1, %ymm11, %xmm11 8207vmovq %xmm11, 608(%rdi) 8208vpand mask_mod8192(%rip), %ymm6, %ymm6 8209vmovdqu %xmm6, 944(%rdi) 8210vextracti128 $1, %ymm6, %xmm6 8211vmovq %xmm6, 960(%rdi) 8212vpand mask_mod8192(%rip), %ymm7, %ymm7 8213vmovdqu %xmm7, 1296(%rdi) 8214vextracti128 $1, %ymm7, %xmm7 8215vmovq %xmm7, 1312(%rdi) 8216vmovdqa 224(%rsp), %ymm5 8217vpunpcklwd const0(%rip), %ymm5, %ymm10 8218vpunpckhwd const0(%rip), %ymm5, %ymm8 8219vpslld $1, %ymm10, %ymm10 8220vpslld $1, %ymm8, %ymm8 8221vmovdqa 480(%rsp), %ymm9 8222vpunpcklwd const0(%rip), %ymm9, %ymm7 8223vpunpckhwd const0(%rip), %ymm9, %ymm9 8224vmovdqa 736(%rsp), %ymm6 8225vpunpcklwd const0(%rip), %ymm6, %ymm11 8226vpunpckhwd const0(%rip), %ymm6, %ymm6 8227vpaddd %ymm11, %ymm7, %ymm3 8228vpaddd %ymm6, %ymm9, %ymm4 8229vpsubd %ymm10, %ymm3, %ymm3 8230vpsubd %ymm8, %ymm4, %ymm4 8231vpsubd %ymm11, %ymm7, %ymm11 8232vpsubd %ymm6, %ymm9, %ymm6 8233vpsrld $1, %ymm11, %ymm11 8234vpsrld $1, %ymm6, %ymm6 8235vpand mask32_to_16(%rip), %ymm11, %ymm11 8236vpand mask32_to_16(%rip), %ymm6, %ymm6 8237vpackusdw %ymm6, %ymm11, %ymm6 8238vmovdqa 1760(%rsp), %ymm11 8239vpunpcklwd const0(%rip), %ymm11, %ymm9 8240vpunpckhwd const0(%rip), %ymm11, %ymm7 8241vpslld $1, %ymm9, %ymm9 8242vpslld $1, %ymm7, %ymm7 8243vpsubd %ymm9, %ymm3, %ymm3 8244vpsubd %ymm7, %ymm4, %ymm4 8245vpsrld $1, %ymm3, %ymm3 8246vpsrld $1, %ymm4, %ymm4 8247vpand mask32_to_16(%rip), %ymm3, %ymm3 8248vpand mask32_to_16(%rip), %ymm4, %ymm4 8249vpackusdw %ymm4, %ymm3, %ymm4 8250vmovdqa 992(%rsp), %ymm3 8251vpaddw 1248(%rsp), %ymm3, %ymm7 8252vpsubw 1248(%rsp), %ymm3, %ymm3 8253vpsrlw $2, %ymm3, %ymm3 8254vpsubw %ymm6, %ymm3, %ymm3 8255vpmullw %ymm14, %ymm3, %ymm3 8256vpsllw $1, %ymm5, %ymm9 8257vpsubw %ymm9, %ymm7, %ymm9 8258vpsllw $7, %ymm11, %ymm7 8259vpsubw %ymm7, %ymm9, %ymm7 8260vpsrlw $3, %ymm7, %ymm7 8261vpsubw %ymm4, %ymm7, %ymm7 8262vmovdqa 1504(%rsp), %ymm9 8263vpsubw %ymm5, %ymm9, %ymm9 8264vpmullw %ymm15, %ymm11, %ymm8 8265vpsubw %ymm8, %ymm9, %ymm8 8266vpmullw %ymm14, %ymm7, %ymm7 8267vpsubw %ymm7, %ymm4, %ymm4 8268vpmullw %ymm12, %ymm7, %ymm9 8269vpaddw %ymm9, %ymm4, %ymm9 8270vpmullw %ymm12, %ymm9, %ymm9 8271vpsubw %ymm9, %ymm8, %ymm9 8272vpmullw %ymm14, %ymm9, %ymm9 8273vpsubw %ymm6, %ymm9, %ymm9 8274vpsrlw $3, %ymm9, %ymm9 8275vpsubw %ymm3, %ymm9, %ymm9 8276vpsubw %ymm9, %ymm3, %ymm3 8277vpsubw %ymm3, %ymm6, %ymm6 8278vpmullw %ymm13, %ymm9, %ymm9 8279vpsubw %ymm9, %ymm6, %ymm6 8280vextracti128 $1, %ymm4, %xmm8 8281vpshufb shufmin1_mask3(%rip), %ymm8, %ymm8 8282vmovdqa %ymm8, 2816(%rsp) 8283vextracti128 $1, %ymm3, %xmm8 8284vpshufb shufmin1_mask3(%rip), %ymm8, %ymm8 8285vmovdqa %ymm8, 2848(%rsp) 8286vextracti128 $1, %ymm7, %xmm8 8287vpshufb shufmin1_mask3(%rip), %ymm8, %ymm8 8288vmovdqa %ymm8, 2880(%rsp) 8289vmovdqu 680(%rdi), %ymm8 8290vmovdqu 1032(%rdi), %ymm10 8291vmovdqu 1384(%rdi), %ymm2 8292vpaddw %ymm5, %ymm8, %ymm5 8293vpaddw %ymm6, %ymm10, %ymm6 8294vpaddw %ymm4, %ymm2, %ymm4 8295vpshufb shuf48_16(%rip), %ymm3, %ymm3 8296vpand mask3_5_4_3_1(%rip), %ymm3, %ymm2 8297vpand mask5_3_5_3(%rip), %ymm3, %ymm3 8298vpermq $139, %ymm2, %ymm2 8299vpand mask_keephigh(%rip), %ymm2, %ymm10 8300vpor %ymm10, %ymm3, %ymm3 8301vmovdqu 328(%rdi), %ymm10 8302vpaddw 2016(%rsp), %ymm10, %ymm10 8303vpaddw %ymm3, %ymm10, %ymm10 8304vpand mask_mod8192(%rip), %ymm10, %ymm10 8305vmovdqu %xmm10, 328(%rdi) 8306vextracti128 $1, %ymm10, %xmm10 8307vmovq %xmm10, 344(%rdi) 8308vpshufb shufmin1_mask3(%rip), %ymm10, %ymm10 8309vmovdqa %xmm10, 1792(%rsp) 8310vmovdqa %xmm2, 2016(%rsp) 8311vpshufb shuf48_16(%rip), %ymm7, %ymm7 8312vpand mask3_5_4_3_1(%rip), %ymm7, %ymm2 8313vpand mask5_3_5_3(%rip), %ymm7, %ymm7 8314vpermq $139, %ymm2, %ymm2 8315vpand mask_keephigh(%rip), %ymm2, %ymm10 8316vpor %ymm10, %ymm7, %ymm7 8317vpaddw 2272(%rsp), %ymm5, %ymm5 8318vpaddw %ymm7, %ymm5, %ymm5 8319vmovdqa %xmm2, 2272(%rsp) 8320vpshufb shuf48_16(%rip), %ymm9, %ymm9 8321vpand mask3_5_4_3_1(%rip), %ymm9, %ymm2 8322vpand mask5_3_5_3(%rip), %ymm9, %ymm9 8323vpermq $139, %ymm2, %ymm2 8324vpand mask_keephigh(%rip), %ymm2, %ymm10 8325vpor %ymm10, %ymm9, %ymm9 8326vpaddw 2528(%rsp), %ymm6, %ymm6 8327vpaddw %ymm9, %ymm6, %ymm6 8328vmovdqa %xmm2, 2528(%rsp) 8329vpshufb shuf48_16(%rip), %ymm11, %ymm11 8330vpand mask3_5_4_3_1(%rip), %ymm11, %ymm2 8331vpand mask5_3_5_3(%rip), %ymm11, %ymm11 8332vpermq $139, %ymm2, %ymm2 8333vpand mask_keephigh(%rip), %ymm2, %ymm10 8334vpor %ymm10, %ymm11, %ymm11 8335vpaddw 2784(%rsp), %ymm4, %ymm4 8336vpaddw %ymm11, %ymm4, %ymm4 8337vmovdqa %xmm2, 2784(%rsp) 8338vpand mask_mod8192(%rip), %ymm5, %ymm5 8339vmovdqu %xmm5, 680(%rdi) 8340vextracti128 $1, %ymm5, %xmm5 8341vmovq %xmm5, 696(%rdi) 8342vpand mask_mod8192(%rip), %ymm6, %ymm6 8343vmovdqu %xmm6, 1032(%rdi) 8344vextracti128 $1, %ymm6, %xmm6 8345vmovq %xmm6, 1048(%rdi) 8346vpand mask_mod8192(%rip), %ymm4, %ymm4 8347vmovdqu %xmm4, 1384(%rdi) 8348vextracti128 $1, %ymm4, %xmm4 8349vpextrw $0, %xmm4, 1400(%rdi) 8350vmovdqu 0(%rdi), %ymm11 8351vpaddw 1888(%rsp), %ymm11, %ymm11 8352vpaddw 2816(%rsp), %ymm11, %ymm11 8353vpand mask_mod8192(%rip), %ymm11, %ymm11 8354vmovdqu %ymm11, 0(%rdi) 8355vmovdqu 352(%rdi), %ymm11 8356vpaddw 2528(%rsp), %ymm11, %ymm11 8357vpaddw 2848(%rsp), %ymm11, %ymm11 8358vpand mask_mod8192(%rip), %ymm11, %ymm11 8359vmovdqu %ymm11, 352(%rdi) 8360vmovdqu 704(%rdi), %ymm11 8361vpaddw 2784(%rsp), %ymm11, %ymm11 8362vpaddw 2880(%rsp), %ymm11, %ymm11 8363vpand mask_mod8192(%rip), %ymm11, %ymm11 8364vmovdqu %ymm11, 704(%rdi) 8365vmovdqu 88(%rdi), %ymm11 8366vpaddw 2048(%rsp), %ymm11, %ymm11 8367vpaddw 1920(%rsp), %ymm11, %ymm11 8368vpand mask_mod8192(%rip), %ymm11, %ymm11 8369vmovdqu %ymm11, 88(%rdi) 8370vmovdqu 440(%rdi), %ymm11 8371vpaddw 2304(%rsp), %ymm11, %ymm11 8372vpand mask_mod8192(%rip), %ymm11, %ymm11 8373vmovdqu %ymm11, 440(%rdi) 8374vmovdqu 792(%rdi), %ymm11 8375vpaddw 2560(%rsp), %ymm11, %ymm11 8376vpand mask_mod8192(%rip), %ymm11, %ymm11 8377vmovdqu %ymm11, 792(%rdi) 8378vmovdqu 176(%rdi), %ymm11 8379vpaddw 2080(%rsp), %ymm11, %ymm11 8380vpaddw 1952(%rsp), %ymm11, %ymm11 8381vpand mask_mod8192(%rip), %ymm11, %ymm11 8382vmovdqu %ymm11, 176(%rdi) 8383vmovdqu 528(%rdi), %ymm11 8384vpaddw 2336(%rsp), %ymm11, %ymm11 8385vpand mask_mod8192(%rip), %ymm11, %ymm11 8386vmovdqu %ymm11, 528(%rdi) 8387vmovdqu 880(%rdi), %ymm11 8388vpaddw 2592(%rsp), %ymm11, %ymm11 8389vpand mask_mod8192(%rip), %ymm11, %ymm11 8390vmovdqu %ymm11, 880(%rdi) 8391vmovdqu 264(%rdi), %ymm11 8392vpaddw 2112(%rsp), %ymm11, %ymm11 8393vpaddw 1984(%rsp), %ymm11, %ymm11 8394vpand mask_mod8192(%rip), %ymm11, %ymm11 8395vmovdqu %ymm11, 264(%rdi) 8396vmovdqu 616(%rdi), %ymm11 8397vpaddw 2368(%rsp), %ymm11, %ymm11 8398vpand mask_mod8192(%rip), %ymm11, %ymm11 8399vmovdqu %ymm11, 616(%rdi) 8400vmovdqu 968(%rdi), %ymm11 8401vpaddw 2624(%rsp), %ymm11, %ymm11 8402vpand mask_mod8192(%rip), %ymm11, %ymm11 8403vmovdqu %ymm11, 968(%rdi) 8404vmovdqu 352(%rdi), %ymm11 8405vpaddw 2144(%rsp), %ymm11, %ymm11 8406vpand mask_mod8192(%rip), %ymm11, %ymm11 8407vmovdqu %ymm11, 352(%rdi) 8408vmovdqu 704(%rdi), %ymm11 8409vpaddw 2400(%rsp), %ymm11, %ymm11 8410vpand mask_mod8192(%rip), %ymm11, %ymm11 8411vmovdqu %ymm11, 704(%rdi) 8412vmovdqu 1056(%rdi), %ymm11 8413vpaddw 2656(%rsp), %ymm11, %ymm11 8414vpand mask_mod8192(%rip), %ymm11, %ymm11 8415vmovdqu %ymm11, 1056(%rdi) 8416vmovdqu 440(%rdi), %ymm11 8417vpaddw 2176(%rsp), %ymm11, %ymm11 8418vpand mask_mod8192(%rip), %ymm11, %ymm11 8419vmovdqu %ymm11, 440(%rdi) 8420vmovdqu 792(%rdi), %ymm11 8421vpaddw 2432(%rsp), %ymm11, %ymm11 8422vpand mask_mod8192(%rip), %ymm11, %ymm11 8423vmovdqu %ymm11, 792(%rdi) 8424vmovdqu 1144(%rdi), %ymm11 8425vpaddw 2688(%rsp), %ymm11, %ymm11 8426vpand mask_mod8192(%rip), %ymm11, %ymm11 8427vmovdqu %ymm11, 1144(%rdi) 8428vmovdqu 528(%rdi), %ymm11 8429vpaddw 2208(%rsp), %ymm11, %ymm11 8430vpand mask_mod8192(%rip), %ymm11, %ymm11 8431vmovdqu %ymm11, 528(%rdi) 8432vmovdqu 880(%rdi), %ymm11 8433vpaddw 2464(%rsp), %ymm11, %ymm11 8434vpand mask_mod8192(%rip), %ymm11, %ymm11 8435vmovdqu %ymm11, 880(%rdi) 8436vmovdqu 1232(%rdi), %ymm11 8437vpaddw 2720(%rsp), %ymm11, %ymm11 8438vpand mask_mod8192(%rip), %ymm11, %ymm11 8439vmovdqu %ymm11, 1232(%rdi) 8440vmovdqu 616(%rdi), %ymm11 8441vpaddw 2240(%rsp), %ymm11, %ymm11 8442vpand mask_mod8192(%rip), %ymm11, %ymm11 8443vmovdqu %ymm11, 616(%rdi) 8444vmovdqu 968(%rdi), %ymm11 8445vpaddw 2496(%rsp), %ymm11, %ymm11 8446vpand mask_mod8192(%rip), %ymm11, %ymm11 8447vmovdqu %ymm11, 968(%rdi) 8448vmovdqu 1320(%rdi), %ymm11 8449vpaddw 2752(%rsp), %ymm11, %ymm11 8450vpand mask_mod8192(%rip), %ymm11, %ymm11 8451vmovdqu %ymm11, 1320(%rdi) 8452mov %r8, %rsp 8453pop %r12 8454.cfi_restore r12 8455pop %rbp 8456.cfi_restore rbp 8457.cfi_def_cfa_register rsp 8458.cfi_adjust_cfa_offset -8 8459ret 8460.cfi_endproc 8461.size poly_Rq_mul,.-poly_Rq_mul 8462 8463#endif 8464