github: https://github.com/grapherd/sse-avx-instruction-set-performance
今天照著 Performance of SSE and AVX Instruction Sets 看了一遍,然後實作了3個論文中提到的最佳化辦法:
1 |
* Data Packing<br />* Data Reuse<br />* Asynchronous Data Transfer (prefetch)<br /> |
把 repo clone 下來之後,可以用 make 產生所有的執行檔。
執行 main 可以看三種方式在 native / sse / avx 狀況下的執行速度。
Leave a Reply