"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > IACA Intel CPU कोड प्रदर्शन विश्लेषण को अनुकूलित करने में मदद करता है

IACA Intel CPU कोड प्रदर्शन विश्लेषण को अनुकूलित करने में मदद करता है

2025-04-29 को पोस्ट किया गया
ब्राउज़ करें:952

] यह तीन मोड में संचालित होता है:

How Does Intel Architecture Code Analyzer (IACA) Help Analyze and Optimize Code Performance for Intel CPUs?

थ्रूपुट मोड:
    IACA गेज अधिकतम थ्रूपुट, यह मानते हुए कि यह एक नेस्टेड लूप का शरीर है। मोड:
  • IACA निर्देशों के अनुक्रम का पता लगाता है क्योंकि वे पाइपलाइनों के माध्यम से प्रगति करते हैं। विस्तृत ASCII या इंटरएक्टिव ग्राफविज़ चार्ट। :
  • आवश्यक IACA हेडर (iacamarks.h) शामिल करें और अपने लक्ष्य लूप के आसपास स्टार्ट एंड एंड एंड मार्करों को शामिल करें:
  • / * C या C उपयोग *// जबकि (कंडे) { IACA_START / * अंतरतम लूप बॉडी */ / * ... */ } Iaca_end
  • विधानसभा (x86):

निर्दिष्ट मैजिक बाइट पैटर्न को मैन्युअल रूप से नामित करने के लिए: / * nasm उपयोग */ MOV EBX, 111; स्टार्ट मार्कर बाइट्स DB 0x64, 0x67, 0x90; स्टार्ट मार्कर बाइट्स .INNERMOSTLOOPLABEL: ; लूप बॉडी ; ... jne .innermostlooplabel; लूप के शीर्ष पर सशर्त शाखा पीछे की ओर MOV EBX, 222; अंत मार्कर बाइट्स DB 0x64, 0x67, 0x90; एंड मार्कर बाइट्स

  • कमांड -लाइन आह्वान:
  • को कमांड लाइन से उपयुक्त मापदंडों के साथ कमांड लाइन से, जैसे:

iaca.sh -६४ -arch -& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & एक Haswell CPU, एक विश्लेषण रिपोर्ट और एक ग्राफविज़ विज़ुअलाइज़ेशन उत्पन्न करता है। उदाहरण के लिए, निम्न असेंबली स्निपेट पर विचार करें: । L2: vmovaps ymm1, [rdi rax]; l2 vfmadd231ps ymm1, ymm2, [rsi rax]; l2 vmovaps [rdx rax], ymm1; एस 1 RAX, 32 जोड़ें; जोड़ना jne .l2; Jmp

इस कोड के चारों ओर मार्कर डालकर और इसका विश्लेषण करके, IACA रिपोर्ट कर सकता है (abridged):

थ्रूपुट विश्लेषण रिपोर्ट ---------------------------------- ब्लॉक थ्रूपुट: 1.55 साइकिल थ्रूपुट बॉटलनेक: फ्रंटेंड, port2_agu, port3_agu [पोर्ट प्रेशर ब्रेकडाउन] | अनुदेश -------------------------- | ----------------- | | vmovaps ymm1, ymmword ptr [rdi rax*1] | 0.5 सीपी | | 1.5 सीपी | vfmadd231ps ymm1, ymm2, ymmword ptr [rsi rax*1] | 1.5 सीपी | vmovaps ymmword ptr [rdx rax*1], ymm1 | 1 सीपी | RAX, 0x20 जोड़ें | 0 सीपी | jnz 0xfffffffffffffec इस आउटपुट से, IACA हैसवेल फ्रंटेंड और पोर्ट 2 और 3 के AGU को अड़चन के रूप में पहचानता है। यह बताता है कि पोर्ट 7 द्वारा संसाधित किए जाने वाले स्टोर निर्देश को अनुकूलित करने से प्रदर्शन में सुधार हो सकता है। पुराने मॉडलों को छोड़कर।

नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3