Ansys：如何減少有限元分析計算時間？

2016-11-28 by:CAE仿真在線來源:互聯網

用ANSYS 結構力學仿真軟件的組織機構希望獲得盡快產生可靠設計所需要的精確度、效率與吞吐量。ANSYS 與英特爾攜手合作,確保此類公司能夠利用最新Intel® Xeon® E5 v3 處理器與Xeon Phi® 協處理器,以處理其仿真任務。

結構力學仿真往往需要大量計算資源,包括內存、磁盤空間和I/O。這會影響到計算所用的時間。由于CPU 時鐘頻率的提高速度不如10 年前那么快,保持這種計算速度無法依賴更快速的CPU。新的性能模式是并行計算,其可以利用每隔幾年數量都會猛增的CPU 內核,以便在每個時鐘周期提供更多計算。這顯著提高了結構仿真軟件的性能。但是工程師始終在努力盡可能減少仿真時間,這樣他們就能夠提高模型的復雜性 (例如,通過提高網格密度或非線性行為),或者在給定時間內執行更多仿真。

Ansys：如何減少有限元分析計算時間？ansys圖片1

?基準套件在兩個極其相似的系統上采用ANSYS 16.0 運行:一個系統包含2 個Intel Xeon E5-2670(Sandy Bridge、2.6GHz、共16 個內核)處理器,另一個采用2 個 Intel Xeon E5-2697 v3(Haswell、2.6GHz、共28 個內核)處理器。采用1、2、4、 8 和16 個內核的基準套件運行總用時的幾何平均值,可用于產生上表所示時間。對于迭代求解器基準,Haswell 系統比E5 v2 系統平均快20%,而對于直接求解器基準, Haswell 系統比E5 v2 快40%。

加速結構力學仿真的一種方法是充分利用可用的最新硬件。計算機行業利用持續的平臺發展極大提高了計算性能,包括每個CPU 搭載更多的計算內核、集成型I/O 處理器(產生更高存儲帶寬)、更快的附加內存(通道)、更大的L3 高速緩存大小、更快的磁盤存儲(如:用于ANSYS Mechanical 的固態驅動器)、更快的互連以及Intel Advanced Vector Extensions 2 (AVX2) 支持。英特爾與ANSYS 一直攜手合作,以便ANSYS 解決方案能夠充分利用這些硬件發展帶來的優勢。

采用INTEL XEON E5 V3 處理器

20 多年來,ANSYS 結構力學產品一直可支持并行處理,使工程師能夠有效利用多核處理器和/ 或集群加速仿真。隨著16.0 版的發布, ANSYS 繼續進行投資,添加了能夠利用最新英特爾處理器技術的相關功能。

A N S Y S 用戶利用英特爾的最新 Xeon E5 v3 處理器能夠顯著縮短仿真運行時間,這主要歸功于更多內核(多達18 個)、對Intel AVX2 的支持、更大的L3 高速緩存(多達35MB)和更高的存儲速度(多達2133MHz)。ANSYS Mechanical 16.0 采用英特爾的名為 Haswell 的E5 v3 處理器系列提高了性能。E5 v3 系統針對迭代求解器基準(通常是存儲帶寬速度的良好指標)比E5 v2 平均快20%,而針對直接求解器基準 (通常是原始計算速度的良好指標)比 E5 v2 平均快40%。

采用INTEL XEON PHI 協處理器

為了利用最新硬件發展實現更快的工程仿真技術,ANSYS 自發布ANSYS 13.0 之后就開始與NVIDIA 合作開發和推出基于通用圖形處理器(GPU)的并行求解器執行解決方案。GPU 目前能夠加速流體、結構與電磁學仿真,以提高 ANSYS 高性能計算(HPC)功能的價值。

英特爾最近推出了設計上與高端 GPU 類似的Xeon Phi 系列協處理器。它們是可插入PCI Express 插槽的全高度卡,需要最低200W 的附加功率。但是,此類協處理器并非針對顯卡,并且不具備圖形顯示輸出連接(例如:HDMI 或顯示器端口)。每個Xeon Phi 協處理器都包含大約60 個能夠執行1 百萬兆次浮點運算的內核,而且具有8GB~16GB 的G D D R 5 內存,以提供大量存儲帶寬。這種新款硬件加速器能夠加快結構力學仿真。

實現方案

在結構力學產品中開始實施對Xeon Phi 協處理器的支持之前,ANSYS 需要:

用戶體驗直接簡單。

Xeon Phi 硬件必須永遠不降低仿真速度,而且在適用時能夠加速仿真。

Xeon Phi 不會降低求解精確度。

為了利用Xeon Phi 協處理器加速 ANSYS 結構力學仿真,相關軟件可以采用GPU 加速器功能。雖然Xeon Phi 可以實現其它執行模型,不過GPU 加速器是引入這種協處理器的最佳工具。由于稀疏直接求解器是默認求解器并且常用于各種分析,因此這種線性方程求解器是最佳切入點。

ANSYS 16.0 — 效率與魯棒性

隨著發布16.0 版,ANSYS 繼續投資,以提高結構力學仿真的效率與魯棒性。求解器指標的關鍵改進可以實現速度更快、更穩健的仿真。

眾多增強功能可以提高非線性分析的收斂。

稀疏求解器的改進可以在內核執行更多任務,從而提高求解器性能。在分布式存儲器并行計算方面進行了眾多改進。

進一步改進了域分解,從而提高了性能和規模,特別在更多內核數量情況下尤為如此。

最新增加的功能包括支持慣性釋放、 QRDAMP 特征值抽取法(模態分析中)和模態疊加法(諧波響應與瞬態分析中)。

Ansys：如何減少有限元分析計算時間？ansys圖片2

?ANSYS Mechanical 16.0 采用Intel Xeon Phi 協處理器時的整體仿真加速率

Ansys：如何減少有限元分析計算時間？ansys圖片3

ANSYS 用戶利用英特爾的最新Xeon E5 v3 處理器,能夠顯著縮短仿真運行時間。

A N S Y S M e c h a n i c a l 1 5 . 0 僅在 Linux® 平臺支持采用共享存儲器并行的 Xeon Phi 協處理器。但是,分布式存儲器并行一般能夠提供比共享存儲器并行更高的加速效果,而且ANSYS 結構力學軟件通常在Windows® 平臺上運行。 ANSYS Mechanical 16.0 同時針對Linux 和Windows 平臺支持共享與分布式存儲器并行。幾乎所有ANSYS 用戶(包括其中每個計算節點都包含一個或多個協處理器的集群的訪問用戶)都能夠采用 Xeon Phi 協處理器加速結構力學仿真。

采用XEON PHI 加速

為了在ANSYS Mechanical 中利用Xeon Phi 硬件,可以通過在命令行參數列表中添加選項-acc intel,從而在啟動軟件時激活GPU 加速器功能。此外,您還可以使用-na N 選擇使用的 Xeon Phi 協處理器數量,其中N 是大于 0 的整數。(軟件默認值是1,對應單個協處理器)。

通過修改‘求解過程設置’的‘高級屬性’頁面上的G P U 加速選項, ANSYS Workbench 用戶在求解過程中可以輕松啟用此功能。用戶可以在相關下拉框中選擇‘INTEL’,然后選擇仿真過程中使用的Xeon Phi 協處理器數量。啟用此功能需要每個協處理器有一個附加 HPC 許可證。

一旦啟用后,此功能在可能的情況下可以通過自動采用Xeon Phi 硬件加快求解。無需用戶輸入。在無法加速的情況下會繼續采用CPU 內核,而Xeon Phi 功能對求解進度不產生任何影響。

性能

ANSYS 對ANSYS Mechanical 進行了一系列標準基準測試,以獲得性能數據?；鶞蕼y試采用了運行Windows 7 x 64 SP1、具有128GB RAM、搭載 2 個總共具有16 個CPU 內核的Intel E5-2670 (2.6 GHz) 處理器的工作站。在工作站中使用了2 個Xeon Phi 7120A 協處理器。

結果顯示采用Xeon Phi 通常能實現一定程度的加速。不過,不同基準測試實現的加速程度大相徑庭,而且也取決于所涉及的CPU 內核數量。與僅采用2 個CPU 內核相比,采用2 個CPU 內核和1 個Xeon Phi 協處理器可以使整體仿真平均加速2.1 倍。在采用16 個CPU 內核情況下,增加2 個Xeon Phi 可以使整體仿真平均加速1.4 倍。由于各基準測試性能各異,需要指南才能了解哪些結構力學模型能夠在采用Xeon Phi 協處理器時實現最大加速。

使用指南

采用Xeon Phi 協處理器對于不同硬件和仿真模型所實現的加速大相徑庭。這些指南有助于確定相關協處理器是否能夠提高性能。

采用更新、更快的CPU 硬件一般會降低采用Xeon Phi 卡所能實現的加速。每個Xeon Phi 協處理器使用更多CPU 內核也會降低實現的加速效果。如果請求一個或更多的協處理器,則可以使用所有可用的協處理器。不過,出于性能原因,每個Xeon Phi 協處理器的進程數量被限制到最多8 個。

特定類型的仿真采用X e o n P h i 時能夠實現更高加速。對于A N S Y S Mechanical 仿真,在下列情況下可以實現更高加速:

● 在芯片內存儲器模式下運行稀疏求解器。

● 組合矩陣規模超過200 萬個方程式。

● 模型是三維,具有更大或更厚的幾何結構,包含更高階的單元類型或者包含特定類型的邊界條件(如:約束方程式)。

通過持續協作提高價值

隨著硬件廠商提供的計算能力不斷提高,ANSYS 會繼續發揮這種新技術的全部潛力。隨著廠商提供更多并行硬件,ANSYS 開發人員會繼續在軟件中并行化更多算法。對于結構力學仿真而言,這些工作具有重要意義 - 能夠確保企業通過快速執行日益復雜的仿真,而滿足在市場中推出可靠創新產品的競爭需求。

英特爾和ANSYS 會繼續攜手提供極具價值、經過優化和測試的解決方案。對于Xeon Phi 協處理器等新型硬件加速器,主要限制是能夠轉移到加速器設備的計算量。未來Xeon Phi 產品的目標是在能夠加速更多計算同時消除(通過PCI Express 通道)向設備傳輸數據的限制。

開放分享：優質有限元技術文章,助你自學成才