فصلنامه تخصصی فناوری اطلاعات و ارتباطات

نوع مقاله : مقاله مروری

نویسنده

دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی، واحد تهران شمال، تهران، ایران

چکیده

اخیرا بیشتر سیستم های محاسباتی انطباقی از سخت افزار قابل پیکربندی مجدد به فرم آرایه های گیت قابل برنامه نویسی فیلدی (FPGA) استفاده می کنند. برای این که این سیستم ها در محیط های خشن جای میدان دادن داشته باشند در جایی که دسترس پذیری و قابلیت اعتماد بالا یک الزام هستند، برنامه های در حال اجرا روی FPGA ها باید از نظر سخت افزاری متحمل نقص باشند چون این در طول عمر سیستم ممکن است رخ دهد. در این مقاله  ما تکنیک های تحمل نقص جدید برای بلوک های منطق FPGA ارائه می کنیم، که بصورت بخشی از رویکرد نواحی خود تست گردان (STAR) برای تست و تشخیص، و پیکربندی آنلاین توسعه داده می شوند (ما تحمل بالای 100 نقص منطقی را از طریق پیاده سازی واقعی روی یک FPGA شامل یک آرایه20 در 20 از بلوک های منطق است). یک ویژگی کلیدی استفاده دوباره از بلوک های منطق ناقص برای افزایش تعداد زاپاس های موثر و بسط طول ماموریت می باشد. برای افزایش تحمل نقص، نه تنها از بخش های غیر خطادار معیوب یا بلوک های منطق با خطای جزئی استفاده می کنیم بلکه از بخش های خطادار بلوک های منطق معیوب در مد های غیر خطا دار استفاده می کنیم. با استفاده و کاربرد دوباره از منابع خطادار، رویکرد چند سطحی ما تعداد نقص های قابل تحمل را فراتر از تعداد منابع منطق زاپاس موجود می برد. بر خلاف خیلی از متدهای سطری، ستونی، تکه ای، رویکرد چند سطحی ما می تواند خطاهایی که به صورت برابر روی مساحت منطق توزیع شده تحمل کند، هم اینکه نقص ها در همان مساحت محلی را خوشه بندی می کند. در ضمن، عملیات سیستم به ازای تشخیص نقص یا به ازای پیکربندی های گذر دهنده-نقص محاسباتی دچار وقفه نمی شوند. تکنیک های تحمل خطای ما با استفاده از FPGA سری های ORAC2 پیاده شده که پیکربندی مدد زمان اجرای پویای افزایشی را مشخص می کند.

کلیدواژه‌ها

عنوان مقاله [English]

An Overview of Online Fault Tolerance for FPGA Logic Blocks

نویسنده [English]

  • Sepideh Gohari

Computer Engineering Department, Islamic Azad University, North Tehran Branch, Tehran, Iran

چکیده [English]

Most adaptive computing systems use reconfigurable hardware in the form of field programmable gate arrays (FPGA). In order for these systems to be fielded in harsh environments where high availability and reliability are a requirement, the programs running on FPGAs must be hardware fault tolerant, as this is the case during the lifetime of the system. may occur In this paper, we present new fault tolerance techniques for FPGA logic blocks, which are developed as part of the Self-Standing Test Areas (STAR) approach for test and diagnosis, and online configuration (we tolerate over 100 logic faults through the actual implementation on an FPGA containing a 20 x 20 array of logic blocks). A key feature is the reuse of incomplete logic blocks to increase the number of effective spares and extend mission length. To increase fault tolerance, we not only use faulty non-faulty sections or logic blocks with minor faults, but also use faulted sections of faulty logic blocks in non-faulty modes. By using and reusing faulty resources, our multilevel approach extends the number of tolerable faults beyond the number of available spare logic resources. Unlike many row, column, and piecewise methods, our multi-level approach can tolerate faults that are evenly distributed over the logic area, while also clustering faults in the same local area. Meanwhile, system operations are not interrupted for fault detection or computational fault-transitor configurations. Our fault tolerance techniques are implemented using ORAC2 series FPGAs that specify incremental dynamic runtime configuration

کلیدواژه‌ها [English]

  • Adaptive Computing
  • Fault Tolerance
  • Field-Programmable Gate Arrays (FPGA)
  • Reconfigurable Computing
  • Reconfigurable Systems
  • Reliability
[1] Marcos Santana Farias, Nadia Nedjah, Paulo Victor R. de Carvalho, "Resilient Hardware Design for Critical Systems", 2019 IEEE 10th Latin American
[2] Kibum Lee, S. Simon Wong, "Fault-Tolerant FPGA with Column-Based Redundancy and Power Gating Using RRAM", IEEE Transactions on Computers, vol.66, no.6, pp.946-956, 2017.
[3] Martin A. Trefzer, David M. R. Lawson, Simon J. Bale, James A. Walker, Andy M. Tyrrell, "Hierarchical Strategies for Efficient Fault Recovery on the Reconfigurable PAnDA Device", IEEE Transactions on Computers, vol.66, no.6, pp.930-945, 2017
[4] Gert Schley, Atefe Dalirsani, Marcus Eggenberger, Nadereh Hatami, Hans-Joachim Wunderlich, Martin Radetzki, "Multi-Layer Diagnosis for Fault-Tolerant Networks-on-Chip", IEEE Transactions on Computers, vol.66, no.5, pp.848-861, 2017.
[5] Hongyan Zhang, Lars Bauer, Michael Andreas Kochte, Eric Schneider, Hans-Joachim Wunderlich, Jörg Henkel, "Aging Resilience and Fault Tolerance in Runtime Reconfigurable Architectures", IEEE Transactions on Computers, vol.66, no.6, pp.957-970, 2017.
[6] S. Aishwarya, G. Mahendran, "Multiple bit upset correction in SRAM based FPGA using Mutation and Erasure codes", 2016 International Conference on Advanced Communication Control and Computing Technologies (ICACCCT), pp.202-206, 2016.
[7] Ahmad Alzahrani, Ronald F. DeMara, "Hypergraph-Cover Diversity for Maximally-Resilient Reconfigurable Systems", 2015 IEEE 17th International Conference on High Performance Computing and Communications, 2015 IEEE 7th International Symposium on Cyberspace Safety and Security, and 2015 IEEE 12th International Conference on Embedded Software and Systems, pp.1086-1092, 2015
[8] Chi-Chou Kao, "Performance-Oriented Partitioning for Task Scheduling of Parallel Reconfigurable Architectures", IEEE Transactions on Parallel and Distributed Systems, vol.26, no.3, pp.858-867, 2015.]
[9] David M. R. Lawson, James Alfred Walker, Martin A. Trefzer, Simon J. Bale, Andy M. Tyrrell, "Evolving hierarchical low disruption fault tolerance strategies for a novel programmable device", 2014 IEEE International Conference on Evolvable Systems, pp.77-84, 2014
[10] Reza Ramezani, Yasser Sedaghat, "Scheduling periodic real-time hardware tasks on dynamic partial reconfigurable devices subject to fault tolerance", 2014 4th International Conference on Computer and Knowledge Engineering (ICCKE), pp.479-484, 2014..
[11] Martin A. Trefzer, Andy M. Tyrrell, "Improved fault-tolerance through dynamic modular redundancy (DMR) on the RISA FPGA platform", 2014 NASA/ESA Conference on Adaptive Hardware and Systems (AHS), pp.39-46, 2014
[12] Hasan Baig, Jeong-A Lee, Zahid Ali Siddiqui, "A Low-Overhead Multiple-SEU Mitigation Approach for SRAM-based FPGAs with Increased Reliability", IEEE Transactions on Nuclear Science, vol.61, no.3, pp.1389-1399, 2014.
[13] Han Zhang, Yansong Wu, Sen Zhao, Lei Zhao, "Fine granularity optimal spare allocation and replacement in reconfiguration system", 2013 Sixth International Conference on Advanced Computational Intelligence (ICACI), pp.177-182, 2013..
[14] B. Harikrishna, S. Ravi, "A survey on fault tolerance in FPGAs", 2013 7th International Conference on Intelligent Systems and Control (ISCO), pp.265-270, 2013
[15] Gabriel L. Nazar, Luigi Carro, "Fast error detection through efficient use of hardwired resources in FPGAs", 2012 17th IEEE European Test Symposium (ETS), pp.1-6, 2012
[16] Emmert JM, Stroud CE, Abramovici M. Online fault tolerance for FPGA logic blocks. IEEE Transactions on Very Large Scale Integration (VLSI) Systems. 2007 Feb;15(2):216-26.
[17] Abramovici M, Stroud CE, Emmert JM. Online BIST and BIST-based diagnosis of FPGA logic blocks. IEEE Transactions on Very Large Scale Integration (VLSI) Systems. 2004 Dec;12(12):1284-94.
[18] Ruiz-Rosero J, Ramirez-Gonzalez G, Khanna R. Field programmable gate array applications—A scientometric review. Computation. 2019 Nov 11;7(4):63.
[19] Zhang H, Bauer L, Kochte MA, Schneider E, Wunderlich HJ, Henkel J. Aging resilience and fault tolerance in runtime reconfigurable architectures. IEEE Transactions on Computers. 2016 Oct 11;66(6):957-70.
[20] McWilliam R, Khan S, Farnsworth M, Bell C. Zero-maintenance of electronic systems: Perspectives, challenges, and opportunities. Microelectronics Reliability. 2018 Jun 1;85:122-39.