آنچه در این پست میخوانید

زندگی روزمره ما به‌ شدت به عملکرد درست دستگاه‌ها و سیستم‌ها و تجهیزات عمدتاً برقی و دیجیتال وابسته است. صبح‌ها با فشار دادن یک دکمه چراغ اتاق روشن می‌شود و قهوه‌ساز به‌ موقع قهوه شما را آماده می‌کند. این قابلیت پیش‌بینی، نتیجه مفهومی به نام قابلیت اطمینان یا Interoperability است. قابلیت اطمینان به معنای کار کردن یک محصول نیست؛ بلکه احتمال اینکه یک سیستم در بازه زمانی مشخص و تحت شرایط معین، به‌ درستی و بدون وقفه عمل کند را نیز توصیف می‌کند.

این مفهوم از صنایع سنگین مانند صنایع ترابری، ساخت پل و نیروگاه تا دنیای دیجیتال و خانه‌های هوشمند، نقش مهمی ایفا می‌کند. درک صحیح قابلیت اطمینان به مصرف‌کنندگان کمک می‌کند تا انتخاب‌های آگاهانه‌تری داشته باشند و به مهندسان نیز امکان می‌دهد تا سیستم‌هایی طراحی کنند که در همان بدو اجرا تجهیزات و خدماتشان کار کنند و سال‌ها بدون خرابی به کار خود ادامه دهند. این مقاله از خانه‌های هوشمند به بررسی عمیق این مفهوم کلیدی یعنی قابلیت اطمینان می‌پردازد.

قابلیت اطمینان یا Interoperability چیست؟

قابلیت اطمینان یعنی احتمال اینکه یک محصول یا سیستم در یک بازه زمانی مشخص و تحت شرایط عملیاتی معین، عملکرد مورد انتظار خود را بدون خرابی انجام دهد. این تعریف سه بخش مهم از یعنی زمان، شرایط محیطی و عملکرد صحیح را در بر می‌گیرد. برخلاف تصور عموم، قابلیت اطمینان تنها به کار کردن محدود نمی‌شود؛ بلکه به پیوستگی و پیش‌بینی‌پذیری عملکرد اشاره دارد. یک دستگاه ممکن است یک‌بار کار کند اما قابل اعتماد نباشد، در حالی که دستگاهی دیگر ممکن است ماه‌ها بدون هیچ وقفه‌ای عمل کند و این همان چیزی است که ما به آن قابلیت اطمینان می‌گوییم.

قابلیت اطمینان یک مفهوم قطعی نیست بلکه مفومی احتمالی است. به‌ عبارت دیگر، هیچ سیستمی ۱۰۰ درصد قابل اعتماد نیست؛ اما می‌توان با طراحی هوشمند و استفاده از قطعات باکیفیت، احتمال خرابی را به حداقل رساند.

درک قابلیت اطمینان مستلزم تفکیک آن از مفاهیم مشابه مانند عملکرد است. یک لامپ ممکن است در لحظه روشن شود (کارکرد)، اما اگر پس از چند ساعت خاموش شود، قابلیت اطمینان پایینی دارد. قابلیت اطمینان به‌ جای تمرکز بر لحظه‌ای بودن عملکرد، بر پایداری و ثبات آن در طول زمان تاکید دارد. این ویژگی در سیستم‌های حیاتی مانند ترمز خودرو، سیستم‌های پزشکی یا تاسیسات برق‌رسانی اهمیت بیشتری دارد، زیرا ممکن است خرابی علاوه بر اختلال، خطرناک هم باشد.

قابلیت اطمینان به شرایط محیطی هم بستگی دارد. یک گوشی هوشمند ممکن است در دمای اتاق به‌ خوبی کار کند، اما در هوای بسیار سرد یا بسیار گرم عملکردش دچار اختلال شود. بنابراین، هنگام ارزیابی قابلیت اطمینان، باید شرایط استفاده واقعی را در نظر گرفت. استانداردهای بین‌المللی مانند IEC 60300 چارچوبی جامع برای مدیریت قابلیت اطمینان در تمام مراحل چرخه حیات محصول ارائه می‌دهند تا محصولات تحت این استاندارد در شرایط واقعی به درستی عمل کنند.

قابلیت اطمینان تنها مربوط به دستگاه‌های فیزیکی نیست؛ سیستم‌های نرم‌افزاری و خدمات دیجیتال هم دارای قابلیت اطمینان هستند. یک اپلیکیشن بانکی که هر روز ساعت ۲ بعدازظهر قطع می‌شود، با وجود اینکه بقیه روز کار می‌کند، قابلیت اطمینان پایینی دارد. در دنیای امروز که زندگی ما به‌ شدت به فناوری‌های دیجیتال وابسته شده، قابلیت اطمینان یک الزام اساسی برای هر محصول یا خدمت محسوب می‌شود.

تفاوت مفهوم قابلیت اطمینان با مفهوم کیفیت و دوام

کیفیت، قابلیت اطمینان دوام سه مفهوم مرتبط اما متفاوت هستند که اغلب به‌ اشتباه به‌ جای یکدیگر به‌ کار گرفته می‌شوند. کیفیت به مجموعه‌ای از ویژگی‌ها مانند ظاهر، مواد اولیه، دقت ساخت و تطابق با مشخصات فنی اشاره دارد که محصول را در لحظه تحویل توصیف می‌کنند. یک ساعت لوکس با بدنه‌ای فلزی ممکن است کیفیت بالایی داشته باشد، اما اگر مکانیزم داخلی آن هر هفته نیاز به تنظیم داشته باشد، از نظر قابلیت اطمینان ضعیف است.

قابلیت اطمینان به احتمال عملکرد صحیح یک سیستم در بازه زمانی مشخص می‌پردازد. این مفهوم بر پیوستگی و پیش‌بینی‌پذیری تمرکز دارد. یک یخچال با قابلیت اطمینان بالا علاوه بر اینکه در روز اول خرید، کار و وظییفه اصلی یعنی سرد کردن محیط داخلی‌اش را انجام میدهد، ماه‌ها و سال‌ها بدون نیاز به تعمیرات اساسی دمای ثابتی را حفظ می‌کند. در تعریف رسمی، قابلیت اطمینان تغییر کیفیت در طول زمان محسوب می‌شود؛ یعنی کیفیتی که در لحظه اول وجود دارد، چگونه در مواجهه با استهلاک، شرایط محیطی و استفاده مکرر حفظ می‌شود.

دوام به مدت زمانی که یک محصول بدون خرابی فیزیکی کامل باقی می‌ماند اشاره دارد. یک چمدان چرم قدیمی ممکن است ده سال دوام بیاورد و ظاهرش همچنان خوب باشد، اما اگر قفل آن پس از دو سال گاهی باز نشود، از نظر قابلیت اطمینان ضعیف است. دوام بیشتر بر بقای فیزیکی تمرکز دارد، در حالی که قابلیت اطمینان بر عملکرد صحیح تاکید می‌کند. یک محصول می‌تواند قابلیت اطمینان پایینی داشته باشد ولی دوام بالایی داشته باشد.

درک این تفاوت‌ها برای مصرف‌کنندگان اهمیت دارد؛ زیرا به آن‌ها کمک می‌کند تا فراتر از ظاهر و تبلیغات بازاری، به ویژگی‌های عملکردی بلندمدت محصول توجه کنند. یک محصول با ظاهری متوسط اما قابلیت اطمینان بالا، در بلندمدت ارزش بیشتری نسبت به محصولی با ظاهر خوب اما عملکرد ناپایدار دارد.

چگونه قابلیت اطمینان یا Interoperability اندازه‌گیری می‌شود؟

اندازه‌گیری قابلیت اطمینان بر پایه معیارهای کمی استوار است که به مهندسان و مصرف‌کنندگان امکان مقایسه عینی محصولات را می‌دهد. مهم‌ترین این معیارها، زمان میانگین بین خرابی‌ها (MTBF) است که میانگین زمان عملکرد یک سیستم تعمیرپذیر بین دو خرابی متوالی را نشان می‌دهد. این معیار در صنایعی مانند تولید و توزیع برق، هوانوردی و ارتباطات کاربرد زیادی دارد.

زمان میانگین تا خرابی (MTTF) معیاری مشابه است که برای سیستم‌های غیرتعمیرپذیر به‌ کار می‌رود. یعنی محصولاتی که پس از خرابی کامل تعویض می‌شوند، نه تعمیر. لامپ‌های LED، باتری‌ها و برخی قطعات الکترونیکی در این دسته قرار می‌گیرند. MTTF نشان می‌دهد که به‌ طور متوسط یک محصول جدید چه مدت قبل از خرابی نهایی کار می‌کند. این دو معیار (MTBF و MTTF) هر دو بر اساس داده‌های واقعی خرابی جمع‌آوری‌شده در طول زمان محاسبه می‌شوند.

زمان میانگین تا تعمیر (MTTR) معیار مکملی است که به قابلیت اطمینان کلی سیستم کمک می‌کند. این معیار میانگین زمان لازم برای شناسایی، دسترسی، تعمیر و بازگرداندن سیستم به حالت عادی پس از خرابی را اندازه‌گیری می‌کند. سیستمی با MTBF بالا اما MTTR بسیار طولانی، ممکن است در عمل قابلیت اطمینان پایینی داشته باشد؛ زیرا زمان توقف طولانی می‌تواند بر عملیات تاثیر منفی بگذارد. ترکیب این دو معیار، درصد در دسترس‌بودن را محاسبه می‌کند که نسبت زمان عملکرد صحیح به کل زمان است.

در دسترس‌بودن نشان می‌دهد که یک سرویس چقدر در طول سال کار می‌کند و قطع نمی‌شود. اگر یک سرویس در دسترس‌بودن ۹۹.۹ درصد داشته باشد، یعنی در یک سال فقط حدود ۹ ساعت قطع می‌شود و بقیه زمان کار می‌کند. اگر در دسترس‌بودن ۹۹.۹۹ درصد باشد، قطعی سالانه به کمتر از یک ساعت می‌رسد. سرویس‌های معمولی مثل شبکه‌های اجتماعی معمولا به ۹۹.۹ درصد اکتفا می‌کنند، اما سرویس‌های حیاتی مثل بانک یا بیمارستان‌ها به ۹۹.۹۹ درصد یا بیشتر نیاز دارند چون حتی چند ساعت قطعی هم می‌تواند مشکل بزرگی ایجاد کند.

آزمون‌های تسریع‌شده عمر (HALT) روشی برای ارزیابی سریع قابلیت اطمینان است. در این روش، نمونه‌های اولیه محصول تحت شرایط محیطی شدید، مانند ارتعاشات شدید و تغییرات ناگهانی رطوبت، قرار می‌گیرند تا نقاط ضعف طراحی در مراحل اولیه شناسایی شوند. این آزمون‌ها به مهندسان امکان می‌دهند قبل از تولید انبوه، طراحی را بهبود بخشند.

قابلیت اطمینان همچنین با نمودارهای احتمالی مانند تابع قابلیت اطمینان R(t) نمایش داده می‌شود که احتمال عدم خرابی را در هر لحظه t نشان می‌دهد. این نمودارها معمولا به‌ شکل منحنی نزولی هستند که با گذشت زمان، احتمال خرابی افزایش می‌یابد. استانداردهای بین‌المللی مانند IEC 60300-3-5 راهنمای جامعی برای برنامه‌ریزی و اجرای آزمون‌های قابلیت اطمینان ارائه می‌دهند تا نتایج قابل اعتماد باشند.

قابلیت اطمینان در دنیای فیزیکی

در دنیای فیزیکی، قابلیت اطمینان پایه‌های ایمنی روزمره را تشکیل می‌دهد. پل‌ها نمونه‌ای از این مفهوم هستند؛ سازه‌هایی که باید ده‌ها سال تحت بارهای متغیر، از عبور خودروها تا نیروهای طبیعی مانند باد و زلزله، بدون فروپاشی یا شکست و تخریب عمل کنند. مهندسان عمران با استفاده از ضرایب اطمینان طراحی می‌کنند؛ یعنی ظرفیت باربری پل را چندین برابر بار مورد انتظار محاسبه می‌کنند تا حاشیه ایمنی کافی وجود داشته باشد.

سیستم‌های حمل‌ونقل فردی هم به قابلیت اطمینان وابسته‌اند. ترمز خودرو باید در شرایط عادی و در باران، برف و دمای پایین یا بالای شدید به‌ درستی پاسخ دهد. تحقیقات نشان می‌دهد که خرابی ترمز یکی از علل اصلی حوادث جاده‌ای است؛ بنابراین، سیستم‌های ترمز مدرن اغلب دارای افزونگی یا همان (Redundancy) هستند که یعنی اگر یک بخش خراب شود، بخش دیگری می‌تواند عملکرد اصلی را حفظ کند.

لوازم خانگی مانند یخچال، ماشین‌لباس‌شویی و اجاق گاز هم نیازمند قابلیت اطمینان هستند. یک یخچال باید هم سرد کند و هم دمای داخلی را در محدوده ایمن (معمولا بین ۱ تا ۴ درجه سانتی‌گراد) حفظ کند تا از رشد باکتری‌های خطرناک جلوگیری شود و خوراکی‌های موجود در آن سالم بماند. سیستم‌های کنترل دما در یخچال‌های مدرن معمولا دارای حسگرهای پشتیبان و مدارهای محافظ هستند که در صورت خرابی اصلی، عملکرد اولیه را تا حد ممکن حفظ می‌کنند.

سیستم‌های تامین آب و برق شهری نمونه‌های دیگری از کاربردهای قابلیت اطمینان هستند. شبکه‌های توزیع برق با استفاده از طراحی‌های شبکه‌ای اطمینان می‌دهند که خرابی یک بخش از شبکه، کل سیستم را از کار نیندازد. این شبکه‌ها معمولا دارای مسیرهای جایگزین هستند که به‌ صورت خودکار بار را توزیع می‌کنند. همچنین، نیروگاه‌ها اغلب دارای واحدهای پشتیبان هستند که در صورت خرابی واحد اصلی، به‌ سرعت وارد مدار می‌شوند تا تداوم تامین برق حفظ شود.

در ساختمان‌سازی، قابلیت اطمینان سازه‌ها با آزمون‌های غیرمخرب مانند تست اولتراسونیک یا رادیوگرافی بررسی می‌شود تا ترک‌ها یا نقص‌های پنهان در جوشکاری‌ها و اتصالات شناسایی شوند. این آزمون‌ها بدون آسیب‌رسانی به سازه انجام می‌شوند و امکان نگهداری پیشگیرانه را فراهم می‌کنند.

قابلیت اطمینان در عصر دیجیتال

عصر دیجیتال چالش‌های جدیدی برای قابلیت اطمینان ایجاد کرده است؛ چالش‌هایی که فراتر از خرابی فیزیکی قطعات هستند و به پیچیدگی نرم‌افزار و آسیب‌پذیری‌های امنیتی مربوط می‌شوند. سیستم‌های نرم‌افزاری مدرن اغلب از میلیون‌ها خط کد تشکیل شده‌اند که هر کدام می‌توانند دارای خطای منطقی باشند. برخلاف قطعات فیزیکی که عمر مفید قابل پیش‌بینی دارند، نرم‌افزار ممکن است پس از سال‌ها کار بدون مشکل، به‌ دلیل تداخل با به‌روزرسانی سیستم‌عامل یا تغییر در محیط اجرا، ناگهان از کار بیفتد.

سیستم‌های ابری مثل گوگل کلاد یا AWS برای اینکه همیشه در دسترس باشند، از چندین روش استفاده می‌کنند: سرورهایشان را در کشورهای مختلف پخش می‌کنند، به‌ طور خودکار از داده‌ها نسخه پشتیبان تهیه می‌کنند و طوری طراحی شده‌اند که اگر یک بخش خراب شود، بقیه بخش‌ها جایش را بگیرند. شرکت‌های ارائه‌دهنده این سرویس‌ها معمولا قول می‌دهند که سرویسشان در سال تنها چند ساعت یا حتی کمتر از یک ساعت قطع شود. اما با وجود همه این تدابیر، گاهی همچنان قطعی رخ می‌دهد، این نشان می‌دهد که در دنیای دیجیتال، هیچ سیستمی صددرصد بی‌نقص نیست.

وابستگی به اینترنت یکی از نقاط ضعف اساسی سیستم‌های دیجیتال مدرن است. بسیاری از اپلیکیشن‌ها و دستگاه‌های هوشمند برای عملکرد پایه‌ای خود به اینترنت وابسته‌اند. قطعی موقت اینترنت می‌تواند باعث شود سیستم‌هایی که در شرایط عادی قابل اعتماد هستند، کاملا از دسترس خارج شوند. مهندسان با پیاده‌سازی حالت‌های آفلاین و ذخیره‌سازی موقت داده‌ها در دستگاه محلی، سعی می‌کنند این وابستگی را کاهش دهند.

قابلیت اطمینان در سیستم‌های دیجیتال به‌ شدت تحت تاثیر آسیب‌پذیری‌های امنیتی قرار دارد. یک سیستم ممکن است از نظر فنی کاملا سالم باشد، اما در صورت حمله سایبری، عملکردش مختل شود یا داده‌هایش دزدیده شود. این بعد از قابلیت اطمینان، نیازمند رویکردهایی برای افزایش امنیت سایبری است.

نگرانی‌های اصلی در توسعه پروژه‌های اینترنت اشیا

آیا می‌توان به یک سیستم بی‌سیم اعتماد کرد که کار خود را به درستی انجام می‌دهد؟

خانه‌های هوشمند با وعده راحتی و کنترل از راه دور وارد زندگی روزمره شده‌اند، اما سوال مهم درباره قابلیت اطمینان این سیستم‌ها این است که آیا می‌توان به دستگاهی که برای عملکردش به سیگنال وای‌فای یا بلوتوث وابسته است، اعتماد کرد؟ پاسخ واضحی وجود ندارد؛ زیرا قابلیت اطمینان سیستم‌های هوشمند خانه به عوامل متعددی مانند کیفیت سخت‌افزار، پایداری شبکه محلی، سازگاری بین دستگاه‌ها و معماری کلی سیستم بستگی دارد. تحقیقات نشان می‌دهند که قطعی موقت وای‌فای یکی از رایج‌ترین مشکلات در خانه هوش مند است که می‌تواند باعث شود دستگاه‌ها به‌ طور موقت از دسترس خارج شوند.

سازگاری بین دستگاه‌های مختلف چالش دیگری است که قابلیت اطمینان را تحت تاثیر قرار می‌دهد. بسیاری از خانه‌های هوشمند از محصولات چندین برند مختلف تشکیل شده‌اند که ممکن است پروتکل‌های ارتباطی متفاوتی داشته باشند. یک لامپ هوشمند از یک برند ممکن است با هاب مرکزی خانه هوشمند از برند دیگر به‌ درستی کار کند، اما پس از به‌روزرسانی نرم‌افزار یکی از دو دستگاه، ارتباط قطع شود. این عدم سازگاری، قابلیت اطمینان سیستم را کاهش می‌دهد. استانداردهای جدیدی مانند Matter سعی دارند با ایجاد یک زبان ارتباطی مشترک، این چالش را کاهش دهند.

وابستگی به سرورهای ابری از دیگر چالش‌های سیستم‌های هوشمند خانه است. بسیاری از دستگاه‌ها برای انجام عملیات ساده‌ای مانند روشن کردن چراغ، نیاز به ارسال دستور به سرورهای دور و دریافت پاسخ دارند. اگر اینترنت قطع شود یا سرور سازنده دچار مشکل شود، دستگاه‌ها ممکن است کاملا غیرفعال شوند، حتی اگر سخت‌افزار محلی کاملا سالم باشد. برخی سازندگان با پیاده‌سازی پردازش محلی سعی کرده‌اند این وابستگی را کاهش دهند تا دستگاه‌ها در صورت قطعی اینترنت، عملکردهای پایه را حفظ کنند.

مسائل امنیتی و حریم خصوصی هم بر قابلیت اطمینان تاثیر مستقیم دارند. دستگاه‌های هوشمند خانه به‌ دلیل محدودیت‌های منابع، اغلب از مکانیزم‌های امنیتی ضعیف‌تری نسبت به کامپیوترهای شخصی استفاده می‌کنند. این آسیب‌پذیری‌ها می‌توانند مورد سوءاستفاده قرار گرفته و باعث خرابی عمدی سیستم شوند. یک حمله سایبری می‌تواند داده‌های خصوصی را لو دهد و عملکرد فیزیکی دستگاه‌ها را مختل کند.

با این چالش‌ها، سیستم‌های هوشمند خانه می‌توانند قابلیت اطمینان قابل قبولی داشته باشند، اگر با اصول مهندسی صحیح طراحی شوند. استفاده از پروتکل‌های ارتباطی محلی مانند Zigbee یا Z-Wave که مستقل از وای‌فای عمل می‌کنند، می‌تواند پایداری سیستم را افزایش دهد. همچنین، طراحی سیستم‌ها با افزونگی، مثلا امکان کنترل دستی چراغ‌ها علاوه بر کنترل هوشمند، تضمین می‌کند که خرابی یک بخش، کل سیستم را از کار نیندازد.

عوامل تهدیدکننده قابلیت اطمینان (Interoperability)

عوامل تهدیدکننده قابلیت اطمینان را می‌توان در سه دسته کلی عوامل فیزیکی، عوامل انسانی و عوامل سایبری طبقه‌بندی می‌شوند. عوامل فیزیکی شامل استهلاک طبیعی قطعات، فرسایش مواد، خوردگی، تغییرات دمایی شدید و ارتعاشات مکرر هستند. این عوامل با گذشت زمان و استفاده مداوم، عملکرد سیستم را کاهش می‌دهند. مهندسان با استفاده از تحلیل عمر خستگی و انتخاب مواد مناسب برای شرایط محیطی خاص، سعی می‌کنند این تاثیرات را به حداقل برسانند، اما حذف کامل آن‌ها غیرممکن است.

خطاهای انسانی یکی از شایع‌ترین عوامل تهدیدکننده قابلیت اطمینان هستند که اغلب در تحلیل‌های فنی نادیده گرفته می‌شوند. این خطاها می‌توانند شامل اشتباه در طراحی، خطای مونتاژ در خط تولید، نصب نادرست توسط نصاب یا استفاده نامناسب توسط مصرف‌کننده باشند. مطالعات نشان می‌دهند که در برخی صنایع حساس مانند هوانوردی و پزشکی، تا ۸۰ درصد حوادث ریشه در خطای انسانی دارند.

عوامل محیطی غیرمنتظره هم می‌توانند قابلیت اطمینان را به‌ شدت تحت تاثیر قرار دهند. سیل، زلزله، طوفان، آتش‌سوزی یا حتی قطعی برق شهری، شرایطی هستند که در طراحی اولیه ممکن است به‌ طور کامل در نظر گرفته نشده باشند. سیستم‌هایی که فقط برای شرایط عادی طراحی شده‌اند، در مواجهه با این حوادث غیرمنتظره به‌ سرعت شکست می‌خورند.

پیچیدگی سیستم‌های مدرن خود یک تهدید برای قابلیت اطمینان محسوب می‌شود. هرچه سیستمی پیچیده‌تر باشد، تعداد تعاملات بین اجزای آن بیشتر شده و احتمال بروز خرابی‌ افزایش پیدا می‌کند. این پدیده که گاهی شکست سیستمی نامیده می‌شود، زمانی رخ می‌دهد که خرابی در یک بخش کوچک، از طریق زنجیره‌ای از وابستگی‌ها، کل سیستم را تحت تاثیر قرار دهد.

عوامل سایبری در دنیای امروز به‌ سرعت در حال تبدیل شدن به تهدید اصلی قابلیت اطمینان هستند. حملات سایبری می‌توانند داده‌ها را هدف قرار دهند و عملکرد فیزیکی سیستم‌ها را مختل کنند. حمله Stuxnet به تاسیسات هسته‌ای ایران در سال ۲۰۱۰ نمونه‌ای از این تهدید بود که با دستکاری نرم‌افزارهای کنترلی صنعتی، سانتریفیوژها را از کار انداخت. در سطح خانگی، دستگاه‌های هوشمند می‌توانند به‌ عنوان نقطه ورود برای حمله به کل شبکه خانگی مورد سوءاستفاده قرار گیرند.

فشارهای اقتصادی و تجاری هم می‌توانند به‌ طور غیرمستقیم قابلیت اطمینان را تهدید کنند. رقابت شدید در بازار ممکن است سازندگان را وادار کند زمان آزمون‌های کافی را کوتاه کنند یا از قطعات ارزان‌تر با کیفیت پایین‌تر استفاده کنند. این تصمیمات ممکن است در ابتدا هزینه‌ها را کاهش دهند، اما در بلندمدت منجر به خرابی‌های بیشتر و کاهش اعتماد مصرف‌کنندگان می‌شوند.

مهندسان چگونه قابلیت اطمینان را طراحی می‌کنند؟

مهندسی قابلیت اطمینان از مراحل اولیه طراحی آغاز می‌شود. مهندسان با استفاده از تحلیل شکست‌های بالقوه و اثرات آن (FMEA) تمام حالت‌های خرابی ممکن را شناسایی می‌کنند و بر اساس شدت، وقوع و قابلیت تشخیص، اولویت‌بندی می‌کنند. این تحلیل به تیم طراحی کمک می‌کند تا نقاط ضعف احتمالی را قبل از ساخت شناسایی کرده و راهکارهای پیشگیرانه را لحاظ کنند. FMEA یکی از ابزارهای استاندارد در چارچوب IEC 60300 برای بهبود قابلیت اطمینان است.

افزونگی یکی از موثرترین تکنیک‌های مهندسی برای افزایش قابلیت اطمینان است. در این روش، اجزای اصلی سیستم به‌ صورت موازی قرار می‌گیرند تا در صورت خرابی یکی، دیگری بلافاصله جایگزین شود. سیستم‌های هواپیما نمونه‌ای از این رویکرد هستند. بسیاری از سیستم‌های کنترل پرواز دارای سه یا چهار کامپیوتر موازی هستند که به‌ صورت مستقل عمل کرده و نتایج را با یکدیگر مقایسه می‌کنند. اگر یکی خراب شود، سیستم به‌ طور خودکار آن را از سیستم خارج و از سایرین میخواهد که مسیر و کنترل را ادامه می‌دهد و جایگزین آن باشند.

تحلیل نمودار بلوکی قابلیت اطمینان، روشی است که قابلیت اطمینان اجزای سیستم را نمایش می‌دهد. در این نمودار، هر جزء با یک بلوک نمایش داده می‌شود و اتصالات نشان می‌دهند که آیا سیستم برای عملکرد نیاز به کارکرد همه اجزا دارد (اتصال سری) یا کافی است یکی از مسیرها کار کند (اتصال موازی). این تحلیل به مهندسان امکان می‌دهد تاثیر خرابی هر جزء را بر کل سیستم کمی‌سازی کرده و نقاط بحرانی را شناسایی کنند.

آزمون‌های تسریع‌شده عمر (HALT) در مراحل توسعه محصول انجام می‌شوند تا نقاط ضعف طراحی در معرض شرایط شدید قرار گیرند. در این آزمون‌ها، نمونه‌های اولیه تحت دماهای شدید، ارتعاشات شدید و تغییرات ناگهانی رطوبت قرار می‌گیرند تا خرابی‌ها به سرعت رخ دهند. هدف HALT کشف نقاط ضعف است، بنابراین، آزمون تا زمان شکست کامل ادامه می‌یابد. داده‌های به‌دست‌آمده به مهندسان امکان می‌دهد قبل از تولید انبوه، طراحی را اصلاح کنند.

تحلیل درخت خطا روشی است که مهندسان با آن دنبال علت‌های یک حادثه بزرگ می‌گردند، اما به‌ جای جلو رفتن، از خود حادثه شروع می‌کنند و به‌ عقب بازمی‌گردند تا بفهمند چه اتفاقاتی با هم ترکیب شده‌اند و باعث آن شده‌اند. مثلا اگر هدف این باشد که بفهمیم چرا هواپیما سقوط کرد؟ این روش تمام سناریوهای ممکن را بررسی می‌کند: شاید هم سنسور ارتفاع خراب شده بود و خلبان متوجه نشده بود (حالت AND)، یا شاید فقط موتور خراب شده بود یا سوخت تمام شده بود (حالت OR).

این تحلیل در سیستم‌های حساس مثل نیروگاه‌های هسته‌ای یا پالایشگاه‌های نفت کاربرد دارد، چون جان انسان‌ها به عملکرد صحیح آن‌ها بستگی دارد. این روش طبق استانداردهای جهانی مانند IEC 61025 انجام می‌شود تا همه مهندسان از یک روش یکسان استفاده کنند.

وقتی یک محصول به بازار می‌رود، مهندسان کارشان تمام نمی‌شود. آن‌ها خرابی‌های واقعی که برای کاربران رخ می‌دهد را ثبت و بررسی می‌کنند تا بفهمند مشکل از کجاست. مثلا اگر بیشتر کاربران گزارش دهند که باتری گوشی بعد از شش ماه ضعیف می‌شود، مهندسان این الگو را تشخیص داده و در نسخه بعدی گوشی، باتری بهتری نصب می‌کنند یا نرم‌افزار را طوری تغییر می‌دهند که باتری کمتر خراب شود. گاهی هم اگر خرابی خطرناک باشد، شرکت محصول را از بازار جمع‌آوری می‌کند تا کاربران آسیب نبینند.

قیمت قابلیت اطمینان: آیا همیشه ارزش پرداخت بیشتر را دارد؟

قابلیت اطمینان همیشه هزینه دارد، اما این هزینه به‌ صورت یکنواخت افزایش نمی‌یابد. تصور کنید می‌خواهید یک چراغ قوه بسازید که هرگز خاموش نشود: ساخت چراغ قوه‌ای که ۹۰ درصد مواقع کار کند آسان و ارزان است؛ اما اگر بخواهید به ۹۹ درصد برسید، باید قطعات گران‌تر، باتری پشتیبان و مدارهای اضافه بگذارید که هزینه را چند برابر می‌کند. پس مهندسان باید بین نیاز واقعی و هزینه تعادل برقرار کنند. برای چراغ قوه معمولی، ۹۰ درصد کافی است؛ اما برای چراغ قوه نجات‌دهنده در کوهستان، شاید به ۹۹.۹ درصد نیاز باشد، حتی اگر گران‌تر تمام شود.

قطعی یک ساعته یک بازی موبایل فقط باعث ناراحتی موقت می‌شود، اما همان یک ساعت توقف در سیستم بانکی می‌تواند میلیون‌ها تومان ضرر ایجاد کند. پس سیستم بانکی نیاز به قابلیت اطمینان بسیار بالاتری دارد. همچنین، هنگام خرید محصول، نباید فقط قیمت اولیه را در نظر گرفت. یک محصول گران‌قیمت اما با قابلیت اطمینان بالا، در بلندمدت ممکن است به‌ دلیل کمتر شدن تعمیرات، از یک محصول ارزان‌تر اما شکننده، مقرون‌به‌صرفه‌تر باشد.

گاهی تلاش برای افزایش قابلیت اطمینان باعث پیچیدگی بیش از حد می‌شود که دلیلی برای خرابی است. افزودن سیستم‌های پشتیبان زیاد یا مکانیزم‌های نظارتی پیچیده، تعداد قطعات را بالا برده و احتمال خرابی کل سیستم را افزایش می‌دهد. در چنین مواردی، سادگی گاهی قابلیت اطمینان بیشتری ایجاد می‌کند تا افزایش سیستم‌های پشتیبان.

قابلیت اطمینان باید با کاربرد واقعی محصول هماهنگ باشد. یک ساعت دیواری که ماهی یک دقیقه عقب می‌افتد، برای خانه مشکلی ندارد؛ اما همین ساعت برای آزمایشگاه پزشکی غیرقابل قبول است. پس نباید برای همه چیز بالاترین سطح قابلیت اطمینان را در نظر گرفت، این کار هزینه‌های غیرضروری ایجاد می‌کند.

در سیستم‌هایی که جان انسان در میان است، مثل ترمز خودرو یا دستگاه‌های پزشکی، افزایش قابلیت اطمینان یک انتخاب اخلاقی است، نه صرفا اقتصادی. در این موارد، سازندگان موظفند هزینه‌های لازم را بپردازند، حتی اگر سود کوتاه‌مدت را کاهش دهد؛ چون امنیت انسان‌ها از هر سود مالی مهم‌تر است.

سخن پایانی

قابلیت اطمینان یا Interoperability از پلی که روزانه از آن عبور می‌کنیم تا گوشی‌ای که با آن پیام می‌فرستیم و از یخچال خانه تا اپلیکیشن بانک، یک مفهوم پنهان اما ضروری در زندگی ماست. این مفهوم یعنی سیستم هم یک‌ بار کار کند و هم ماه‌ها و سال‌ها بدون وقفه و به‌ صورت قابل پیش‌بینی کار کند. فرق قابلیت اطمینان با کیفیت و دوام هم این است که کیفیت به ظاهر و جنس ساختار اولیه مربوط می‌شود و دوام یعنی دستگاه زیاد عمر کند؛ اما قابلیت اطمینان یعنی دستگاه درست و بی‌وقفه کار کند.

علاوه بر این، هوشمند بودن زمانی ارزش دارد که همراه با قابلیت اطمینان باشد. یک یخچال هوشمند که دمای داخلش را به‌ طور خودکار تنظیم می‌کند، اگر یک‌ بار در ماه به‌ دلیل قطعی اینترنت یا خطا در نرم‌افزار دمایش را از دست بدهد، ممکن است همه مواد غذایی را خراب کند. سیستم آبیاری هوشمند که باید در شب‌های گرم باغ را آبیاری کند، اگر به‌ طور ناگهانی پاسخگو نباشد، گیاهان را تشنه می‌گذارد. نورپردازی هوشمند خانه که قرار است با حضور شما چراغ‌ها را روشن کند، اگر در تاریکی کامل خاموش بماند، باعث ناراحتی می‌شود. در نهایت، فناوری هوشمند باید زندگی را ساده‌تر کند، نه اینکه دغدغه‌ای جدید برای رفع خرابی‌های غیرمنتظره ایجاد کند.

هیچ سیستمی کاملا بی‌عیب نیست، استهلاک، اشتباه انسان یا هک همیشه خطر دارد. اما مهندسان با روش‌هایی مثل تست‌های سخت، ساخت سیستم‌های پشتیبان و بررسی دقیق نقاط ضعف، احتمال خرابی را به حداقل می‌رسانند. البته هرچه بخواهیم سیستم را بیشتر قابل اعتماد کنیم، هزینه‌اش بالا می‌رود؛ پس باید بین نیاز واقعی و هزینه تعادل برقرار کرد.