91桃色成人wangxhab丨女人精69xxx免费观丨欧美一区2区三区4区贰佰公司丨最新成人丨久久精品亚洲中文无东京热丨少妇无码一区二区三区免费丨色欧美综合丨国产china男男激情丨麻豆丰满少妇chinese丨成人羞羞视频国产丨亚洲专区视频丨久久嗨丨丁香花在线观看免费观看图片丨熟妇丰满多毛的大隂户丨91大奶丨精品乱人码一区二区二区丨欧美精品与人动性物交免费看丨欧美日韩精品免费丨精品国语对白丨99久久精品费精品国产一区二

收藏本站在線留言網(wǎng)站地圖

您好,歡迎來到深圳聯(lián)樂實(shí)業(yè)有限公司官網(wǎng)
咨詢熱線

400-888-2720

聯(lián)樂實(shí)業(yè)

工業(yè)存儲(chǔ)/工業(yè)電腦服務(wù)商

21年專注高可靠性國(guó)產(chǎn)化工業(yè)存儲(chǔ)產(chǎn)品及解決方案

揭秘:SSD的“可靠性”到底可不可靠

返回列表 來源: 發(fā)布日期: 2021.10.11

企業(yè)環(huán)境復(fù)雜多變,快速增長(zhǎng)的業(yè)務(wù)需求使得企業(yè)在數(shù)據(jù)存儲(chǔ)規(guī)模、存儲(chǔ)性能和可靠性等多方面提出了越來越高的要求。SSD固態(tài)硬盤憑借極高的讀寫性能、極低延遲成為越來越多企業(yè)的首選解決方案,并在數(shù)據(jù)庫、虛擬化、應(yīng)用加速、大數(shù)據(jù)、云計(jì)算乃至人工智能等領(lǐng)域發(fā)揮重要作用。企業(yè)級(jí)SSD往往需要在高并發(fā)、大壓力、24小時(shí)全天候運(yùn)行的嚴(yán)苛環(huán)境下運(yùn)行,其可靠性是企業(yè)級(jí)用戶的重點(diǎn)關(guān)注之一。

1

可靠性指的是一個(gè)部件或系統(tǒng)在規(guī)定的操作條件下,在特定的時(shí)間內(nèi)繼續(xù)執(zhí)行其預(yù)定功能的能力。對(duì)企業(yè)級(jí)SSD而言,它是非常重要的一項(xiàng)指標(biāo),不僅直接決定產(chǎn)品出貨的良率、故障率等核心指標(biāo),而且對(duì)數(shù)據(jù)可用性、一致性的保護(hù),也起著關(guān)鍵作用。

可靠性量化指標(biāo) —— MTBF

SSD的“可靠性”通常以MTBF量化衡量。MTBF全稱Mean Time between Failures,平均故障間隔時(shí)間,即產(chǎn)品在總的使用階段累計(jì)工作時(shí)間與故障次數(shù)的比值。它反映了產(chǎn)品的時(shí)間質(zhì)量,產(chǎn)品故障越少,MTBF越高,產(chǎn)品可靠性也就越高。

與消費(fèi)級(jí)SSD產(chǎn)品相比,企業(yè)級(jí)SSD在可靠性方面面臨更高挑戰(zhàn)。根據(jù)OCP(Open Compute Project)給出的建議,部署于數(shù)據(jù)中心的企業(yè)級(jí)SSD MTBF平均故障間隔時(shí)間要在2,000,000小時(shí),也是目前企業(yè)級(jí)SSD奉行的標(biāo)準(zhǔn)。但是,MTBF是需要實(shí)際跑測(cè)驗(yàn)證的,不能憑空而來。按照傳統(tǒng)方法,要完成多次200萬小時(shí)的驗(yàn)證顯然不可能。那么,這長(zhǎng)達(dá)200萬小時(shí)的平均故障間隔時(shí)間,又是如何得到的呢?

答案是基于一定樣本量,在一定時(shí)間段內(nèi)通過加速因子加速(如寫入量加速、運(yùn)行環(huán)境溫度加速)進(jìn)行統(tǒng)計(jì)推斷。過程模擬典型用戶場(chǎng)景,通過實(shí)測(cè)驗(yàn)證理論值,提前驗(yàn)收產(chǎn)品質(zhì)量。嚴(yán)謹(jǐn)?shù)呐軠y(cè)驗(yàn)證將直接決定MTBF“可靠性指標(biāo)”是否真的可靠。

MTBF 的表征時(shí)期

和大部分電子產(chǎn)品一樣,SSD同樣符合浴盆曲線(失效率曲線)特性,它分為三個(gè)關(guān)鍵時(shí)期:

1

早期失效期(Infant Mortality)

產(chǎn)品在剛生產(chǎn)好并加電使用時(shí),因良率等因素會(huì)導(dǎo)致其失效率較高。為保證交付到客戶手上的SSD符合企業(yè)級(jí)可靠性標(biāo)準(zhǔn),企業(yè)級(jí)SSD廠商會(huì)對(duì)所有生產(chǎn)線上的產(chǎn)品進(jìn)行一定時(shí)長(zhǎng)的老化跑測(cè),以最大程度暴露產(chǎn)品可能的早期失效,保證客戶拿到的產(chǎn)品不存在早期失效問題。

偶然失效期(Random Failures or Normal Life)

這一階段對(duì)應(yīng)正式出貨產(chǎn)品,產(chǎn)品失效率較低,且較穩(wěn)定。產(chǎn)品可靠性指標(biāo)MTBF所描述的就是這個(gè)時(shí)期,即產(chǎn)品的穩(wěn)定使用階段。

磨損期(Wearout Phase)

該階段因產(chǎn)品磨損、老化等因素,其失效率會(huì)隨時(shí)間的延長(zhǎng)而呈指數(shù)級(jí)增加。此時(shí)SSD宣稱壽命已經(jīng)結(jié)束,雖可繼續(xù)使用,但壞塊會(huì)隨著PE的增加而加速上升,SSD的有效預(yù)留空間(OP)逐漸消耗殆盡,設(shè)備失效率提高。對(duì)企業(yè)級(jí)SSD而言,進(jìn)入磨損期的產(chǎn)品已不建議繼續(xù)使用。

MTBF = MTTF?

在MTBF之外,你可能還聽過另外一個(gè)可靠性描述的詞——MTTF。對(duì)于一個(gè)可維護(hù)的設(shè)備來說,MTBF = MTTF + MTTR,三者關(guān)系如下:

1

MTTF (Mean Time To Failure,平均失效時(shí)間):指系統(tǒng)兩次失效的平均時(shí)間,取所有從系統(tǒng)開始正常運(yùn)行到發(fā)生故障之間的時(shí)間段的平均值。MTTF =∑T1/ N;

MTTR (Mean Time To Repair,平均修復(fù)時(shí)間):指系統(tǒng)從發(fā)生故障到維修結(jié)束之間時(shí)間段的平均值。MTTR =∑(T2+T3)/ N;

MTBF (Mean Time Between Failure,平均無故障時(shí)間):指系統(tǒng)兩次故障發(fā)生之間(包括故障維修)時(shí)間段的平均值。MTBF =∑(T2+T3+T1)/ N。

因?yàn)镸TTR通常遠(yuǎn)遠(yuǎn)小于MTTF,所以MTBF近似等于MTTF。

MTTF理論計(jì)算公式,2,000,000小時(shí)如何而來?

最簡(jiǎn)單的情況下,MTTF計(jì)算遵循如下公式:
2
其中:

Ai 為 SSD i 的加速因子;

ti 為 SSD i 的測(cè)試時(shí)間;

nf 為出現(xiàn)故障 SSD 的數(shù)量;

a 為置信度(confidence limit,60%);

x2 為卡方分布(chi-squared distribution)。

上述等式中的加速因子通常分為3類:

未加速因子:A=1,通常用于固件故障;

TBW(Total Bytes Written)加速因子 :通過增加數(shù)據(jù)寫入強(qiáng)度進(jìn)行壽命加速;

溫度加速因子 :通過升高測(cè)試環(huán)境溫度進(jìn)行故障出現(xiàn)加速。

TBW (Total Bytes Written) 加速因子 

TBW是SSD壽命單位,以壽命為1.5 DWPD,用戶容量3.84TB PBlaze6 SSD為例,其5年總的數(shù)據(jù)寫入量(也就是現(xiàn)場(chǎng)部署寫入量field)為10.5 PB,對(duì)應(yīng)每天數(shù)據(jù)寫入量為5.76 TB。如果增加每天的數(shù)據(jù)寫入量(加速寫入量stress),相當(dāng)于加快消耗SSD壽命,可以加速故障出現(xiàn)。TBW加速因子計(jì)算方法如下:

1

假設(shè)一個(gè)用戶容量為100G的SSD,其產(chǎn)品規(guī)格書定義SSD壽命為175TBW,典型使用場(chǎng)景下可使用5年(43800個(gè)小時(shí))。其在1008小時(shí)內(nèi)寫入130TB的數(shù)據(jù),寫放大為1.2,則TBW加速因子為32,如果短時(shí)間內(nèi)寫入更多數(shù)據(jù),則TBW加速因子也會(huì)相應(yīng)提升。

2

溫度加速因子 

NAND因其固有特性,數(shù)據(jù)保持力會(huì)隨著溫度的升高而降低。阿倫尼烏斯公式(Arrhenius Equation)指出,在室溫 40℃ 下SSD放置 1 年(8670個(gè)小時(shí)),相當(dāng)于在 85℃ 的老化室中放置 52 個(gè)小時(shí)。

JESD 22-A108定義了溫度隨時(shí)間對(duì)SSD的影響,執(zhí)行高溫運(yùn)行壽命(HTOL,High Temperature Operating Life)測(cè)試,可確定長(zhǎng)時(shí)間高溫條件下SSD運(yùn)行的可靠性。協(xié)議規(guī)定,如果沒有特殊要求,SSD需在 125 °C 的結(jié)溫壓力下測(cè)試。但企業(yè)級(jí)SSD一般會(huì)設(shè)計(jì)高溫保護(hù)邏輯,防止溫度過高造成NAND數(shù)據(jù)保持力下降和元器件的損壞,所以SSD的實(shí)際工作溫度不會(huì)達(dá)到125℃。

對(duì)于溫度加速因子,計(jì)算方法如下:

1

其中:
Ea 為失效模型的活化能 ,一般為0.7 eV;
k 為玻爾茲曼常數(shù),8.617 x 10-5 eV/°K;
T? 為工作溫度 (標(biāo)準(zhǔn)取值為 55°C 或者 328°K);

T? 為測(cè)試加速溫度。

MTTF計(jì)算示例

假設(shè)樣本量為 400,測(cè)試時(shí)間為 1008 小時(shí),加速因子Ai = A(TBW) * A(T) 為10,失敗的數(shù)量為0,置信度為60%,則 MTTF = MTBF = 4,400,000小時(shí)。

1

注意,MTBF是和溫度嚴(yán)格相關(guān)的。這一點(diǎn)在OCP Datacenter NVMe? SSD Specification中也有提到:

MTBF 2,500,000小時(shí)(AFR≤0.35%),對(duì)應(yīng)的SSD運(yùn)行溫度為0℃~50℃;

MTBF 2,000,000小時(shí)(AFR≤0.44%),對(duì)應(yīng)的SSD運(yùn)行溫度為0℃~55℃。

但理論和現(xiàn)實(shí)總是有差距的。現(xiàn)實(shí)中產(chǎn)品意義上的MTBF測(cè)試,很難達(dá)到10倍的加速因子,TBW加速因子僅能用于測(cè)試NAND顆粒的壽命,實(shí)際測(cè)試中還需要考慮電路和物理接口等硬件部分的可靠性。而這部分,只能靠溫度來加速。實(shí)際操作中,MTBF=200萬小時(shí)的測(cè)試,需要至少用2000片樣品在加速因子作用下,跑滿1000小時(shí)以上。

MTBF 和 AFR 又是什么關(guān)系?

除了MTBF指標(biāo),還有其他可靠性量化表征指標(biāo),如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互轉(zhuǎn)化。

故障率λ:SSD關(guān)鍵元器件選型時(shí),需要確保每個(gè)元器件的故障率 λ 達(dá)標(biāo)。相比故障率指標(biāo),MTBF的定義更加直接,也更適用于表現(xiàn)系統(tǒng)級(jí)的可靠性;

AFR:年化故障率,可以更好地了解在任何一年中發(fā)生硬盤故障的幾率。

MTBF 和 AFR轉(zhuǎn)化公式如下:
MTBFhours = 1/λhours
MTBFyears = 1/(λhours*24*365)
AFR = 365*24hours*λhours = 8760hours/MTBFhours

MTBF 和 AFR 的數(shù)值對(duì)應(yīng)關(guān)系如下:

1

企業(yè)級(jí)SSD產(chǎn)品可靠性MTBF ≥ 2,000,000小時(shí)(@55℃),換算為年化失效率AFR ≤ 0.44%,對(duì)應(yīng)FFR(Functional Failure Requirement,SSD在整個(gè)磨損壽命時(shí)間范圍內(nèi)累積的功能失效率,以5年保修期為參考)≤2.2%。

Memblaze全系列企業(yè)級(jí)SSD均按照2,000,000小時(shí)MTBF @55℃ /2,500,000小時(shí)MTBF@50℃為標(biāo)準(zhǔn),滿足55℃/50℃環(huán)境下7×24小時(shí)穩(wěn)定不間斷運(yùn)行要求、40℃環(huán)境下數(shù)據(jù)至少3個(gè)月斷電保持能力以及低于1E-17的UBER不可修復(fù)錯(cuò)誤率。

MTBF的驗(yàn)證

Memblaze自研測(cè)試平臺(tái)Whale系統(tǒng)

在數(shù)據(jù)可靠性技術(shù)領(lǐng)域,Memblaze自研了MemSolid 技術(shù)集,以保證企業(yè)級(jí)數(shù)據(jù)的一致性和可靠性。通過全路徑數(shù)據(jù)保護(hù)、LDPC軟判決解碼糾錯(cuò)技術(shù)、元數(shù)據(jù)跨Channel備份保護(hù)、Die間動(dòng)態(tài)RAID5恢復(fù)壞塊數(shù)據(jù)機(jī)制,以及重讀保護(hù)和過溫保護(hù)等技術(shù),實(shí)現(xiàn)了PBlaze可持續(xù)的數(shù)據(jù)一致性保護(hù),保障企業(yè)關(guān)鍵業(yè)務(wù)數(shù)據(jù)資產(chǎn)始終處于安全可靠的存儲(chǔ)環(huán)境中。

為確保出廠的SSD產(chǎn)品能夠滿足MTBF的標(biāo)準(zhǔn),Memblaze運(yùn)用十余年在固態(tài)硬盤領(lǐng)域的經(jīng)驗(yàn)積累,以及對(duì)用戶實(shí)際應(yīng)用的理解,自主研發(fā)出MTBF測(cè)試平臺(tái) —— Whale系統(tǒng)。

它參照J(rèn)EDEC標(biāo)準(zhǔn)打造,適用于PCIe SSD的研發(fā)(DVT)、環(huán)境應(yīng)力(EST,Environmental Stress Test)、數(shù)據(jù)保持力、生產(chǎn)(老化,ORT,Ongoing Reliability Testing)、RDT等測(cè)試。Whale系統(tǒng)預(yù)置了最接近客戶真實(shí)使用場(chǎng)景的測(cè)試案例,采用合理的加速因子對(duì)RDT階段產(chǎn)品進(jìn)行長(zhǎng)時(shí)間跑測(cè),成為產(chǎn)品量產(chǎn)前的質(zhì)量保障。

根據(jù)Memblaze的出貨量和實(shí)際故障率統(tǒng)計(jì),PBlaze系列SSD的實(shí)際累計(jì)產(chǎn)品失效率(CFR,Cumulative Failure Rate)遠(yuǎn)低于標(biāo)稱的年化故障率。

經(jīng)過十幾年在SSD行業(yè)的深耕打磨,Memblaze 已經(jīng)形成從芯片、軟件、硬件、生產(chǎn)、出貨等各個(gè)環(huán)節(jié)的嚴(yán)密設(shè)計(jì)和嚴(yán)格的質(zhì)量管控體系,能夠保證PBlaze系列企業(yè)級(jí)固態(tài)硬盤為客戶提供卓越的可靠性,也極大降低了客戶系統(tǒng)運(yùn)行開銷(OPEX)和總體擁有成本(TCO),而Memblaze也將繼續(xù)以匠心精神,不斷打磨,不負(fù)所期!

聯(lián)樂實(shí)業(yè),工業(yè)存儲(chǔ)/工業(yè)電腦服務(wù)商,專注高可靠性國(guó)產(chǎn)化工業(yè)存儲(chǔ)產(chǎn)品及解決方案!詳情進(jìn)入m.sxllepc.com.cn或垂詢400-888-2720