安全動態(tài)

如何避開數(shù)據(jù)湖中的"鱷魚"陷阱

來源:聚銘網(wǎng)絡(luò)    發(fā)布時(shí)間:2025-09-12    瀏覽次數(shù):
 

數(shù)據(jù)湖顧名思義就是龐大的數(shù)據(jù)存儲庫,它們用于容納海量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)通常未經(jīng)篩選,往往存在重復(fù),通常未解析且粒度較低(例如日志文件、系統(tǒng)狀態(tài)記錄、網(wǎng)站點(diǎn)擊流數(shù)據(jù))。隨著物聯(lián)網(wǎng)傳感器的普及,以及智能體輸出的不斷涌入,這類數(shù)據(jù)正以前所未有的規(guī)模流入數(shù)據(jù)湖。

總體來說,數(shù)據(jù)湖被認(rèn)為是一件好事,它讓企業(yè)能夠確保捕獲所有可能在IT堆棧各個(gè)業(yè)務(wù)環(huán)節(jié)中流轉(zhuǎn)的數(shù)據(jù)。對于任何一家企業(yè)的首席數(shù)據(jù)科學(xué)家來說,能在需要時(shí)調(diào)用尚未被充分利用的數(shù)據(jù)儲備,無疑是一種安心。作為企業(yè)數(shù)據(jù)戰(zhàn)略的重要舉措,數(shù)據(jù)湖同樣體現(xiàn)了數(shù)據(jù)的民主化:這是一個(gè)極深的數(shù)據(jù)池——只要穿好“救生衣”(即遵循安全與合規(guī)規(guī)范),包括業(yè)務(wù)用戶在內(nèi)的任何人都可以隨時(shí)下水探索。

數(shù)據(jù)湖同樣可以存儲結(jié)構(gòu)化數(shù)據(jù),例如來自CRM系統(tǒng)或ERP系統(tǒng)的信息流,但這一角色往往較少被提及。

在當(dāng)下“AI無處不在”的大環(huán)境下,企業(yè)需要實(shí)現(xiàn)對自身業(yè)務(wù)和客戶行為的端到端可視化。數(shù)據(jù)湖幫助實(shí)現(xiàn)了這一目標(biāo),同時(shí)確保企業(yè)可以圍繞一個(gè)集中式存儲庫進(jìn)行運(yùn)作,從而避免數(shù)據(jù)孤島的滋生——這也是它的價(jià)值所在。

危險(xiǎn):深水暗涌

和幾乎所有技術(shù)一樣,數(shù)據(jù)湖也有“陰陽兩面”。回想千禧年前(或至少上云之前),一家企業(yè)可能運(yùn)行著40多個(gè)數(shù)據(jù)庫。用戶要訪問數(shù)據(jù),就必須掌握這40多個(gè)數(shù)據(jù)庫的屬性,以及對應(yīng)的安全措施和流程。而在單一數(shù)據(jù)湖中,理論上只要有人擁有合適的憑據(jù),就可能通過一個(gè)入口訪問所有數(shù)據(jù)。

許多公司追求的所謂“單一視窗”戰(zhàn)略,意在統(tǒng)一數(shù)據(jù)、應(yīng)用和業(yè)務(wù)操作的洞察與管理,然而,同樣的“單一視窗”,對入侵者來說,只需打破這一扇窗,就能進(jìn)入核心數(shù)據(jù)資產(chǎn)。

這一現(xiàn)實(shí)由Perforce公司AI與SaaS產(chǎn)品主管Steve Karam特別強(qiáng)調(diào)。Perforce是一家以企業(yè)級版本控制、應(yīng)用測試與生命周期管理為傳統(tǒng)優(yōu)勢的DevOps平臺公司。Karam在本周的一場數(shù)據(jù)分析圓桌會議上指出,水下的危險(xiǎn)遠(yuǎn)不止如此。

“別忘了,幾乎每家企業(yè)都有一個(gè)‘Sam’。他們可能在公司工作了幾十年,在此期間構(gòu)建了一個(gè)只有他們自己知道的數(shù)據(jù)庫?,F(xiàn)在Sam離開了,這個(gè)數(shù)據(jù)庫就成了一個(gè)‘黑箱’。如果把Sam的數(shù)據(jù)庫放進(jìn)數(shù)據(jù)湖,后果可能非常嚴(yán)重。”Karam舉例說,“如果Sam的數(shù)據(jù)存儲包含重復(fù)的個(gè)人可識別信息(PII),而這些字段已無人追蹤?這無疑成了湖底‘鱷魚’的溫床——本就破碎的流程被進(jìn)一步放大?!?

Karam進(jìn)一步提醒,當(dāng)AI介入后,情況更加復(fù)雜。相比那些能夠精準(zhǔn)編寫查詢、精細(xì)化處理數(shù)據(jù)的分析師,如今的AI表現(xiàn)出一種“貪婪無度”的胃口(他甚至創(chuàng)造了一個(gè)新詞——datavore,數(shù)據(jù)食者),它想要吞掉所有數(shù)據(jù),還像個(gè)“話癆”,泄露的秘密可能比醉酒節(jié)日晚宴上的健談親戚還要多。由此,風(fēng)險(xiǎn)格局隨之急劇擴(kuò)張。

回歸現(xiàn)實(shí):價(jià)值與風(fēng)險(xiǎn)并存

“這確實(shí)是個(gè)難題:企業(yè)各個(gè)團(tuán)隊(duì)依賴快速的數(shù)據(jù)訪問來構(gòu)建和測試軟件、加快上市速度并優(yōu)化戰(zhàn)略,但數(shù)據(jù)湖本身又確實(shí)非常有用?!盞aram指出。

例如,滿足客戶體驗(yàn)個(gè)性化需求,越來越需要調(diào)用細(xì)粒度數(shù)據(jù),然而,風(fēng)險(xiǎn)同樣真實(shí)存在。Karam援引市場研究結(jié)果稱,大約有一半的企業(yè)報(bào)告稱,他們已經(jīng)在非生產(chǎn)環(huán)境中經(jīng)歷過涉及敏感數(shù)據(jù)的數(shù)據(jù)泄露或竊取事件。

解法:分層與編目

那么該如何應(yīng)對?Karam認(rèn)為,數(shù)據(jù)編目與分層管理是一個(gè)良好的起點(diǎn),并以Microsoft提出的Medallion架構(gòu)為例。

微軟實(shí)際上將其稱為Medallion數(shù)據(jù)湖倉架構(gòu)(Data Lakehouse Architecture),它融合了數(shù)據(jù)湖與數(shù)據(jù)倉庫的優(yōu)勢:既保留數(shù)據(jù)湖的容量與靈活性,又具備數(shù)據(jù)倉庫的數(shù)據(jù)管理和事務(wù)處理能力。本質(zhì)上,它是一種用于邏輯化組織數(shù)據(jù)的數(shù)據(jù)設(shè)計(jì)模式。

微軟在其學(xué)習(xí)平臺上解釋道:

“Medallion架構(gòu)定義了一系列數(shù)據(jù)層,用于表示湖倉中數(shù)據(jù)的質(zhì)量。Azure Databricks推薦采用多層方法,構(gòu)建企業(yè)數(shù)據(jù)產(chǎn)品的‘單一事實(shí)來源’,這一架構(gòu)確保了數(shù)據(jù)的原子性、一致性、隔離性與持久性(ACID),數(shù)據(jù)在經(jīng)過多層驗(yàn)證與轉(zhuǎn)換后,最終以優(yōu)化布局存儲,以支持高效分析。”

下一步是合成,但又真實(shí)可感。

數(shù)據(jù)脫敏與合成數(shù)據(jù)

“下一步是找到一種方式,為非生產(chǎn)團(tuán)隊(duì)(這里指的是我們的軟件應(yīng)用開發(fā)同事)提供真實(shí)可用的數(shù)據(jù),同時(shí)又不帶來風(fēng)險(xiǎn),這意味著要采用數(shù)據(jù)脫敏以及合成數(shù)據(jù)等技術(shù)。合成數(shù)據(jù)在真實(shí)數(shù)據(jù)不足以匹配新業(yè)務(wù)場景,或者合規(guī)要求完全禁止訪問生產(chǎn)數(shù)據(jù)時(shí),尤其有價(jià)值。它的生成速度快,并且特別適合大規(guī)模使用場景,例如單元測試。”Perforce的Karam解釋道。

靜態(tài)數(shù)據(jù)脫敏會用合成但逼真的數(shù)值替換掉敏感數(shù)據(jù)(例如個(gè)人可識別信息——還記得Sam和PII的隱患嗎?),這些數(shù)值具有確定性和持久性,因此可以維持引用完整性和人口統(tǒng)計(jì)特征,這意味著,軟件開發(fā)人員既能獲得真正有用的數(shù)據(jù),又不會冒著意外泄露客戶敏感信息的風(fēng)險(xiǎn)。

一個(gè)實(shí)際例子是:銀行的開發(fā)團(tuán)隊(duì)可以看到客戶賬戶余額,以便發(fā)現(xiàn)異常、波動或其他離群點(diǎn),但他們完全不知道這些余額屬于哪位客戶。出生日期、社會安全號、銀行賬號以及其他個(gè)人標(biāo)識信息都會被脫敏。許多企業(yè)往往會同時(shí)采用數(shù)據(jù)脫敏和合成數(shù)據(jù),并借助高度自動化的工具來支持,從而避免額外增加開發(fā)人員的工作負(fù)擔(dān)。

風(fēng)險(xiǎn)規(guī)避:干凈且合規(guī)的數(shù)據(jù)環(huán)境

“新的AI應(yīng)用場景也能發(fā)揮作用。除了合成數(shù)據(jù),AI還可以通過自然語言處理來支持自動化測試,幫助測試團(tuán)隊(duì)擺脫編寫測試腳本和維護(hù)生產(chǎn)數(shù)據(jù)關(guān)系的負(fù)擔(dān)?!盞aram說道。

“即使一家企業(yè)已經(jīng)全面投入數(shù)據(jù)湖,它仍然應(yīng)該把軟件開發(fā)和質(zhì)量保證數(shù)據(jù)視為獨(dú)立的數(shù)據(jù)環(huán)境,保持風(fēng)險(xiǎn)規(guī)避、健壯、干凈、合規(guī)并且快速交付,讓團(tuán)隊(duì)可以放心構(gòu)建。數(shù)據(jù)湖本身也應(yīng)為非生產(chǎn)團(tuán)隊(duì)劃分獨(dú)立的工作空間,保證其中的數(shù)據(jù)合規(guī)且安全,使團(tuán)隊(duì)能夠無障礙地直接使用。這就像在湖的淺水區(qū)專門劃出一塊兒童泳池給非生產(chǎn)使用,而湖的深水區(qū)——生產(chǎn)部分——則嚴(yán)格禁止進(jìn)入?!?

數(shù)據(jù)湖生態(tài)中的主要玩家

數(shù)據(jù)湖領(lǐng)域的主要提供商包括:

? Amazon:其AWS S3簡單存儲服務(wù)是眾多數(shù)據(jù)湖的底層技術(shù)

? Microsoft Azure:擁有Azure Data Lake及其數(shù)據(jù)湖分析服務(wù)

? Google:提供BigLake,深受希望構(gòu)建基于Apache Iceberg湖倉的用戶歡迎

? Snowflake:AI數(shù)據(jù)云公司

? Databricks:與Microsoft建立了密切合作關(guān)系

雖然Perforce在這次討論中沒有推銷自家產(chǎn)品,但它在版本控制領(lǐng)域與Git、Atlassian Bitbucket Data Center、Apache Subversion和Mercurial等競爭,在軟件測試領(lǐng)域與BrowserStack、Sauce Labs、LambdaTest等廠商同臺競技,而在應(yīng)用生命周期管理方面,則需要面對IBM Engineering Lifecycle Management等對手。

安全下水:在風(fēng)險(xiǎn)與價(jià)值之間找到平衡

采取上述步驟與方法,有助于識別、隔離并緩解數(shù)據(jù)湖帶來的風(fēng)險(xiǎn),在保護(hù)需求與使用價(jià)值之間取得平衡。

湖里的“鱷魚”(惡意攻擊者與不懷好意之人)可能依舊徘徊,但如果我們清楚該穿什么樣的“防護(hù)衣”,依舊能安全地下水,這些措施也許無法徹底消滅潛伏在湖底的鱷魚,但至少可以迫使其中一些退回岸邊。

信息來源:51CTO https://www.51cto.com/article/824925.html

 
 

上一篇:國家互聯(lián)網(wǎng)信息辦公室關(guān)于發(fā)布第十三批深度合成服務(wù)算法備案信息的公告

下一篇:2025年9月12日聚銘安全速遞