如何應(yīng)用人工智能來(lái)檢測(cè)社交媒體上的異常情況
人工智能和機(jī)器學(xué)習(xí)算法是異常檢測(cè)系統(tǒng)的核心,因?yàn)樗鼈冐?fù)責(zé)分析社交媒體上的異常帖子。根據(jù)您的目標(biāo),您可以讓人工智能處理各種類型的內(nèi)容、評(píng)估帳戶的可信度、分析特定類型的異常情況等。
我們來(lái)看看 AI 對(duì)不同類型內(nèi)容進(jìn)行異常檢測(cè)的能力:
(資料圖片)
圖像分析。基于人工智能的圖像分析有助于識(shí)別圖像內(nèi)容:文本、對(duì)象和整體上下文。從圖像中讀取文本可以處理帶有文本疊加的帖子,這在 Facebook 等平臺(tái)上很流行。圖像處理算法從圖像中挑選出文本后,文本分析算法可以像處理普通文本記錄一樣處理它。
當(dāng)涉及到圖片、屏幕截圖和其他圖像時(shí),您可以使用各種圖像處理算法來(lái)識(shí)別對(duì)象、分割和分類圖像、搜索模式等。您還可以使用 AI 修復(fù)圖像失真,以改善分析結(jié)果。
視頻分析。仔細(xì)分析后,社交媒體上發(fā)布的視頻可能是安全相關(guān)信息的重要來(lái)源。人工智能算法可以檢測(cè)物體、動(dòng)作、人,甚至識(shí)別情緒,并對(duì)不同的視頻進(jìn)行分類。他們可以幫助偵查暴力、尋找失蹤人員,并在大型活動(dòng)中提供安全概覽。
請(qǐng)注意,與構(gòu)建用于分析文本和圖像的解決方案相比,構(gòu)建用于視頻分析的 AI 解決方案是一項(xiàng)更具挑戰(zhàn)性但可以實(shí)現(xiàn)的任務(wù)。它需要收集不同的數(shù)據(jù)庫(kù),進(jìn)行廣泛的算法訓(xùn)練,并使用大量的硬件能力來(lái)處理視頻。
現(xiàn)在讓我們看一下對(duì)于社交網(wǎng)絡(luò)異常檢測(cè)有用的人工智能算法的任務(wù)。請(qǐng)記住,解決方案的 SaaS 部分可以執(zhí)行所有非智能任務(wù),例如網(wǎng)絡(luò)爬行和存儲(chǔ)數(shù)據(jù)。
上下文感知文本翻譯。對(duì)于國(guó)際組織來(lái)說(shuō),發(fā)現(xiàn)世界各地社交媒體上的異常帖子非常重要。此任務(wù)需要異常檢測(cè)軟件中的翻譯模塊。使用非人工智能翻譯器會(huì)降低軟件的效率,因?yàn)榇祟惙g器不擅長(zhǎng)處理上下文、隱喻和引用、語(yǔ)法錯(cuò)誤和拼寫(xiě)錯(cuò)誤。相反,您可以添加 DeepL Python 庫(kù)中的 API 、OpenAI 中的 ChatGPT 、Google Cloud 中的 Translation AI 或任何其他翻譯服務(wù)。選擇一項(xiàng)時(shí),請(qǐng)考慮您的軟件使用的技術(shù)、開(kāi)發(fā)團(tuán)隊(duì)的專業(yè)知識(shí)、人工智能服務(wù)的功能以及翻譯成本。
威脅概率估計(jì)。并非社交媒體上所有不尋常的帖子都必須被標(biāo)記為可疑。例如,網(wǎng)上的激烈爭(zhēng)論可能不會(huì)產(chǎn)生任何結(jié)果,或者會(huì)導(dǎo)致現(xiàn)實(shí)世界的騷擾。人工智能可以估計(jì)威脅真實(shí)存在的概率。為此,算法可以評(píng)估作者是人類還是機(jī)器人,分析作者之前的帖子,并確定可疑帖子的情緒。
威脅評(píng)估的結(jié)果將幫助審查社交媒體異常的專家做出決策,并對(duì)異常情況做出更快的反應(yīng),從而證明響應(yīng)的合理性。對(duì)于此任務(wù),您可以使用現(xiàn)成的 AI 模型進(jìn)行時(shí)間序列分析和自然語(yǔ)言處理。您還可以利用 spaCY、NLTK、scikit-learn 和 Gensim 等 Python 庫(kù)。
風(fēng)險(xiǎn)分類和評(píng)分。除了評(píng)估威脅之外,人工智能和機(jī)器學(xué)習(xí)算法還可以評(píng)估已發(fā)現(xiàn)異常的重要性或嚴(yán)重性,并為其分配風(fēng)險(xiǎn)評(píng)分。風(fēng)險(xiǎn)評(píng)分可幫助使用異常檢測(cè)系統(tǒng)的專家盡早、快速地解釋結(jié)果并做出響應(yīng)。
由于風(fēng)險(xiǎn)評(píng)估是 AI 和 ML 的常見(jiàn)用例,因此有許多適用于各種任務(wù)、行業(yè)和特定案例的風(fēng)險(xiǎn)分類 AI 算法 [ PDF ] 。您可以找到一種或多或少適合您的項(xiàng)目的算法,而不是從頭開(kāi)始開(kāi)發(fā)算法。但是,請(qǐng)記住,您需要使用數(shù)據(jù)集訓(xùn)練此算法,并根據(jù)您的特定任務(wù)進(jìn)行調(diào)整。
盡管功能強(qiáng)大,人工智能驅(qū)動(dòng)的異常檢測(cè)仍然嚴(yán)重依賴與該系統(tǒng)合作的專家。人工智能只能準(zhǔn)備有關(guān)異常的信息供人類審查,從而節(jié)省專家的時(shí)間和精力。但它無(wú)法對(duì)威脅概率做出最終決定并選擇處理異常的最佳方法。
異常檢測(cè)解決方案的效率還很大程度上取決于其實(shí)施的好壞。讓我們看看您在進(jìn)行異常檢測(cè)時(shí)可能面臨的主要挑戰(zhàn)以及如何克服這些挑戰(zhàn)。
構(gòu)建基于 SaaS 的異常檢測(cè)解決方案面臨哪些挑戰(zhàn)?
提供如此復(fù)雜的解決方案需要云應(yīng)用程序開(kāi)發(fā)、人工智能開(kāi)發(fā)甚至合規(guī)法方面的專業(yè)知識(shí)。以下是您的團(tuán)隊(duì)在開(kāi)發(fā)社交媒體異常檢測(cè) SaaS 解決方案時(shí)可能遇到的主要挑戰(zhàn):
用于人工智能訓(xùn)練的數(shù)據(jù)集。任何人工智能算法都需要在相關(guān)數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后才能應(yīng)用于現(xiàn)實(shí)場(chǎng)景。準(zhǔn)備用于異常檢測(cè)的數(shù)據(jù)集包含幾個(gè)挑戰(zhàn)。異常檢測(cè)算法必須依賴于準(zhǔn)確、一致、有效和平衡的數(shù)據(jù)來(lái)進(jìn)行有效的異常檢測(cè)。必須根據(jù)算法應(yīng)檢測(cè)的異常類型來(lái)標(biāo)記數(shù)據(jù)。數(shù)據(jù)集還必須定義什么構(gòu)成正常數(shù)據(jù)和異常數(shù)據(jù)。找到適合特定用途的現(xiàn)成數(shù)據(jù)集幾乎是不可能的,這就是開(kāi)發(fā)團(tuán)隊(duì)經(jīng)常手動(dòng)創(chuàng)建數(shù)據(jù)集的原因。此過(guò)程可能非常耗時(shí),并且需要開(kāi)發(fā)和領(lǐng)域?qū)I(yè)知識(shí)。另外,請(qǐng)記住,您的解決方案在發(fā)布后可能需要額外的培訓(xùn),以提高其結(jié)果的準(zhǔn)確性或教它檢測(cè)新威脅。
API 限制。在異常檢測(cè)解決方案中包含第三方組件及其 API 是減少開(kāi)發(fā)時(shí)間和成本的好方法。但是,它為您的解決方案帶來(lái)了一系列限制。例如,API 限制可能會(huì)限制可訪問(wèn)的數(shù)據(jù)量和類型,這可能會(huì)阻礙異常檢測(cè)解決方案的準(zhǔn)確性和有效性。API 還可能具有限制請(qǐng)求頻率和數(shù)量的速率限制。此外,API 方面的任何更新都可能破壞集成功能或引入安全風(fēng)險(xiǎn)。
完全預(yù)測(cè)和克服與 API 相關(guān)的挑戰(zhàn)是不可能的,但您可以在集成第三方產(chǎn)品之前通過(guò)徹底研究第三方產(chǎn)品來(lái)為這些挑戰(zhàn)做好準(zhǔn)備。
云硬件的價(jià)格。人工智能算法可能需要大量計(jì)算能力來(lái)處理信息。在云服務(wù)上托管異常檢測(cè)解決方案可以讓您避免人工智能發(fā)展熱潮導(dǎo)致的硬件瓶頸、擴(kuò)展問(wèn)題和可能的硬件短缺。然而,如果不調(diào)整算法,租用云資源的成本可能會(huì)快速上升。
為了控制云成本,請(qǐng)明確定義您要監(jiān)控哪些社交媒體內(nèi)容以及您希望軟件處理多少信息。確保人工智能僅執(zhí)行需要智能算法的任務(wù),所有其他任務(wù)均由資源消耗較少的非人工智能工具完成。
監(jiān)管合規(guī)性。監(jiān)控社交媒體的異常檢測(cè)解決方案需要存儲(chǔ)有關(guān)檢測(cè)到的異常和分析結(jié)果的信息。根據(jù)法律要求保護(hù)這些信息可以讓您既確保數(shù)據(jù)安全又避免違規(guī)問(wèn)題。
這里的挑戰(zhàn)是缺乏使用人工智能進(jìn)行異常檢測(cè)的法規(guī)。雖然沒(méi)有專門針對(duì)此類解決方案的實(shí)踐,但您可以依賴 GDPR 等國(guó)際法規(guī)以及當(dāng)?shù)氐臄?shù)據(jù)保護(hù)法律和標(biāo)準(zhǔn)。
內(nèi)置偏置。人工智能解決方案不可能完全沒(méi)有偏見(jiàn)和公平,因?yàn)樗^承了創(chuàng)建它的開(kāi)發(fā)團(tuán)隊(duì)的偏見(jiàn)。該團(tuán)隊(duì)根據(jù)他們的經(jīng)驗(yàn)、心態(tài)以及社會(huì)和專業(yè)背景選擇算法、開(kāi)發(fā)工具和數(shù)據(jù)進(jìn)行培訓(xùn)。人工智能偏見(jiàn)給異常檢測(cè)帶來(lái)了道德和質(zhì)量挑戰(zhàn)。
雖然不可能完全消除偏見(jiàn),但您可以通過(guò)以下方式降低將偏見(jiàn)引入 AI 模型的風(fēng)險(xiǎn):
提高開(kāi)發(fā)過(guò)程的透明度
收集多樣化的訓(xùn)練數(shù)據(jù)集
廣泛測(cè)試您的解決方案
聚集多元化的項(xiàng)目團(tuán)隊(duì)
需要利基專業(yè)知識(shí)。提供復(fù)雜的人工智能解決方案需要您聚集具有不同專業(yè)知識(shí)的專家:人工智能和機(jī)器學(xué)習(xí)開(kāi)發(fā)、SaaS 開(kāi)發(fā)、云基礎(chǔ)設(shè)施管理、網(wǎng)絡(luò)安全、目標(biāo)行業(yè)的專業(yè)經(jīng)驗(yàn)。組建如此多元化的團(tuán)隊(duì)對(duì)任何公司來(lái)說(shuō)都是一個(gè)挑戰(zhàn)。保留專家團(tuán)隊(duì)也會(huì)導(dǎo)致預(yù)算增加。
結(jié)論
監(jiān)控社交媒體并檢測(cè)異常帖子可以幫助您完成各種任務(wù):防止安全威脅、打擊恐怖主義、發(fā)現(xiàn)新趨勢(shì)和主題等等。使用人工智能進(jìn)行異常檢測(cè)可以幫助專家節(jié)省手動(dòng)工作時(shí)間并進(jìn)行更高質(zhì)量的異常分析。與手動(dòng)異常檢測(cè)相比,在云中部署此類解決方案可以降低維護(hù)成本并提高準(zhǔn)確性。