2022 年 Computex 上可以觀察到,雲端運算與人工智慧如今在各個產業都備受重視,從自動駕駛到自然語言的辨識,都需要人工智慧的參與。

人工智慧可以藉由演算法,從過往的數據中學習,找出數據的特定模式,並隨時配合新輸入的資料做出調整與回應,以模仿人類的思考與行為模式。而高效率的人工智慧,必須高度仰賴對資料庫的管理,沒有好的資料,或是資料沒有妥善的管理,資料終究只是一堆無用的數據,無法產生應有的價值。

因此「數據治理」(Data Governance) 是現代化企業相當重視的管理邏輯之一。

甚麼是數據治理

根據定義,數據治理指的是在兼顧資訊安全的前提下,讓數據保持高度準確性、可近性與易用性的各種管理策略。每一個企業,都可能有獨一無二的數據治理策略,以確保在收到大量營運資訊之後,能夠好好地應用。

以電商為例,許多電商在每日的營運中,自然會累積大量的顧客數據。一個沒有導入數據治理的公司,可能收集到許多重複、無效的會員資料。未經清洗和處理就放進客戶行銷平台中,很有可能會重複地濫伐行銷訊息,反而造成客戶反感,傷害品牌形象。業務端也可能因為虛胖的會員數量,對於實際的業務量總是無法掌握。

執行數據治理前:統整數據結構與使用方式

數據治理是需要企業跨部門合作的事情,並非是資訊部門要負責,也不是業務或行銷部門要主導的事情,需要各部門一同協作,能打破數據的孤島。

最常見的方式就是每一個業務部門負責處理特定的幾項數據,擁有數據的負責人要確定該項數據可以被清楚定義、標準化並向其他的同仁說明,並在共識會議上,確認這些數據,在整個公司內有唯一的明確定義。一般而言,數據的負責人也具有管理數據分享權限的權力。統整了數據的結構,才能夠有統一的語言讓數據用同樣的方式被收錄到數據庫中。

導入雲端數據工具:兼具成本與效益

隨著雲端運算的普及,越來越多的數據工具都可以在雲端執行。對於企業來說,將雲端運算和雲端的數據工具導入數據治理中,越來越普遍。例如龐大且複雜的通用型 AI(Generalist AI),就很大程度地仰賴了雲端架構。

對於許多中小企業而言,為了享受雲端的便利,完全仰賴一己之力,建構所有的硬體與軟體越來越不實際。公有雲能提供許多資料科學工具或人工智慧模型,私有雲則保障了資料的私隱性。整合公有雲與私有雲,能夠自由調度資料的混合雲模式,能夠有效控制成本,提升效益,更是中小企業導入人工智慧時最好的數據治理策略之一。

未來每家企業都是科技業,數據將是產生商業價值的基本來源。企業在日常營運中不斷累積的資料庫,訓練人工智慧模型挖掘有意義的重要資訊,是未來幾年的重要趨勢。運用正確的工具,做好數據治理,將會是每個企業相當基礎的管理工作。

--

--

根據市場調查機構 Futuriom 的研究(2020 Futuriom MDN Survey),混合雲與多重雲已經成為全球趨勢,超過八成的受訪企業都已經採用混合雲的架構。不只是科技和醫療產業,對日益興盛的電子商務和零售服務業者,選擇適合企業的雲端服務,是讓企業更容易運用資料的必要工具。

混合雲(Hybrid Cloud)是甚麼?與公有雲與私有雲有甚麼不同?

根據美國國家科學會NIST的定義,混合雲(Hybrid cloud)是由兩個或更多雲端系統組成的雲端基礎設施,這些雲端系統包含了私有雲、公用雲、社群雲等。混合雲因為同時具備公有雲和私有雲的優勢,所以這些年吸引了大量的企業開始依據自己的需求,過渡到結合兩種方式的混合雲端服務。

常見的公有雲服務指的是像 Google Cloud Platform, AWS,阿里雲等服務,雖然因為不須購買實體伺服器、不須聘用專業管理人員,所以能夠大幅降低成本。可是如果公司所有的數據皆仰賴公有雲,那麼表示資料全部皆須上傳雲端,過程中洩漏資料的風險相當高。

使用私有雲作為公司資料的共享架構,雖然私隱資料外流的機率大幅降低,但是要自行管理完整的系統並聘用專業管理人才,使得維護成本相當高昂,對於很多也想使用雲端服務,但成本管控較嚴格的中小企業來說,並不適用。

--

--

在現代工業領域中,如果想要快速地進行轉型,有三個相當重要的因素。第一是採用工業 4.0 的思維,並將此思維融入作業流程與設計原則中;第二是採用高度自動化、無人化的智慧工廠;第三就是建立新世代的數位孿生(Digital Twin) 系統。這三點是近年來在工業領域最重要的未來發展。

其中建立數位孿生系統並不是全新的概念,但一直是相對較為繁瑣的環節,自然也吸引了人工智慧專家的興趣。傳統的數位孿生系統,虛實整合的程度較低,許多決策還是比較仰賴專業人力判斷。如今,相對平價的高速計算、虛擬實境設備與IoT物聯網的技術已經漸趨成熟,工廠管理者和人工智慧共同參與決策,已經是可以實際應用在產線上的技術,那麼如何建立科學和物理上精確的數位孿生系統,便是相當重要的基礎工作。

NVIDIA 近日更新了 NVIDIA Modulus ,目前版本來到 22.03,展示了現今最進步的物理運算神經網路模型。這次的更新,讓開發者能夠使用更細膩的物理模擬之外,並加強了與 NVIDIA Omniverse 的整合。

NVIDIA Modulus 是基於 TensorFlow 的應用,並利用 XLA 來最佳化效能。XLA 是一種線性代數的編譯器,已經用在許多特殊領域,可以加快 TensorFlow 模型的運作。在訓練好模型之後,NVIDIA Modulus 能即時進行分析。過去這樣的運算,設定好參數後需要完整跑過一次模型,才能進行評估,每次運算都要耗費大量運算資源,相當耗費人力與時間。

NVIDIA Modulus 與 Omniverse 整合後,開發者能夠在以 Python 為基礎的 API 上進行開發,再將開發成果輸出到 Omniverse 中,用視覺化的方案進行開發。開發者能夠享有更大的自由度,對於理解複雜的模型 (例如工廠動線的延續關係) 也會更加直觀。

NVIDIA Modulus 目前支援 FNO(Fourier Neural Operator,傅立葉神經運算子)、AFNO(adaptive Fourier Neural Operator,改良傅立葉神經運算子)、PINO(physics-informed FNO,專門進行物理資訊運算的 FNO) 以及 DeepONet,大幅提升物理運算的真實性。在與西門子合作的智慧孿生工廠範例中,就可以清楚看到套用 NVIDIA Modulus 22.03 後的效果,無論是工廠設施的真實性、液體流動、混合的物理特性,都有顯著提升。

NVIDIA Modulus 現在已經免費開放給全球的開發者,下載連結於此

--

--

NVIDIA 在 2022 年的 GTC 宣佈推出 NVIDIA Riva SDK 2.0 版本,提供全球的開發人員將預先完成訓練的深度學習語音模型和軟體工具,輕鬆地放在各種情境,建立具互動性的對話式人工智慧 (AI) 服務。

NVIDIA Riva 能夠提供高精準度的自動語音辨識,對自然語言的理解能力也很高,還能對多種語言進行即時翻譯,以及全新的文字轉語音等功能,用來建立表達豐富內容的對話式 AI 應用程式。從聆聽、理解到產生回應內容的速度,多數都能夠在 100 毫秒內完成動作,並部署在雲端、資料中心或邊緣裝置,增加更多觸及。

NVIDIA 使用超過十億頁的文字、六萬小時的語音資料,並以不同的語言、口音、情境和專業術語,耗費數百萬 GPU 小時來訓練 NVIDIA Riva 框架。開發者現在就可以從 NVIDIA 的 NGC™ 目錄中挑選一個 Riva 已預先訓練好的模型,用自己的資料與 NVIDIA 遷移學習工具套件對這個模型進行微調和最佳化,好在新的即時語音服務中,提高資訊處理量,並降低延遲。

--

--

聯合學習(federated learning)是讓人工智慧演算法可以從不同來源的大量資料中獲得經驗的一種合作方式。

我們都知道,為了要增加人工智慧演算法的精確度,餵養大量的資料,訓練演算法或是驗證結果是相當重要的過程。但有時候各組織考量到隱私權,無法自由地共享資料,變成每個人手上的資料都太小,無法訓練出有效的通用模型。我們要怎麼做才能兼顧個人資料的隱私,又能相互合作訓練出所需要的人工智慧模型呢?

Google 在 2016 年推出了「聯合學習」這項全新的觀念1,聯合學習能夠讓敏感的患者資料,在不離開終端設備的前提下,進行機器學習。用分散各地、去中心化的數據,來訓練中心化的模型。演算法只會將醫院裝置上整合過後得到的資料,回傳到資料中心的伺服器上,保護個人資料隱私。

--

--

在疫情局勢逐漸走向開放之際,2022 CES 也回歸拉斯維加斯之後,地表上最重要的 AI 盛會終於又回到聖荷西的 McEnery 會議中心舉行。過去兩年,這個人工智慧、雲端運算技術的盛會一直都以全線上的方式舉行,回到實體聚會的同時,也將帶來更多技術上的革新。

NVIDIA 非常重視這項春季聚會,因此 NVIDIA CTO Macheal Kagan、研發高級副總裁兼首席科學家 Bill Dally、機器學習總監 Anima Anandkumar、副總裁兼加速計算首席總監Ian Buck、醫療健康副總裁Kimberly Powell等一級主管也都會發表主題演講。

另外,DeepLearning.AI 創辦人、Landing AI 創辦人暨執行長吳恩達 (Andrew Ng)、馬克思普朗克氣象研究所 (Max Planck Institute for Meteorology) 地球系統大氣部常務董事暨系主任 Bjorn Stevens 教授、史丹佛大學電腦科學系助理教授 Chelsea Finn、Visa AI 研究部門副總裁 Hao Yang 等業界重要人物也會在此盛會上發表演說。

--

--

人們過去在實體商店購買的東西,現在都在網路電商上購買,無論是大型家具、生活雜貨,甚至是汽車或藝術品。這些交易,往往涉及許多信用卡資料、金融帳戶等隱私資料。企業要用人工方式一一檢核每天幾億筆的交易紀錄與數據可能很困難。

詐騙檢測是機器學習拿手的應用令譽,在銀行和保險等領域相當成功。

根據 McAfee 的最新報告,網路詐騙目前對全球經濟已經造成至少 6000 億美元的損失,佔全球 GDP 的 0.8%,而且還是快速成長的領域。數位詐騙行為正成為銀行、商家和消費者越來越大的威脅,每年造成數十億美元的損失。

詐騙的方式日新月異,很有可能透過虛假憑證、電話詐騙和商業電子郵件洩密 (BEC) 等在內的詐騙行為,最重要的步驟都是通過社交工程取得權限,並非直接破解安全機制。

對於銀行與企業,日益增加的詐騙不但增添交易的麻煩,也會減損企業在消費者心中的形象,如何更高效率地抑制反詐騙行為,是很重要的任務。

人工智慧與詐騙檢測

使用人工智慧檢測詐騙,有助於企業提高內部安全性、減少安全人員的負擔、也能簡化企業營運結構,減少決策壓力、藉此提高了效率,人工智慧已經成為避免金融犯罪的重要工具。

人工智慧最大優勢就是能夠用來分析大量交易資料,發現(可能連詐騙集團都沒發現)的詐騙模式,隨後可用於即時檢測詐騙。

當人工智慧懷疑存在詐騙行為時,人工智慧模型可用於自動拒絕交易或將其標記,好讓專業人員能進一步調查,評估詐騙的可能性,並修改偵測模型,使調查人員能夠將精力集中在最有希望的情況上。

AI 模型還可以為這些標記的交易進行分類、提供原因代碼。這些原因的代碼能夠讓新進的調查人員,對於詐騙行為有初步的認識,知道哪裡可能有需要調查的地方,加快調查速度。

機器學習和人工智慧在詐騙檢測中的作用

機器學習是一種分析與處理資料的方式,可以在沒有人類分析師幫助的情況下,找出資料中的某種規律。 人工智慧則泛指使用特定模式,來完成各種複雜任務的判斷邏輯。

如今雲端人工智慧框架的發展已經非常成熟,工程師輕易地就可以在短時間使用雲端的開發環境,並開發出可靠的人工智慧模型。

--

--

隨著疫情的持續擴大,除了 PCR 的需求急遽上升之外,各種基因定序和全基因分析的結果,也會影響患者是否能夠使用特定藥物或化療。許多還在使用傳統定序方式的醫學中心,往往需要幾天的時間,才能完成基因定序。既消耗時間,也消耗臨床人力,價格昂貴之外,效率也低,影響病人接受治療的權益。近日史丹佛大學導入 NVIDIA Clara ,已經能將原本甚至需要幾周的定序過程,縮短到幾小時,不但提升臨床效率和醫院實力,也能加速挽救生命。

史丹佛大學導入AI 創造世界最快的定序紀錄

由史丹佛大學領導的研究小組,只用了幾個小時就找到了可能導致疾病的變異點位,並在很短的時間裡就做出了明確的診斷,讓患有罕見遺傳疾病導致癲癇發作的幼童與父母能夠盡快接收治療。

史丹佛大學的研究人員在《新英格蘭醫學雜誌》上詳細介紹了這種超快速定序的方法,透過 NVIDIA Clara 結合嬰兒癲癇發作類型、抗癲癇藥物治療反應的資料庫,人工智慧已經可以幫助臨床醫生管理小兒癲癇的案例。

以 AI 協助基因定序,創造了 DNA 定序技術的第一個金氏世界紀錄:5 小時 2 分鐘就完成全基因定序。這項研究由史丹福大學、NVIDIA、牛津奈米孔技術公司、Google、貝勒醫學院和加州大學聖克魯斯分校的研究人員共同參與開發。

研究人員使用 Google Cloud 上的 NVIDIA GPU 加速了鹼基調用和變異調用的速度。變異調用(識別基因組中數百萬個變異的過程)也使用 NVIDIA Clara Parabricks 加速基因組學的計算。

--

--

InfinitiesSoft數位無限

InfinitiesSoft數位無限

數位無限軟體(InfinitiesSoft)專注於為企業解決虛擬化、容器化、微服務、邊緣運算、混合雲管理、異質IT環境與人工智慧帶來的挑戰,整合異質雲管與熱門的開源AI深度學習架構和開發工具環境,提供一站購足的AI機器學習雲平台方案AI-Stack。