2023 年 8 月 16 日,愛分析成功舉辦第五屆數據智能高峰論壇,本次活動邀請到了科杰科技創始人兼 CEO 于洋進行了《筑牢大數據底座,賦能高質量發展》主題演講。

于洋總在會上的演講圍繞大型企業數據能力建設展開,分享了企業數據能力建設的背景、方法論以及科杰產品體系,并結合案例闡述了科杰數據底座對企業數據能力建設的支撐,現將現場演講實錄整理后分享如下。于洋:大家好,我是科杰科技創始人兼 CEO 于洋。很榮幸參加愛分析第五屆數據智能高峰論壇,數據智能這個詞將 Data 和 AI 連接在一起,也把數字化的主要目的進行了表達,那就是在各業務場景終端以數據驅動和數據自動化實現全場景的提效和創新,最終實現數字化轉型。今天峰會的主題是“激活數據資產,釋放數據價值”,這也跟科杰科技做的事情高度相關。
01
數據能力建設背景
今天我的演講主題是“筑牢大數據底座,賦能高質量發展”。從產業角度來看,數據技術已經成為新一代信息科技中服務數字經濟的核心引擎,并且有國家關于數字中國、數據要素等相關政策的積極推動。從市場角度來看,在眾多甲方客戶發起的并由乙方公司承接的項目中,涉及到數據治理、數據交換、低代碼開發、實時離線計算以及 AutoML 數據科學平臺。企業在數據方面開展了各式各樣的項目,但究竟企業想要構建一個什么樣的體系?或者說,在未來五到十年里,一個超過幾十萬人的大型組織應該構建一個什么樣的體系,是我們應該去思考和關注的問題。

對此,數字中國建設整體框架中給出了相應的指引。我們看到,在數字基礎設施之上,在應用層全場景發揮數據智能價值之下,中間數據資產管理體系的建設顯得尤為重要。在金融行業,《金融科技發展規劃(2022-2025 年)》中,八個方面重點任務的第二和第三項任務中,也強調了數據資源管理和數據能力。早在 2019 年,科杰科技就提出了“數據能力”這一概念,我們將其定義為基于存儲計算引擎、數據資產管理、低代碼開發構建起來的一套體系化數據能力。可供大中型組織面向未來 5 年到 10 年持續使用,支撐企業規模化數據應用和數據智能。科杰科技作為大數據基礎軟件的提供商、數據能力的構建商,致力于協助大型組織持續構建數據能力。需要強調的是,這種能力不是一蹴而就的,需要在不同的階段、不同能力方面持續做長期、立體化的構建。
02
KeenData Lakehouse 核心能力
科杰科技的產品體系分了三層,最底層是數據引擎層面,提供存儲計算引擎等基礎設施支持。第二層是提供低代碼開發、數據工程能力建設,企業若要建立規模化的數據應用,讓廣泛的技術人員和業務人員使用數據,就需要建立低代碼開發能力。最上層則是基于數據和數據資賦能業務服務和釋放的能力。這三個層面共同構建了數據能力里體系。KeenData Lakehosue 作為引擎,在技術能力方面應具備的三大特點。第一是存算分離能力,需要兼容之前的 Data Warehouse 和 Data Lake ,并且支持國資云、混合云和第三方數據進行納管,這將是面向未來 5 年到 10 年可持續使用、不更換底座、的基礎。第二個能力就是 ACID 和事務性,若想實現國產化替代,就需要具備 ACID 和事務性這樣的基礎能力。第三個能力就是批流一體,隨著數字化建設趨勢的不斷發展,金融行業已經處于實時計算的建設階段。然而,在當前的技術框架中,我們無需將其分成兩個不同的平臺去構建,而應該在一個統一的體系下完成。通過實現數據開放和賦能,以及使用 Data Fabric 技術,我們可以使業務團隊通過數據虛擬化和表達,更好地理解和利用數據。當然,這里的 Data fabric 不是單純的數據編織虛擬化,在業務端,Data Fabric 需要跟后端的低代碼能力和路由計算能力打通,以實現對全鏈條的支撐。這是一套一站式的框架和體系,建設的目標不是一次性建設一個非常龐大的應用,而是應該在一個邏輯和架構下逐步去建設,以達到全局最優和統一協作。最終建立起 DataOps 數據研發運營一體化能力,向整體的組織釋放數據價值,實現數字化轉型。科杰在行業中也獲得了較高認可和榮譽,包括在中國湖倉一體平臺軟件市場份額中位列第一,在 2022 年中國大數據平臺私有化部署市場中排名第五,也通過了信通院首批云原生數據湖、云原生湖倉一體評測,同時也是國產信創工委會會員單位、是大數據技術標準委員會單位,在 DataOps 和 EDMM 的數智成熟度模型中參與制定標準,同時是專家單位,此外,科杰科技也獲得了 Gartner、IDC、愛分析等相關報告的推薦。
03
企業數據能力建設方法論
數據底座作為一個提供技術能力支撐的軟件體系,解決的不單單是技術的問題,更是要解決一個大型組織企業面向未來 5 年、 10 年持續推進數字化轉型過程中需要承載的新能力,我們把它定義成數據能力。數據能力在數字化時代就像供應鏈能力、財務能力或者人力資源能力一樣,是一個企業必須建設能力。科杰科技梳理了企業數據能力建設的方法論,由以下五個方面組成。

第一是多架構融合的湖倉一體引擎。它解決了未來五年到十年數據引擎的持續的存儲計算問題,并且面向過去的 Data Lake 和 Data Warehouse 進行了納管。第二是數據工程的構建。我們知道,在 IT 能力中已經建立起比較成熟的的軟件工程體系,對于項目的需求拆解、定義、開發、測試、發布和重構都有相應的管理體系。但是當前和未來十年的工作是以數據驅動和實現全場景數據智能為主要目標,因此,如何讓幾十、幾百人的技術團隊和業務團隊以及半業務半 IT 的人員能去開展數據類的分析和開發工作,就成了一個關鍵問題。為此,我們需要將整個數據的處理過程實現工程化連接,包括數據低代碼開發、管理方法和流程自動化等方面的數據工程化能力。第三個方面是數據自治理。在數字化比較領先的企業中,數據治理已經做了很多年,通常是以咨詢公司為主導,以安全管制為目標進行梳理和制定規范。然而隨著數字化轉型的不斷推進發展,數據治理與互聯網的相越來越相似。一方面,數據的生產端,不像以往人財物等類 ERP 系統穩定性較高,兩三年不變化,現在大量線上線下聯動的系統正在產生新的大量數據,并且系統還在高速變化。另一方面,在數據的消費端,尤其甲方客戶的應用層中,有諸多消費場景,如分析報告和數據智能應用。在數據生產端、消費端兩端都在劇烈變化的情況下,數據治理業應該由之前被動的、滯后的轉向實時的、主動的。數據主動治理包括主動元數據的探查、管道控制、管道連接、基于 AI 能力的數據起源分析,能打通全鏈條,是一種保證數據是一個主動的、實時的、有一定自修復能力的管理辦法。第四個方面是集中式管控分散式賦能的服務體系。一個大型組織建立數據底座和數據中臺后,是要服務各分公司、各 BU、BG單位,實現全局數據賦能。在這種情況下,我們認為協作模式應該采用集中式管制和分散式賦能的服務體系。對于構建數據底座項目我們認為一定要采用集中化的建設,因為企業需要在基礎設施的投入,在數據工程體系的建立,在全局數據資產的管理、數據價值的實現和數據安全方面進行集中式管制。與此同時,我們知道所有業務價值的發揮一定是各業務單位在業務場景上的實現。那么如何將數據價值分散式賦能給業務是一個核心的話題。以科杰過去的經驗,釋放數據價值其實大致可以分成兩部分,一個是基于大屏報表可視化和 BI 的能力。另外一個就是數據智能 Data Intelligence,將數據放到業務模型上跟隨系統自動化調整,實現系統自動變化,最終降低人工滯后的、基于經驗主義的干預。在業務場景中,數據的虛擬化和數據資產的賦能的過程很重要,是我們解決底座、數據價值和業務場景連接的挑戰。第五是打造數據驅動型組織。比如一個 CDO 辦公室或者一個 New Idea Office 也即科技部門,整體應該建立一個怎樣的服務和服務體系去開展這項工作,為此,科杰科技會提供了相應的人員、人員職能和協作規范,這些人員負責整體運營數據底座,以實現數據價值的釋放。然而,需要強調的是,數據部門作為一個與業務單位協作的重要部門,要改變之前被動的、以承接需求為導向的響應方式,而是轉變為一主動賦能和自主自助分析的方式。這種方式需要構建數據運營部,以 Data BP 的方式去輔導、宣貫,幫助整個組織建立數據思維。數字化轉型的目標,在管理軟件時代, IBM 給出的定義是軟件包驅動業務變革,是將流程定義變成一套標準軟件用來規范和提效。但在數字化轉型的進程中,我們定義其目標是以數據驅動的業務變革和創新。整個 CDO 辦公室的目標是幫助整個組織變成具備數字思維的數據驅動型的組織,以數據底座和數據賦能業務場景去實現最后的轉型、創新和提效率。
04
科杰科技 KeenData Lakehouse 支撐數據能力建設方法論落地

科杰科技 KeenData Lakehouse 數據底座產品體系能支撐以上方法論落地。整個產品體系可以分為多個部分,每一個藍框解決了一部分的問題。我們依次可以看到,在引擎層面上,湖倉一體多架構融合能力解決了面向過去的兼容納管和面向未來的數據引擎的這種管理和計算能力。數據工程建立起數據工程的開發管理體系。數據自治理能力將過去被動的、滯后的數據治理變成實時、主動,并且有自治理能力的數據治理,數據自治理是依托于數據工程和引擎形成的相融合的體系。完成這三個能力建設后,一個集團的大數據部門就基本上就建設成功了。這個部門有強勁的引擎,有數據開發的低代碼的工具和管理辦法以及有數據資產跟它相融合去配套實現數據的高可用。但是如果這個大數據部門想進一步面向更廣泛的業務單位提供服務的話,就會面對行業 Know-how,以及業務的需求滿足不過來的這樣的問題。因此,大數據部門的功能最終一定會走向以數據的業務表達,即以 Data Fabric 的數據編織和虛擬化,去釋放數據價值,讓廣泛的中基層人員可以快速找到數據、消費數據。Data Fabric 的實現需要由底層的低代碼開發和路由計算去做支撐以實現全組織的數據消費,最終達成數據的研發運營一體化,實現整個組織的數據驅動型工作的開展。那么最后要說一下,數據底座是在 IaaS 層之上,在應用層之下,大致是一個 Pass 層,接近于 aPass 的這樣一個體系。它是一個企業持續要建立的一個必需能力,不單單是一個技術工程的問題,它是一套從技術工程到管理數據再到與業務部門建立一套新的基于數據和數據需要的協作方式,最終幫助整個組織完成的數字化轉型。針對數據底座,包括科杰科技在內的國內諸多廠商處在跟國際領先的科技公司站在同一起跑線上競爭,因此,我有三個觀點要表達。第一點,科杰科技致力于長期陪伴,協助客戶建立一套能力體系,達成數字化轉型目標。第二點,希望有更多的應用層、數據治理、數據智能等方面的廠商一起協作建立立體化的方案,構建更強有力的服務支撐體系。

第三點,從時代進展來看,我們當前處于新一代技術變革的陣痛和發展期。一方面 C 端和消費領域的經濟形式不太好,但另一方面我們也看到國家有很強的意志通過科技創新引領新經濟發展、甚至引領國際秩序。我們很幸運在這個賽道中,并將盡自己可能做更大的貢獻。預祝三五年后,在大家的共同努力下,我們不但可以支撐了中國數字化轉型和數字經濟發展的需要,還可以與更多優秀的解決方案和能力合作,向國際的客戶輸出中國科技、中國軟件,讓中國的科技能力形成主導世界技術發展的影響力。選擇科杰科技,持續合作共贏。我的分享就到這里,謝謝大家!