淺析大數據應用模型棧 探索審計大數據新模式
發布時間:2012-02-13來源:江蘇省無錫市審計局作者:朱琢點擊:64353一、引言
21世紀是一個信息化的紀元,它已經不能僅僅用信息應用高度發展和信息處理水平飛速來準確概括。物聯網、云計算、大數據、互聯網+、人工智能等等新型應用應運而生,其領域性和專業化凸顯,經濟和服務價值不斷累積,且被廣泛應用,為各界所認可。當前,大數據分析已在電子商務、統計預測、科學研究、商業決策等方面取得了深入融合應用,被Gartner Group評為“十大大戰略技術趨勢”和“未來五年十大重要技術趨勢”。
大數據給國家審計領域也帶來了一場深刻的變革。國家審計署就大數據與審計工作的融合進行了不少嘗試,從金審工程1.0到3.0的發展步伐中,都能夠看到大數據的身影,體現出大數據與審計工作內生共融的理念,更好地助力審計監督全覆蓋。2014年,劉家義審計長在全國審計工作會議上提出“五個關聯”要求,形象地指出了大數據對于審計工作的指導性作用,提出大數據建設是應對未來審計挑戰的重要法寶。
二、現狀
在外部環境層面,信息化基礎性建設為大數據分析奠定了實施基礎。國務院印發的《促進大數據發展行動綱要》提出未來5至10年我國大數據發展和應用應實現的目標。審計署牽頭的全國信息化標準化技術委員會起草的GB/T24589《財經信息技術會計核算軟件數據接口系列標準》經國家標準委批準發布實施。
在操作應用層面,基層審計工作更多得使用大數據分析手段。隨著金審工程應用成果的推廣,對于醫保、扶貧、保障房、自然資源等重點審計項目,無錫市審計局大數據應用的介入率達到90%以上,融入到審前、審中、審后各個階段,開創了數據同步建起來、上下內外聯起來、及時有效用起來的新局面。
然而,經過了多年的發展,審計大數據的發展也遇到了瓶頸,凸顯出一系列問題。一是大數據應用內容分散,技術使用層次較低,模型應用局限性較大,整合能力欠缺。項目獨立性過大,項目與項目之間的技術耦合性低,無法實現大數據的復用,效率不高。二是大數據技術與時俱進能力不足。基層審計人員和技術人員基本使用老的SQL技術和數據分析軟件進行大數據分析,能夠使用或接觸最新技術成果的機會很少。三是一線大數據應用復合型人才儲備不夠。審計人員要么偏向于更多懂得業務,要么更偏向于更多懂得技術。培養復合型人才、保持復合型人才隊伍的穩定性是亟待解決的問題。四是基礎性研發缺失。審計大數據應用主要還是聚集在審計報告中體現的幾個疑點數字,對于相關的基礎性研究和開發關注的較少。獲取的數據質量不高,審計大數據應用在審計機關內部還停留在查詢表面,技術應用板凳深度不夠。五是信息安全管理缺失。大數據的使用和存儲都存在信息安全風險,缺少專業的管控技術和機制,面對病毒、黑客的襲擾往往成為驚弓之鳥。信息安全成為懸在大數據頭上的達摩克里斯之劍。
三、模型
學術(技術)的發展規律都有著一定的客觀相似性。從上世紀八十年代以來,計算機相關技術的發展和應用都存在這樣一個生命周期:嘗試探索,重大突破,成熟穩定,整合增效,淘汰躍遷(圖1)。大數據應用最終也將走上系統整合之路。

圖1
國際上有7條大數據分析應用系統組建的原則,首當其沖的就是需要一個優秀的結構和框架。傳統的信息處理結構建立在基于DBMS數據倉庫或操作性數據存儲的單項整合、分析和展現。但是大數據的發展需要的是一種高層級的分布式并行組合機制,并結合NoSQL為代表的實時高效回收機制和Map/Reduce為代表的數據嗅探批處理機制。因此,審計大數據應用功能模型棧可以分為五層架構,由下而上分別為數據結構層,數據采集層,數據轉換層,數據分析層和數據決策層。

(圖2)
1.數據結構層
數據結構層的本質是各類數據結構及附屬結構的集合。大數據應用2.0功能模型棧中的數據結構是計算機技術中涉及的數據結構的簡單引用,而是一系列數據標準的定義集。由于技術手段發展的動態特征,需要不斷定義、補充維護好一個標準庫。其中按照數據結構類型可細分為標準型數據、非標準型數據和校驗類數據。
標準型數據其實就是當前審計過程中數據分析所使用的常用數據信息。它包括MS SQL、ACCESS、Oracle、MySQL、DB2、SQLite、達夢等國內外主流數據庫文件或備份文件,Excel、ETable等辦公表格文件,CSV、TXT、DAT等平面文本文件,XML、JASON等標記語言文件,ERP、SAP、用友軟件等業務系統輸出文件。標準型數據結構化程度較高,數據應用面廣泛,使用手續比較簡便。國家在《促進大數據發展行動綱要》中向各單位提出“建立標準規范體系,推進大數據產業標準體系建設”的要求,為此類數據的互聯互通和廣泛使用奠定了堅實基礎。
非標準型數據是大數據分析的重點攻堅對象。它包括網頁數據、紙質表格、多媒體文件等。這些數據類型靈活、分布不均很難被直接獲取和使用,但是難以被篡改和消除,具有很強的印證功能。這些數據需要通過第三方技術進行初步匯總和解析。當前比較成熟的技術就是Crawler技術、(TH)OCR技術和GIS技術,分別實現了對網絡媒體、圖像視頻媒體、地理定位的數據搜索和整合。當前,不少地方審計局已經開始嘗試非標準數據的實際應用,在異地審計和項目工程審計中探索整合Crawler技術和GIS技術,大大提升了非標準型數據利用率。
校驗類數據是數據結構層的重要組成部分,是標準型和非標準型數據的重要補充,體現出明顯的審計大數據特色。當前在審計工作中獲取有直接難度,集中化使用更是寥寥無幾。校驗類數據主要由痕跡型數據和印證型數據組成。前者作用于數據訪問和操作的留痕,包括日志記錄和訪問記錄等。它完成了對大數據質量和準確性的校驗,顯示了數據操作的疑點行為,也是打造“審計免疫系統”的基礎。后者主要完成了數據信息的保全,確立了電子信息取證的合法性,降低了與被審計對象的法律糾紛風險。
2.數據采集層
數據采集層位于數據結構層之上,反映的是最為基礎的數據采集工作流程,在整個框架中是反映的所有數據采集接口及實現這些接口的方法應用。本層更多得涉及系統內外、軟硬件之間的交互,并涵蓋各類存儲介質及存儲陣列的信息讀取。在當前的大數據分析過程中,地位比不上數據分析、模型建立、案例制訂等后期處理工作,以至于在審計一線研究和實踐的較少。其中可粗略分為系統采集接口、網絡采集接口、個性化定制接口和信息安全接口。
系統采集接口
系統采集接口主要是針對管理和存儲標準型數據,也是最為常見的接口,負責大規模的結構化數據輸入。一是當前用得比較多的是標準型數據管理系統配套的數據交換工具,如SQL Server Management Studio,PL/SQL Developer,ERP數據導出模塊等。能夠比較簡單的實現數據的批量采集,使用面廣,在Vbox、Docker等虛擬機和虛擬容器解決方案的支持下大大降低了運行環境門檻。二是第三方開發使用的數據導入系統,如AO、各類會計事務所導賬軟件等。這些使用起來比較靈活,針對性很強,也更加貼近審計項目的實際需求,成為審計機關內部必備的大數據采集利器。
網絡采集接口
網絡采集接口實現了遠程的網絡數據調度。它主要是完成對分布式存儲、云計算和社交平臺信息的采集、歸一化和結構化。一方面是實現對各類“網頁”信息的采集。可以是文本批量搜索、JS動態頁面、Ajax頁面、Post請求、音樂視頻等多媒體,也可以是當前發展最為迅速的各類社交軟件或是在一定衰減閥值范圍內的碼分復用波段。另一方面是分布式大數據流的數據處理接口。諸如Sqoop、Flume等HDFS API提供基礎性輸入,以完成實時或者接近實時地處理大數據流,并且具有一定的容錯能力。當前應用比較廣泛的Apache三大框架Storm、Spark、Samza,都是開源的分布式系統,具有延遲低、可擴展和低容錯等諸多優點,并且提供了簡單的API來簡化復雜度。
個性化定制接口
個性化定制是多種接口的綜合,更是審計大數據發展的實際需要。當前審計除了傳統監督單位,更要從政策落實和資金、資產、資源的流向擴展到相應的單位和對象,數據采集維度多,技術要求高,手續復雜。個性化定制就是通過加強數據采集方式方法的研發來打造更加便捷易用的數據采集接口,能夠大大提升各種底層數據結構的識別性和采集的自動化程度,解放人力成本及技術依賴性,實現從Language、Shell到Script、UI的轉變。
信息安全接口
信息安全接口是一套與大數據采集相配套的安全管控體制。大數據也意味著大責任,數據采集后的保存和銷毀將是大數據應用無法回避的一個風險點。一方面要建立完備的信息安全體系,落實嚴格的內外數據物理隔離制度,夯實入侵檢測和防范功能。例如在“江蘇省審計數據報送信息安全制度”中對于數據采集報送流程進行了嚴格的要求。另一方面,對于原始數據的儲存和銷毀進行全方位管控。在加密條件下實現專人專機保管,底層碎片化銷毀,確保各類保密、隱私信息無風險、無泄漏。
3.數據轉換層
數據轉換層的作用相對簡單,是一個典型的管理型中間件。在兼顧效率和資源的基礎上實現采集數據的整理和調度。相對于當前使用的審計大數據分析,數據轉換層更多得面對機器學習、智能決策和風控管理。無論是維度轉換、過渡持久化、學習容器還是權限控制,都是為應用級別的大數據分析提供面向使用者的數據透明。
多維度轉換與持久化
多維度轉換與持久化其實是OLAP、OLTP的前期數據預處理。通過在數據轉換層的預處理實現原始采集數據的過濾、篩選和維度擴展,方便審計業務數據對象的精準特性并理順業務邏輯。常見的解決方案有全自動的HIBERNATE,半自動的IBATIS和手動代碼連接池等。當數據量膨脹到一定程度,需要一定的程序持久化來保證上層的分析效能和數據吞吐量,為分區、并行、RAC多點技術提供多級緩存支撐。對于離線的現場審計,維度擴展和持久化的意義就是為便攜式設備使用上層應用提供效率保證。
權限控制
權限控制落實了大數據使用的最小化原則。大數據不代表大用戶,反而是數據隱私敏感程度要求在規定的要求下規畫最小的一個圈。結合OA的人員權限管理機制,將數據權限同人員權限直接掛鉤。數據轉換層將原本應用層的權限控制職能下放到了中間層,達到了類似從邏輯隔離到物理隔離的防護功能,再結合維度重組和過渡持久化,大大提升的權限控制效果,盡可能降低大數據泄漏的相關風險。
機器學習容器
學習容器也就是常說的機器學習平臺或者是機器學習引擎。在數據轉換層中學習容器就是搭建了連接機器學習應用與多維數據的橋梁。但是其實際上是一個相對獨立的運行環境,更像是一個大數據應用的容器。對于常用的機器學習工具scikit-learn,spark MLlib等相關的底層運行容器能夠很好得將Anaconda、hadoop進行虛擬化包裝,并且在最大程度上控制運維成本。
4.數據分析層
數據分析層實現的是最常規,最基礎的大數據分析算法,它是數據挖掘的凝結和提煉。當前各個審計案例中所描述的查詢語句、建模過程、數據統計都是大數據分析算法在專門項目上的體現,其歸根結底就是算法模型的海量集合。由于這些算法更多得依賴于數學積累,從某種程度上反映出數據分析層更應該是數學模型層。因此,大數據應用的發展需要將更多的基礎數學和應用數學的科研成果融入審計大據模型棧之中。
異常查詢
數據分析最基礎就是對結構化大數據的大批量比較查詢,也就是通常我們按照一定的業務邏輯所篩選出的不同、極致和比值。審計機關可以根據審計需求,通過關聯分析關聯,在縱向深度上利用信息流、資金流、時間維度等實時跟蹤審計,在橫向主題數據范圍拓展審計單位進行批量審計,從而充分利用審計中合規性、真實性數據分析結果,突出關鍵控制點審計。在大數據模型棧中,直接查詢的最大攻堅目標是提升多表間的查詢效率,簡化時間和空間復雜程度,降低單機運算負載最大程度提升其單機執行能力。
標準化建模
標準化建模按照審計業務需求建立不同模型,將最新的統計學和應用數學與審計業務結合起來,涵蓋關聯規則、邏輯回歸、神經網絡、協同過濾推薦、決策樹等多種方法。在大數據框架中的建模不是平時審計項目中的個例,需要建立一批標準化建模庫,易插拔、易持久,能夠被整個系統進行統一應用。標準化建模的另一個重要職能是進行算法的優化。諸如協同進化算法等大規模優化算法和WSNs、ITSs等實時優化算法在大數據應用中都能起到精簡時間和內存消耗的成效。
統計計算
統計計算是大數據分析最為基礎的功能,也是大數據最明顯的優勢。統計計算在大數據框架下更依賴于軟件定制開發,需要一定的研發力量。如何增加統計復用性,提升計算效率,增進數據質量成為大數據統計計算的關鍵,也需要進一步依賴基礎三層的ETL過濾提純。
5.數據決策層
數據決策層就是大數據相關的各種決策輔助應用:各種軟件、各種服務、各種系統,是大數據最前端的展示,也是大數據和審計人員交互的平臺。“集中分析、發現疑點、分散核實、系統研究”的數字化審計方式就是大數據應用在審計中的直接體現,主要有視圖報表、趨勢分析、自動化系統、人工智能等幾大類。
視圖報表
視圖報表是應用層最常見的大數據分析結果顯示應用。數據在前四層完成的基礎上的可視化數據體現,更多的帶上了趨勢分析、概率評估的成果。應用層基本上是各類編程前端,可以是B/S,也可以C/S,完全依賴開發需求。近幾年,諸如審計數據分析中心的使用代表了各類審計大數據展示平臺的打造已經愈發成熟,從傳統的小數據集到復雜的三維,甚至是四維可視化模式。隨著數據范圍的擴展,在可視化大數據結果之前,特征壓縮和幾何建模算法能夠很好的降低數據體積,幫助可視化視圖的展現。
自動化軟件
信息化與自動化密不可分。筆者認為,直至今日自動化在審計工作中仍大有可為之處。大數據應用向深入發展必須依靠自動化來降低現場操作難度。可以使用python類的解析語言,幫助各個功能模型完成自動化水平的提升,大大增強單兵作戰能力。這是大數據應用的重要功能模塊,也是審計信息化建設的發展方向。
人工智能
大數據審計應用當前在AI方面基本上還是一個空白,但絕對是未來大數據應用的一塊處女地。馬化騰在2017年中國“互聯網+”數字經濟峰會上表示:“未來就是在云端用人工智能處理數據”。在機器學習的基礎之上建立智能分析判斷機制應該成為審計大數據的發展方向。Map/Reduce、DryadLINQ都可以成為審計大數據的深度機器學習解決方案,SVM和ANN則實現智能化整合,確保大數據AI的高效與精準。
四、作用
在國內,不論BAT、浪潮華為還是移動電信都有自己的一套研究方案,也在探索自己的功能模型,并且一擲千金。對于審計機關而言,大數據應用功能模型棧的作用是指導性的,或者說是方向性的。
一是發展現有成果。大數據功能模型不是要求另起爐灶,而是在現有信息化建設和數據分析成果上的提升和發展。現有的審計模型案例、數據分析平臺、海量數據存儲都是未來大數據功能模型棧使用的前提和基礎。構建一個完善的功能棧能夠最大程度運用好現有的審計信息化成果,讓大數據應用建立在近20年審計工作信息化的基礎之上,大大節省各類成本投入。
二是融合最新趨勢。當前大數據的發展已經體現出專業化、精細化、特殊化的新趨勢,各種新算法、新應用、新功能層出不窮。大數據應用功能模型棧從各個層級兼容了各類大數據分析技術。無論是底層的采集分析和安全防控,還是上層的機器學習和智能化分析都能夠填補當前審計大數據分析的狹義性缺陷,并且從多個方面墊補了現有大數據應用在宏觀層面的不足。
三是實現立體統一。功能整合是大數據功能模型棧最本質的特點,這是一種立體化的有機整合而不是簡單的雜糅。在技術層面,一方面要有足夠的低耦合性,各個層級、各個模塊都遵循自己的一套標準流程,能夠獨立發展與更替;另一方面又要實現整體透明性,對于審計主體而言,實現完全的透明,提供最純粹的大數據審計支撐。在管理層面,持續推進業務和制度的統一。各類審計業務數據全局共享、全局管理、全局監管,全面打通業務條線的職能框架,實現大數據層面的一體化。
四是提升審計效率。提升效率是大數據功能模型棧的最終目的。大數據功能模型棧貫穿了從數據采集到數據應用的各個環節,通過立體化整合提高了復用程度和操作門檻,打通從數據采集、專業調度、深度學習、智能分析到AI的大數據基礎,實現“和審計人員一樣的方式,但是比審計人員快無數倍”的整體功效,讓點對點的抽查到全覆蓋審查成為新常態。讓每一個審計人員高重復性的審計流程中解脫出來,只需要專注于最終的審計結果決策。
五、展望
審計大數據功能模型棧是審計大數據2.0模式的基本構架,也是下階段審計信息化建設的起點。幫助審計系統內部,協調數據與機器、數據與審計人員、數據與數據的三大關系。
在不久的將來,大數據為審計全覆蓋搭建起智慧的橋梁。到那時,審計所需要的不是面向單個業務需求的靜態數據分析結果,而是一種廣義的大數據集成應用:突破數據結構的限制、具有完備的安全管控、多種功能的完美集成、多類模型的高效復用、友好便捷的操作界面和動態演繹的智能推理。
以上內容來自網絡,如有不妥請告知,我們將盡快刪除相關內容





