-
問題觸發的算法模型響應機制探索
2024/4/3 11:38:12 來源:中國產業發展研究網 【字體:大 中 小】【收藏本頁】【打印】【關閉】
核心提示:隨著數字技術的飛速發展和向各行業的應用滲透,數據在不斷產生和匯聚。數據已成為各行業發展的基礎性要素和戰略性資源。隨著數字技術的飛速發展和向各行業的應用滲透,數據在不斷產生和匯聚。數據已成為各行業發展的基礎性要素和戰略性資源。以問題為導向,“用數據說話,用數據決策,用數據管理,用數據創新”已成為各行業數字化轉型和高質量發展的主要抓手。針對問題的分析研判也正由經驗判斷向數據分析轉變,“數據賦能”正在浸潤各行各業。由此,從數據到問題,即通過數據分析提出問題解決對策,便成為數據賦能的主要范式。在此范式下,人們往往在針對場景問題的數據采集、數據處理和分析、可視化監測、趨勢判斷和預警預測等工程技術方面傾注大量的投入,而對于問題的本原,即對問題產生的根源、內容、邏輯、性質和類別以及如何捕捉、識別、提煉和響應等方面往往缺少足夠的關注。亦即,在數據賦能應用過程中,缺乏對問題浮現、問題識別、問題提煉和問題響應等業務環節足夠的滲透與智能投射,從而導致以問題為導向的數據賦能在上述業務環節存在“梯度消失”。
以問題為導向的數據賦能應貫穿從問題浮現到問題解決的全過程,包括問題浮現、問題識別、問題提煉和問題響應(包括響應問題、確立解決方案及后續解決執行)各環節。亦即,在數據賦能應用過程中,應從問題浮現、問題識別、問題提煉和問題響應的全鏈條角度,以問題數據為材料,以算法模型為智能引擎,實現數據智能在各環節的滲透與投射,消除數據賦能在各環節的“梯度消失”。這其中,算法模型及其響應機制至為關鍵。
為此,本文以扎根理論(Grounded Theory)基于原發問題提煉闡發的社會學研究方法,提出問題觸發的算法模型響應機制構建思路,旨在通過算法模型的構建、應用和迭代,建立從問題浮現到問題識別、問題提煉和問題響應的全過程數智化的響應機制。
一、總體思路
眾所周知,數據承載著信息,信息蘊藏著知識,知識可以賦能智慧應用以創造價值。隨著數字技術的飛速發展和在各行各業的深入應用,各類場景問題可通過數字化技術進行數字化記錄,形成問題數據。對這些問題數據進行收集(形成問題庫)、處理和分析,挖掘其中的信息和知識,為問題研判、問題響應和問題解決提供決策依據。這構成了以問題為導向的數據賦能的基本邏輯。
實際過程中,大多只停留在數據采集、數據處理和分析、可視化監測、趨勢判斷和預警預測等工程技術方面(參見附圖1),對于問題的本原,如問題產生的根源、內容、邏輯、性質和類別以及如何捕捉、識別、提煉和響應等方面缺乏足夠的考慮。即在“數據業務化”層面涉及不充分。
附圖1 從數據采集到預測預警的示意圖
問題觸發的算法模型響應機制將立足于從原發問題的本原探究出發,從問題浮現、問題識別、問題提煉和問題響應等各環節著手,以問題數據為材料,以算法模型為智能引擎,建立從問題浮現到問題識別、問題提煉和問題響應的全過程數智化的響應機制(參見附圖2),實現“數據賦能”貫穿從問題浮現到問題解決的全過程。
附圖2 問題觸發的算法模型響應機制總體思路
從附圖2可見,問題浮現是整個機制的起點,問題響應是整個機制的終點,二者都是問題數據的來源——前者是問題的初始來源,后者是問題解決成效的反饋,并且構成了一個問題從浮現到解決的閉環。通過對問題浮現和問題響應的數據收集和處理,形成問題數據庫,就形成了問題觸發的算法模型響應機制構建之源,這也是問題“業務數據化”過程。問題識別和問題提煉是問題“數據業務化”的核心,是從問題浮現到問題響應的智慧轉換器,而智慧之源來自于算法模型。算法模型封裝了多種基礎算法和針對各類垂直應用、特定任務解決能力的智能引擎,這些算法和引擎通過對問題數據的分析和挖掘,高效精準地識別問題的來源、特征、內容、類別和其它相關屬性(如緊急事件、突發事情、熱點事情或其它難點痛點堵點事件等等),并根據問題識別的結果辨析出那些符合實際的可觸及、可控制、可解決的問題,同時提煉出問題中的相關概念和命題,結合歷史經驗(對策庫)和一些標桿做法,進而提煉出相應的問題解決理論體系和響應對策,從而實現“數據賦能”貫穿從問題浮現到問題解決的全過程。
二、問題浮現
問題浮現是整個機制形成的起點,也是初始問題數據收集的來源。無疑,了解問題浮現的起因與渠道至為關鍵。
不論是公共服務領域,還是商業領域,問題浮現的起因大多來自需求側的各類訴求,包括投訴、表揚、建議、咨詢、求助與評價等等,也有來自第三方的調查或對供給側的服務監督過程中的主動發現。問題浮現的渠道也涉及多源。
以公共服務為例,問題的浮現有來自企業和群眾的主動反饋,如通過12345政務熱線,或通過政務服務好差評平臺,或是通過線下政務大廳專設窗口(如“不辦事”窗口)。也有來自于大調研或第三方調查過程中的主動發現,如通過結構化或半結構化問卷的發放與問題采集。還有來自政府部門在重點事件關注或執法過程中的發現,或是如“雙隨機一公開”執法監督過程中的主動發現。也包括對相關互聯網辦事平臺與其它互聯網媒體的監測過程中的問題捕獲等等。問題的內容可能涉及方方面面,如政務服務、營商環境、市場監管、生態環保、公共管理、公共安全、公共服務及其它。問題的焦點可能涉及一些長期以來的難點、堵點和痛點,也可能涉及一些突發、并發或熱點事件,抑或涉及政府部門某些重點關注的事件等等。
不同于以往的僅是從各業務系統收集數據并試圖從數據中挖掘問題,對問題浮現的深入了解與分析將有助于多渠道多角度捕獲問題的浮現,特別是對于潛在的隱性問題的發現,也有助于拓展問題數據的收集渠道(如大調研、第三方調查、訪談、會議協商、檢測記錄等等),提升數據收集的質量。同時,對問題浮現的深入了解將增強對問題浮現機理的全面掌握和深入了解,為后續的問題識別、問題提煉和問題響應創造良好條件。事實上,問題浮現的渠道、主題、內容和主體之間的矩陣圖譜就構成了具象化的問題浮現的機理特征,如附圖3所示。
附圖3 問題的渠道、主題、內容和主體之間的矩陣圖譜
三、問題識別
問題識別在于挖掘問題的特征和識別問題的類型。這將采用扎根理論質性研究方法來實現。首先對問題數據進行詳細的分類和標簽化處理,識別問題的基本概念和特征(簡稱“初始編碼”),然后將這些概念和特征進行關聯,分析它們之間的邏輯聯系、條件關系和因果機制,找出它們的主題范疇(簡稱“主軸編碼”),最后確定一個核心主題,圍繞這個主題整合主題范疇和概念,構建問題的核心結構(簡稱“選擇性編碼”)。經過上述編碼,可挖掘問題的特征和識別問題的類型。
以公共服務領域中的營商環境問題為例。如前文所述,營商環境問題來自多源:有來自政務數據資源庫,也有來自如企業訪談、營商小組討論、相關文件資料等其它渠道,還有來自于12345政務熱線、政務好差評、投資服務中心、招商過程中的觀察記錄,以及其它政務服務業務系統等。基于對營商環境問題浮現機理的理解進行多源數據收集和處理,形成營商環境問題數據庫,以此作為問題識別的質性研究材料。
首先,尋找并標記出營商環境問題數據中供需雙方關于營商環境提升和優化的初始概念與特征內容。例如,從企業需求側可能會發現如“希望更加公平的市場環境”“司法程序復雜”“項目貨款拖欠嚴重”“招工難”等眾多與營商環境需求相關的訴求概念與特征內容。從政策供給側可能會發現如“關于進一步加強公共資源交易監管的指導意見”“知識產權保護”“信用監管”“人才培訓與人才引進政策”等眾多與營商環境提升相關的初始概念與特征內容。
然后,對這些初始概念或特征內容進行分類和關聯,并歸并或提煉到一個個的主題范疇中。如將“希望更加公平的市場環境”和“關于進一步加強公共資源交易監管的指導意見”歸并到“市場環境”這個主題,“司法程序復雜”和“知識產權保護”歸并到“法制環境”,“項目貨款拖欠嚴重”和“信用監管”歸并到“信用環境”,“招工難”和“人才培訓與人才引進政策”歸并到“要素環境”等等。
最后,確定一個核心主題,整合各個主題范疇和概念。如確定“營商環境優化和提升行動”這個核心主題,將“市場環境”“法制環境”“信用環境”“要素環境”及其它主題、概念進行整合,形成針對營商環境優化和提升行動的基本理論框架。參見附圖4。
附圖4 針對營商環境問題的編碼與識別-1
實際過程中,可根據需要進一步將主題范疇細分為多級子主題范疇。例如,將“市場環境”進一步細分為“市場準入”“市場監管”等,將“法制環境”細分為“依法監管”“法律訴訟”,“信用環境”細分為“社會信用”“信用監管”等等。參見附圖5。
附圖5 針對營商環境問題的編碼與識別-2
考慮到與監測和評價指標的描述相一致,在問題識別過程中,可借助相關監測與評價的指標名來匹配編碼過程中的相關概念和主題范疇。針對營商環境問題,可參照營商環境評價指標體系來進行。
四、問題提煉
在問題識別形成概念和主題基本理論框架的基礎上,進一步對這些概念進行關聯和匹配,實現問題提煉,為下一步的問題響應提供建議與理論指導。問題提煉主要涉及三個方面的核心內容:提煉概念中的異常情況(形成類似分類算法中的負例數據集);辨析異常情況的可觸及性、可控性和可操作性,并結合其它特征變量分類排序形成問題序列(相當于對負例數據集進行等級分類和排序);進一步對問題進行深度挖掘,形成新的概念和命題,構建問題新的理論范式,并結合經驗對策和一些標桿做法生成問題響應的對策與建議(相當于對負例數據進行分析挖掘后形成的對策與建議)。從技術角度而言,這三個核心內容構成了“問題提煉器”的三大核心功能。參見附圖6。
附圖6 問題提煉器的三大核心功能
仍以營商環境問題為例。企業側的需求和政府側的供給是營商環境問題的兩個方面。因而,在問題識別的基礎上,可對概念進行供需之間的關聯和匹配,以發現供需之間哪些概念具有一致性,哪些概念存在部分差異,哪些概念存在顯著沖突和矛盾(對于新出現的概念,技術上可視為此類)等。如企業需求側的“希望更加公平的市場環境”與政府供給側的“關于進一步加強公共資源交易監管的指導意見”之間可能是一致的,“司法程序復雜”與“知識產權保護”之間可能存在部分差異,而“項目貨款拖欠嚴重”與“信用監管”、“招工難”與“人才培訓與人才引進政策”之間可能存在顯著沖突和矛盾。參見附圖7。
附圖7 營商環境問題中的異常概念提煉示意圖
其中,一致性說明營商環境的提升行動是滿足需求的,存在部分差異的說明營商環境仍需要進一步完善和優化,而存在沖突和矛盾的或新出現的概念,則需要重點關注。
鑒于并非所有的異常概念都具有合理性和可解性,因而問題提煉的第二個核心內容則是進一步辨析問題的可觸及性、可控性和可操作性,并根據輕重緩急與其它相關特征變量(如差異程度、緊急程度、突發/并發/熱點、社會影響、合理性、可解性、難易程度等等),通過分類排序模型生成問題序列。這部分工作需要借助有關規則和專家系統來進行。
問題提煉的第三個核心內容將是進一步對問題進行深度挖掘,形成新的概念和命題,構建問題新的理論范式,并結合經驗對策和一些標桿做法生成問題響應的對策與建議。具體而言,通過進一步對初始問題進行深度挖掘,從初始問題的表述中提煉概念、實體、關系、屬性、事件、特征等關鍵要素及其之間的邏輯關系、因果機制和知識圖譜,構建系列新的命題范疇。同時,通過重新挖掘出初始問題的關鍵邏輯和規則,進一步地提煉、綜合和整合不同表述的同類概念,形成系列新的概念表述。并結合前述的異常分析和問題序列,構建新的核心主題。新的概念表述、新的命題和新的核心主題組合形成了初始問題的新的理論范式。在此基礎上,再結合經驗對策和一些標桿做法生成問題響應的對策與建議。
五、問題響應
在問題響應環節,借助于問題提煉生成的對策與建議,針對性地制定相應的解決方案,為問題解決提供行動指南。
在制定解決方案之前,首先需要根據問題提煉階段提煉出的有關問題要素,如問題的內容、性質和問題主體等等,決定是否需要進一步與問題主體(問題當事人或其它相關人)進行溝通,以挖掘問題的真實原意。或對照比較是否屬于領導重點關注的重大事件之列。同時,根據不同的問題內容、性質和主體,挖掘問題的核心目標是什么,需要投入哪些資源和條件,需要哪些法律法規支撐和保障措施,需要履行哪些決策程序,執行周期會有多長,執行后是否會達到問題的核心目標。將這些決策變量組合在一起進行推演和模擬,當預期效果能達到問題的核心目標時,便可形成解決方案和行動指南。對于達不到預期效果的問題,或是一時找不到好的對策的問題,可以借鑒其它地方的問題解決標桿來確定自己的解決方案。
總之,在問題響應環節,首先需要基于問題提煉的對策與建議,確定問題解決需要的要素條件,形成問題解決的時間路線圖,然后通過組合不同的條件變量進行推演和模擬,形成有針對性的問題解決方案,這便構建了問題響應和問題解決的基本構架和主要邏輯。
作為閉環,對于問題響應和問題解決的成效需要進一步跟蹤,形成問題響應和問題解決的“跟蹤庫”。對于成效不高的解決方案,需要進一步修正有關條件變量和時間路線圖。對于達到問題核心目標的解決方案,便可形成具有參考價值的“對策庫”,為日后重復問題的解決提供自動響應機制。參見附圖8。
附圖8 問題響應過程示意圖
六、關鍵技術
問題觸發的算法模型響應機制,仍然離不開數據收集、數據處理和數據分析等一些常用大數據技術的支持,包括數據治理、標準規范和數據安全等方面的技術應用。從前文可知,算法模型為智能引擎,是實現數據賦能貫穿從問題浮現至問題識別、問題提煉和問題響應全過程的關鍵。因此,本文著重討論算法模型構建的關鍵技術。
通常,基于扎根理論的研究可以借助于一些成熟的軟件工具來實現,如Nvivo、MAXQDA和QDA Miner等。盡管這些軟件在編碼方面表現出較強的性能,然而在效率上仍屬于“作坊式”定制,在準確度上仍需大量的人工干預。特別是在“理論飽和”環節需要重復收集和分析數據,缺乏自動化和智能化。
近年來,機器學習尤其是深度學習技術得到了長足的發展。特別是隨著ChatGPT的出現,以GPTs為代表的生成式人工智能正在應用到各行各業中。本文討論的算法模型關鍵技術將全面采用機器學習算法來實現。參見附圖9。
附圖9 機器學習算法在問題驅動的算法模型響應機制中的應用
在問題浮現環節,可以通過“超能交互”、智能語音識別技術及其它圖像識別、圖像分割和圖生文大模型技術來實現對問題浮現的捕獲與問題數據生成。
在問題識別環節,可以組合運用分詞技術(如N-gram模型、隱Markov 模型、最大熵模型和神經網絡算法)、TF-IDF等文本特征選擇與向量化模型技術選擇問題數據中的特征和概念;運用詞向量技術(如Word2Vec)和潛在狄利克雷分布(LDA)主題分析技術,可提取問題數據中的關鍵詞和若干主題,并可標示主題與關鍵詞之間的權重情況,建立主題與關鍵詞之間的關系,識別關鍵詞之間的語義關系和相似度;通過知識智譜技術(如實體抽取、實體對齊、三元組抽取、事件抽取等技術),挖掘各種概念之間的關聯關系。加上如文本分類、文本聚類等技術,為問題識別提供了豐富的技術手段。
在問題提煉環節,通過對實體對齊后的供需三元組屬性值進行比較分析,以識別供需之間同一范疇內的概念是否一致,或是否存在差異,或否存在顯著沖突和矛盾等情況。對于異常概念,可根據問題的可觸及性、可控性和可操作性及其它其它相關特征變量(如差異程度、緊急程度、突發/并發/熱點、社會影響、合理性、可解性、難易程度等),通過分類排序模型生成問題序列。可通過如主成分分析(PCA)或非負矩陣分解(NMF)技術進一步抽取問題數據的特征和主題,形成新的概念和命題,以形成問題的新理論范式。結合歷史經驗和標桿,并利用類ChatGPT生成模型生成問題響應的建議和對策。整體上,上述技術的有機組合形成了一個問題提煉器。
在問題響應環節,可通過歷史數據訓練一些垂直領域大模型,建立問題解決方案中的條件變量、時間路線圖與問題解決成效之間的對應關系,并以此大模型作為解決方案的扮演和模擬器,提升問題解決方案制定的科學性。其它如Embeddings模型、RAG檢索增強生成和向量數據庫技術等,將為問題響應提供智能問答和文檔摘要生成能力,助力問題響應過程中的自動化和智能化。
實際過程中,這些算法模型的集合構成了問題驅動的算法模型響應機制的 “算法庫”,作為貫穿從問題浮現到問題識別、問題提煉和問題響應全過程的“智能中樞”。參見附圖10。
附圖10 從問題浮現到問題響應的智能中樞——算法庫
由此可見,問題觸發的算法模型響應機制,是以扎根理論的研究方法為思路,以原發問題為質性研究材料,以算法庫為智能中樞,從而實現從問題浮現到問題識別、問題提煉和問題響應全過程的自動化和智能化,為公共服務和商業智能領域真正實現以問題為導向發揮數據的基礎要素和戰略資源作用提供了一種新的思路探索。
實踐過程中,重點需要把握三個方面的工作。第一是問題體系構建和模型準備。針對某一行業或領域,堅持以原發問題為導向,厘清問題浮現的源頭,收集歷史問題多源數據,通過垂直行業大模型訓練并建立覆蓋問題浮現監測、問題識別、問題提煉和問題響應能力的算法模型(庫),并構建問題標準化體系(指標庫)。以12345政務熱線場景為例,問題浮現的源頭主要有12345電話呼入、各級政府的微信與微博、各類政務服務平臺的滿意度評價和好差評、大調研、第三方調查、各類互聯網媒體及其它等。通過對這些渠道的歷史數據進行收集,建立12345政務熱線行業大模型,打造立覆蓋12345熱線各類問題浮現監測、問題識別、問題提煉和問題響應能力的算法模型(庫)(即模型能力APIs),并構建12345熱線問題標準化體系(各類問題指標庫)和對策庫。第二是問題提煉器的構建。在整個算法庫的構建過程中,作為初始問題新的理論范式構建的重要引擎,問題提煉器在整個算法模型響應機制中起著至關重要的作用。問題提煉器的能力和性能決定了新概念和新命題提煉的質量,也決定了新的理論范式的先進性,從而也決定了對策與建議的科學性和準確性。第三針對具體細分場景問題的應用。應用所建立的問題標準化體系、對策庫和算法模型(庫),監測具體細分場景問題的浮現,通過問題識別、問題提煉(問題解析)和問題響應(推演和模擬),對應到具體的解決方案。問題解決方案的成效將被跟蹤記錄(跟蹤庫),作為閉環,不斷優化迭代算法模型的應用能力。(作者:零點有數許正軍、袁 岳)
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,郵箱:[email protected]。