在新型電力系統(tǒng)加速建設的今天,電網(wǎng)信息系統(tǒng)規(guī)模從千萬級代碼躍升至十億級,迭代周期不斷壓縮,系統(tǒng)安全穩(wěn)定運行面臨前所未有的壓力。傳統(tǒng)運維模式如同“事后救火”,代碼缺陷潛伏、風險感知滯后、故障定位緩慢,歷史故障中由代碼缺陷引發(fā)的異常占比高達88%,根因定位平均耗時小時級,業(yè)務中斷風險如影隨形。
國網(wǎng)浙江電力迎難而上,創(chuàng)新打造信息系統(tǒng)主動式運維體系,自主研發(fā)“酷德”(CODE)代碼審核智能體與“洛格”(LOG)日志分析智能體,形成了“一靜一動、一治一防”的“中西醫(yī)結合”智能防線:“酷德”如同西醫(yī),在建設期對代碼進行深度“CT掃描”;“洛格”如同中醫(yī),在運行期對系統(tǒng)進行“望聞問切”。二者協(xié)同發(fā)力,推動運維模式從“事后救火、被動響應”向“事前預警、主動治理”根本性轉(zhuǎn)變。
“西醫(yī)”酷德:精準掃描,把缺陷攔截在上線之前
系統(tǒng)建設階段,代碼如同“黑盒”,原生缺陷長期潛伏,上線即“帶病運行”。約70%的系統(tǒng)異常由數(shù)據(jù)庫SQL性能問題引起,82%的網(wǎng)絡安全漏洞由開源組件引入。傳統(tǒng)第三方測試周期長、缺乏實際運行數(shù)據(jù),難以在快速迭代中有效把關。
西醫(yī)強調(diào)預防為主,通過定期體檢、CT影像掃描等手段,在疾病尚未出現(xiàn)癥狀時發(fā)現(xiàn)病灶,從而實現(xiàn)“治未病”。“酷德”正是借鑒這一理念,在信息系統(tǒng)建設階段對代碼開展全面“體檢”。它依托光明電力大模型,整合專家運行經(jīng)驗、SQL評價規(guī)則與CVE漏洞庫,結合實際運行環(huán)境中的索引、表結構等數(shù)據(jù)模型,實現(xiàn)對SQL語句、JAVA源碼、開源組件的全自動掃描,同步推送優(yōu)化方案。
在支撐統(tǒng)一權限系統(tǒng)自主可控改造中,“酷德”對90萬行代碼進行全面審核,精準鎖定103項源碼風險,審核170條SQL語句并治理72項風險,歷時三個月優(yōu)化整改,核心接口響應時延降低60%。去年8月11日,國網(wǎng)首家實現(xiàn)全量229套系統(tǒng)一次性割接,原本計劃3天的檢修提前至12小時完成。
自2025年3月嵌入檢修發(fā)布流程以來,“酷德”累計審核源碼超5000萬行,攔截缺陷SQL語句5177條、代碼缺陷1.4萬余項、三方組件缺陷1505項。自此,代碼審核環(huán)節(jié)正式嵌入檢修流程,近一年來,因系統(tǒng)檢修導致的異常從2024年的7起直降至0起。SQL審核準確率達100%,噪音率由最初的58%下降至4%以下。“酷德”已先后在國家能源互聯(lián)網(wǎng)大會、世界互聯(lián)網(wǎng)大會亮相,并推廣至安徽、新疆、寧夏等多家網(wǎng)省公司試用。
“中醫(yī)”洛格:望聞問切,讓風險消弭于未發(fā)之時
系統(tǒng)故障并非瞬時發(fā)生,往往有數(shù)小時的發(fā)展過程。能否借助人工智能手段提前感知風險,爭取寶貴的“搶救”時間?浙江公司給出答案:“洛格”運行分析智能體。
“洛格”打通了監(jiān)控指標、訪問日志、運行方式、應用運行日志等海量異構數(shù)據(jù),整合近三年的缺陷、異常、故障案例作為專家運維知識庫。它借鑒中醫(yī)“望聞問切”的理念,實現(xiàn)多源交叉驗證:“望”:接入CPU、內(nèi)存等監(jiān)控告警數(shù)據(jù);“聞”:分析業(yè)務系統(tǒng)訪問日志,識別性能突變;“問”:查詢系統(tǒng)運行方式臺賬,在海量數(shù)據(jù)中尋找關聯(lián)線索;“切”:對應用日志深度分析,定位問題根因。由此,“洛格”形成兩大核心能力:一是識別性能劣化趨勢,提前預警潛在運行風險;二是針對運行異常快速分析定位根因,并給出處置建議。
今年1月30日16:55,正值月末月初營銷算費業(yè)務高峰,“洛格”提前監(jiān)測到營銷網(wǎng)上國網(wǎng)業(yè)務異常請求(錯誤率和慢請求)呈上升趨勢,而此時用戶尚未反饋任何異常,系統(tǒng)也未觸發(fā)明顯故障告警。僅用3分鐘到16:58,“洛格”便通過智能關聯(lián)分析,快速判斷異常原因為數(shù)據(jù)庫內(nèi)存硬件隱患,運維負責人立即組織檢修更換內(nèi)存條,在故障爆發(fā)前消除了潛在風險。
自2026年1月投入使用以來,“洛格”已累計預警系統(tǒng)性能劣化趨勢13次,其中3次可能進一步導致系統(tǒng)異?;蚬收系陌l(fā)生。通過異常根因智能分析,運維人員快速定位問題并提前消缺,根因定位平均耗時由小時級縮短至5分鐘以內(nèi),先于用戶感知異常率達100%。
“酷德”與“洛格”,一個在建設期把住代碼質(zhì)量關口,一個在運行期實時感知健康狀態(tài);一個精準治理“已病”,一個見微知著“治未病”。通過這對“中西醫(yī)”的協(xié)同發(fā)力,國網(wǎng)浙江電力系統(tǒng)故障率同比下降45.5%,根因定位耗時從小時級壓縮至分鐘級,運維效率與系統(tǒng)安全運行保障能力顯著提升。下一步,國網(wǎng)浙江電力將持續(xù)深化智能體自學習能力,推動“酷德”審核關口前移至研發(fā)階段,擴大“洛格”對全量重要系統(tǒng)的接入,最終實現(xiàn)“事前阻斷、事中自愈、事后進化”的運維新范式,為新型電力系統(tǒng)的安全穩(wěn)定運行貢獻更多“浙江經(jīng)驗”。投稿人:詹佳雯、包迅格、楊冬