前言:中文期刊網(wǎng)精心挑選了好的日志文章范文供你參考和學(xué)習(xí),希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感,歡迎閱讀。
好的日志文章范文1
關(guān)鍵詞:日志規(guī)整;實(shí)時(shí)采集;日志分析
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)28-6433-04
1 背景
當(dāng)前營(yíng)業(yè)員和用戶在業(yè)務(wù)支撐系統(tǒng)(簡(jiǎn)稱:BOSS系統(tǒng))辦理業(yè)務(wù)出現(xiàn)問(wèn)題和故障的時(shí)候,通常由用戶打10086投訴或者營(yíng)業(yè)員報(bào)障給后臺(tái)維護(hù)人員進(jìn)行故障分析和處理。這個(gè)處理流程很耗時(shí)間,影響問(wèn)題的解決效率。
在BOSS系統(tǒng)的各個(gè)渠道查詢或受理業(yè)務(wù)的過(guò)程中,都有可能會(huì)因網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、應(yīng)用系統(tǒng)等各方面原因拋出異常錯(cuò)誤信息,這類錯(cuò)誤信息記錄在BOSS系統(tǒng)各主機(jī)的日志文件中,由于BOSS系統(tǒng)每天產(chǎn)生大量的日志文件,從日志文件中定位查找錯(cuò)誤信息需要花費(fèi)大量的時(shí)間,對(duì)維護(hù)人員處理問(wèn)題和故障帶來(lái)不便,影響問(wèn)題的及時(shí)發(fā)現(xiàn)和處理實(shí)效性。
2 研究思路
考慮從主機(jī)的日志文件中及時(shí)地收集到這種系統(tǒng)異常錯(cuò)誤信息,并自動(dòng)入庫(kù)進(jìn)行分析,維護(hù)人員就能及時(shí)的了解BOSS系統(tǒng)當(dāng)前的運(yùn)行情況,發(fā)現(xiàn)系統(tǒng)問(wèn)題,查詢錯(cuò)誤信息,能夠在營(yíng)業(yè)員或客戶投訴之前就可以去核查解決,提升問(wèn)題處理的及時(shí)性和效率,保障系統(tǒng)健康穩(wěn)定的運(yùn)行,從而提高系統(tǒng)業(yè)務(wù)支撐水平,提升營(yíng)業(yè)員和客戶的內(nèi)外部滿意度。
3 實(shí)現(xiàn)方案
建立BOSS系統(tǒng)日志分析管理平臺(tái),對(duì)BOSS系統(tǒng)主機(jī)產(chǎn)生的各種日志進(jìn)行日志異常分析和日志管理,針對(duì)主機(jī)系統(tǒng)產(chǎn)生的大量日志文件進(jìn)行處理:日志采集,日志管理,日志分析,日志綜合告警執(zhí)行以及執(zhí)行前流程審批權(quán)限設(shè)立、分析結(jié)果處理執(zhí)行中的流程跟蹤、分析結(jié)果處理執(zhí)行后的日志留痕。通過(guò)日志分析管理平臺(tái),維護(hù)人員能夠方便的查看日志的分析結(jié)果、以及日志異常產(chǎn)生的次數(shù)和時(shí)間段,如系統(tǒng)錯(cuò)誤產(chǎn)生的次數(shù)、產(chǎn)生的時(shí)間段、業(yè)務(wù)執(zhí)行人員信息記錄、業(yè)務(wù)執(zhí)行影響等信息,從另一個(gè)角度去分析主機(jī)的穩(wěn)定情況以及運(yùn)行效率,以往一些不容易察覺(jué)的異常信息,通過(guò)對(duì)日志分析規(guī)則的配置和數(shù)據(jù)采集,也會(huì)在系統(tǒng)中體現(xiàn)出來(lái),從而提高系統(tǒng)維護(hù)管理的水平。
3.1 日志分析平臺(tái)系統(tǒng)架構(gòu)
系統(tǒng)架構(gòu)說(shuō)明:
1)采集客戶端:運(yùn)行在生產(chǎn)主機(jī)上的采集客戶端程序,負(fù)責(zé)收集相關(guān)日志,預(yù)處理并通過(guò)socket方式發(fā)送給采集服務(wù)端。
2)采集服務(wù):采集服務(wù)端對(duì)消息進(jìn)行緩存,由消息處理器進(jìn)行異步處理,生成消息首先放入內(nèi)存,同時(shí)發(fā)給實(shí)時(shí)告警,當(dāng)內(nèi)存中的記錄數(shù)達(dá)到配置的閥值時(shí)寫(xiě)入文件數(shù)據(jù)庫(kù)。
3)告警處理:實(shí)時(shí)告警收到消息后根據(jù)告警規(guī)則配置進(jìn)行處理,并將結(jié)果入庫(kù)。
4)查詢服務(wù):查詢服務(wù)接收web端和統(tǒng)計(jì)進(jìn)程的查詢請(qǐng)求,從文件數(shù)據(jù)庫(kù)和采集服務(wù)端的內(nèi)存中查詢符合條件的記錄返回給調(diào)用端。
3.2 日志分析平臺(tái)系統(tǒng)功能
系統(tǒng)功能說(shuō)明:
1)日志監(jiān)控采集:從各渠道的業(yè)務(wù)主機(jī)上實(shí)時(shí)讀取新生成日志信息。由于BOSS系統(tǒng)各臺(tái)主機(jī)上每天生成的日志信息量很龐大(達(dá)到830G),因此部署的客戶端程序要能夠?qū)崟r(shí)采集日志,并且對(duì)主機(jī)性能不會(huì)造成大的影響。設(shè)計(jì)上采用客戶端部署日志爬蟲(chóng)程序,實(shí)時(shí)采集日志并傳送給服務(wù)端,采集傳送時(shí)間
2)日志規(guī)整處理:對(duì)采集完成的的日志文本信息,按照既定格式統(tǒng)一進(jìn)行規(guī)整處理,便于后續(xù)的存放和分析。
3)消息緩沖處理:將規(guī)整好的日志信息,送入待發(fā)往消息中心的緩沖區(qū)中。
4)消息發(fā)送處理:將緩沖區(qū)中存在的日志信息,取出發(fā)往消息中心;對(duì)發(fā)送出錯(cuò)的消息,記錄關(guān)聯(lián)信息到錯(cuò)誤重發(fā)文件中。
5)錯(cuò)誤重發(fā)處理:根據(jù)錯(cuò)誤記錄文件檢索需要重新發(fā)送的日志信息,將消息再次發(fā)送。
6)日志分析處理:對(duì)日志進(jìn)行分析,從有利于維護(hù)人員定位分析問(wèn)題的角度出發(fā),全方位提取錯(cuò)誤的信息并進(jìn)行歸類分析,如業(yè)務(wù)調(diào)用路徑分析、業(yè)務(wù)調(diào)用關(guān)系分析、調(diào)用函數(shù)分析、異常效率分析等,對(duì)分析出來(lái)的信息在WEB界面進(jìn)行關(guān)聯(lián)展現(xiàn),便于對(duì)信息全方位的查看和分析。
7)統(tǒng)計(jì)告警查詢:根據(jù)錯(cuò)誤信息進(jìn)行歸類,達(dá)到一定閥值的進(jìn)行告警(閥值可以進(jìn)行手工調(diào)整),對(duì)告警的詳細(xì)信息在WEB界面進(jìn)行統(tǒng)一展現(xiàn),并對(duì)錯(cuò)誤信息進(jìn)行統(tǒng)計(jì),對(duì)外提供查詢。
3.3 系統(tǒng)處理流程
從總體流程來(lái)看,整個(gè)日志處理過(guò)程分為三大部分:
1)采集流程:通過(guò)采集配置-日志采集引擎根據(jù)配置信息從指定主機(jī)日志文件中采集關(guān)鍵信息-持久化采集信息-數(shù)據(jù)入庫(kù)。
日志采集要求對(duì)多個(gè)大容量的日志文件進(jìn)行實(shí)時(shí)的采集,采集的方式主要以全量采集和增量采集為主,可開(kāi)啟多個(gè)采集進(jìn)程進(jìn)行同時(shí)采集,采集引擎根據(jù)配置信息里的采集關(guān)鍵詞,以及需要采集的日志文件名稱,在對(duì)應(yīng)的主機(jī)日志文件中查找存在關(guān)鍵詞的行。
2)告警流程:當(dāng)采集的信息數(shù)量達(dá)到事先設(shè)定的閥值時(shí),會(huì)產(chǎn)生告警信息(包括發(fā)送短信到維護(hù)人員手機(jī)和頁(yè)面告警兩種方式)。
3)分析流程:業(yè)務(wù)日志分析查詢-日志分析程序分析采集信息-得出分析結(jié)果-返回查詢操作-用戶查看分析結(jié)果視圖。
以上日志采集、告警和日志分析組成了整套日志采集分析流程。在采集時(shí)只需要添加采集配置信息以及采集關(guān)鍵詞,后臺(tái)采集程序即會(huì)自動(dòng)根據(jù)配置信息,到相應(yīng)的主機(jī)日志文件中采集,無(wú)需人工干預(yù)。當(dāng)采集的信息數(shù)量達(dá)到事先設(shè)定的閥值時(shí),會(huì)進(jìn)行告警(見(jiàn)圖4),同時(shí)將采集信息入庫(kù)。采集信息入庫(kù)后,要查詢?nèi)罩娟P(guān)鍵信息,只需要登錄日志分析管理平臺(tái)進(jìn)行查詢(見(jiàn)圖5),查詢方式可以按天,按日志文件名,產(chǎn)生日志的日期等。平臺(tái)會(huì)自動(dòng)根據(jù)日志采集信息生成統(tǒng)計(jì)圖型,方便維護(hù)人員對(duì)一段時(shí)間內(nèi)的采集信息進(jìn)行評(píng)估,并提供日志信息導(dǎo)出功能。
4 應(yīng)用效果
BOSS系統(tǒng)日志分析管理平臺(tái)2011年12月上線后,通過(guò)部署在CRM系統(tǒng)一臺(tái)中間件主機(jī)上的日志采集客戶端程序?qū)θ罩疚募M(jìn)行統(tǒng)一采集,發(fā)送到日志分析服務(wù)器上進(jìn)行統(tǒng)一管理和展現(xiàn),取得較好的應(yīng)用效果:
1)采集處理對(duì)中間件主機(jī)的CPU使用率的影響很小(
2)提升工作效率:維護(hù)人員通過(guò)日志分析平臺(tái)的前臺(tái)界面查看日志信息,節(jié)省了維護(hù)人員頻繁登錄各臺(tái)主機(jī)搜索日志的大部分繁瑣的工作。平臺(tái)上線前,維護(hù)人員面對(duì)龐大的日志記錄,定位目標(biāo)信息至少需要15分鐘;平臺(tái)上線后,維護(hù)人員在系統(tǒng)上選擇對(duì)應(yīng)主機(jī)IP和關(guān)鍵詞信息即可查看日志信息,1-2分鐘內(nèi)即可定位,日志信息定位效率提升10倍以上。
3)加強(qiáng)系統(tǒng)監(jiān)控:平臺(tái)上線前維護(hù)人員需要手工登錄各個(gè)系統(tǒng),并查看刷新的日志記錄是否存在異常,大量異常信息無(wú)法實(shí)時(shí)捕捉到,無(wú)法進(jìn)行系統(tǒng)的實(shí)時(shí)監(jiān)控;平臺(tái)上線后,日志采集程序在各個(gè)主機(jī)平臺(tái)實(shí)時(shí)采集分析日志信息,實(shí)時(shí)定位異常信息點(diǎn),并告警通知相關(guān)維護(hù)人員,保證了各系統(tǒng)7*24小時(shí)的實(shí)時(shí)監(jiān)控,提升了系統(tǒng)的穩(wěn)定性。
4)縮短故障處理時(shí)間:平臺(tái)上線前,故障處理人員需要登錄對(duì)應(yīng)主機(jī),查看系統(tǒng)日志進(jìn)行故障分析,過(guò)程需要20分鐘甚至更久;平臺(tái)上線后,故障處理人員只需登錄平臺(tái)系統(tǒng)在監(jiān)控和告警管理界面能查看故障信息,就能進(jìn)行故障定位,只需要5分鐘甚至更少時(shí)間,故障定位處理時(shí)間縮短15分鐘以上。
5 小結(jié)和展望
日志分析管理平臺(tái)對(duì)BOSS系統(tǒng)的日志信息實(shí)現(xiàn)了統(tǒng)一配置采集,統(tǒng)一日志信息展現(xiàn),去除人工搜索日志信息帶來(lái)的時(shí)間浪費(fèi),維護(hù)人員不用再登陸到各個(gè)主機(jī)上搜索日志,只需登陸到日志平臺(tái)查詢各種日志信息,減少重復(fù)的人工操作和對(duì)主機(jī)資源的浪費(fèi);平臺(tái)對(duì)采集到的日志進(jìn)行錯(cuò)誤信息實(shí)時(shí)告警,方便了維護(hù)人員對(duì)故障問(wèn)題的發(fā)現(xiàn)、定位和解決,提高問(wèn)題解決的實(shí)效性,對(duì)提升前臺(tái)和客戶滿意度起到較好的效果。
2012年6月,日志采集客戶端部署在CRM三臺(tái)中間件主機(jī)上運(yùn)行。后續(xù)將根據(jù)實(shí)際使用情況部署到其他主機(jī)上運(yùn)行。
參考文獻(xiàn):
[1] 《廣西移動(dòng)BOSS應(yīng)用服務(wù)評(píng)估分析項(xiàng)目技術(shù)建議書(shū)》神州數(shù)碼思特奇信息技術(shù)股份有限公司[Z].2011.
好的日志文章范文2
關(guān)鍵詞:網(wǎng)絡(luò)安全審計(jì);日志;日志格式
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)14-20803-02
1 引言
防火墻、入侵檢測(cè)系統(tǒng)和安全審計(jì)系統(tǒng)等安全產(chǎn)品為內(nèi)部網(wǎng)絡(luò)提供了良好的保護(hù)作用。安全審計(jì)系統(tǒng)提供了一種通過(guò)收集各種網(wǎng)絡(luò)信息從而發(fā)現(xiàn)有用信息的機(jī)制,將這種機(jī)制應(yīng)用于局域網(wǎng)內(nèi)部,從多種網(wǎng)絡(luò)安全產(chǎn)品中收集日志和警報(bào)信息并分析,從而實(shí)現(xiàn)效能的融合,與防火墻、入侵檢測(cè)系統(tǒng)等安全產(chǎn)品形成合力,為局域網(wǎng)的安全提供強(qiáng)有力的保障。
如何高效的從各種網(wǎng)絡(luò)設(shè)備所生成的海量的日志數(shù)據(jù)信息中提取有用信息,通過(guò)格式的統(tǒng)一整合后為安全審計(jì)系統(tǒng)提供統(tǒng)一接口,這是安全審計(jì)系統(tǒng)一項(xiàng)十分關(guān)鍵的工作,也是影響整個(gè)系統(tǒng)性能的一個(gè)重要因素,本文就此進(jìn)行探討。
2 安全審計(jì)系統(tǒng)的功能需求
安全監(jiān)控與審計(jì)技術(shù)通過(guò)實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)活動(dòng),分析用戶和系統(tǒng)的行為、審計(jì)系統(tǒng)配置和漏洞、評(píng)估敏感系統(tǒng)和數(shù)據(jù)的完整性、識(shí)別攻擊行為、對(duì)異常行為進(jìn)行統(tǒng)計(jì)、跟蹤識(shí)別違反安全法則的行為等功能,使系統(tǒng)管理員可以有效地監(jiān)控、評(píng)估自己的系統(tǒng)和網(wǎng)絡(luò)。監(jiān)控審計(jì)技術(shù)是對(duì)防火墻和入侵檢測(cè)系統(tǒng)的有效補(bǔ)充,彌補(bǔ)了傳統(tǒng)防火墻對(duì)網(wǎng)絡(luò)傳輸內(nèi)容粗粒度(傳輸層以下)的控制不足,同時(shí)作為一種重要的網(wǎng)絡(luò)安全防范手段,對(duì)檢測(cè)手段單一的入侵檢測(cè)系統(tǒng)也是有益的補(bǔ)充,能及時(shí)對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)控,規(guī)范網(wǎng)絡(luò)的使用[1]。
目前,安全審計(jì)系統(tǒng)是網(wǎng)絡(luò)安全領(lǐng)域的一個(gè)研究熱點(diǎn),許多研究者都提出了不同的系統(tǒng)模型,這包括對(duì)內(nèi)容進(jìn)行審計(jì)的安全審計(jì)系統(tǒng)、對(duì)用戶行為進(jìn)行審計(jì)的安全審計(jì)系統(tǒng)以及對(duì)各種安全設(shè)備生成的日志進(jìn)行審計(jì)的安全審計(jì)系統(tǒng)等等。
基于日志的網(wǎng)絡(luò)安全審計(jì)系統(tǒng)是一個(gè)日志接收與日志分析的審計(jì)系統(tǒng),該系統(tǒng)能夠接收、分析審計(jì)局域網(wǎng)內(nèi)的防火墻、入侵檢測(cè)系統(tǒng)等網(wǎng)絡(luò)安全產(chǎn)品生成的日志,審計(jì)局域網(wǎng)內(nèi)的網(wǎng)絡(luò)信息安全。基于日志的網(wǎng)絡(luò)安全審計(jì)系統(tǒng)的功能需求如下:
(1) 集中管理:審計(jì)系統(tǒng)通過(guò)提供一個(gè)統(tǒng)一的集中管理平臺(tái),實(shí)現(xiàn)對(duì)日志、安全審計(jì)中心、日志數(shù)據(jù)庫(kù)的集中管理,包括對(duì)日包更新、備份和刪除等操作。
(2) 能采集各種操作系統(tǒng)的日志,防火墻系統(tǒng)日志,入侵檢測(cè)系統(tǒng)日志,網(wǎng)絡(luò)交換及路由設(shè)備的日志,各種服務(wù)和應(yīng)用系統(tǒng)日志,并且具備處理多日志來(lái)源、多種不同格式日志的能力。
(3) 審計(jì)系統(tǒng)不僅要能對(duì)不同來(lái)源的日志進(jìn)行識(shí)別、歸類和存儲(chǔ),還應(yīng)能自動(dòng)將其收集到的各種日志轉(zhuǎn)換為統(tǒng)一的日志格式,以供系統(tǒng)調(diào)用。并且能以多種方式查詢網(wǎng)絡(luò)中的日志記錄信息,以報(bào)表的形式顯示。
(4) 能及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)存在的安全問(wèn)題并通知管理員采取相應(yīng)措施。系統(tǒng)必須從海量的數(shù)據(jù)信息中找出可疑或危險(xiǎn)的日志信息,并及時(shí)以響鈴、E-mail或其他方式報(bào)警,通知管理員采取應(yīng)對(duì)措施及修復(fù)漏洞。
(5) 審計(jì)系統(tǒng)的存在應(yīng)盡可能少的占用網(wǎng)絡(luò)資源,不對(duì)網(wǎng)絡(luò)造成任何不良的影響。
(6) 具備一定的隱蔽性和自我保護(hù)能力。具有隱蔽性是說(shuō)系統(tǒng)的存在應(yīng)該合理“隱藏”起來(lái),做到對(duì)于入侵者來(lái)說(shuō)是透明而不易察覺(jué)系統(tǒng)的存在。
(7) 保證安全審計(jì)系統(tǒng)使用的各種數(shù)據(jù)源的安全性和有效性。若采用未經(jīng)加密的明文進(jìn)行數(shù)據(jù)傳輸,很容易被截獲、篡改和偽造,工作站與服務(wù)器之間的通訊應(yīng)進(jìn)行加密傳輸,可采用SSL、AES、3DES等加密方式。
(8) 具有友好的操作界面。
3 安全審計(jì)系統(tǒng)的模型概述
如圖1所示,基于日志的安全審計(jì)系統(tǒng)主要包含如下模塊:
(1) :負(fù)責(zé)收集各種日志數(shù)據(jù),包括各種操作系統(tǒng)的日志,防火墻系統(tǒng)日志、入侵檢測(cè)系統(tǒng)日志、網(wǎng)絡(luò)交換及路由設(shè)備的日志、各種服務(wù)和應(yīng)用系統(tǒng)日志等。定時(shí)或?qū)崟r(shí)發(fā)送到審計(jì)中心。其間,日志數(shù)據(jù)的傳送采用加密方式進(jìn)行發(fā)送,防止數(shù)據(jù)被截獲、篡改和偽造。
(2) 數(shù)據(jù)預(yù)處理模塊:將采集到的日志數(shù)據(jù)經(jīng)過(guò)解密后按照數(shù)據(jù)來(lái)源存入相應(yīng)的數(shù)據(jù)庫(kù)中。
(3) 系統(tǒng)管理模塊:負(fù)責(zé)對(duì)日志、安全審計(jì)中心、日志數(shù)據(jù)庫(kù)的集中管理,包括對(duì)日志數(shù)據(jù)的更新、備份和刪除等操作。
(4) 數(shù)據(jù)處理模塊:負(fù)責(zé)自動(dòng)將收集到的各種日志轉(zhuǎn)換為統(tǒng)一的日志格式,并且從海量的數(shù)據(jù)中通過(guò)模式匹配,發(fā)現(xiàn)并找出可疑或危險(xiǎn)的日志信息,交由“日志報(bào)警處理模塊”進(jìn)行處理。
(5) 日志報(bào)警處理模塊:處理已發(fā)現(xiàn)的問(wèn)題,以響鈴、E-mail或其他方式報(bào)警通知管理員采取應(yīng)對(duì)措施。
(6) 數(shù)據(jù)庫(kù)模塊:負(fù)責(zé)接收、保存各種日志數(shù)據(jù),包括策略庫(kù)也存放其中。
(7) 接口模塊:供用戶訪問(wèn)、查詢。
4 安全審計(jì)系統(tǒng)中有用數(shù)據(jù)整合的方法
4.1 安全審計(jì)系統(tǒng)的數(shù)據(jù)源
安全審計(jì)系統(tǒng)可以利用的日志大致分為以下四類[2]:
4.1.1 操作系統(tǒng)日志
a) Windows系統(tǒng)日志。Windows NT/2K/XP的系統(tǒng)日志文件有應(yīng)用程序日志、安全日志和系統(tǒng)日志等,日志默認(rèn)位置在%systemroot%\system32\config目錄下。Windows是使用一種特殊的格式存放它的日志文件,這種格式的文件通常只可以通過(guò)事件查看器EVENT VIEWER讀取。
b) Linux/Unix系統(tǒng)日志。在Linux/Unix系統(tǒng)中,有三個(gè)主要的日志子系統(tǒng):連接時(shí)間日志、進(jìn)程統(tǒng)計(jì)日志和錯(cuò)誤日志。錯(cuò)誤日志――由syslogd(8)執(zhí)行。各種系統(tǒng)守護(hù)進(jìn)程、用戶程序和內(nèi)核通過(guò)syslog向文件/var/log/messages報(bào)告值得注意的事件。
4.1.2 安全設(shè)備日志
安全設(shè)備日志主要是指防火墻,入侵檢測(cè)系統(tǒng)等網(wǎng)絡(luò)安全設(shè)備產(chǎn)生的日志。這部分日志格式?jīng)]有統(tǒng)一標(biāo)準(zhǔn)。目前,國(guó)內(nèi)多數(shù)防火墻支持WELF(Web Trends Enhanced Log Format)的日志格式,而多數(shù)入侵檢測(cè)系統(tǒng)的日志兼容Snort產(chǎn)生日志格式。
4.1.3 網(wǎng)絡(luò)設(shè)備日志
網(wǎng)絡(luò)設(shè)備日志是指網(wǎng)絡(luò)中交換機(jī)、路由器等網(wǎng)絡(luò)設(shè)備產(chǎn)生的日志,這些設(shè)備日志通常遵循RFC3164(TheBSD syslog Protocol)規(guī)定的日志格式,可以通過(guò)syslogd實(shí)現(xiàn)方便的轉(zhuǎn)發(fā)和處理。一個(gè)典型的syslog記錄包括生成該記錄的進(jìn)程名字、文本信息、設(shè)備和優(yōu)先級(jí)范圍等。
4.1.4 應(yīng)用系統(tǒng)日志
應(yīng)用系統(tǒng)日志包含由各種應(yīng)用程序記錄的事件。應(yīng)用系統(tǒng)的程序開(kāi)發(fā)員決定記錄哪一個(gè)事件。Web應(yīng)用程序日志往往是系統(tǒng)管理員最關(guān)心的應(yīng)用系統(tǒng)日志之一。
a) Apache日志。Apache日志記錄Apache服務(wù)器處理的所有請(qǐng)求和出錯(cuò)信息,它支持兩種格式的日志:普通記錄格式(Common Log Format),組合記錄格式(Combined Log Format)。
b) IIS日志。IIS日志文件記錄了所有訪問(wèn)IIS服務(wù)程序的信息,IIS日志文件一般位于如下路徑:%systemroot%\system32\LogFiles。IIS支持“W3C擴(kuò)充日志文件格式”、“NCSA通用日志格式”和“ODBC數(shù)據(jù)庫(kù)日志格式”。
好的日志文章范文3
關(guān)鍵詞: Web日志; 序列模式挖掘; GSP算法
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)30-0217-02
隨著網(wǎng)絡(luò)服務(wù)的迅速發(fā)展,互聯(lián)網(wǎng)上已有龐大數(shù)量的網(wǎng)站,且還在不斷的建設(shè),通過(guò)對(duì)網(wǎng)站服務(wù)器的操作和訪問(wèn)進(jìn)行專業(yè)而詳細(xì)的分析,可以了解網(wǎng)站的運(yùn)行情況并能進(jìn)一步發(fā)現(xiàn)網(wǎng)站所存在的缺陷,為促使網(wǎng)站更好的運(yùn)營(yíng)與發(fā)展提供可靠的技術(shù)支持與決策依據(jù)。為了能夠促使網(wǎng)站更好的運(yùn)營(yíng)與提供針對(duì)性與個(gè)性化的服務(wù),必須要了解電子商務(wù)網(wǎng)站以及其所展示的各產(chǎn)品模塊的具體訪問(wèn)情況,而這些信息只能通過(guò)獲取對(duì)Web服務(wù)器上網(wǎng)站的相關(guān)運(yùn)行日志文件,并對(duì)其包含的數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)與分析得到。
互聯(lián)網(wǎng)用戶具有多樣性的特點(diǎn),全球大概有10億多個(gè)網(wǎng)站,網(wǎng)民數(shù)量接近30億,他們來(lái)自不同的民族,具有不同層次的經(jīng)濟(jì)收入水平,具備不同的教育背景與不同的個(gè)人興趣,他們?cè)L問(wèn)的目的也均不同,但他們?cè)跒g覽Web頁(yè)面過(guò)程中均留下了訪問(wèn)信息。特別是像淘寶、京東等大型的電子商務(wù)網(wǎng)站,它們每天都有數(shù)億的在線交易額,而這些交易以及用戶的瀏覽(指沒(méi)有交易的用戶)都產(chǎn)生可謂海量的Web訪問(wèn)日志數(shù)據(jù)。Web日志挖掘是Web大數(shù)據(jù)應(yīng)用領(lǐng)域或者電子商務(wù)商業(yè)智能應(yīng)用中的一個(gè)最為重要的內(nèi)容。
本文以某電子商務(wù)網(wǎng)站的Web訪問(wèn)日志為研究對(duì)象,利用SQL Server提供的SSIS服務(wù)和T-SQL語(yǔ)句進(jìn)行數(shù)據(jù)預(yù)處理,得到序列數(shù)據(jù)庫(kù),然后用java語(yǔ)言編程實(shí)現(xiàn)GSP(Generalized Sequential Patterns)算法對(duì)其進(jìn)行序列模式的挖掘測(cè)試分析,通過(guò)對(duì)結(jié)果的分析可以為改善該網(wǎng)站的布局以及產(chǎn)品展示方式的調(diào)整提供參考。
1 基于Web日志的序列挖掘
Web日志序列挖掘一般分三個(gè)步驟,即數(shù)據(jù)預(yù)處理、挖掘算法處理以及模式分析。
數(shù)據(jù)預(yù)處理主要是對(duì)Web日志進(jìn)行序列挖掘之前的對(duì)原始日志文件進(jìn)行數(shù)據(jù)轉(zhuǎn)換、清洗等一系列的操作,最終形成可供序列模式挖掘算法所使用的規(guī)范化數(shù)據(jù)。其具體工作主要包含數(shù)據(jù)凈化、會(huì)話識(shí)別、用戶識(shí)別以及路徑補(bǔ)充等過(guò)程。數(shù)據(jù)凈化工作主要是對(duì)挖掘中不需要的相關(guān)數(shù)據(jù)進(jìn)行刪除操作;會(huì)話識(shí)別主要是對(duì)每個(gè)用戶在某一段時(shí)間內(nèi)的所有請(qǐng)求頁(yè)面進(jìn)行分解從而得到用戶會(huì)話;用戶識(shí)別是將用戶和請(qǐng)求的頁(yè)面進(jìn)行相關(guān)聯(lián)的過(guò)程,其中主要是處理多個(gè)用戶通過(guò)防火墻或服務(wù)器訪問(wèn)站點(diǎn)的情況。在用戶識(shí)別的過(guò)程中,不僅需要服務(wù)器日志,還需要知道站點(diǎn)的拓?fù)浣Y(jié)構(gòu);路徑補(bǔ)充過(guò)程就是將本地或服務(wù)器緩存所造成的遺留請(qǐng)求也補(bǔ)充完整。執(zhí)行上面的操作后,就得到了序列模式挖掘算法所需要的輸入信息(用戶會(huì)話文件),該文件中包含訪問(wèn)Web站點(diǎn)的用戶,用戶請(qǐng)求的頁(yè)面及請(qǐng)求發(fā)生的順序,每一頁(yè)瀏覽的時(shí)間等信息[1]。
挖掘算法處理主要是指在基于數(shù)據(jù)預(yù)處理的基礎(chǔ)上,通過(guò)實(shí)現(xiàn)某種序列算法得到挖掘結(jié)果,這些結(jié)果主要包括如每頁(yè)的訪問(wèn)數(shù),最頻繁的訪問(wèn)的頁(yè)面,每頁(yè)的平均瀏覽時(shí)間等。序列模式算法主要有兩類:一類是類Apriori算法,以GSP算法為代表,這種算法基于一個(gè)事實(shí):一個(gè)序列是頻繁的,它的所有子序列必然是頻繁的;另一種挖掘序列模式的思想是基于數(shù)據(jù)庫(kù)投影的序列模式生長(zhǎng)技術(shù)的應(yīng)用,如PrefixSpan算法。
模式分析是依據(jù)挖掘算法所得到的模式集合,再結(jié)合實(shí)際所感興趣的模式進(jìn)行篩選和分析,然后采用可視化技術(shù)對(duì)這些模式作為挖掘的最終結(jié)果進(jìn)行直觀和個(gè)性化的展示。
2 基于GSP算法的實(shí)現(xiàn)流程
序列模式挖掘一般分為五個(gè)步驟,這些步驟分別為排序階段、大項(xiàng)集階段、轉(zhuǎn)換階段、序列階段以及選最長(zhǎng)序列階段。
GSP算法的主要流程如圖1所示:
1)序列數(shù)據(jù)庫(kù)進(jìn)行掃描,得到長(zhǎng)度為1的序列模式L1,作為初始的種子集。
2)根據(jù)長(zhǎng)度為i的種子集Li通過(guò)連接操作和剪切操作生成長(zhǎng)度為i+1的候選序列模式Ci+1;然后掃描序列數(shù)據(jù)庫(kù),計(jì)算每個(gè)候選序列的支持?jǐn)?shù),產(chǎn)生長(zhǎng)度為i+1的序列模式Li+1,并將Li+1作為新的種子集。
3)重復(fù)第二步,直到?jīng)]有新的序列模式或候選序列模式產(chǎn)生為止。
3 網(wǎng)站日志挖掘?qū)嵗治?/p>
本文采用ECML_PKDD 2005會(huì)議提供的公共點(diǎn)擊流數(shù)據(jù),它收集了380多萬(wàn)條電子商務(wù)網(wǎng)站的服務(wù)器日志記錄,每個(gè)日志文件包含的是一個(gè)小時(shí)所收集的記錄,每個(gè)文件包含的信息有時(shí)間、IP、會(huì)話標(biāo)識(shí)、請(qǐng)求頁(yè)面和引用頁(yè)面等相關(guān)信息。日志記錄形式如下:
16;1074661208;212.209.160.2;09b611d2583514c458f 8946841f880a5;/ls/?id=139;http://shop6.cz/
其主要結(jié)構(gòu)如表1所示。
本文通過(guò)取該站點(diǎn)上的一個(gè)服務(wù)器日志文件,共計(jì)353K字節(jié),2978條記錄,為了減少算法的計(jì)算量以及提高數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性,利用T-SQ語(yǔ)句和SQL Server的SSIS服務(wù)功能將原始數(shù)據(jù)文件進(jìn)行數(shù)據(jù)轉(zhuǎn)換凈化、訪問(wèn)的處理、用戶識(shí)別、會(huì)話識(shí)別、鏈接規(guī)范化、排序等數(shù)據(jù)預(yù)處理,然后得到序列數(shù)據(jù)庫(kù),總共是179條記錄,107個(gè)序列。
通過(guò)java編寫(xiě)的GSP算法對(duì)該電子商務(wù)網(wǎng)站的訪問(wèn)日志進(jìn)行數(shù)據(jù)挖掘測(cè)試,根據(jù)GSP算法,我們將最小支持度設(shè)為8,得到了該電子商務(wù)網(wǎng)站的頻繁訪問(wèn)序列總共計(jì)9條,其序列模式挖掘的結(jié)果如圖2所示:
從運(yùn)行的結(jié)果我們可以很容易看出,用戶對(duì)該網(wǎng)站的這9種產(chǎn)品相對(duì)比較感興趣,其中最感興趣的是該網(wǎng)站的Digital cameras產(chǎn)品。
4 結(jié)束語(yǔ)
本文利用SQL Server對(duì)某電子商務(wù)網(wǎng)站的日志進(jìn)行了數(shù)據(jù)預(yù)處理并產(chǎn)生序列數(shù)據(jù)庫(kù),并通過(guò)java編程實(shí)現(xiàn)GSP序列模式挖掘算法對(duì)其進(jìn)行測(cè)試分析,通過(guò)對(duì)結(jié)果分析可以做出對(duì)該網(wǎng)站布局和內(nèi)容(或產(chǎn)品)調(diào)整提供參考,使其更好為其用戶提供針對(duì)性的服務(wù)。
參考文獻(xiàn):
[1]朱鶴祥.Web日志挖掘中數(shù)據(jù)預(yù)處理算法的研究[D].大連:大連交通大學(xué),2009.
[2]汪莉棟. Web日志挖掘中數(shù)據(jù)預(yù)處理算法的研究及實(shí)現(xiàn)[D].貴陽(yáng):貴州大學(xué),2008.
[3]趙暢,楊冬青,唐世渭.Web日志序列模式挖掘[J]. 計(jì)算機(jī)應(yīng)用,2000,20(9):15-18.
[4]李林,崔志明.用戶Web日志序列模式挖掘研究[J]. 微機(jī)發(fā)展,2005,15(5): 119-121.
[5]朱琳玲,胡學(xué)鋼,穆斌.基于Web的數(shù)據(jù)挖掘研究綜述[J].電腦與信息技術(shù),2002,20(6):45-48.
[6]王Z. Web使用記錄挖掘技術(shù)綜述[J].四川經(jīng)濟(jì)管理學(xué)院學(xué)報(bào),2008,20(1):49-50.
[7]王新,馬萬(wàn)青,潘文林.基于Web日志的用戶訪問(wèn)模式挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2006,21(9):156-158.
[8]劉沛騫,郭海儒,袁玲玲.Web日志挖掘中的用戶訪問(wèn)模式識(shí)別[J].雁北師范學(xué)院學(xué)報(bào),2006(2).
好的日志文章范文4
關(guān)鍵詞:消息中間件(MQ);隊(duì)列;隊(duì)列管理器;通道;錯(cuò)誤日志
中圖分類號(hào):P409 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 17-0000-02
1 WebSphere MQ的概述
消息中間件(MQ)是一種獨(dú)立的系統(tǒng)軟件或服務(wù)程序,分布式應(yīng)用系統(tǒng)借助這種軟件在不同的技術(shù)之間共享資源,管理計(jì)算資源和網(wǎng)絡(luò)通訊。它在計(jì)算機(jī)系統(tǒng)中是一個(gè)關(guān)鍵軟件,它能實(shí)現(xiàn)應(yīng)用的互連和互操作,能保證系統(tǒng)安全、可靠、高效的運(yùn)行。消息中間件位于用戶應(yīng)用和操作系統(tǒng)及網(wǎng)絡(luò)軟件之間,它為應(yīng)用提供了公用的通信手段,并且獨(dú)立于網(wǎng)絡(luò)和操作系統(tǒng)。
消息中間件(MQ)適用于任何需要進(jìn)行網(wǎng)絡(luò)通信的系統(tǒng),是基于消息隊(duì)列的存儲(chǔ)轉(zhuǎn)發(fā)機(jī)制,負(fù)責(zé)建立網(wǎng)絡(luò)通信的通道,進(jìn)行數(shù)據(jù)或文件發(fā)送。 MQ在不同平臺(tái)及不同語(yǔ)言編寫(xiě)的系統(tǒng)之間傳遞消息,只需簡(jiǎn)單的調(diào)用幾個(gè)MQ的API(應(yīng)用程序接口),就可以實(shí)現(xiàn)互相通訊,并不需要考慮底層系統(tǒng)和網(wǎng)絡(luò)的復(fù)雜性。MQ作為IBM的一個(gè)拳頭產(chǎn)品,雖然功能看上去簡(jiǎn)單,就是個(gè)消息隊(duì)列,但它卻是IBM中間件的核心。MQ不僅有很高的性能,而且對(duì)各種平臺(tái)的支持極優(yōu),幾乎你能想到的硬件和操作系統(tǒng)平臺(tái)以及編程語(yǔ)言,MQ都有專門(mén)的API支持。依靠這些優(yōu)勢(shì),MQ 在消息類中間件市場(chǎng)上占領(lǐng)了統(tǒng)治地位,已經(jīng)成為事實(shí)上的行業(yè)標(biāo)準(zhǔn),在各類應(yīng)用中承擔(dān)了可靠的信息數(shù)據(jù)傳輸?shù)幕A(chǔ)支撐。
2 WebSphere MQ的工作原理
MQ的工作原理如圖1所示:
2.1 本地通訊:應(yīng)用程序A和應(yīng)用程序B運(yùn)行于同一系統(tǒng)A,它們之間可以借助消息隊(duì)列技術(shù)進(jìn)行彼此的通訊:應(yīng)用程序A向隊(duì)列1發(fā)送一條信息,而當(dāng)應(yīng)用程序B需要時(shí)就可以得到該信息。
2.2 遠(yuǎn)程通訊:如果信息傳輸?shù)哪繕?biāo)改為在系統(tǒng)B上的應(yīng)用程序C,這種變化不會(huì)對(duì)應(yīng)用程序A產(chǎn)生影響,應(yīng)用程序A向隊(duì)列2發(fā)送一條信息,系統(tǒng)A的MQ 發(fā)現(xiàn)隊(duì)列2所指向的目的隊(duì)列實(shí)際上位于系統(tǒng)B,它將信息放到本地的一個(gè)特殊隊(duì)列-傳輸隊(duì)列(Transmission Queue)。我們建立一條從系統(tǒng)A到系統(tǒng)B的消息通道,消息通道將從傳輸隊(duì)列中讀取消息,并傳遞這條信息到系統(tǒng)B,然后等待確認(rèn)。只有MQ接到系統(tǒng) B成功收到信息的確認(rèn)之后,它才從傳輸隊(duì)列中真正將該信息刪除。如果通訊線路不通,或系統(tǒng)B不在運(yùn)行,信息會(huì)留在傳輸隊(duì)列中,直到被成功地傳送到目的地。 這是MQ最基本而最重要的技術(shù)--確保信息傳輸,并且是一次且僅一次(once-and-only-once)的傳遞。
3 MQ在民航氣象數(shù)據(jù)庫(kù)中的應(yīng)用
3.1 MQ在民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中的總體架構(gòu)
如圖2所示氣象數(shù)據(jù)庫(kù)系統(tǒng)是一套分級(jí)式的數(shù)據(jù)交換網(wǎng)絡(luò),通過(guò)ATM高速交換網(wǎng)實(shí)現(xiàn)了氣象數(shù)據(jù)共享。以北京為主中心、地區(qū)中心為分中心構(gòu)成了核心的數(shù)據(jù)交換網(wǎng)絡(luò)。在進(jìn)行數(shù)據(jù)交換時(shí)MQ起到了橋梁的作用,各航站只能與所屬地區(qū)中心進(jìn)行數(shù)據(jù)交換,各地區(qū)分中心與北京主中心進(jìn)行進(jìn)一步的數(shù)據(jù)交換。
3.2 MQ在航站級(jí)民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中的架構(gòu)
下面以本航站(ZYTL)為例,對(duì)MQ在民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中的應(yīng)用進(jìn)行介紹。
(1)以圖3的數(shù)據(jù)流程來(lái)對(duì)民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中航站與中心之間MQ的通訊原則進(jìn)行說(shuō)明:
①每個(gè)分中心所管理的航站通信分系統(tǒng)通過(guò)網(wǎng)絡(luò)方式將本航站生成的數(shù)據(jù)資料(包括報(bào)文和產(chǎn)品)傳送到分中心的交換服務(wù)器通信系統(tǒng),交換服務(wù)器通信系統(tǒng)將這些數(shù)據(jù)(除了請(qǐng)求報(bào))全部上傳到二期主業(yè)務(wù)通信分系統(tǒng);②每個(gè)分中心二期主業(yè)務(wù)通信分系統(tǒng)將收到的所有數(shù)據(jù)分別傳送到本分中心的所有數(shù)據(jù)庫(kù)系統(tǒng)(包括交換服務(wù)器上的數(shù)據(jù)庫(kù)系統(tǒng));③每個(gè)分中心二期主業(yè)務(wù)通信分系統(tǒng)收到數(shù)據(jù)后,根據(jù)用戶的指定,將需要分發(fā)的數(shù)據(jù)發(fā)送到交換服務(wù)器通信系統(tǒng);④交換服務(wù)器通信系統(tǒng)收到二期主業(yè)務(wù)通信系統(tǒng)發(fā)來(lái)的數(shù)據(jù),根據(jù)用戶事先的指定進(jìn)行分發(fā);⑤交換服務(wù)器通信系統(tǒng)收到請(qǐng)求報(bào),將檢索交換服務(wù)器上的數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行應(yīng)答。
(2)由圖3可知MQ在航站與中心通訊過(guò)程中數(shù)據(jù)流有三個(gè)單向、二個(gè)雙向。
單向: 預(yù)報(bào)平臺(tái) 雙向:(即發(fā)又收) 航站通信服務(wù)器
航站通信服務(wù)器 DB00 中心交換服務(wù)器
DB01 中心二期主業(yè)務(wù)
4 MQ常見(jiàn)故障分析與處理
任何一種軟件都會(huì)存在一定的系統(tǒng)管理工作,MQ當(dāng)然也不例外,下面我就對(duì)日常維護(hù)工作中常見(jiàn)的故障進(jìn)行分析闡述。其實(shí)MQ為我們提供了豐富的故障分析手段,MQ錯(cuò)誤日志即是一種簡(jiǎn)單易行、快速有效的手段,另外MQ還提供了其它方式方法,如:MQ的系統(tǒng)管理命令、MQ的TRACE、FFST等途徑,都是用來(lái)對(duì)錯(cuò)誤信息進(jìn)行追蹤和記錄,從而幫助解決問(wèn)題。
4.1 錯(cuò)誤日志分析
當(dāng)MQ運(yùn)行過(guò)程中出現(xiàn)問(wèn)題時(shí),第一個(gè)應(yīng)該采取的行動(dòng)便是查看MQ的錯(cuò)誤日志。MQ在各種層次上,為用戶提供了豐富的日志文件,這些日志文件包含了所有被啟動(dòng)的隊(duì)列管理器、有關(guān)對(duì)MQ的隊(duì)列管理器操作、以及被啟動(dòng)的通道的相關(guān)信息,當(dāng)隊(duì)列管理器和通道等運(yùn)行時(shí),有關(guān)信息包括出現(xiàn)異常情況時(shí)的信息都將在日志文件中有所體現(xiàn)。
日志文件:當(dāng)系統(tǒng)建立了隊(duì)列管理器以后,該隊(duì)列管理器所需的日志文件隨之即在/var/mqm/qmgr/QmgrName/errors子目錄下會(huì)產(chǎn)生三個(gè)日志文件:
AMQERR01.LOG、AMQERR02.LOG、AMQERR03.LOG。它們是以循環(huán)方式存儲(chǔ)錯(cuò)誤消息,因此,最新的錯(cuò)誤信息總是存儲(chǔ)在AMQERR01.LOG中,歷史信息存儲(chǔ)AMQERR02.LOG 和 AMQERR03.LOG中。我們應(yīng)該按照該順序查看錯(cuò)誤信息,并從該文件中獲取信息,根據(jù)它的提示采取相應(yīng)的措施。
4.2 常見(jiàn)故障分析
如果查看錯(cuò)誤日志經(jīng)初步分析無(wú)法解決問(wèn)題,則必須更近一步的查找原因,應(yīng)對(duì)如下問(wèn)題進(jìn)行深入分析。
MQSeries的通道是MQ的重要組成部分,是MQ的難點(diǎn)和精華,它運(yùn)行正常與否對(duì)MQ系統(tǒng)的正常運(yùn)行起著致關(guān)重要的作用,并且在MQ的網(wǎng)絡(luò)環(huán)境中,相當(dāng)數(shù)量的異常問(wèn)題與通道有關(guān),因此,相比而言,對(duì)MQ通道的維護(hù)工作是MQ系統(tǒng)管理員系統(tǒng)管理工作的重點(diǎn)。
通道狀態(tài)異常時(shí)應(yīng)采取的措施:
(1)查看網(wǎng)絡(luò)連接是否暢通MQ的通訊是建立在系統(tǒng)網(wǎng)絡(luò)運(yùn)行正常的基礎(chǔ)之上的,當(dāng)通道不通時(shí),要首先檢查網(wǎng)絡(luò)連接是否正常。可以使用操作系統(tǒng)ping命令,也可以采用ftp方式,在兩個(gè)主機(jī)之間嘗試進(jìn)行數(shù)據(jù)傳輸,以判斷網(wǎng)絡(luò)是否正常。(2)查看通道定義是否正確。通道所使用的傳輸隊(duì)列定義是否正確,通道兩端的定義是否匹配,如兩條通道最大傳輸?shù)南㈤L(zhǎng)度,Message sequence number wrap是否一致。若不一致,要重新定義通道,可使用腳本命令DEFINE CHANNEL。(3)查看通道的狀態(tài)。用以下命令來(lái)判斷通道狀態(tài):dis chstatus(ChannelName)或dis chs(ChannelName) 其中,ChannelName代表通道的名稱。(4)查看通道的當(dāng)前消息序列號(hào)。用dis chstatus(ChannelName)或dis chs(ChannelName)查看通道的當(dāng)前一些屬性值,在通道的屬性值中,current sequence number代表通道當(dāng)前的消息序列號(hào)值,若消息序列號(hào)不一致,則可用MQSC命令RESET CHANNEL命令來(lái)將消息序列號(hào)重新置1。
5 結(jié)束語(yǔ)
過(guò)通實(shí)踐驗(yàn)證在民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中引用MQ技術(shù),極大優(yōu)化了系統(tǒng)的架構(gòu)。系統(tǒng)在數(shù)據(jù)交換過(guò)程中選擇基于隊(duì)列等候的MQ 通信方式極大增強(qiáng)了信息的實(shí)時(shí)性,信息通過(guò)隊(duì)列可以瞬時(shí)完成檢索和發(fā)送;同時(shí)安全可靠性方面也很到了極大的保障,MQ 通訊不存在忽略或丟失信息的危險(xiǎn),只有證實(shí)信息已經(jīng)從隊(duì)列中取出并到達(dá)接收端之后,信息才會(huì)從發(fā)送系統(tǒng)中刪除。一旦信息放到MQ Series 手中,那么交付任務(wù)便可保證絕對(duì)成功。如果通信過(guò)程發(fā)生中斷,信息仍會(huì)安全存放在隊(duì)列中,一旦連接恢復(fù),信息便一次發(fā)送過(guò)去,對(duì)業(yè)務(wù)的集成不會(huì)產(chǎn)生任何影響;日常維護(hù)方面MQ日志文件提供較為全面的信息,使機(jī)務(wù)人員對(duì)系統(tǒng)的日常維護(hù)和排故工作更加容易開(kāi)展。MQ所特具的這些先進(jìn)性、安全性、可管理性和易于維護(hù)開(kāi)發(fā)等優(yōu)勢(shì),使民航氣象數(shù)據(jù)庫(kù)系統(tǒng)的運(yùn)行效率得到了極大的提升。
參考文獻(xiàn):
好的日志文章范文5
關(guān)鍵詞:Web挖掘;日志挖掘;數(shù)據(jù)預(yù)處理
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007—9599 (2012) 14—0000—02
一、引言
隨著信息技術(shù)的飛速發(fā)展,Web已經(jīng)成為是信息獲取、及共享的重要途徑,Web上的各類信息越來(lái)越齊全、越快速的增長(zhǎng)。面對(duì)日益膨脹的各類資訊,將數(shù)據(jù)挖掘技術(shù)應(yīng)用對(duì)Web頁(yè)面的各類內(nèi)容、結(jié)構(gòu)以及用戶訪問(wèn)信息進(jìn)行有效信息提取,更好的服務(wù)于Web事業(yè)發(fā)展,已經(jīng)成為眾多研究者的熱門(mén)研究方向。
Web挖掘(Web Mining)是指通過(guò)對(duì)Web資源進(jìn)行分析和研究,從中發(fā)現(xiàn)隱含未知的、有價(jià)值的規(guī)律和知識(shí)的過(guò)程。根據(jù)Web挖掘的對(duì)象和內(nèi)容的不同,Web挖掘可以分為Web日志挖掘(Web log mining)、Web內(nèi)容挖掘(Web content mining)和Web結(jié)構(gòu)挖掘(Web structure mining)。其中,Web日志挖掘是指通過(guò)挖掘Web日志來(lái)發(fā)現(xiàn)用戶的訪問(wèn)行為及模式,可以實(shí)現(xiàn)用戶聚類、頁(yè)面聚類和發(fā)現(xiàn)頻繁訪問(wèn)路徑,進(jìn)而改善網(wǎng)站結(jié)構(gòu)設(shè)計(jì)和為用戶提供個(gè)性化服務(wù),已成為眾多研究人員關(guān)注的焦點(diǎn)。
二、Web日志挖掘技術(shù)概述
(一)Web日志挖掘基本概念
Web日志挖掘是We挖掘技術(shù)中的一種,是指通過(guò)對(duì)Web日志記錄進(jìn)行挖掘分析,對(duì)用戶訪問(wèn)Web頁(yè)面的模式進(jìn)行分析和總結(jié),得到用戶進(jìn)行Web訪問(wèn)中隱含的規(guī)律或信息,并借助于這類信息來(lái)改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶查找信息的效率和質(zhì)量,并通過(guò)統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定頁(yè)面、特定時(shí)間等要素之間的內(nèi)在聯(lián)系。這在電子商務(wù)等領(lǐng)域有著非常重要的作用。用戶使用Web獲取信息的過(guò)程中需要不停地從一個(gè)Web站點(diǎn)通過(guò)超文本鏈接跳轉(zhuǎn)到另一個(gè)站點(diǎn),這種過(guò)程存在一定的普遍性,發(fā)現(xiàn)此規(guī)律即是Web用戶訪問(wèn)信息發(fā)現(xiàn)。Web日志挖掘是關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn),一般可以分為以下三個(gè)階段,數(shù)據(jù)預(yù)處理(Pre processing)、模式發(fā)現(xiàn)(Pattern Discovering)、模式分析(Pattern Analyzing),其體系結(jié)構(gòu)如圖:
(二)數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是指對(duì)為了將數(shù)據(jù)變成適合挖掘的數(shù)據(jù)格式,將原始日志文件進(jìn)行篩選、過(guò)濾和重組后,并保存到數(shù)據(jù)庫(kù)中,以便不同類型的數(shù)據(jù)挖掘的進(jìn)行操作。在Web日志挖掘中,數(shù)據(jù)挖掘預(yù)處理主要包含數(shù)據(jù)凈化、會(huì)話識(shí)別、路徑補(bǔ)充、用戶識(shí)別以及事物識(shí)別等。對(duì)Web的數(shù)據(jù)預(yù)處理會(huì)直接影響到挖掘算法的模式和結(jié)果,是保證Web日志挖掘有一個(gè)高質(zhì)量結(jié)果的關(guān)鍵。
1.數(shù)據(jù)凈化
數(shù)據(jù)凈化是指將Web服務(wù)器中的日志中的無(wú)效數(shù)據(jù)進(jìn)行刪除,消除日志數(shù)據(jù)中的冗余量,減少所需處理數(shù)據(jù)的總量。一般情況下,與用戶會(huì)話的日志信息中只有HTML文件,因此,可以建立一個(gè)后綴名表列,可以幫助刪除經(jīng)過(guò)檢查后無(wú)關(guān)的URI資源。經(jīng)過(guò)數(shù)據(jù)凈化后,可以減輕數(shù)據(jù)的大小,縮小數(shù)據(jù)預(yù)處理的容量,使得數(shù)據(jù)十分集中。
2.會(huì)話識(shí)別
會(huì)話識(shí)別是指將訪問(wèn)記錄進(jìn)行分解,分解為單個(gè)的會(huì)話。用戶的一次會(huì)話是某用戶對(duì)某個(gè)Web站點(diǎn)的一次訪問(wèn)過(guò)程中所引用到的全部頁(yè)面。由于用戶的訪問(wèn)是隨機(jī)的,因此用戶何時(shí)會(huì)離開(kāi)一個(gè)站點(diǎn)是無(wú)法預(yù)知的。最簡(jiǎn)單且最有效的判斷用戶是否已經(jīng)離開(kāi)該網(wǎng)站的方法是利用最大的超時(shí)來(lái)進(jìn)行判斷。如若兩個(gè)頁(yè)面的請(qǐng)求時(shí)間超過(guò)了預(yù)設(shè)的門(mén)限,就認(rèn)為一個(gè)會(huì)話已經(jīng)結(jié)束,并且已經(jīng)開(kāi)始了一個(gè)新的會(huì)話。
3.路徑補(bǔ)充
路徑補(bǔ)充是指在用戶的會(huì)話文件中將遺漏的請(qǐng)求信息補(bǔ)充進(jìn)來(lái),也可以根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和引用日志提供的信息把路徑補(bǔ)充完整。檢查Web日志中是否由于Cache而導(dǎo)致重要的頁(yè)面訪問(wèn)記錄丟失。
4.用戶識(shí)別
用戶的有效識(shí)別是一件非常復(fù)雜的事情,這主要是服務(wù)器、防火墻或本地緩存所造成的。常用的方法為基于日志的方法,并結(jié)合一些啟發(fā)性的識(shí)別規(guī)則。例如:如果IP地址相同,但是信息變了(信息,在IIS5.0環(huán)境下的W3C擴(kuò)展日志文件格式的cs(User—Agent)字段),表明用戶可能是在某個(gè)防火墻后面的內(nèi)網(wǎng)的不同用戶,則可以標(biāo)記為不同的用戶;還可以將訪問(wèn)信息,引用信息(cs(Referer)字段)和站點(diǎn)拓?fù)錂C(jī)構(gòu)結(jié)合,構(gòu)造出用戶的瀏覽路徑,如果當(dāng)前請(qǐng)求的頁(yè)面同用戶已瀏覽的頁(yè)面沒(méi)有鏈接關(guān)系,則認(rèn)為存在IP地址相同的多個(gè)用戶。然而,使用這些規(guī)則并不可以保證一定可以準(zhǔn)確識(shí)別用戶,用戶識(shí)別是個(gè)難題。
5.事務(wù)識(shí)別
事物識(shí)別是對(duì)用戶會(huì)話進(jìn)行語(yǔ)義分組,即針對(duì)用戶會(huì)話的數(shù)據(jù)挖掘活動(dòng)進(jìn)行特定的事件定義。在Web日志挖掘領(lǐng)域中,對(duì)關(guān)聯(lián)挖掘任務(wù)的粒度太粗,因此要采用特定的算法,將會(huì)話分割成更小的事物。經(jīng)過(guò)分割后變成頁(yè)面序列,再進(jìn)行事物識(shí)別,可以得到諸多有意義的信息,及用戶會(huì)話中的網(wǎng)頁(yè)瀏覽路徑。
(三)模式發(fā)現(xiàn)階段
模式發(fā)現(xiàn)階段是指為了得到數(shù)據(jù)背后隱含的規(guī)律和模式,使用各種挖掘算法的過(guò)程,如機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、模式識(shí)別等其他學(xué)科領(lǐng)域中已開(kāi)發(fā)出來(lái)的方法和算法。當(dāng)然,要將這些算法和Web日志挖掘的特性結(jié)合起來(lái),目前已經(jīng)得到廣泛應(yīng)用的算法有序列模式、統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則和聚類分析等技術(shù)。
好的日志文章范文6
關(guān)鍵詞:電子商務(wù);Web挖掘;客戶行為
中圖分類號(hào):F224-39
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):167Z-3198(2009)08-0237-02
1 電子商務(wù)中客戶的重要性
營(yíng)銷學(xué)上有個(gè)著名的公式;100-1=0,即一個(gè)企業(yè)即使有100個(gè)客戶對(duì)其感到很滿意,但是只要有一個(gè)客戶對(duì)持否定態(tài)度,企業(yè)的盛名就可能立即化為0,盡管這個(gè)觀點(diǎn)有點(diǎn)夸大其實(shí),但是至少它說(shuō)明了一個(gè)問(wèn)題,即:客戶滿意的重要性。
市場(chǎng)經(jīng)濟(jì)體制下,公司的目標(biāo)就是為企業(yè)持股者爭(zhēng)取利潤(rùn)的最大化,而公司的利潤(rùn)從何而來(lái)――客戶。換句話說(shuō),為客戶服務(wù)能創(chuàng)造長(zhǎng)期的利益,而長(zhǎng)期的利益又能夠滿足持股者的目的需求。雖然,使客戶滿意需要花更多的錢(qián),同時(shí)也需要更長(zhǎng)的周期,但是長(zhǎng)周期加上大量的資金意味著企業(yè)更多的利益。所以,客戶對(duì)企業(yè)的重要性是越來(lái)越突出。即使在電子商務(wù)領(lǐng)域這個(gè)遵循市場(chǎng)經(jīng)濟(jì)體制的網(wǎng)上交易體系。這一重要性也是同樣符合的。
如今Google、Amazon、Yahoo、MSN等一些Web公司都要求員工運(yùn)用Web挖掘技術(shù)來(lái)了解客戶行為,并根據(jù)挖掘出的信息數(shù)據(jù)及模式設(shè)計(jì)更加符合客戶需求的服務(wù)和產(chǎn)品。也就是說(shuō)利用Web挖掘可以了解客戶行為,其分析的數(shù)據(jù)結(jié)果可提供給企業(yè)參考,做出合適的調(diào)整策略。
2 客戶行為的Web挖掘
2.1 挖掘數(shù)據(jù)來(lái)源
在挖掘過(guò)程中,關(guān)鍵性步驟是提供合適的挖掘?qū)ο蟆T陔娮由虅?wù)中,客戶行為挖掘的數(shù)據(jù)源,主要有以下幾種:
(1)服務(wù)器日志文件。
Web服務(wù)器日志文件記錄了客戶每次登錄瀏覽網(wǎng)站的行為信息,包括了IP地址、時(shí)間、頁(yè)面等,是Web挖掘的主要數(shù)據(jù)源。
(2)Cookies日志文件。
Cookies是服務(wù)器為自動(dòng)跟蹤網(wǎng)站瀏覽者而在客戶端生成的標(biāo)志,用于存儲(chǔ)類似于購(gòu)物手推車狀態(tài)信息或者瀏覽者所訪問(wèn)的電子商務(wù)網(wǎng)站的頁(yè)面信息或交易信息等。
(3)客戶信息。
客戶信息指客戶通過(guò)Web頁(yè)在屏幕上輸入的、要提交給服務(wù)器的相關(guān)信息。在電子商業(yè)網(wǎng)站須進(jìn)行信用授權(quán)才能進(jìn)行交易,因此客戶大量的個(gè)人資料會(huì)傳到網(wǎng)站上。對(duì)這些信息組織序化后,存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中可作為長(zhǎng)期分析客戶消費(fèi)趨勢(shì)的來(lái)源。
2.2 挖掘過(guò)程
對(duì)客戶行為的Web挖掘并不是雜亂無(wú)序的,一般其過(guò)程可分為三個(gè)階段:
(1)數(shù)據(jù)的預(yù)處理;
預(yù)處理主要對(duì)用戶訪問(wèn)日志(包含用戶的訪問(wèn)日志、引用日志和日志)進(jìn)行過(guò)濾、反蜘蛛化、客戶驗(yàn)證、會(huì)話和路徑補(bǔ)全等處理,形成用戶會(huì)話文件。
①過(guò)濾:收集完數(shù)據(jù)后,首要的步驟便是過(guò)濾出不想要的記錄,為分析做準(zhǔn)備。
②反蜘蛛化:所謂蜘蛛,就是搜索引擎對(duì)萬(wàn)維網(wǎng)的掃描建立索引的半自動(dòng)化程序。蜘蛛的行為與人的行為不同(要比客戶的全面),在數(shù)據(jù)處理中要把蜘蛛的行為和客戶的行為區(qū)分開(kāi)來(lái),并過(guò)濾掉蜘蛛行為在服務(wù)器上的記錄。
③客戶驗(yàn)證:在會(huì)話之前必須識(shí)別客戶,一是識(shí)別出同一客戶在一次瀏覽中為建立會(huì)話而發(fā)出的頁(yè)面請(qǐng)求,另一目的是識(shí)別在多次站點(diǎn)瀏覽的同一客戶,使我們能夠分析客戶在數(shù)天,數(shù)月或是數(shù)年中的行為。
④會(huì)話;會(huì)話指客戶在一次訪問(wèn)中訪問(wèn)的所有Web頁(yè)面,通過(guò)這些可以反映出訪問(wèn)者對(duì)網(wǎng)站什么地方有興趣或關(guān)心。
⑤路徑補(bǔ)全;客戶在瀏覽網(wǎng)時(shí)可能出現(xiàn)頁(yè)面后退現(xiàn)象,導(dǎo)致路徑損失,所以需要根據(jù)客戶訪問(wèn)前后頁(yè)面進(jìn)行推理,補(bǔ)全訪問(wèn)路徑。
(2)模式發(fā)現(xiàn):
模式發(fā)現(xiàn)是對(duì)數(shù)據(jù)預(yù)處理所形成的用戶會(huì)話文件,利用數(shù)據(jù)挖掘的一些有效算法,例如統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、聚類、分類等。來(lái)發(fā)現(xiàn)隱藏的模式、規(guī)則。
①統(tǒng)計(jì)分析:統(tǒng)計(jì)方法是從電子商務(wù)網(wǎng)站中抽取知識(shí)的最常用的方法。可以根據(jù)選擇的特征來(lái)分析網(wǎng)頁(yè)此特征的點(diǎn)擊次數(shù),根據(jù)獲得的數(shù)據(jù)結(jié)果來(lái)調(diào)整網(wǎng)站。
②關(guān)聯(lián)規(guī)則:根據(jù)關(guān)聯(lián)規(guī)則,可以從客戶訪問(wèn)網(wǎng)站的行為中找出相關(guān)性。利用這些相關(guān)性,可以改進(jìn)電子商務(wù)網(wǎng)站的結(jié)構(gòu),例如哪些產(chǎn)品可以擺在一起或捆綁銷售。
③聚類和分類:聚類規(guī)則是從一組數(shù)據(jù)項(xiàng)中聚集出相似特征的一個(gè)聚類,可分為用戶聚類和網(wǎng)頁(yè)聚類。而分類規(guī)則是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,并使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。
(3)模式分析:
在這個(gè)階段,主要是對(duì)挖掘出來(lái)的模式、規(guī)則進(jìn)行分析,找出用戶感興趣的模式,并輔助理解。最常見(jiàn)的模式分析方法是采用sQL查詢語(yǔ)句進(jìn)行分析。另一種分析方法是先將數(shù)據(jù)導(dǎo)入并提供可視化的結(jié)果輸出。
3 Web挖掘的應(yīng)用
網(wǎng)絡(luò)個(gè)性化服務(wù)是目前電子商務(wù)商業(yè)運(yùn)作和發(fā)展的新方向,它根據(jù)用戶興趣、愛(ài)好、習(xí)慣,以及各個(gè)用戶之間的相關(guān)性等向用戶在線推薦商品,提供瀏覽建議,通過(guò)不定期調(diào)整網(wǎng)站的結(jié)構(gòu)方便用戶訪問(wèn)。動(dòng)態(tài)地為用戶定制個(gè)性化的網(wǎng)站等。
如今,許多商家一直在尋求識(shí)別有利可圖的市場(chǎng)分割和追蹤網(wǎng)絡(luò)使用者的行為習(xí)慣,其目的是提醒用戶他們可能感興趣的產(chǎn)品的實(shí)用性。這就出現(xiàn)了像亞馬遜網(wǎng)站那樣的一種新模式,根據(jù)某一特殊用戶可能感興趣的問(wèn)題提出所需信息。對(duì)于被特征化的用戶,運(yùn)用一些客戶分類、挖掘技術(shù),讓他們了解所感興趣產(chǎn)品的預(yù)報(bào)。
網(wǎng)絡(luò)個(gè)性化服務(wù)的本質(zhì)就是以客戶為中心提供Web服務(wù)。首先,客戶瀏覽訪問(wèn)電子商務(wù)網(wǎng)站的資源;其次,系統(tǒng)分析客戶行為特性,創(chuàng)建訪問(wèn)模型;最后,根據(jù)所獲取的信息知識(shí)調(diào)整服務(wù),系統(tǒng)進(jìn)行推薦來(lái)滿足不同用戶的個(gè)性化需求。通過(guò)客戶與系統(tǒng)不斷的交互,最終為客戶提供個(gè)性化服務(wù)。
4 Web挖掘面臨的問(wèn)題
Web挖掘給電子商務(wù)帶來(lái)新機(jī)遇的同時(shí),也帶來(lái)潛在的問(wèn)題――隱私安全問(wèn)題。網(wǎng)絡(luò)的特點(diǎn)使得我們?cè)诰W(wǎng)站上留下的信息幾乎都可以被全世界獲得。事實(shí)上,對(duì)用戶數(shù)據(jù)的采集和挖掘,有些時(shí)候利用了用戶的注冊(cè)信息和登記信息,這包括客戶姓名、性別、地址、出生年月、電話號(hào)碼、購(gòu)物習(xí)慣、收入、信用卡號(hào)碼、電子郵件及經(jīng)常訪問(wèn)的Web站點(diǎn)地址等私人信息。如果這些信息的利用未得到客戶的允許,則會(huì)涉及到隱私權(quán)問(wèn)題并產(chǎn)生糾紛。
如何對(duì)客戶隱私進(jìn)行保護(hù),我們可以從三個(gè)方面著手:第一,立法進(jìn)行強(qiáng)制性規(guī)范;第二,對(duì)涉及隱私的網(wǎng)上數(shù)據(jù)采取技術(shù)防范;第三,行業(yè)自律,不隨意泄露客戶信息,禁止買賣數(shù)據(jù)等。