日韩国产欧美视频,国产一区精品在线,成人深夜福利在线观看

前言：中文期刊網(wǎng)精心挑選了好的日志文章范文供你參考和學(xué)習(xí)，希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感，歡迎閱讀。

好的日志文章

好的日志文章范文1

關(guān)鍵詞：日志規(guī)整；實(shí)時(shí)采集；日志分析

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2013）28-6433-04

1 背景

當(dāng)前營(yíng)業(yè)員和用戶在業(yè)務(wù)支撐系統(tǒng)（簡(jiǎn)稱：BOSS系統(tǒng)）辦理業(yè)務(wù)出現(xiàn)問(wèn)題和故障的時(shí)候，通常由用戶打10086投訴或者營(yíng)業(yè)員報(bào)障給后臺(tái)維護(hù)人員進(jìn)行故障分析和處理。這個(gè)處理流程很耗時(shí)間，影響問(wèn)題的解決效率。

在BOSS系統(tǒng)的各個(gè)渠道查詢或受理業(yè)務(wù)的過(guò)程中，都有可能會(huì)因網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、應(yīng)用系統(tǒng)等各方面原因拋出異常錯(cuò)誤信息，這類錯(cuò)誤信息記錄在BOSS系統(tǒng)各主機(jī)的日志文件中，由于BOSS系統(tǒng)每天產(chǎn)生大量的日志文件，從日志文件中定位查找錯(cuò)誤信息需要花費(fèi)大量的時(shí)間，對(duì)維護(hù)人員處理問(wèn)題和故障帶來(lái)不便，影響問(wèn)題的及時(shí)發(fā)現(xiàn)和處理實(shí)效性。

2 研究思路

考慮從主機(jī)的日志文件中及時(shí)地收集到這種系統(tǒng)異常錯(cuò)誤信息，并自動(dòng)入庫(kù)進(jìn)行分析，維護(hù)人員就能及時(shí)的了解BOSS系統(tǒng)當(dāng)前的運(yùn)行情況，發(fā)現(xiàn)系統(tǒng)問(wèn)題，查詢錯(cuò)誤信息，能夠在營(yíng)業(yè)員或客戶投訴之前就可以去核查解決，提升問(wèn)題處理的及時(shí)性和效率，保障系統(tǒng)健康穩(wěn)定的運(yùn)行，從而提高系統(tǒng)業(yè)務(wù)支撐水平，提升營(yíng)業(yè)員和客戶的內(nèi)外部滿意度。

3 實(shí)現(xiàn)方案

建立BOSS系統(tǒng)日志分析管理平臺(tái)，對(duì)BOSS系統(tǒng)主機(jī)產(chǎn)生的各種日志進(jìn)行日志異常分析和日志管理，針對(duì)主機(jī)系統(tǒng)產(chǎn)生的大量日志文件進(jìn)行處理：日志采集，日志管理，日志分析，日志綜合告警執(zhí)行以及執(zhí)行前流程審批權(quán)限設(shè)立、分析結(jié)果處理執(zhí)行中的流程跟蹤、分析結(jié)果處理執(zhí)行后的日志留痕。通過(guò)日志分析管理平臺(tái)，維護(hù)人員能夠方便的查看日志的分析結(jié)果、以及日志異常產(chǎn)生的次數(shù)和時(shí)間段，如系統(tǒng)錯(cuò)誤產(chǎn)生的次數(shù)、產(chǎn)生的時(shí)間段、業(yè)務(wù)執(zhí)行人員信息記錄、業(yè)務(wù)執(zhí)行影響等信息，從另一個(gè)角度去分析主機(jī)的穩(wěn)定情況以及運(yùn)行效率，以往一些不容易察覺(jué)的異常信息，通過(guò)對(duì)日志分析規(guī)則的配置和數(shù)據(jù)采集，也會(huì)在系統(tǒng)中體現(xiàn)出來(lái)，從而提高系統(tǒng)維護(hù)管理的水平。

3.1 日志分析平臺(tái)系統(tǒng)架構(gòu)

系統(tǒng)架構(gòu)說(shuō)明：

1）采集客戶端：運(yùn)行在生產(chǎn)主機(jī)上的采集客戶端程序，負(fù)責(zé)收集相關(guān)日志，預(yù)處理并通過(guò)socket方式發(fā)送給采集服務(wù)端。

2）采集服務(wù)：采集服務(wù)端對(duì)消息進(jìn)行緩存，由消息處理器進(jìn)行異步處理，生成消息首先放入內(nèi)存，同時(shí)發(fā)給實(shí)時(shí)告警，當(dāng)內(nèi)存中的記錄數(shù)達(dá)到配置的閥值時(shí)寫(xiě)入文件數(shù)據(jù)庫(kù)。

3）告警處理：實(shí)時(shí)告警收到消息后根據(jù)告警規(guī)則配置進(jìn)行處理，并將結(jié)果入庫(kù)。

4）查詢服務(wù)：查詢服務(wù)接收web端和統(tǒng)計(jì)進(jìn)程的查詢請(qǐng)求，從文件數(shù)據(jù)庫(kù)和采集服務(wù)端的內(nèi)存中查詢符合條件的記錄返回給調(diào)用端。

3.2 日志分析平臺(tái)系統(tǒng)功能

系統(tǒng)功能說(shuō)明：

1）日志監(jiān)控采集：從各渠道的業(yè)務(wù)主機(jī)上實(shí)時(shí)讀取新生成日志信息。由于BOSS系統(tǒng)各臺(tái)主機(jī)上每天生成的日志信息量很龐大（達(dá)到830G），因此部署的客戶端程序要能夠?qū)崟r(shí)采集日志，并且對(duì)主機(jī)性能不會(huì)造成大的影響。設(shè)計(jì)上采用客戶端部署日志爬蟲(chóng)程序，實(shí)時(shí)采集日志并傳送給服務(wù)端，采集傳送時(shí)間

2）日志規(guī)整處理：對(duì)采集完成的的日志文本信息，按照既定格式統(tǒng)一進(jìn)行規(guī)整處理，便于后續(xù)的存放和分析。

3）消息緩沖處理：將規(guī)整好的日志信息，送入待發(fā)往消息中心的緩沖區(qū)中。

4）消息發(fā)送處理：將緩沖區(qū)中存在的日志信息，取出發(fā)往消息中心；對(duì)發(fā)送出錯(cuò)的消息，記錄關(guān)聯(lián)信息到錯(cuò)誤重發(fā)文件中。

5）錯(cuò)誤重發(fā)處理：根據(jù)錯(cuò)誤記錄文件檢索需要重新發(fā)送的日志信息，將消息再次發(fā)送。

6）日志分析處理：對(duì)日志進(jìn)行分析，從有利于維護(hù)人員定位分析問(wèn)題的角度出發(fā)，全方位提取錯(cuò)誤的信息并進(jìn)行歸類分析，如業(yè)務(wù)調(diào)用路徑分析、業(yè)務(wù)調(diào)用關(guān)系分析、調(diào)用函數(shù)分析、異常效率分析等，對(duì)分析出來(lái)的信息在WEB界面進(jìn)行關(guān)聯(lián)展現(xiàn)，便于對(duì)信息全方位的查看和分析。

7）統(tǒng)計(jì)告警查詢：根據(jù)錯(cuò)誤信息進(jìn)行歸類，達(dá)到一定閥值的進(jìn)行告警（閥值可以進(jìn)行手工調(diào)整），對(duì)告警的詳細(xì)信息在WEB界面進(jìn)行統(tǒng)一展現(xiàn)，并對(duì)錯(cuò)誤信息進(jìn)行統(tǒng)計(jì)，對(duì)外提供查詢。

3.3 系統(tǒng)處理流程

從總體流程來(lái)看，整個(gè)日志處理過(guò)程分為三大部分：

1）采集流程：通過(guò)采集配置-日志采集引擎根據(jù)配置信息從指定主機(jī)日志文件中采集關(guān)鍵信息-持久化采集信息-數(shù)據(jù)入庫(kù)。

日志采集要求對(duì)多個(gè)大容量的日志文件進(jìn)行實(shí)時(shí)的采集，采集的方式主要以全量采集和增量采集為主，可開(kāi)啟多個(gè)采集進(jìn)程進(jìn)行同時(shí)采集，采集引擎根據(jù)配置信息里的采集關(guān)鍵詞，以及需要采集的日志文件名稱，在對(duì)應(yīng)的主機(jī)日志文件中查找存在關(guān)鍵詞的行。

2）告警流程：當(dāng)采集的信息數(shù)量達(dá)到事先設(shè)定的閥值時(shí)，會(huì)產(chǎn)生告警信息（包括發(fā)送短信到維護(hù)人員手機(jī)和頁(yè)面告警兩種方式）。

3）分析流程：業(yè)務(wù)日志分析查詢-日志分析程序分析采集信息-得出分析結(jié)果-返回查詢操作-用戶查看分析結(jié)果視圖。

以上日志采集、告警和日志分析組成了整套日志采集分析流程。在采集時(shí)只需要添加采集配置信息以及采集關(guān)鍵詞，后臺(tái)采集程序即會(huì)自動(dòng)根據(jù)配置信息，到相應(yīng)的主機(jī)日志文件中采集，無(wú)需人工干預(yù)。當(dāng)采集的信息數(shù)量達(dá)到事先設(shè)定的閥值時(shí)，會(huì)進(jìn)行告警（見(jiàn)圖4），同時(shí)將采集信息入庫(kù)。采集信息入庫(kù)后，要查詢?nèi)罩娟P(guān)鍵信息，只需要登錄日志分析管理平臺(tái)進(jìn)行查詢（見(jiàn)圖5），查詢方式可以按天，按日志文件名，產(chǎn)生日志的日期等。平臺(tái)會(huì)自動(dòng)根據(jù)日志采集信息生成統(tǒng)計(jì)圖型，方便維護(hù)人員對(duì)一段時(shí)間內(nèi)的采集信息進(jìn)行評(píng)估，并提供日志信息導(dǎo)出功能。

4 應(yīng)用效果

BOSS系統(tǒng)日志分析管理平臺(tái)2011年12月上線后，通過(guò)部署在CRM系統(tǒng)一臺(tái)中間件主機(jī)上的日志采集客戶端程序?qū)θ罩疚募M(jìn)行統(tǒng)一采集，發(fā)送到日志分析服務(wù)器上進(jìn)行統(tǒng)一管理和展現(xiàn)，取得較好的應(yīng)用效果：

1）采集處理對(duì)中間件主機(jī)的CPU使用率的影響很小（

2）提升工作效率：維護(hù)人員通過(guò)日志分析平臺(tái)的前臺(tái)界面查看日志信息，節(jié)省了維護(hù)人員頻繁登錄各臺(tái)主機(jī)搜索日志的大部分繁瑣的工作。平臺(tái)上線前，維護(hù)人員面對(duì)龐大的日志記錄，定位目標(biāo)信息至少需要15分鐘；平臺(tái)上線后，維護(hù)人員在系統(tǒng)上選擇對(duì)應(yīng)主機(jī)IP和關(guān)鍵詞信息即可查看日志信息，1-2分鐘內(nèi)即可定位，日志信息定位效率提升10倍以上。

3）加強(qiáng)系統(tǒng)監(jiān)控：平臺(tái)上線前維護(hù)人員需要手工登錄各個(gè)系統(tǒng)，并查看刷新的日志記錄是否存在異常，大量異常信息無(wú)法實(shí)時(shí)捕捉到，無(wú)法進(jìn)行系統(tǒng)的實(shí)時(shí)監(jiān)控；平臺(tái)上線后，日志采集程序在各個(gè)主機(jī)平臺(tái)實(shí)時(shí)采集分析日志信息，實(shí)時(shí)定位異常信息點(diǎn)，并告警通知相關(guān)維護(hù)人員，保證了各系統(tǒng)7*24小時(shí)的實(shí)時(shí)監(jiān)控，提升了系統(tǒng)的穩(wěn)定性。

4）縮短故障處理時(shí)間：平臺(tái)上線前，故障處理人員需要登錄對(duì)應(yīng)主機(jī)，查看系統(tǒng)日志進(jìn)行故障分析，過(guò)程需要20分鐘甚至更久；平臺(tái)上線后，故障處理人員只需登錄平臺(tái)系統(tǒng)在監(jiān)控和告警管理界面能查看故障信息，就能進(jìn)行故障定位，只需要5分鐘甚至更少時(shí)間，故障定位處理時(shí)間縮短15分鐘以上。

5 小結(jié)和展望

日志分析管理平臺(tái)對(duì)BOSS系統(tǒng)的日志信息實(shí)現(xiàn)了統(tǒng)一配置采集，統(tǒng)一日志信息展現(xiàn)，去除人工搜索日志信息帶來(lái)的時(shí)間浪費(fèi)，維護(hù)人員不用再登陸到各個(gè)主機(jī)上搜索日志，只需登陸到日志平臺(tái)查詢各種日志信息，減少重復(fù)的人工操作和對(duì)主機(jī)資源的浪費(fèi)；平臺(tái)對(duì)采集到的日志進(jìn)行錯(cuò)誤信息實(shí)時(shí)告警，方便了維護(hù)人員對(duì)故障問(wèn)題的發(fā)現(xiàn)、定位和解決，提高問(wèn)題解決的實(shí)效性，對(duì)提升前臺(tái)和客戶滿意度起到較好的效果。

2012年6月，日志采集客戶端部署在CRM三臺(tái)中間件主機(jī)上運(yùn)行。后續(xù)將根據(jù)實(shí)際使用情況部署到其他主機(jī)上運(yùn)行。

參考文獻(xiàn)：

[1] 《廣西移動(dòng)BOSS應(yīng)用服務(wù)評(píng)估分析項(xiàng)目技術(shù)建議書(shū)》神州數(shù)碼思特奇信息技術(shù)股份有限公司[Z].2011.

好的日志文章范文2

關(guān)鍵詞：網(wǎng)絡(luò)安全審計(jì)；日志；日志格式

中圖分類號(hào)：TP311文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1009-3044(2008)14-20803-02

1 引言

防火墻、入侵檢測(cè)系統(tǒng)和安全審計(jì)系統(tǒng)等安全產(chǎn)品為內(nèi)部網(wǎng)絡(luò)提供了良好的保護(hù)作用。安全審計(jì)系統(tǒng)提供了一種通過(guò)收集各種網(wǎng)絡(luò)信息從而發(fā)現(xiàn)有用信息的機(jī)制，將這種機(jī)制應(yīng)用于局域網(wǎng)內(nèi)部，從多種網(wǎng)絡(luò)安全產(chǎn)品中收集日志和警報(bào)信息并分析，從而實(shí)現(xiàn)效能的融合，與防火墻、入侵檢測(cè)系統(tǒng)等安全產(chǎn)品形成合力，為局域網(wǎng)的安全提供強(qiáng)有力的保障。

如何高效的從各種網(wǎng)絡(luò)設(shè)備所生成的海量的日志數(shù)據(jù)信息中提取有用信息，通過(guò)格式的統(tǒng)一整合后為安全審計(jì)系統(tǒng)提供統(tǒng)一接口，這是安全審計(jì)系統(tǒng)一項(xiàng)十分關(guān)鍵的工作，也是影響整個(gè)系統(tǒng)性能的一個(gè)重要因素，本文就此進(jìn)行探討。

2 安全審計(jì)系統(tǒng)的功能需求

安全監(jiān)控與審計(jì)技術(shù)通過(guò)實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)活動(dòng)，分析用戶和系統(tǒng)的行為、審計(jì)系統(tǒng)配置和漏洞、評(píng)估敏感系統(tǒng)和數(shù)據(jù)的完整性、識(shí)別攻擊行為、對(duì)異常行為進(jìn)行統(tǒng)計(jì)、跟蹤識(shí)別違反安全法則的行為等功能，使系統(tǒng)管理員可以有效地監(jiān)控、評(píng)估自己的系統(tǒng)和網(wǎng)絡(luò)。監(jiān)控審計(jì)技術(shù)是對(duì)防火墻和入侵檢測(cè)系統(tǒng)的有效補(bǔ)充，彌補(bǔ)了傳統(tǒng)防火墻對(duì)網(wǎng)絡(luò)傳輸內(nèi)容粗粒度(傳輸層以下)的控制不足，同時(shí)作為一種重要的網(wǎng)絡(luò)安全防范手段，對(duì)檢測(cè)手段單一的入侵檢測(cè)系統(tǒng)也是有益的補(bǔ)充，能及時(shí)對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)控，規(guī)范網(wǎng)絡(luò)的使用[1]。

目前，安全審計(jì)系統(tǒng)是網(wǎng)絡(luò)安全領(lǐng)域的一個(gè)研究熱點(diǎn)，許多研究者都提出了不同的系統(tǒng)模型，這包括對(duì)內(nèi)容進(jìn)行審計(jì)的安全審計(jì)系統(tǒng)、對(duì)用戶行為進(jìn)行審計(jì)的安全審計(jì)系統(tǒng)以及對(duì)各種安全設(shè)備生成的日志進(jìn)行審計(jì)的安全審計(jì)系統(tǒng)等等。

基于日志的網(wǎng)絡(luò)安全審計(jì)系統(tǒng)是一個(gè)日志接收與日志分析的審計(jì)系統(tǒng)，該系統(tǒng)能夠接收、分析審計(jì)局域網(wǎng)內(nèi)的防火墻、入侵檢測(cè)系統(tǒng)等網(wǎng)絡(luò)安全產(chǎn)品生成的日志，審計(jì)局域網(wǎng)內(nèi)的網(wǎng)絡(luò)信息安全。基于日志的網(wǎng)絡(luò)安全審計(jì)系統(tǒng)的功能需求如下：

(1) 集中管理：審計(jì)系統(tǒng)通過(guò)提供一個(gè)統(tǒng)一的集中管理平臺(tái)，實(shí)現(xiàn)對(duì)日志、安全審計(jì)中心、日志數(shù)據(jù)庫(kù)的集中管理，包括對(duì)日包更新、備份和刪除等操作。

(2) 能采集各種操作系統(tǒng)的日志，防火墻系統(tǒng)日志，入侵檢測(cè)系統(tǒng)日志，網(wǎng)絡(luò)交換及路由設(shè)備的日志，各種服務(wù)和應(yīng)用系統(tǒng)日志，并且具備處理多日志來(lái)源、多種不同格式日志的能力。

(3) 審計(jì)系統(tǒng)不僅要能對(duì)不同來(lái)源的日志進(jìn)行識(shí)別、歸類和存儲(chǔ)，還應(yīng)能自動(dòng)將其收集到的各種日志轉(zhuǎn)換為統(tǒng)一的日志格式，以供系統(tǒng)調(diào)用。并且能以多種方式查詢網(wǎng)絡(luò)中的日志記錄信息，以報(bào)表的形式顯示。

(4) 能及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)存在的安全問(wèn)題并通知管理員采取相應(yīng)措施。系統(tǒng)必須從海量的數(shù)據(jù)信息中找出可疑或危險(xiǎn)的日志信息，并及時(shí)以響鈴、E-mail或其他方式報(bào)警，通知管理員采取應(yīng)對(duì)措施及修復(fù)漏洞。

(5) 審計(jì)系統(tǒng)的存在應(yīng)盡可能少的占用網(wǎng)絡(luò)資源，不對(duì)網(wǎng)絡(luò)造成任何不良的影響。

(6) 具備一定的隱蔽性和自我保護(hù)能力。具有隱蔽性是說(shuō)系統(tǒng)的存在應(yīng)該合理“隱藏”起來(lái)，做到對(duì)于入侵者來(lái)說(shuō)是透明而不易察覺(jué)系統(tǒng)的存在。

(7) 保證安全審計(jì)系統(tǒng)使用的各種數(shù)據(jù)源的安全性和有效性。若采用未經(jīng)加密的明文進(jìn)行數(shù)據(jù)傳輸，很容易被截獲、篡改和偽造，工作站與服務(wù)器之間的通訊應(yīng)進(jìn)行加密傳輸，可采用SSL、AES、3DES等加密方式。

(8) 具有友好的操作界面。

3 安全審計(jì)系統(tǒng)的模型概述

如圖1所示，基于日志的安全審計(jì)系統(tǒng)主要包含如下模塊：

(1) ：負(fù)責(zé)收集各種日志數(shù)據(jù)，包括各種操作系統(tǒng)的日志，防火墻系統(tǒng)日志、入侵檢測(cè)系統(tǒng)日志、網(wǎng)絡(luò)交換及路由設(shè)備的日志、各種服務(wù)和應(yīng)用系統(tǒng)日志等。定時(shí)或?qū)崟r(shí)發(fā)送到審計(jì)中心。其間，日志數(shù)據(jù)的傳送采用加密方式進(jìn)行發(fā)送，防止數(shù)據(jù)被截獲、篡改和偽造。

(2) 數(shù)據(jù)預(yù)處理模塊：將采集到的日志數(shù)據(jù)經(jīng)過(guò)解密后按照數(shù)據(jù)來(lái)源存入相應(yīng)的數(shù)據(jù)庫(kù)中。

(3) 系統(tǒng)管理模塊：負(fù)責(zé)對(duì)日志、安全審計(jì)中心、日志數(shù)據(jù)庫(kù)的集中管理，包括對(duì)日志數(shù)據(jù)的更新、備份和刪除等操作。

(4) 數(shù)據(jù)處理模塊：負(fù)責(zé)自動(dòng)將收集到的各種日志轉(zhuǎn)換為統(tǒng)一的日志格式，并且從海量的數(shù)據(jù)中通過(guò)模式匹配，發(fā)現(xiàn)并找出可疑或危險(xiǎn)的日志信息，交由“日志報(bào)警處理模塊”進(jìn)行處理。

(5) 日志報(bào)警處理模塊：處理已發(fā)現(xiàn)的問(wèn)題，以響鈴、E-mail或其他方式報(bào)警通知管理員采取應(yīng)對(duì)措施。

(6) 數(shù)據(jù)庫(kù)模塊：負(fù)責(zé)接收、保存各種日志數(shù)據(jù)，包括策略庫(kù)也存放其中。

(7) 接口模塊：供用戶訪問(wèn)、查詢。

4 安全審計(jì)系統(tǒng)中有用數(shù)據(jù)整合的方法

4.1 安全審計(jì)系統(tǒng)的數(shù)據(jù)源

安全審計(jì)系統(tǒng)可以利用的日志大致分為以下四類[2]：

4.1.1 操作系統(tǒng)日志

a) Windows系統(tǒng)日志。Windows NT/2K/XP的系統(tǒng)日志文件有應(yīng)用程序日志、安全日志和系統(tǒng)日志等，日志默認(rèn)位置在%systemroot%\system32\config目錄下。Windows是使用一種特殊的格式存放它的日志文件，這種格式的文件通常只可以通過(guò)事件查看器EVENT VIEWER讀取。

b) Linux/Unix系統(tǒng)日志。在Linux/Unix系統(tǒng)中，有三個(gè)主要的日志子系統(tǒng)：連接時(shí)間日志、進(jìn)程統(tǒng)計(jì)日志和錯(cuò)誤日志。錯(cuò)誤日志――由syslogd(8)執(zhí)行。各種系統(tǒng)守護(hù)進(jìn)程、用戶程序和內(nèi)核通過(guò)syslog向文件/var/log/messages報(bào)告值得注意的事件。

4.1.2 安全設(shè)備日志

安全設(shè)備日志主要是指防火墻，入侵檢測(cè)系統(tǒng)等網(wǎng)絡(luò)安全設(shè)備產(chǎn)生的日志。這部分日志格式?jīng)]有統(tǒng)一標(biāo)準(zhǔn)。目前，國(guó)內(nèi)多數(shù)防火墻支持WELF(Web Trends Enhanced Log Format)的日志格式，而多數(shù)入侵檢測(cè)系統(tǒng)的日志兼容Snort產(chǎn)生日志格式。

4.1.3 網(wǎng)絡(luò)設(shè)備日志

網(wǎng)絡(luò)設(shè)備日志是指網(wǎng)絡(luò)中交換機(jī)、路由器等網(wǎng)絡(luò)設(shè)備產(chǎn)生的日志，這些設(shè)備日志通常遵循RFC3164(TheBSD syslog Protocol)規(guī)定的日志格式,可以通過(guò)syslogd實(shí)現(xiàn)方便的轉(zhuǎn)發(fā)和處理。一個(gè)典型的syslog記錄包括生成該記錄的進(jìn)程名字、文本信息、設(shè)備和優(yōu)先級(jí)范圍等。

4.1.4 應(yīng)用系統(tǒng)日志

應(yīng)用系統(tǒng)日志包含由各種應(yīng)用程序記錄的事件。應(yīng)用系統(tǒng)的程序開(kāi)發(fā)員決定記錄哪一個(gè)事件。Web應(yīng)用程序日志往往是系統(tǒng)管理員最關(guān)心的應(yīng)用系統(tǒng)日志之一。

a) Apache日志。Apache日志記錄Apache服務(wù)器處理的所有請(qǐng)求和出錯(cuò)信息，它支持兩種格式的日志：普通記錄格式(Common Log Format)，組合記錄格式(Combined Log Format)。

b) IIS日志。IIS日志文件記錄了所有訪問(wèn)IIS服務(wù)程序的信息，IIS日志文件一般位于如下路徑：%systemroot%\system32\LogFiles。IIS支持“W3C擴(kuò)充日志文件格式”、“NCSA通用日志格式”和“ODBC數(shù)據(jù)庫(kù)日志格式”。

好的日志文章范文3

關(guān)鍵詞： Web日志；序列模式挖掘； GSP算法

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2015）30-0217-02

隨著網(wǎng)絡(luò)服務(wù)的迅速發(fā)展，互聯(lián)網(wǎng)上已有龐大數(shù)量的網(wǎng)站，且還在不斷的建設(shè)，通過(guò)對(duì)網(wǎng)站服務(wù)器的操作和訪問(wèn)進(jìn)行專業(yè)而詳細(xì)的分析，可以了解網(wǎng)站的運(yùn)行情況并能進(jìn)一步發(fā)現(xiàn)網(wǎng)站所存在的缺陷，為促使網(wǎng)站更好的運(yùn)營(yíng)與發(fā)展提供可靠的技術(shù)支持與決策依據(jù)。為了能夠促使網(wǎng)站更好的運(yùn)營(yíng)與提供針對(duì)性與個(gè)性化的服務(wù)，必須要了解電子商務(wù)網(wǎng)站以及其所展示的各產(chǎn)品模塊的具體訪問(wèn)情況，而這些信息只能通過(guò)獲取對(duì)Web服務(wù)器上網(wǎng)站的相關(guān)運(yùn)行日志文件，并對(duì)其包含的數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)與分析得到。

互聯(lián)網(wǎng)用戶具有多樣性的特點(diǎn)，全球大概有10億多個(gè)網(wǎng)站，網(wǎng)民數(shù)量接近30億，他們來(lái)自不同的民族，具有不同層次的經(jīng)濟(jì)收入水平，具備不同的教育背景與不同的個(gè)人興趣，他們?cè)L問(wèn)的目的也均不同，但他們?cè)跒g覽Web頁(yè)面過(guò)程中均留下了訪問(wèn)信息。特別是像淘寶、京東等大型的電子商務(wù)網(wǎng)站，它們每天都有數(shù)億的在線交易額，而這些交易以及用戶的瀏覽（指沒(méi)有交易的用戶）都產(chǎn)生可謂海量的Web訪問(wèn)日志數(shù)據(jù)。Web日志挖掘是Web大數(shù)據(jù)應(yīng)用領(lǐng)域或者電子商務(wù)商業(yè)智能應(yīng)用中的一個(gè)最為重要的內(nèi)容。

本文以某電子商務(wù)網(wǎng)站的Web訪問(wèn)日志為研究對(duì)象，利用SQL Server提供的SSIS服務(wù)和T-SQL語(yǔ)句進(jìn)行數(shù)據(jù)預(yù)處理，得到序列數(shù)據(jù)庫(kù)，然后用java語(yǔ)言編程實(shí)現(xiàn)GSP（Generalized Sequential Patterns）算法對(duì)其進(jìn)行序列模式的挖掘測(cè)試分析，通過(guò)對(duì)結(jié)果的分析可以為改善該網(wǎng)站的布局以及產(chǎn)品展示方式的調(diào)整提供參考。

1 基于Web日志的序列挖掘

Web日志序列挖掘一般分三個(gè)步驟，即數(shù)據(jù)預(yù)處理、挖掘算法處理以及模式分析。

數(shù)據(jù)預(yù)處理主要是對(duì)Web日志進(jìn)行序列挖掘之前的對(duì)原始日志文件進(jìn)行數(shù)據(jù)轉(zhuǎn)換、清洗等一系列的操作，最終形成可供序列模式挖掘算法所使用的規(guī)范化數(shù)據(jù)。其具體工作主要包含數(shù)據(jù)凈化、會(huì)話識(shí)別、用戶識(shí)別以及路徑補(bǔ)充等過(guò)程。數(shù)據(jù)凈化工作主要是對(duì)挖掘中不需要的相關(guān)數(shù)據(jù)進(jìn)行刪除操作；會(huì)話識(shí)別主要是對(duì)每個(gè)用戶在某一段時(shí)間內(nèi)的所有請(qǐng)求頁(yè)面進(jìn)行分解從而得到用戶會(huì)話；用戶識(shí)別是將用戶和請(qǐng)求的頁(yè)面進(jìn)行相關(guān)聯(lián)的過(guò)程，其中主要是處理多個(gè)用戶通過(guò)防火墻或服務(wù)器訪問(wèn)站點(diǎn)的情況。在用戶識(shí)別的過(guò)程中，不僅需要服務(wù)器日志，還需要知道站點(diǎn)的拓?fù)浣Y(jié)構(gòu)；路徑補(bǔ)充過(guò)程就是將本地或服務(wù)器緩存所造成的遺留請(qǐng)求也補(bǔ)充完整。執(zhí)行上面的操作后，就得到了序列模式挖掘算法所需要的輸入信息（用戶會(huì)話文件），該文件中包含訪問(wèn)Web站點(diǎn)的用戶，用戶請(qǐng)求的頁(yè)面及請(qǐng)求發(fā)生的順序，每一頁(yè)瀏覽的時(shí)間等信息[1]。

挖掘算法處理主要是指在基于數(shù)據(jù)預(yù)處理的基礎(chǔ)上，通過(guò)實(shí)現(xiàn)某種序列算法得到挖掘結(jié)果，這些結(jié)果主要包括如每頁(yè)的訪問(wèn)數(shù)，最頻繁的訪問(wèn)的頁(yè)面，每頁(yè)的平均瀏覽時(shí)間等。序列模式算法主要有兩類：一類是類Apriori算法，以GSP算法為代表，這種算法基于一個(gè)事實(shí)：一個(gè)序列是頻繁的，它的所有子序列必然是頻繁的；另一種挖掘序列模式的思想是基于數(shù)據(jù)庫(kù)投影的序列模式生長(zhǎng)技術(shù)的應(yīng)用，如PrefixSpan算法。

模式分析是依據(jù)挖掘算法所得到的模式集合，再結(jié)合實(shí)際所感興趣的模式進(jìn)行篩選和分析，然后采用可視化技術(shù)對(duì)這些模式作為挖掘的最終結(jié)果進(jìn)行直觀和個(gè)性化的展示。

2 基于GSP算法的實(shí)現(xiàn)流程

序列模式挖掘一般分為五個(gè)步驟，這些步驟分別為排序階段、大項(xiàng)集階段、轉(zhuǎn)換階段、序列階段以及選最長(zhǎng)序列階段。

GSP算法的主要流程如圖1所示：

1）序列數(shù)據(jù)庫(kù)進(jìn)行掃描，得到長(zhǎng)度為1的序列模式L1，作為初始的種子集。

2）根據(jù)長(zhǎng)度為i的種子集Li通過(guò)連接操作和剪切操作生成長(zhǎng)度為i+1的候選序列模式Ci+1；然后掃描序列數(shù)據(jù)庫(kù)，計(jì)算每個(gè)候選序列的支持?jǐn)?shù)，產(chǎn)生長(zhǎng)度為i+1的序列模式Li+1，并將Li+1作為新的種子集。

3）重復(fù)第二步，直到?jīng)]有新的序列模式或候選序列模式產(chǎn)生為止。

3 網(wǎng)站日志挖掘?qū)嵗治?/p>

本文采用ECML_PKDD 2005會(huì)議提供的公共點(diǎn)擊流數(shù)據(jù)，它收集了380多萬(wàn)條電子商務(wù)網(wǎng)站的服務(wù)器日志記錄，每個(gè)日志文件包含的是一個(gè)小時(shí)所收集的記錄，每個(gè)文件包含的信息有時(shí)間、IP、會(huì)話標(biāo)識(shí)、請(qǐng)求頁(yè)面和引用頁(yè)面等相關(guān)信息。日志記錄形式如下：

16；1074661208；212.209.160.2；09b611d2583514c458f 8946841f880a5；/ls/？id=139；http：//shop6.cz/

其主要結(jié)構(gòu)如表1所示。

本文通過(guò)取該站點(diǎn)上的一個(gè)服務(wù)器日志文件，共計(jì)353K字節(jié)，2978條記錄，為了減少算法的計(jì)算量以及提高數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性，利用T-SQ語(yǔ)句和SQL Server的SSIS服務(wù)功能將原始數(shù)據(jù)文件進(jìn)行數(shù)據(jù)轉(zhuǎn)換凈化、訪問(wèn)的處理、用戶識(shí)別、會(huì)話識(shí)別、鏈接規(guī)范化、排序等數(shù)據(jù)預(yù)處理，然后得到序列數(shù)據(jù)庫(kù)，總共是179條記錄，107個(gè)序列。

通過(guò)java編寫(xiě)的GSP算法對(duì)該電子商務(wù)網(wǎng)站的訪問(wèn)日志進(jìn)行數(shù)據(jù)挖掘測(cè)試，根據(jù)GSP算法，我們將最小支持度設(shè)為8，得到了該電子商務(wù)網(wǎng)站的頻繁訪問(wèn)序列總共計(jì)9條，其序列模式挖掘的結(jié)果如圖2所示：

從運(yùn)行的結(jié)果我們可以很容易看出，用戶對(duì)該網(wǎng)站的這9種產(chǎn)品相對(duì)比較感興趣，其中最感興趣的是該網(wǎng)站的Digital cameras產(chǎn)品。

4 結(jié)束語(yǔ)

本文利用SQL Server對(duì)某電子商務(wù)網(wǎng)站的日志進(jìn)行了數(shù)據(jù)預(yù)處理并產(chǎn)生序列數(shù)據(jù)庫(kù)，并通過(guò)java編程實(shí)現(xiàn)GSP序列模式挖掘算法對(duì)其進(jìn)行測(cè)試分析，通過(guò)對(duì)結(jié)果分析可以做出對(duì)該網(wǎng)站布局和內(nèi)容（或產(chǎn)品）調(diào)整提供參考，使其更好為其用戶提供針對(duì)性的服務(wù)。

參考文獻(xiàn)：

[1]朱鶴祥.Web日志挖掘中數(shù)據(jù)預(yù)處理算法的研究[D].大連：大連交通大學(xué)，2009.

[2]汪莉棟. Web日志挖掘中數(shù)據(jù)預(yù)處理算法的研究及實(shí)現(xiàn)[D].貴陽(yáng)：貴州大學(xué)，2008.

[3]趙暢，楊冬青，唐世渭.Web日志序列模式挖掘[J]. 計(jì)算機(jī)應(yīng)用，2000，20（9）：15-18.

[4]李林，崔志明.用戶Web日志序列模式挖掘研究[J]. 微機(jī)發(fā)展，2005，15（5）： 119-121.

[5]朱琳玲，胡學(xué)鋼，穆斌.基于Web的數(shù)據(jù)挖掘研究綜述[J].電腦與信息技術(shù)，2002，20（6）：45-48.

[6]王Z. Web使用記錄挖掘技術(shù)綜述[J].四川經(jīng)濟(jì)管理學(xué)院學(xué)報(bào)，2008，20（1）：49-50.

[7]王新，馬萬(wàn)青，潘文林.基于Web日志的用戶訪問(wèn)模式挖掘[J].計(jì)算機(jī)工程與應(yīng)用，2006，21（9）：156-158.

[8]劉沛騫，郭海儒，袁玲玲.Web日志挖掘中的用戶訪問(wèn)模式識(shí)別[J].雁北師范學(xué)院學(xué)報(bào)，2006（2）.

好的日志文章范文4

關(guān)鍵詞：消息中間件（MQ）；隊(duì)列；隊(duì)列管理器；通道；錯(cuò)誤日志

中圖分類號(hào)：P409 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9599 （2012） 17-0000-02

1 WebSphere MQ的概述

消息中間件（MQ）是一種獨(dú)立的系統(tǒng)軟件或服務(wù)程序，分布式應(yīng)用系統(tǒng)借助這種軟件在不同的技術(shù)之間共享資源，管理計(jì)算資源和網(wǎng)絡(luò)通訊。它在計(jì)算機(jī)系統(tǒng)中是一個(gè)關(guān)鍵軟件，它能實(shí)現(xiàn)應(yīng)用的互連和互操作，能保證系統(tǒng)安全、可靠、高效的運(yùn)行。消息中間件位于用戶應(yīng)用和操作系統(tǒng)及網(wǎng)絡(luò)軟件之間，它為應(yīng)用提供了公用的通信手段，并且獨(dú)立于網(wǎng)絡(luò)和操作系統(tǒng)。

消息中間件（MQ）適用于任何需要進(jìn)行網(wǎng)絡(luò)通信的系統(tǒng)，是基于消息隊(duì)列的存儲(chǔ)轉(zhuǎn)發(fā)機(jī)制，負(fù)責(zé)建立網(wǎng)絡(luò)通信的通道，進(jìn)行數(shù)據(jù)或文件發(fā)送。 MQ在不同平臺(tái)及不同語(yǔ)言編寫(xiě)的系統(tǒng)之間傳遞消息，只需簡(jiǎn)單的調(diào)用幾個(gè)MQ的API（應(yīng)用程序接口），就可以實(shí)現(xiàn)互相通訊，并不需要考慮底層系統(tǒng)和網(wǎng)絡(luò)的復(fù)雜性。MQ作為IBM的一個(gè)拳頭產(chǎn)品，雖然功能看上去簡(jiǎn)單，就是個(gè)消息隊(duì)列，但它卻是IBM中間件的核心。MQ不僅有很高的性能，而且對(duì)各種平臺(tái)的支持極優(yōu)，幾乎你能想到的硬件和操作系統(tǒng)平臺(tái)以及編程語(yǔ)言，MQ都有專門(mén)的API支持。依靠這些優(yōu)勢(shì)，MQ 在消息類中間件市場(chǎng)上占領(lǐng)了統(tǒng)治地位，已經(jīng)成為事實(shí)上的行業(yè)標(biāo)準(zhǔn)，在各類應(yīng)用中承擔(dān)了可靠的信息數(shù)據(jù)傳輸?shù)幕A(chǔ)支撐。

2 WebSphere MQ的工作原理

MQ的工作原理如圖1所示：

2.1 本地通訊：應(yīng)用程序A和應(yīng)用程序B運(yùn)行于同一系統(tǒng)A，它們之間可以借助消息隊(duì)列技術(shù)進(jìn)行彼此的通訊：應(yīng)用程序A向隊(duì)列1發(fā)送一條信息，而當(dāng)應(yīng)用程序B需要時(shí)就可以得到該信息。

2.2 遠(yuǎn)程通訊：如果信息傳輸?shù)哪繕?biāo)改為在系統(tǒng)B上的應(yīng)用程序C，這種變化不會(huì)對(duì)應(yīng)用程序A產(chǎn)生影響，應(yīng)用程序A向隊(duì)列2發(fā)送一條信息，系統(tǒng)A的MQ 發(fā)現(xiàn)隊(duì)列2所指向的目的隊(duì)列實(shí)際上位于系統(tǒng)B，它將信息放到本地的一個(gè)特殊隊(duì)列-傳輸隊(duì)列（Transmission Queue）。我們建立一條從系統(tǒng)A到系統(tǒng)B的消息通道，消息通道將從傳輸隊(duì)列中讀取消息，并傳遞這條信息到系統(tǒng)B，然后等待確認(rèn)。只有MQ接到系統(tǒng) B成功收到信息的確認(rèn)之后，它才從傳輸隊(duì)列中真正將該信息刪除。如果通訊線路不通，或系統(tǒng)B不在運(yùn)行，信息會(huì)留在傳輸隊(duì)列中，直到被成功地傳送到目的地。這是MQ最基本而最重要的技術(shù)--確保信息傳輸，并且是一次且僅一次（once-and-only-once）的傳遞。

3 MQ在民航氣象數(shù)據(jù)庫(kù)中的應(yīng)用

3.1 MQ在民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中的總體架構(gòu)

如圖2所示氣象數(shù)據(jù)庫(kù)系統(tǒng)是一套分級(jí)式的數(shù)據(jù)交換網(wǎng)絡(luò)，通過(guò)ATM高速交換網(wǎng)實(shí)現(xiàn)了氣象數(shù)據(jù)共享。以北京為主中心、地區(qū)中心為分中心構(gòu)成了核心的數(shù)據(jù)交換網(wǎng)絡(luò)。在進(jìn)行數(shù)據(jù)交換時(shí)MQ起到了橋梁的作用，各航站只能與所屬地區(qū)中心進(jìn)行數(shù)據(jù)交換，各地區(qū)分中心與北京主中心進(jìn)行進(jìn)一步的數(shù)據(jù)交換。

3.2 MQ在航站級(jí)民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中的架構(gòu)

下面以本航站（ZYTL）為例，對(duì)MQ在民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中的應(yīng)用進(jìn)行介紹。

（1）以圖3的數(shù)據(jù)流程來(lái)對(duì)民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中航站與中心之間MQ的通訊原則進(jìn)行說(shuō)明：

①每個(gè)分中心所管理的航站通信分系統(tǒng)通過(guò)網(wǎng)絡(luò)方式將本航站生成的數(shù)據(jù)資料（包括報(bào)文和產(chǎn)品）傳送到分中心的交換服務(wù)器通信系統(tǒng)，交換服務(wù)器通信系統(tǒng)將這些數(shù)據(jù)（除了請(qǐng)求報(bào)）全部上傳到二期主業(yè)務(wù)通信分系統(tǒng)；②每個(gè)分中心二期主業(yè)務(wù)通信分系統(tǒng)將收到的所有數(shù)據(jù)分別傳送到本分中心的所有數(shù)據(jù)庫(kù)系統(tǒng)（包括交換服務(wù)器上的數(shù)據(jù)庫(kù)系統(tǒng)）；③每個(gè)分中心二期主業(yè)務(wù)通信分系統(tǒng)收到數(shù)據(jù)后，根據(jù)用戶的指定，將需要分發(fā)的數(shù)據(jù)發(fā)送到交換服務(wù)器通信系統(tǒng)；④交換服務(wù)器通信系統(tǒng)收到二期主業(yè)務(wù)通信系統(tǒng)發(fā)來(lái)的數(shù)據(jù)，根據(jù)用戶事先的指定進(jìn)行分發(fā)；⑤交換服務(wù)器通信系統(tǒng)收到請(qǐng)求報(bào)，將檢索交換服務(wù)器上的數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行應(yīng)答。

（2）由圖3可知MQ在航站與中心通訊過(guò)程中數(shù)據(jù)流有三個(gè)單向、二個(gè)雙向。

單向：預(yù)報(bào)平臺(tái) 雙向：（即發(fā)又收）航站通信服務(wù)器

航站通信服務(wù)器 DB00 中心交換服務(wù)器

DB01 中心二期主業(yè)務(wù)

4 MQ常見(jiàn)故障分析與處理

任何一種軟件都會(huì)存在一定的系統(tǒng)管理工作，MQ當(dāng)然也不例外，下面我就對(duì)日常維護(hù)工作中常見(jiàn)的故障進(jìn)行分析闡述。其實(shí)MQ為我們提供了豐富的故障分析手段，MQ錯(cuò)誤日志即是一種簡(jiǎn)單易行、快速有效的手段，另外MQ還提供了其它方式方法，如：MQ的系統(tǒng)管理命令、MQ的TRACE、FFST等途徑，都是用來(lái)對(duì)錯(cuò)誤信息進(jìn)行追蹤和記錄，從而幫助解決問(wèn)題。

4.1 錯(cuò)誤日志分析

當(dāng)MQ運(yùn)行過(guò)程中出現(xiàn)問(wèn)題時(shí)，第一個(gè)應(yīng)該采取的行動(dòng)便是查看MQ的錯(cuò)誤日志。MQ在各種層次上，為用戶提供了豐富的日志文件，這些日志文件包含了所有被啟動(dòng)的隊(duì)列管理器、有關(guān)對(duì)MQ的隊(duì)列管理器操作、以及被啟動(dòng)的通道的相關(guān)信息，當(dāng)隊(duì)列管理器和通道等運(yùn)行時(shí)，有關(guān)信息包括出現(xiàn)異常情況時(shí)的信息都將在日志文件中有所體現(xiàn)。

日志文件：當(dāng)系統(tǒng)建立了隊(duì)列管理器以后，該隊(duì)列管理器所需的日志文件隨之即在/var/mqm/qmgr/QmgrName/errors子目錄下會(huì)產(chǎn)生三個(gè)日志文件：

AMQERR01.LOG、AMQERR02.LOG、AMQERR03.LOG。它們是以循環(huán)方式存儲(chǔ)錯(cuò)誤消息，因此，最新的錯(cuò)誤信息總是存儲(chǔ)在AMQERR01.LOG中，歷史信息存儲(chǔ)AMQERR02.LOG 和 AMQERR03.LOG中。我們應(yīng)該按照該順序查看錯(cuò)誤信息，并從該文件中獲取信息，根據(jù)它的提示采取相應(yīng)的措施。

4.2 常見(jiàn)故障分析

如果查看錯(cuò)誤日志經(jīng)初步分析無(wú)法解決問(wèn)題，則必須更近一步的查找原因，應(yīng)對(duì)如下問(wèn)題進(jìn)行深入分析。

MQSeries的通道是MQ的重要組成部分，是MQ的難點(diǎn)和精華，它運(yùn)行正常與否對(duì)MQ系統(tǒng)的正常運(yùn)行起著致關(guān)重要的作用，并且在MQ的網(wǎng)絡(luò)環(huán)境中，相當(dāng)數(shù)量的異常問(wèn)題與通道有關(guān)，因此，相比而言，對(duì)MQ通道的維護(hù)工作是MQ系統(tǒng)管理員系統(tǒng)管理工作的重點(diǎn)。

通道狀態(tài)異常時(shí)應(yīng)采取的措施：

（1）查看網(wǎng)絡(luò)連接是否暢通MQ的通訊是建立在系統(tǒng)網(wǎng)絡(luò)運(yùn)行正常的基礎(chǔ)之上的，當(dāng)通道不通時(shí)，要首先檢查網(wǎng)絡(luò)連接是否正常。可以使用操作系統(tǒng)ping命令，也可以采用ftp方式，在兩個(gè)主機(jī)之間嘗試進(jìn)行數(shù)據(jù)傳輸，以判斷網(wǎng)絡(luò)是否正常。（2）查看通道定義是否正確。通道所使用的傳輸隊(duì)列定義是否正確，通道兩端的定義是否匹配，如兩條通道最大傳輸?shù)南㈤L(zhǎng)度，Message sequence number wrap是否一致。若不一致，要重新定義通道，可使用腳本命令DEFINE CHANNEL。（3）查看通道的狀態(tài)。用以下命令來(lái)判斷通道狀態(tài)：dis chstatus（ChannelName）或dis chs（ChannelName）其中，ChannelName代表通道的名稱。（4）查看通道的當(dāng)前消息序列號(hào)。用dis chstatus（ChannelName）或dis chs（ChannelName）查看通道的當(dāng)前一些屬性值，在通道的屬性值中，current sequence number代表通道當(dāng)前的消息序列號(hào)值，若消息序列號(hào)不一致，則可用MQSC命令RESET CHANNEL命令來(lái)將消息序列號(hào)重新置1。

5 結(jié)束語(yǔ)

過(guò)通實(shí)踐驗(yàn)證在民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中引用MQ技術(shù)，極大優(yōu)化了系統(tǒng)的架構(gòu)。系統(tǒng)在數(shù)據(jù)交換過(guò)程中選擇基于隊(duì)列等候的MQ 通信方式極大增強(qiáng)了信息的實(shí)時(shí)性，信息通過(guò)隊(duì)列可以瞬時(shí)完成檢索和發(fā)送；同時(shí)安全可靠性方面也很到了極大的保障，MQ 通訊不存在忽略或丟失信息的危險(xiǎn)，只有證實(shí)信息已經(jīng)從隊(duì)列中取出并到達(dá)接收端之后，信息才會(huì)從發(fā)送系統(tǒng)中刪除。一旦信息放到MQ Series 手中，那么交付任務(wù)便可保證絕對(duì)成功。如果通信過(guò)程發(fā)生中斷，信息仍會(huì)安全存放在隊(duì)列中，一旦連接恢復(fù)，信息便一次發(fā)送過(guò)去，對(duì)業(yè)務(wù)的集成不會(huì)產(chǎn)生任何影響；日常維護(hù)方面MQ日志文件提供較為全面的信息，使機(jī)務(wù)人員對(duì)系統(tǒng)的日常維護(hù)和排故工作更加容易開(kāi)展。MQ所特具的這些先進(jìn)性、安全性、可管理性和易于維護(hù)開(kāi)發(fā)等優(yōu)勢(shì)，使民航氣象數(shù)據(jù)庫(kù)系統(tǒng)的運(yùn)行效率得到了極大的提升。

參考文獻(xiàn)：

好的日志文章范文5

關(guān)鍵詞：Web挖掘；日志挖掘；數(shù)據(jù)預(yù)處理

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007—9599 （2012） 14—0000—02

一、引言

隨著信息技術(shù)的飛速發(fā)展，Web已經(jīng)成為是信息獲取、及共享的重要途徑，Web上的各類信息越來(lái)越齊全、越快速的增長(zhǎng)。面對(duì)日益膨脹的各類資訊，將數(shù)據(jù)挖掘技術(shù)應(yīng)用對(duì)Web頁(yè)面的各類內(nèi)容、結(jié)構(gòu)以及用戶訪問(wèn)信息進(jìn)行有效信息提取，更好的服務(wù)于Web事業(yè)發(fā)展，已經(jīng)成為眾多研究者的熱門(mén)研究方向。

Web挖掘（Web Mining）是指通過(guò)對(duì)Web資源進(jìn)行分析和研究，從中發(fā)現(xiàn)隱含未知的、有價(jià)值的規(guī)律和知識(shí)的過(guò)程。根據(jù)Web挖掘的對(duì)象和內(nèi)容的不同，Web挖掘可以分為Web日志挖掘（Web log mining）、Web內(nèi)容挖掘（Web content mining）和Web結(jié)構(gòu)挖掘（Web structure mining）。其中，Web日志挖掘是指通過(guò)挖掘Web日志來(lái)發(fā)現(xiàn)用戶的訪問(wèn)行為及模式，可以實(shí)現(xiàn)用戶聚類、頁(yè)面聚類和發(fā)現(xiàn)頻繁訪問(wèn)路徑，進(jìn)而改善網(wǎng)站結(jié)構(gòu)設(shè)計(jì)和為用戶提供個(gè)性化服務(wù)，已成為眾多研究人員關(guān)注的焦點(diǎn)。

二、Web日志挖掘技術(shù)概述

（一）Web日志挖掘基本概念

Web日志挖掘是We挖掘技術(shù)中的一種，是指通過(guò)對(duì)Web日志記錄進(jìn)行挖掘分析，對(duì)用戶訪問(wèn)Web頁(yè)面的模式進(jìn)行分析和總結(jié)，得到用戶進(jìn)行Web訪問(wèn)中隱含的規(guī)律或信息，并借助于這類信息來(lái)改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu)，提高用戶查找信息的效率和質(zhì)量，并通過(guò)統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定頁(yè)面、特定時(shí)間等要素之間的內(nèi)在聯(lián)系。這在電子商務(wù)等領(lǐng)域有著非常重要的作用。用戶使用Web獲取信息的過(guò)程中需要不停地從一個(gè)Web站點(diǎn)通過(guò)超文本鏈接跳轉(zhuǎn)到另一個(gè)站點(diǎn)，這種過(guò)程存在一定的普遍性，發(fā)現(xiàn)此規(guī)律即是Web用戶訪問(wèn)信息發(fā)現(xiàn)。Web日志挖掘是關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn)，一般可以分為以下三個(gè)階段，數(shù)據(jù)預(yù)處理（Pre processing）、模式發(fā)現(xiàn)（Pattern Discovering）、模式分析（Pattern Analyzing），其體系結(jié)構(gòu)如圖：

（二）數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是指對(duì)為了將數(shù)據(jù)變成適合挖掘的數(shù)據(jù)格式，將原始日志文件進(jìn)行篩選、過(guò)濾和重組后，并保存到數(shù)據(jù)庫(kù)中，以便不同類型的數(shù)據(jù)挖掘的進(jìn)行操作。在Web日志挖掘中，數(shù)據(jù)挖掘預(yù)處理主要包含數(shù)據(jù)凈化、會(huì)話識(shí)別、路徑補(bǔ)充、用戶識(shí)別以及事物識(shí)別等。對(duì)Web的數(shù)據(jù)預(yù)處理會(huì)直接影響到挖掘算法的模式和結(jié)果，是保證Web日志挖掘有一個(gè)高質(zhì)量結(jié)果的關(guān)鍵。

1.數(shù)據(jù)凈化

數(shù)據(jù)凈化是指將Web服務(wù)器中的日志中的無(wú)效數(shù)據(jù)進(jìn)行刪除，消除日志數(shù)據(jù)中的冗余量，減少所需處理數(shù)據(jù)的總量。一般情況下，與用戶會(huì)話的日志信息中只有HTML文件，因此，可以建立一個(gè)后綴名表列，可以幫助刪除經(jīng)過(guò)檢查后無(wú)關(guān)的URI資源。經(jīng)過(guò)數(shù)據(jù)凈化后，可以減輕數(shù)據(jù)的大小，縮小數(shù)據(jù)預(yù)處理的容量，使得數(shù)據(jù)十分集中。

2.會(huì)話識(shí)別

會(huì)話識(shí)別是指將訪問(wèn)記錄進(jìn)行分解，分解為單個(gè)的會(huì)話。用戶的一次會(huì)話是某用戶對(duì)某個(gè)Web站點(diǎn)的一次訪問(wèn)過(guò)程中所引用到的全部頁(yè)面。由于用戶的訪問(wèn)是隨機(jī)的，因此用戶何時(shí)會(huì)離開(kāi)一個(gè)站點(diǎn)是無(wú)法預(yù)知的。最簡(jiǎn)單且最有效的判斷用戶是否已經(jīng)離開(kāi)該網(wǎng)站的方法是利用最大的超時(shí)來(lái)進(jìn)行判斷。如若兩個(gè)頁(yè)面的請(qǐng)求時(shí)間超過(guò)了預(yù)設(shè)的門(mén)限，就認(rèn)為一個(gè)會(huì)話已經(jīng)結(jié)束，并且已經(jīng)開(kāi)始了一個(gè)新的會(huì)話。

3.路徑補(bǔ)充

路徑補(bǔ)充是指在用戶的會(huì)話文件中將遺漏的請(qǐng)求信息補(bǔ)充進(jìn)來(lái)，也可以根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和引用日志提供的信息把路徑補(bǔ)充完整。檢查Web日志中是否由于Cache而導(dǎo)致重要的頁(yè)面訪問(wèn)記錄丟失。

4.用戶識(shí)別

用戶的有效識(shí)別是一件非常復(fù)雜的事情，這主要是服務(wù)器、防火墻或本地緩存所造成的。常用的方法為基于日志的方法，并結(jié)合一些啟發(fā)性的識(shí)別規(guī)則。例如：如果IP地址相同，但是信息變了（信息，在IIS5.0環(huán)境下的W3C擴(kuò)展日志文件格式的cs（User—Agent）字段），表明用戶可能是在某個(gè)防火墻后面的內(nèi)網(wǎng)的不同用戶，則可以標(biāo)記為不同的用戶；還可以將訪問(wèn)信息，引用信息（cs（Referer）字段）和站點(diǎn)拓?fù)錂C(jī)構(gòu)結(jié)合，構(gòu)造出用戶的瀏覽路徑，如果當(dāng)前請(qǐng)求的頁(yè)面同用戶已瀏覽的頁(yè)面沒(méi)有鏈接關(guān)系，則認(rèn)為存在IP地址相同的多個(gè)用戶。然而，使用這些規(guī)則并不可以保證一定可以準(zhǔn)確識(shí)別用戶，用戶識(shí)別是個(gè)難題。

5.事務(wù)識(shí)別

事物識(shí)別是對(duì)用戶會(huì)話進(jìn)行語(yǔ)義分組，即針對(duì)用戶會(huì)話的數(shù)據(jù)挖掘活動(dòng)進(jìn)行特定的事件定義。在Web日志挖掘領(lǐng)域中，對(duì)關(guān)聯(lián)挖掘任務(wù)的粒度太粗，因此要采用特定的算法，將會(huì)話分割成更小的事物。經(jīng)過(guò)分割后變成頁(yè)面序列，再進(jìn)行事物識(shí)別，可以得到諸多有意義的信息，及用戶會(huì)話中的網(wǎng)頁(yè)瀏覽路徑。

（三）模式發(fā)現(xiàn)階段

模式發(fā)現(xiàn)階段是指為了得到數(shù)據(jù)背后隱含的規(guī)律和模式，使用各種挖掘算法的過(guò)程，如機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、模式識(shí)別等其他學(xué)科領(lǐng)域中已開(kāi)發(fā)出來(lái)的方法和算法。當(dāng)然，要將這些算法和Web日志挖掘的特性結(jié)合起來(lái)，目前已經(jīng)得到廣泛應(yīng)用的算法有序列模式、統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則和聚類分析等技術(shù)。

好的日志文章范文6

關(guān)鍵詞：電子商務(wù)；Web挖掘；客戶行為

中圖分類號(hào)：F224-39

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：167Z-3198(2009)08-0237-02

1 電子商務(wù)中客戶的重要性

營(yíng)銷學(xué)上有個(gè)著名的公式；100－1＝0，即一個(gè)企業(yè)即使有100個(gè)客戶對(duì)其感到很滿意，但是只要有一個(gè)客戶對(duì)持否定態(tài)度，企業(yè)的盛名就可能立即化為0，盡管這個(gè)觀點(diǎn)有點(diǎn)夸大其實(shí)，但是至少它說(shuō)明了一個(gè)問(wèn)題，即：客戶滿意的重要性。

市場(chǎng)經(jīng)濟(jì)體制下，公司的目標(biāo)就是為企業(yè)持股者爭(zhēng)取利潤(rùn)的最大化，而公司的利潤(rùn)從何而來(lái)――客戶。換句話說(shuō)，為客戶服務(wù)能創(chuàng)造長(zhǎng)期的利益，而長(zhǎng)期的利益又能夠滿足持股者的目的需求。雖然，使客戶滿意需要花更多的錢(qián)，同時(shí)也需要更長(zhǎng)的周期，但是長(zhǎng)周期加上大量的資金意味著企業(yè)更多的利益。所以，客戶對(duì)企業(yè)的重要性是越來(lái)越突出。即使在電子商務(wù)領(lǐng)域這個(gè)遵循市場(chǎng)經(jīng)濟(jì)體制的網(wǎng)上交易體系。這一重要性也是同樣符合的。

如今Google、Amazon、Yahoo、MSN等一些Web公司都要求員工運(yùn)用Web挖掘技術(shù)來(lái)了解客戶行為，并根據(jù)挖掘出的信息數(shù)據(jù)及模式設(shè)計(jì)更加符合客戶需求的服務(wù)和產(chǎn)品。也就是說(shuō)利用Web挖掘可以了解客戶行為，其分析的數(shù)據(jù)結(jié)果可提供給企業(yè)參考，做出合適的調(diào)整策略。

2　客戶行為的Web挖掘

2.1　挖掘數(shù)據(jù)來(lái)源

在挖掘過(guò)程中，關(guān)鍵性步驟是提供合適的挖掘?qū)ο蟆Ｔ陔娮由虅?wù)中，客戶行為挖掘的數(shù)據(jù)源，主要有以下幾種：

(1)服務(wù)器日志文件。

Web服務(wù)器日志文件記錄了客戶每次登錄瀏覽網(wǎng)站的行為信息，包括了IP地址、時(shí)間、頁(yè)面等，是Web挖掘的主要數(shù)據(jù)源。

(2)Cookies日志文件。

Cookies是服務(wù)器為自動(dòng)跟蹤網(wǎng)站瀏覽者而在客戶端生成的標(biāo)志，用于存儲(chǔ)類似于購(gòu)物手推車狀態(tài)信息或者瀏覽者所訪問(wèn)的電子商務(wù)網(wǎng)站的頁(yè)面信息或交易信息等。

(3)客戶信息。

客戶信息指客戶通過(guò)Web頁(yè)在屏幕上輸入的、要提交給服務(wù)器的相關(guān)信息。在電子商業(yè)網(wǎng)站須進(jìn)行信用授權(quán)才能進(jìn)行交易，因此客戶大量的個(gè)人資料會(huì)傳到網(wǎng)站上。對(duì)這些信息組織序化后，存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中可作為長(zhǎng)期分析客戶消費(fèi)趨勢(shì)的來(lái)源。

2.2　挖掘過(guò)程

對(duì)客戶行為的Web挖掘并不是雜亂無(wú)序的，一般其過(guò)程可分為三個(gè)階段：

(1)數(shù)據(jù)的預(yù)處理；

預(yù)處理主要對(duì)用戶訪問(wèn)日志(包含用戶的訪問(wèn)日志、引用日志和日志)進(jìn)行過(guò)濾、反蜘蛛化、客戶驗(yàn)證、會(huì)話和路徑補(bǔ)全等處理，形成用戶會(huì)話文件。

①過(guò)濾：收集完數(shù)據(jù)后，首要的步驟便是過(guò)濾出不想要的記錄，為分析做準(zhǔn)備。

②反蜘蛛化：所謂蜘蛛，就是搜索引擎對(duì)萬(wàn)維網(wǎng)的掃描建立索引的半自動(dòng)化程序。蜘蛛的行為與人的行為不同(要比客戶的全面)，在數(shù)據(jù)處理中要把蜘蛛的行為和客戶的行為區(qū)分開(kāi)來(lái)，并過(guò)濾掉蜘蛛行為在服務(wù)器上的記錄。

③客戶驗(yàn)證：在會(huì)話之前必須識(shí)別客戶，一是識(shí)別出同一客戶在一次瀏覽中為建立會(huì)話而發(fā)出的頁(yè)面請(qǐng)求，另一目的是識(shí)別在多次站點(diǎn)瀏覽的同一客戶，使我們能夠分析客戶在數(shù)天，數(shù)月或是數(shù)年中的行為。

④會(huì)話；會(huì)話指客戶在一次訪問(wèn)中訪問(wèn)的所有Web頁(yè)面，通過(guò)這些可以反映出訪問(wèn)者對(duì)網(wǎng)站什么地方有興趣或關(guān)心。

⑤路徑補(bǔ)全；客戶在瀏覽網(wǎng)時(shí)可能出現(xiàn)頁(yè)面后退現(xiàn)象，導(dǎo)致路徑損失，所以需要根據(jù)客戶訪問(wèn)前后頁(yè)面進(jìn)行推理，補(bǔ)全訪問(wèn)路徑。

(2)模式發(fā)現(xiàn)：

模式發(fā)現(xiàn)是對(duì)數(shù)據(jù)預(yù)處理所形成的用戶會(huì)話文件，利用數(shù)據(jù)挖掘的一些有效算法，例如統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、聚類、分類等。來(lái)發(fā)現(xiàn)隱藏的模式、規(guī)則。

①統(tǒng)計(jì)分析：統(tǒng)計(jì)方法是從電子商務(wù)網(wǎng)站中抽取知識(shí)的最常用的方法。可以根據(jù)選擇的特征來(lái)分析網(wǎng)頁(yè)此特征的點(diǎn)擊次數(shù)，根據(jù)獲得的數(shù)據(jù)結(jié)果來(lái)調(diào)整網(wǎng)站。

②關(guān)聯(lián)規(guī)則：根據(jù)關(guān)聯(lián)規(guī)則，可以從客戶訪問(wèn)網(wǎng)站的行為中找出相關(guān)性。利用這些相關(guān)性，可以改進(jìn)電子商務(wù)網(wǎng)站的結(jié)構(gòu)，例如哪些產(chǎn)品可以擺在一起或捆綁銷售。

③聚類和分類：聚類規(guī)則是從一組數(shù)據(jù)項(xiàng)中聚集出相似特征的一個(gè)聚類，可分為用戶聚類和網(wǎng)頁(yè)聚類。而分類規(guī)則是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型，并使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。

(3)模式分析：

在這個(gè)階段，主要是對(duì)挖掘出來(lái)的模式、規(guī)則進(jìn)行分析，找出用戶感興趣的模式，并輔助理解。最常見(jiàn)的模式分析方法是采用sQL查詢語(yǔ)句進(jìn)行分析。另一種分析方法是先將數(shù)據(jù)導(dǎo)入并提供可視化的結(jié)果輸出。

3　Web挖掘的應(yīng)用

網(wǎng)絡(luò)個(gè)性化服務(wù)是目前電子商務(wù)商業(yè)運(yùn)作和發(fā)展的新方向，它根據(jù)用戶興趣、愛(ài)好、習(xí)慣，以及各個(gè)用戶之間的相關(guān)性等向用戶在線推薦商品，提供瀏覽建議，通過(guò)不定期調(diào)整網(wǎng)站的結(jié)構(gòu)方便用戶訪問(wèn)。動(dòng)態(tài)地為用戶定制個(gè)性化的網(wǎng)站等。

如今，許多商家一直在尋求識(shí)別有利可圖的市場(chǎng)分割和追蹤網(wǎng)絡(luò)使用者的行為習(xí)慣，其目的是提醒用戶他們可能感興趣的產(chǎn)品的實(shí)用性。這就出現(xiàn)了像亞馬遜網(wǎng)站那樣的一種新模式，根據(jù)某一特殊用戶可能感興趣的問(wèn)題提出所需信息。對(duì)于被特征化的用戶，運(yùn)用一些客戶分類、挖掘技術(shù)，讓他們了解所感興趣產(chǎn)品的預(yù)報(bào)。

網(wǎng)絡(luò)個(gè)性化服務(wù)的本質(zhì)就是以客戶為中心提供Web服務(wù)。首先，客戶瀏覽訪問(wèn)電子商務(wù)網(wǎng)站的資源；其次，系統(tǒng)分析客戶行為特性，創(chuàng)建訪問(wèn)模型；最后，根據(jù)所獲取的信息知識(shí)調(diào)整服務(wù)，系統(tǒng)進(jìn)行推薦來(lái)滿足不同用戶的個(gè)性化需求。通過(guò)客戶與系統(tǒng)不斷的交互，最終為客戶提供個(gè)性化服務(wù)。

4　Web挖掘面臨的問(wèn)題

Web挖掘給電子商務(wù)帶來(lái)新機(jī)遇的同時(shí)，也帶來(lái)潛在的問(wèn)題――隱私安全問(wèn)題。網(wǎng)絡(luò)的特點(diǎn)使得我們?cè)诰W(wǎng)站上留下的信息幾乎都可以被全世界獲得。事實(shí)上，對(duì)用戶數(shù)據(jù)的采集和挖掘，有些時(shí)候利用了用戶的注冊(cè)信息和登記信息，這包括客戶姓名、性別、地址、出生年月、電話號(hào)碼、購(gòu)物習(xí)慣、收入、信用卡號(hào)碼、電子郵件及經(jīng)常訪問(wèn)的Web站點(diǎn)地址等私人信息。如果這些信息的利用未得到客戶的允許，則會(huì)涉及到隱私權(quán)問(wèn)題并產(chǎn)生糾紛。

如何對(duì)客戶隱私進(jìn)行保護(hù)，我們可以從三個(gè)方面著手：第一，立法進(jìn)行強(qiáng)制性規(guī)范；第二，對(duì)涉及隱私的網(wǎng)上數(shù)據(jù)采取技術(shù)防范；第三，行業(yè)自律，不隨意泄露客戶信息，禁止買賣數(shù)據(jù)等。

亚洲视频在线观看视频_欧美一区二区三区_日韩精品免费在线观看_成人片网址_久草免费在线视频_激情欧美一区二区三区中文字幕

好的日志文章范例6篇

好的日志文章范文1

好的日志文章范文2

好的日志文章范文3

好的日志文章范文4

好的日志文章范文5

好的日志文章范文6

相關(guān)期刊

今日中學(xué)生

江蘇農(nóng)業(yè)科學(xué)

山東環(huán)境

中學(xué)化學(xué)

相關(guān)精選