亚洲视频在线观看视频_欧美一区二区三区_日韩精品免费在线观看_成人片网址_久草免费在线视频_激情欧美一区二区三区中文字幕

數(shù)據(jù)挖掘技術(shù)分析論文范例6篇

前言:中文期刊網(wǎng)精心挑選了數(shù)據(jù)挖掘技術(shù)分析論文范文供你參考和學(xué)習(xí),希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感,歡迎閱讀。

數(shù)據(jù)挖掘技術(shù)分析論文

數(shù)據(jù)挖掘技術(shù)分析論文范文1

關(guān)鍵詞:醫(yī)學(xué)院校;目標(biāo)驅(qū)動;課程設(shè)計;畢業(yè)論文

中圖分類號:G642.0 文獻標(biāo)志碼:A 文章編號:1674-9324(2012)12-0218-02

一、背景

“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”是國內(nèi)外高等院校一門重要的課程,是國家基礎(chǔ)教育較為重視的一門學(xué)科,受到不同專業(yè)學(xué)生的喜愛。其教學(xué)目標(biāo)是提高學(xué)生的數(shù)據(jù)分析水平和能力,除了教授學(xué)生數(shù)據(jù)分析的常見方法之外,還將引導(dǎo)學(xué)生如何對實際的問題進行建模,如何對模型進行簡化和求解。利用實例教學(xué)等方法,可以很好地將數(shù)據(jù)挖掘中的抽象概念、模型、公式等闡述清楚,讓學(xué)生易于理解和接受。近年來,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用越來越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復(fù)、藥物開發(fā)、科學(xué)研究等方面都獲得了可喜的成果。運用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,總結(jié)各種治療方案的治療效果,以及對疾病的診斷、治療和醫(yī)學(xué)研究都是非常有價值的。因此,我們學(xué)院也把這門課程作為計算機專業(yè)及信息管理與信息系統(tǒng)專業(yè)的必修課。把計算機與醫(yī)學(xué)結(jié)合,使得學(xué)生的培養(yǎng)方案全面包括了計算機與醫(yī)學(xué)的知識點。由于該課程原本屬于研究生階段開設(shè)的專業(yè)課程,教材也大多側(cè)重于介紹體系結(jié)構(gòu)、算法原理、效率分析與改進等理論知識,其中所涉及的內(nèi)容大多比較深,許多知識都超出了本科生的接受范圍,此外,教材對相關(guān)理論在實際應(yīng)用方面的說明也比較少,不利于安排實驗教學(xué)。因此要實現(xiàn)“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程的教學(xué)目標(biāo),必須在理論教學(xué)和實驗教學(xué)環(huán)節(jié)綜合考慮學(xué)時多少、教學(xué)條件以及學(xué)生的接受情況等因素,靈活地加以選擇安排。

二、存在的問題

主要包括以下幾方面:①課堂上以教師講、學(xué)生聽的教學(xué)形式為主,學(xué)生學(xué)習(xí)處于被動狀態(tài),他們的創(chuàng)造性因此被嚴重扼殺;②教師對專業(yè)課程體系和學(xué)生的知識體系不夠重視,對課程體系的講解不到位,造成學(xué)生在學(xué)習(xí)時課程之間聯(lián)系不上,知識銜接不好,對知識的運用和融會貫通比較差;③實驗與理論脫節(jié)。“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程理論講授的算法與實驗軟件中的算法有很大差距,使得學(xué)生難以理解。比如對于理論上講授的關(guān)聯(lián)規(guī)則算法,實驗中使用SQL SERVER 2005中的商務(wù)智能工具做實驗,學(xué)生發(fā)現(xiàn)有很多參數(shù)與理論上講授的有很大不同;④醫(yī)學(xué)院校的學(xué)生對純粹計算機理論知識接受困難。由于該門課程是交叉學(xué)科,涉及計算機、數(shù)學(xué)、統(tǒng)計學(xué)等知識,如果學(xué)生的其他學(xué)科學(xué)得不好,就會對該課程的學(xué)習(xí)產(chǎn)生障礙;⑤教師講授沒有把理論課程結(jié)合到實際應(yīng)用中。有很多學(xué)生不知道學(xué)習(xí)這門課的意義,老師沒有很好引導(dǎo)學(xué)生,激活他們的學(xué)習(xí)熱情。

三、目標(biāo)驅(qū)動的教學(xué)框架

對于以上問題,本文提出了一個新的教學(xué)體系,設(shè)計了一套基于目標(biāo)驅(qū)動的教學(xué)框架,把教師與學(xué)生緊密聯(lián)系起來,從教學(xué)大綱的設(shè)置,教材的選擇,理論教學(xué),實驗教學(xué),課程設(shè)計及畢業(yè)論文,全面引導(dǎo)學(xué)生從初步了解到深入學(xué)習(xí)的過程。對于我們學(xué)校的實際情況,有兩個專業(yè)的學(xué)生要學(xué)習(xí)這門課程。一個是計算機科學(xué)與技術(shù)專業(yè),一個是信息管理與信息系統(tǒng)專業(yè)。對于兩個不同的專業(yè),我們設(shè)置不同的教學(xué)大綱。比如對于計算機專業(yè)的學(xué)生,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘教學(xué)總時數(shù)為72學(xué)時,其中理論為54學(xué)時,實驗為36學(xué)時。

1.理論教學(xué)。對于信息管理與信息系統(tǒng)專業(yè)的學(xué)生,我們可以設(shè)置如下的教學(xué)計劃,可分為三個主要部分。我們教材選擇韓家煒的《數(shù)據(jù)挖掘概念與技術(shù)》,第一部分:第一至四章為數(shù)據(jù)挖掘的基礎(chǔ)知識,包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念和相關(guān)知識介紹;第二部分:第五、六章介紹了數(shù)據(jù)挖掘的算法和工具;第三部分:第七章是數(shù)據(jù)挖掘的聚類分析的實際應(yīng)用。本課程是信息管理與信息系統(tǒng)專業(yè)本科生專業(yè)必修課。通過該課程的學(xué)習(xí),要求學(xué)生掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念,了解基本方法和應(yīng)用背景。掌握數(shù)據(jù)倉庫的設(shè)計和建立,掌握數(shù)據(jù)挖掘的主要步驟和實現(xiàn)方法,數(shù)據(jù)挖掘的常用算法,實現(xiàn)數(shù)據(jù)挖掘的具體操作。理論學(xué)時的安排,第一章緒論(6學(xué)時);第二章數(shù)據(jù)倉庫(4學(xué)時);第三章數(shù)據(jù)預(yù)處理(8學(xué)時);第四章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型(8學(xué)時);第五章數(shù)據(jù)挖掘中常用算法(12學(xué)時);第六章數(shù)據(jù)挖掘的工具及其應(yīng)用(8學(xué)時);第七章數(shù)據(jù)挖掘應(yīng)用實例(8學(xué)時)。

2.實驗教學(xué)。本課程配合理論教學(xué),通過系統(tǒng)的實踐教學(xué)鍛煉,著重培養(yǎng)學(xué)生的獨立分析問題和解決問題的能力,熟練掌握數(shù)據(jù)倉庫的設(shè)計和建立以及各類數(shù)據(jù)挖掘方法,使學(xué)生具有一定的數(shù)據(jù)分析和挖掘能力,能在認識基礎(chǔ)上,提出有效的數(shù)據(jù)挖掘方法,依據(jù)實際例子,寫出解決方案。學(xué)生應(yīng)在實驗課前明確實驗的目的和要求,然后針對相關(guān)問題寫出解決方案。實驗時對實際方案的運行結(jié)果應(yīng)能進行分析并提出改進方法,最終寫出實驗報告。通過實驗教學(xué)應(yīng)達到以下基本要求:①理解數(shù)據(jù)倉庫的工作機理及其構(gòu)建過程;②掌握典型的數(shù)據(jù)倉庫系統(tǒng)及其開發(fā)工具的使用;③理解數(shù)據(jù)挖掘技術(shù)的工作原理與流程;④掌握典型數(shù)據(jù)挖掘工具的使用;⑤掌握幾種典型的數(shù)據(jù)挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實際問題。實驗成績包括:實驗教學(xué)過程成績、實驗報告成績,各占50%。實驗過程表現(xiàn)成績包括:學(xué)習(xí)態(tài)度是否認真、實驗操作是否正確規(guī)范、基本技能掌握程度是否具有創(chuàng)新意識等方面。實驗報告成績包括:實驗報告格式是否正確、原理是否論述清楚、實驗結(jié)果分析討論是否符合邏輯,報告字跡是否清楚等方面。

3.課程設(shè)計。理論課和實驗課接近結(jié)束時,我們把最后三周作為本門課程的課程設(shè)計。課程設(shè)計的目的是讓學(xué)生進一步深刻理解所學(xué)知識。由于本門課程很多算法不容易理解,如何讓學(xué)生把所學(xué)知識結(jié)合到醫(yī)學(xué)應(yīng)用中是課程設(shè)計的關(guān)鍵。比如我們對信息管理與信息系統(tǒng)專業(yè)的學(xué)生課程設(shè)計,要求學(xué)生每人選擇一個老師給定的題目,課程設(shè)計有詳細的要求,比如題目“數(shù)據(jù)挖掘在醫(yī)學(xué)診斷中的應(yīng)用”要求學(xué)生能把本門課程相關(guān)的算法結(jié)合使用,最后給出詳細的分析。通過課程設(shè)計,我們發(fā)現(xiàn),學(xué)生對本門課程更有興趣。

4.畢業(yè)論文。我們把課程一般開設(shè)在大三的下學(xué)期,也就是說學(xué)生學(xué)完這門課程后,就做了該門課的課程設(shè)計,使得學(xué)生對數(shù)據(jù)挖掘相關(guān)知識有了比較深刻的認識。這樣,我們可以引導(dǎo)學(xué)生畢業(yè)論文的選擇。畢業(yè)論文畢竟是反映學(xué)生大學(xué)四年所學(xué)知識,也對他們將來就業(yè)起到提前培訓(xùn)的作用。把理論結(jié)合實踐,老師對學(xué)生的引導(dǎo)也十分重要。

我們根據(jù)醫(yī)學(xué)院校的特征,提出了一套目標(biāo)驅(qū)動的教學(xué)理念,從學(xué)生認識這門課程到學(xué)生理論課的學(xué)習(xí),實驗課的學(xué)習(xí),課程設(shè)計及畢業(yè)論文的完成,在老師的指導(dǎo)下,使用我們的考核體系,可提高學(xué)生對所學(xué)課程的興趣。

參考文獻:

數(shù)據(jù)挖掘技術(shù)分析論文范文2

>> 基于本體的網(wǎng)絡(luò)輿情觀點挖掘方法研究 基于熱點文件下載的網(wǎng)絡(luò)輿情信息挖掘方法研究 基于網(wǎng)頁文本獲取的高校網(wǎng)絡(luò)輿情監(jiān)控 基于OAG循環(huán)的網(wǎng)絡(luò)輿情管理模型研究 基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究 基于文本挖掘的網(wǎng)絡(luò)媒體報道研究 基于模糊神經(jīng)網(wǎng)絡(luò)的Web文本挖掘系統(tǒng) 基于PDCA循環(huán)的預(yù)算管理 基于PDCA循環(huán)的績效考評 基于 PDCA 循環(huán)方法的瀝青路面質(zhì)量動態(tài)管理的研究 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情預(yù)警決策支持系統(tǒng) 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)輿情智能監(jiān)測與引導(dǎo)平臺設(shè)計研究 基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警研究 基于Web數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情分析技術(shù)研究 基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警策略探討 基于數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情預(yù)測中的應(yīng)用 基于數(shù)據(jù)挖掘的高校網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實現(xiàn) 基于數(shù)據(jù)挖掘的輿情觀點挖掘研究 基于蛙鳴博弈的網(wǎng)絡(luò)輿情與政府監(jiān)管的模型淺析 基于PDCA循環(huán)的績效管理體系的構(gòu)建 常見問題解答 當(dāng)前所在位置:.

[2]張玉亮.突發(fā)事件網(wǎng)絡(luò)輿情的生成原因與導(dǎo)控策略――基于網(wǎng)絡(luò)輿情主體心理的分析視閾[J].情報雜志,2012,31(4):54-57.

[3]許鑫,章成志,李雯靜.國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J].情報理論與實踐,2009,32(3):115-120.

[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.

[5]鄭軍.網(wǎng)絡(luò)輿情監(jiān)控的熱點發(fā)現(xiàn)算法研究[D].哈爾濱哈爾濱工程大學(xué),2007.

[6]陳耘可,李博,鄭天翔.PDCA循環(huán)在煤炭企業(yè)質(zhì)量標(biāo)準(zhǔn)化建設(shè)中的研究與應(yīng)用[J].煤炭經(jīng)濟研究,2013,33(2):77-79.

[7]辛敏.PDCA理論在護理質(zhì)量管理中的應(yīng)用研究[D].碩士學(xué)位論文:山西醫(yī)科大學(xué),2010.

數(shù)據(jù)挖掘技術(shù)分析論文范文3

【關(guān)鍵詞】大數(shù)據(jù) 生物信息 知識提取 數(shù)據(jù)挖掘

1 數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中四棟搜索隱藏于其中的具有特殊關(guān)系性的信息過程。它是數(shù)據(jù)庫知識發(fā)現(xiàn)KDD中的一個步驟。知識發(fā)現(xiàn)KDD過程由以下3個階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表示和解釋。數(shù)據(jù)挖掘跟許多學(xué)科都交叉關(guān)聯(lián),包括數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機器學(xué)習(xí)、人工智能、云計算和可視化等。

數(shù)據(jù)挖掘的實際應(yīng)用功能可分為三大類和六分項:分類和聚類屬于分類去隔類;回歸和時間序列屬于推算預(yù)測類;關(guān)聯(lián)和序列則屬于序列規(guī)則類。分類常被用來根據(jù)歷史經(jīng)驗已經(jīng)分好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測。聚類是將數(shù)據(jù)分群,其目的是找出群間的差異來,同時找出群內(nèi)成員間相似性。回歸是利用一系列的現(xiàn)有數(shù)值來預(yù)測一個數(shù)值的可能值。基于時間序列的預(yù)測與回歸功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測未來的數(shù)值。關(guān)聯(lián)是要找出在某一事件與數(shù)據(jù)中會同時出現(xiàn)的東西。

2 降維

從降維的角度講,整個數(shù)據(jù)挖掘的過程就是一個降維的過程。在這個過程中,需要對數(shù)據(jù)刪除線性關(guān)系比較強的特征數(shù)據(jù),再用一些算法,如信號分析算法、傅里葉轉(zhuǎn)換、離散小波轉(zhuǎn)換等算法,從數(shù)據(jù)中提取特征,再對數(shù)據(jù)做主成分析處理,得到最后的特征,再用數(shù)據(jù)挖掘算法來將這些特征轉(zhuǎn)化為人類可讀取的數(shù)據(jù)或信息。

3 分布式數(shù)據(jù)挖掘解決方案

隨著分布式計算技術(shù)、云計算技術(shù)、hadoop生態(tài)圈和非結(jié)構(gòu)化數(shù)據(jù)庫等技術(shù)的發(fā)展,以及對大數(shù)據(jù)挖掘的需求,出現(xiàn)了一批分布式數(shù)據(jù)挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學(xué)伯克利分校AMP實驗室推出的基于Spark的MLBase。在Mahout中主要實現(xiàn)3種類型的數(shù)據(jù)挖掘算法:分類、聚類(集群)和協(xié)同過濾。相比Mahout而言,MLbase更好的支持迭代計算,它把數(shù)據(jù)拆分成若干份,對每一份使用不同的算法和參數(shù)運算出結(jié)果,看哪一種搭配方式得到的結(jié)果最優(yōu)。

4 大數(shù)據(jù)下的具體應(yīng)用實例――生物信息學(xué)的應(yīng)用

生物信息學(xué)(Bioinformatics)是生命科學(xué)、計算機科學(xué)、信息科學(xué)和數(shù)學(xué)等學(xué)科交匯融合形成的一門交叉學(xué)科。近年來隨著先進儀器裝備與信息技術(shù)等越來越廣泛和深入的整合到生物技術(shù)中來,生物醫(yī)學(xué)研究中越來越頻繁的涉及到大數(shù)據(jù)存儲和分析等信息技術(shù)。在使用計算機協(xié)助生物信息時,處理僅有計算機輔助的方式存儲數(shù)據(jù)很顯然是不夠的,生物信息學(xué)研究的目的是運用計算機強大的計算能力來加速生物數(shù)據(jù)的分析,理解數(shù)據(jù)中所包含的生物學(xué)意義。當(dāng)前生物信息學(xué)研究的熱點有:

(1)由以序列分析為代表的組成分析轉(zhuǎn)向功能分析。

(2)由對單個生物分子的研究轉(zhuǎn)向基因調(diào)控忘了等動態(tài)信息的研究。

(3)完整基因組數(shù)據(jù)分析。

(4)綜合分析。

生物信息數(shù)據(jù)具有如下特點:高通量與大數(shù)據(jù)量;種類繁多,形式多樣;異構(gòu)性;網(wǎng)絡(luò)性與動態(tài)性;高維;序列數(shù)據(jù)等特點[5]。針對這樣的生物數(shù)據(jù)信息,要結(jié)合當(dāng)前的大數(shù)據(jù)分析方法進行分析和理解。當(dāng)前數(shù)據(jù)挖掘?qū)崿F(xiàn)對生物信息分析的支持主要有:生物數(shù)據(jù)的語義綜合,數(shù)據(jù)集成;開發(fā)生物信息數(shù)據(jù)挖掘工具;序列的相似性查找和比較;聚類分析;關(guān)聯(lián)分析,生物文獻挖掘等方面。

參考文獻

[1]許凡.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)探討[J].電子技術(shù)與軟件工程,2015(08).

[2]洪松林.數(shù)據(jù)挖掘技術(shù)與工程實踐[M].北京:機械工業(yè)出版社,2014(11).

[3]李榮.生物信息數(shù)據(jù)挖掘若干關(guān)鍵問題研究與應(yīng)用[D].復(fù)旦大學(xué)(博士論文),2004(11).

[4]宋杰.生物信息數(shù)據(jù)挖掘中的若干方法及其應(yīng)用研究[D].大連理工大學(xué)(博士論文),2005(04).

[5]孫勤紅.基于梯度采樣局部收斂的生物信息大數(shù)據(jù)挖掘[J].科技通報,2015(10).

作者簡介

孫勤紅(1979-),女,山東省人。現(xiàn)為三江學(xué)院計算機科學(xué)與工程學(xué)院講師。研究方向為人工智能、數(shù)據(jù)挖掘。

沈鳳仙(1984-),女,江蘇省人。現(xiàn)供職于三江學(xué)院計算機科學(xué)與工程學(xué)院。研究方向為數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘技術(shù)分析論文范文4

有些具有專業(yè)技術(shù)性的畢業(yè)論文寫作,的確具有困難性,對于一些工程學(xué)科的學(xué)生而言,該畢業(yè)論文應(yīng)當(dāng)是結(jié)合設(shè)計進行的。

例如,計算機應(yīng)用或者軟件工程學(xué)科,就需要進行相關(guān)的系統(tǒng)設(shè)計,并且完成、能夠成功運行才能夠符合他們的畢業(yè)論文的標(biāo)準(zhǔn)。這樣的畢業(yè)論文由于要基于真正的系統(tǒng)實現(xiàn),意味著從一開始的系統(tǒng)框架的搭建以及數(shù)據(jù)的鏈接都要非常明了如何實現(xiàn),才能夠不斷推動整體設(shè)計的進行。所以有很多工科學(xué)生因為無法獨立完成這樣的論文以及畢業(yè)設(shè)計內(nèi)容,而嘗試用多種方式進行轉(zhuǎn)移。便會去尋找一些愿意有償代做系統(tǒng)設(shè)計,且愿意提供畢業(yè)(設(shè)計)論文的人,這樣做既可以幫助自己完成學(xué)業(yè)拿到相應(yīng)的學(xué)分得以畢業(yè),還能夠?qū)W習(xí)更多的其他知識豐富人生。

但是在進行該類設(shè)計很多知識的工科畢業(yè)設(shè)計工作中,例如涉及數(shù)學(xué)小論文的知識內(nèi)容、通信類相關(guān)技術(shù)論文等等,就需寫作人員在開始構(gòu)思整個系統(tǒng)的實現(xiàn)之前,進行必要的技術(shù)掌握,才能避免在實際研發(fā)過程中出現(xiàn)問題及錯誤。例如,在進行數(shù)據(jù)挖掘技術(shù)相關(guān)的系統(tǒng)設(shè)計或者模型分析的論文中,在材料準(zhǔn)備階段,就應(yīng)當(dāng)結(jié)合數(shù)據(jù)挖掘原理及技術(shù)應(yīng)用的相關(guān)理論內(nèi)容,探討該類已經(jīng)在期刊中所提到的相應(yīng)的預(yù)警規(guī)則,針對網(wǎng)絡(luò)安全方面的安全預(yù)警模型進行多維度的介紹。【提供】

數(shù)據(jù)挖掘技術(shù)分析論文范文5

關(guān)鍵詞: 科研成果管理; 決策支持; 數(shù)據(jù)倉庫; 聯(lián)機分析處理; 數(shù)據(jù)挖掘

中圖分類號: TN911?34; TM417 文獻標(biāo)識碼: A 文章編號: 1004?373X(2016)07?0120?04

Abstract: The traditional scientific research achievement management uses the database to store the result data. The multiple data types of the scientific research achievement and unified storage way become the obstacle to obtain the valid result data in decision?making analysis, simultaneously the traditional scientific research achievement system can only extract the result information. In view of the above problems, the scientific research achievement management and decision support system based on data warehouse is proposed, in which the data warehouse, on?line analysis processing (OLAP) and association rule mining algorithm are integrated. The system supports that the management personnel can discover the potential achievement, evaluate the scientific research projects, and reasonably allocate the human resources. The association rules of the data were mined in college paper database. It is found that paper quantity and time dimension have some relationship, which conforms with the practical training situation. The effectiveness of using Apriori in this system was verified.

Keywords: scientific research achievement management; decision support; data warehouse; OLAP; data mining

0 引 言

傳統(tǒng)的科研項目管理過程費時費力,且浪費了大量的人力資源。科研過程中產(chǎn)生的有價值的信息,也被這樣死板的管理方法給淹沒了,人們不能也不愿意從紙質(zhì)的資料文獻中去發(fā)現(xiàn)價值。科研管理方式效率低會嚴重影響到科研項目開發(fā)的進度。隨著科學(xué)技術(shù)的快速發(fā)展,科研單位雖然對傳統(tǒng)方法進行了改進,開始建立管理系統(tǒng),但是還遠遠不能滿足要求[1]。

近年來,國內(nèi)研究機構(gòu)也開始重視科研項目管理方面的研究,目的多是為了提高項目管理的水平,對優(yōu)秀的科研成果進行公示,共同分享研究信息[2]。科研成果管理決策支持系統(tǒng)的目的是為了解決傳統(tǒng)科研管理系統(tǒng)對成果資源的浪費情況,加強對科研成果信息中潛在知識的利用,提高科研項目管理中對成果管理的有效性,利用數(shù)據(jù)挖掘充分發(fā)揮成果數(shù)據(jù)的潛力,為管理層提供決策支持依據(jù)[3]。

1 SRAM?DSS的需求分析

1.1 功能需求

科研成果管理決策支持系統(tǒng)主要面向科研項目的成果進行管理,這些成果包括學(xué)術(shù)論文、著作、期刊、專利等。數(shù)據(jù)倉庫的應(yīng)用可以對成果數(shù)據(jù)采取智能的分析,將成果數(shù)據(jù)進行歸類和按照成果數(shù)據(jù)的分析要求進行整理,從中發(fā)現(xiàn)成果與項目、人員之間的聯(lián)系和潛在的規(guī)律,幫助決策者調(diào)整科研定位,做出科學(xué)的決策。

基本管理功能要求用戶可以利用本系統(tǒng)完成對成果的基本管理,包括成果提交、 審核、審批等流程的規(guī)范管理,還有對保密項目成果的加密處理,不僅要系統(tǒng)能夠保存使用過程中存入的成果,還可以導(dǎo)入外部數(shù)據(jù)庫的成果數(shù)據(jù),為數(shù)據(jù)挖掘功能提供數(shù)據(jù)基礎(chǔ),對數(shù)據(jù)的集成程度要求很高,因此需要利用數(shù)據(jù)倉庫存放成果數(shù)據(jù)[4]。

1.2 用戶需求

系統(tǒng)的主要角色包括科研員,科研管理員,決策員,數(shù)據(jù)管理員,系統(tǒng)管理員。

2 總體設(shè)計

2.1 科研成果數(shù)據(jù)倉庫的設(shè)計

對于科研成果數(shù)據(jù)倉庫從概念模型、邏輯模型、物理模型三方面進行建模。需要根據(jù)不同的主題把數(shù)據(jù)倉庫中的數(shù)據(jù)劃分好具體的維度[5]。以成果主題為例,成果數(shù)據(jù)包括成果名稱,成果類型,成果來源,成果性質(zhì),成果作者,成果審核結(jié)果,所屬項目,成果完成時間,成果數(shù)量等,以此作為分析的依據(jù)。因為數(shù)據(jù)倉庫是多維的,OLAP要在多維數(shù)據(jù)集之上才能進行,成果數(shù)據(jù)要滿足分析的要求可以根據(jù)維層次繼續(xù)劃分,成果類型包括論文,專利,專著,軟件成果等;成果性質(zhì)包括科技,醫(yī)藥,航天等[6]。

(1) 邏輯模型

系統(tǒng)主要用戶利用成果信息進行分析,以此來評估科研項目,并為決策者提供決策支持。分析成果事實表中的數(shù)據(jù)信息有用戶維、成果維、時間維。在OLAP分析時可以按照不同的層次進行分析,如圖2所示。

(2) 物理模型

在設(shè)計數(shù)據(jù)倉庫的物理模型時,定義成果數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)是需要注意的重點,目的是使成果數(shù)據(jù)在數(shù)據(jù)倉庫中都有一個統(tǒng)一的格式,定義表示成果的相關(guān)屬性來描述成果邏輯關(guān)系,得到對成果數(shù)據(jù)倉庫的特征進行完整描述。系統(tǒng)采用SQLServer2008建立數(shù)據(jù)庫[7]。利用AnalysisServices獲得后臺數(shù)據(jù)庫里面的信息,這樣建立的數(shù)據(jù)倉庫可以滿足需求。

2.2 SRAM?DSS功能的設(shè)計

為實現(xiàn)科研成果管理科學(xué),全方位管理,設(shè)計成果管理,決策支持,用戶管理,系統(tǒng)管理四個模塊的內(nèi)容,并且用戶在登陸系統(tǒng)之前要進行身份驗證。

(1) 成果管理模塊

成果管理主要包括成果查詢,添加成果,申報成果,成果審核,成果加密以及成果導(dǎo)出等功能,系統(tǒng)采用分組加密方式進行加密。

(2) 決策支持模塊

數(shù)據(jù)倉庫是決策支持功能的數(shù)據(jù)基礎(chǔ),有了數(shù)據(jù)就需要更多的操作來完成決策支持。對于系統(tǒng)中不同的數(shù)據(jù)來源,包括外部導(dǎo)入數(shù)據(jù)利用ETL過程,實現(xiàn)規(guī)范化。然后將符合標(biāo)準(zhǔn)的數(shù)據(jù)裝入數(shù)據(jù)倉庫中。然后針對用戶的要求進行聯(lián)機分析處理和關(guān)聯(lián)規(guī)則挖掘。

(3) 用戶管理模塊

用戶在Web地址欄輸入URL進入登錄,用戶名文本框內(nèi)輸入用戶姓名,在密碼框內(nèi)輸入密碼。系統(tǒng)認證平臺會判斷用戶身份,若是新用戶要完成注冊才能登陸,注冊時要填寫用戶真實的信息,才能獲得登陸權(quán)利,若用戶輸入的用戶信息正確,登錄成功。用戶可以在用戶管理中進行創(chuàng)建,添加到用戶數(shù)據(jù)表中,也能獲得系統(tǒng)的使用權(quán)限[8]。

(4) 系統(tǒng)管理模塊

系統(tǒng)管理模塊主要是針對系統(tǒng)的權(quán)限分配,系統(tǒng)維護以及一些常用工具的設(shè)計。不同的用戶進行的操作不同,能夠看到的信息不同,就要求系統(tǒng)控制權(quán)限,建立權(quán)限分配制度,有利于對用戶權(quán)限進行合理的分配也保證了系統(tǒng)的安全運行。系統(tǒng)維護是管理系統(tǒng)中必不可少的關(guān)鍵功能,包括對系統(tǒng)用戶數(shù)據(jù),成果信息數(shù)據(jù)等的備份工作,實現(xiàn)數(shù)據(jù)庫的安全管理,管理相應(yīng)功能結(jié)構(gòu)規(guī)范性,為系統(tǒng)的更新與升級提供支持。

3 系統(tǒng)實現(xiàn)

3.1 基于數(shù)據(jù)倉庫的OLAP模型

聯(lián)機分析處理技術(shù)能夠高效的分析數(shù)據(jù),發(fā)現(xiàn)事物發(fā)展規(guī)律,捕獲異常和細節(jié)。OLAP支持數(shù)據(jù)分析,而數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過ETL處理后集成到一起,保證了分析在一個快速的時間內(nèi)給予響應(yīng)。所以本階段就是基于數(shù)據(jù)倉庫建立OLAP模型,從而得到更為可靠的數(shù)據(jù)立方體,既降低了刷新代價又提高了響應(yīng)速度。

OLAP包括了維和度量,在前面建立數(shù)據(jù)倉庫時已經(jīng)完成。利用SQL Server中的Analysis Services項目模板建立多維數(shù)據(jù)集,定義數(shù)據(jù)源以及建立事實表與維表之間的關(guān)系。

OLAP模型對數(shù)據(jù)倉庫中的數(shù)據(jù)利用MDX進行多維查找,可以有效分析多維數(shù)據(jù)集。MDX是OLAP的查詢語句,語法與結(jié)構(gòu)化查詢語言SQL很類似。在成果管理系統(tǒng)中,通過MDX語言把科研員和決策者需要的成果數(shù)據(jù)查詢出來,展現(xiàn)在前臺界面里。

利用OLAP模型進行分析,決策者可以依據(jù)分析要求,選擇更多角度去分析數(shù)據(jù),能得到的分析也更多,如下:

(1) 由科研成果的類型分布來看整體項目的側(cè)重重點,以及在成果突出領(lǐng)域的發(fā)展機會和潛力;

(2) 由科研成果參與者和第一申請單位作者與項目之間的關(guān)系,可以看到參與者職稱水平,技術(shù)支持水平對成果完成數(shù)量與質(zhì)量的關(guān)系,并不是參與者越多的成果越完善,可以以此作為合理分配人才資源參與項目開發(fā)的依據(jù),也可以以此評估參與人員的水平,作為考核參考;

(3) 以科研成果在一定時間內(nèi)的增長,作為項目進度和發(fā)展的一個參考標(biāo)準(zhǔn)。也可以看到成果的趨勢和項目完成單位的能力和業(yè)務(wù)的提升;

(4) 可以利用數(shù)據(jù)庫,對以往成果信息進行分析,由于在傳統(tǒng)的數(shù)據(jù)庫中不具備OLAP的功能。

3.2 基于數(shù)據(jù)倉庫的關(guān)聯(lián)規(guī)則挖掘

基于數(shù)據(jù)倉庫的關(guān)聯(lián)規(guī)則挖掘,Apriori算法的核心是提高關(guān)聯(lián)規(guī)則產(chǎn)生的效率。利用Apriori算法對科研成果數(shù)據(jù)進行分析的時候要明確成果的特征,根據(jù)成果特征描述來看,適合利用Apriori算法進行關(guān)聯(lián)規(guī)則的挖掘。科研成果數(shù)據(jù)的特征如下:成果數(shù)據(jù)是按照項目進程時間節(jié)點進行錄入的,存儲在成果庫中;成果評估方式不統(tǒng)一,對成果的評估應(yīng)采取統(tǒng)一的標(biāo)準(zhǔn);科研成果的數(shù)據(jù)存儲在數(shù)據(jù)庫中,每一個成果都對應(yīng)一條記錄,每一個記錄的屬性都一樣。

以本校論文庫的數(shù)據(jù)為實驗數(shù)據(jù),在論文管理系統(tǒng)中可導(dǎo)出相關(guān)TXT文檔數(shù)據(jù),利用系統(tǒng)成果導(dǎo)入功能,添加到系統(tǒng)中,對數(shù)據(jù)進行統(tǒng)一的處理。選取2012―2015年間,數(shù)學(xué)、物理、計算機、兵器學(xué)科的論文成果數(shù)據(jù)。論文所屬學(xué)科層次劃分到一級子學(xué)科,時間層次按照年學(xué)年,繼續(xù)劃分下去。

(1) 數(shù)據(jù)預(yù)處理

數(shù)據(jù)經(jīng)過清洗,轉(zhuǎn)換,去掉無效的數(shù)據(jù),采用統(tǒng)一的數(shù)據(jù)編碼規(guī)則,用離散字母代替時間層次,同時將學(xué)科按照統(tǒng)一的編碼規(guī)則,重新編碼。進一步按照論文數(shù)量劃分等級,五份為一級,等級越高代表論文數(shù)量越多。

(2) 算法實現(xiàn)

設(shè)置最小支持度 min_sup=4,支持度=40%,置信度=80%,通過Apriori算法計算出的關(guān)聯(lián)規(guī)則信任度見表2。

(3) 結(jié)果分析

采用的實驗數(shù)據(jù)來自于論文數(shù)據(jù)庫,由于學(xué)校畢業(yè)論文按照培養(yǎng)計劃有周期性,學(xué)術(shù)性碩士的培養(yǎng)周期為2.5學(xué)年,所以碩士畢業(yè)多集中于第一學(xué)年3月份左右,工程碩士的培養(yǎng)周期為第二學(xué)年9月份,所以對數(shù)據(jù)的分析結(jié)果多集中于上半年。

規(guī)則1表示,在2012年第一學(xué)年在5篇以內(nèi)且2013年第一學(xué)年畢業(yè)論文在5篇以內(nèi)的學(xué)科專業(yè),則在2013年第二學(xué)年在5篇左右的支持度為40%,信任度為80%。

規(guī)則2表示,在2013年第一學(xué)年在5篇以內(nèi)且2013年第二學(xué)年畢業(yè)論文在5篇以內(nèi)的學(xué)科專業(yè),則在2012年第一學(xué)年在5篇左右的支持度為40%,信任度為80%。

規(guī)則3表示,在2012年第一學(xué)年在5篇以內(nèi)且2013年第一學(xué)年畢業(yè)論文在5篇以內(nèi)的學(xué)科專業(yè),則在2014年第二學(xué)年在5篇左右的支持度為40%,信任度為80%。

3.3 關(guān)聯(lián)規(guī)則說明

由于系統(tǒng)中的測試數(shù)據(jù)多來自網(wǎng)絡(luò)和本校的數(shù)據(jù)庫,對關(guān)聯(lián)規(guī)則的挖掘也許存在偏差,但是整體提供的關(guān)聯(lián)規(guī)則數(shù)據(jù)信息還是符合實際的。簡要介紹以下幾點:

(1) 選取成果完成人的職稱級別和所提交的成果類型與數(shù)量作為關(guān)聯(lián)規(guī)則挖掘的維度,發(fā)現(xiàn)成果完成人職稱較低的數(shù)量較多,存在關(guān)聯(lián)規(guī)則;

(2) 選取固定時間內(nèi)論文數(shù)量和專利數(shù)量進行關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)時間維度與論文數(shù)量多,關(guān)聯(lián)較高;

(3) 對不同高校的成果數(shù)量進行關(guān)聯(lián)分析,985與211高校的科研論文,期刊發(fā)表數(shù)量多具有關(guān)聯(lián)規(guī)則。

4 界面展示

用戶登陸界面:輸入正確的用戶名和密碼登陸系統(tǒng),用戶可以選擇“記住我”,在下次進入系統(tǒng)時可以免登陸,若是新用戶第一次登陸系統(tǒng),需要注冊,完成注冊后即獲得登陸權(quán)限。

登陸后看到的首頁,左側(cè)導(dǎo)航欄顯示了主要的功能,成果展示系統(tǒng)中的成果數(shù)量以及系統(tǒng)中的成果列表。

5 結(jié) 論

本文在調(diào)研了解科研成果管理的決策分析需求的基礎(chǔ)上,認真研究了數(shù)據(jù)倉庫的有關(guān)技術(shù)知識,聯(lián)機分析處理技術(shù)的應(yīng)用以及數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法的原理。提出了基于數(shù)據(jù)倉庫的科研成果管理決策支持系統(tǒng)。

開發(fā)系統(tǒng)應(yīng)用的主要技術(shù)包括OLAP和Apriori算法,將OLAP和Apriori算法結(jié)合運用于實際的系統(tǒng)開發(fā)中,關(guān)聯(lián)規(guī)則計算在OLAP物化了的多維數(shù)據(jù)集基礎(chǔ)上進行,減少了重新計算的時間,使決策分析更加智能化,使數(shù)據(jù)挖掘的步驟更具目標(biāo)化,全面提升輔助決策在科研成果管理中的實用價值。

參考文獻

[1] 賀建英.大數(shù)據(jù)下MongoDB數(shù)據(jù)庫檔案文檔存儲去重研究[J].現(xiàn)代電子技術(shù),2015,38(16):51?55.

[2] SUN Hongmei, JIA Ruisheng. Research on the analysis and design of general test database management system [J]. Procedia engineering, 2012, 29: 489?493.

[3] ESLAMIPOOR R, SEPEHRIAR A. Firm relocation as a potential solution for environment improvement using a SWOT?AHP hybrid method [J]. Process safety and environmental protection, 2014, 92(3): 269?276.

[4] KLAUS S R, NEUBAUER J, GOETZ?NEUNHOEFFER F. Hydration kinetics of CA2 and CA?investigations performed on a synthetic calcium aluminate cement [J]. Cement and concrete research, 2013, 43(1): 62?69.

[5] PENG G Y. Marketing decision and decision support system design based on Web [J]. Advanced materials research, 2013, 850: 1048?1051.

[6] 趙維寧.運用數(shù)據(jù)倉庫技術(shù)構(gòu)建電信企業(yè)經(jīng)營分析系統(tǒng)[J].中文信息,2014(8):22?26.

數(shù)據(jù)挖掘技術(shù)分析論文范文6

南京大學(xué)的周志華教授曾專門撰文論述了數(shù)據(jù)挖掘和機器學(xué)習(xí)以及數(shù)據(jù)庫之間的關(guān)系,他提出:數(shù)據(jù)挖掘可以視為機器學(xué)習(xí)和數(shù)據(jù)庫的交叉,主要利用機器學(xué)習(xí)界提供的技術(shù)來分析海量數(shù)據(jù),利用數(shù)據(jù)庫界提供的技術(shù)來管理海量數(shù)據(jù)。

組成數(shù)據(jù)挖掘的三大支柱包括統(tǒng)計學(xué)、機器學(xué)習(xí)和數(shù)據(jù)庫領(lǐng)域內(nèi)的研究成果,其他還包含了可視化、信息科學(xué)等內(nèi)容。不同的教材從不同的方面結(jié)合其基礎(chǔ)學(xué)科知識講述數(shù)據(jù)挖掘技術(shù),不同專業(yè)和技術(shù)背景的學(xué)生或數(shù)據(jù)挖掘研究人員和應(yīng)用人員可以根據(jù)自身的專業(yè)方向選擇不同的數(shù)據(jù)挖掘切入點。下面簡單歸納目前比較主流的數(shù)據(jù)挖掘和機器學(xué)習(xí)方面的教材。

數(shù)據(jù)挖掘:概念與技術(shù)

原書名:Data Mining:Concepts and techniques

作者:Jiawei Han

本書主要從數(shù)據(jù)庫的角度(數(shù)據(jù)管理和數(shù)據(jù)計算的角度)講解數(shù)據(jù)挖掘,作者Jiawei Han現(xiàn)任UIUC CS Dept.教授。本書第2版在豐富和全面的第1版基礎(chǔ)上進行了更新和改進,并增添了新的重要課題,例如挖掘流數(shù)據(jù)、挖掘社會網(wǎng)絡(luò)和挖掘空間、多媒體和其他復(fù)雜數(shù)據(jù)。本書對數(shù)據(jù)挖掘基本概念、算法及其相關(guān)技術(shù)有比較全面的闡述,是國內(nèi)大多數(shù)高校指定教材,它不要求太高的數(shù)學(xué)基礎(chǔ),非常適合數(shù)學(xué)功底一般的學(xué)生使用。

數(shù)據(jù)挖掘:實用機器學(xué)習(xí)技術(shù)(原書第2版)

原書名:Data Mining: Practical Machine Learning Tools and Techniques

作者:Ian H. Witten, Eibe Frank

本書主要從機器學(xué)習(xí)的角度,也有稱從數(shù)據(jù)挖掘的應(yīng)用實現(xiàn)角度來講解數(shù)據(jù)挖掘,描述了各種算法、模型及其Java實現(xiàn),重點是以應(yīng)用的觀點利用案例來說明數(shù)據(jù)挖掘的算法模型,對于具體算法的原理介紹不是非常詳細。它對數(shù)據(jù)挖掘的Java軟件包Weka有比較深的介紹。該書作者都是Weka項目組主要成員。圖靈獎獲得者Jim Gray如此評價:假如你需要對數(shù)據(jù)進行分析和應(yīng)用,本書以及相關(guān)的Weka工具包是一個絕佳的起步。

數(shù)據(jù)挖掘原理

原書名:Principles of Data Mining

作者:David J. Hand

很多學(xué)科都面臨著一個普遍問題,即如何存儲、訪問異常龐大的數(shù)據(jù)集,并用模型來描述和理解它們。這些問題使得人們對數(shù)據(jù)挖掘技術(shù)的興趣不斷增強。長期以來,很多相互獨立的不同學(xué)科分別致力于數(shù)據(jù)挖掘的各個方面。本書把信息科學(xué)、計算科學(xué)和統(tǒng)計學(xué)在數(shù)據(jù)挖掘方面的應(yīng)用融合在一起,是第一本真正跨學(xué)科的教材。主要從統(tǒng)計學(xué)的角度來解析數(shù)據(jù)挖掘以及其與統(tǒng)計的關(guān)系。其中如建模、測量、評分函數(shù)、模型等術(shù)語都是從統(tǒng)計者的角度出發(fā)。書中并沒有具體說明KDD與DM之間的關(guān)系,比較適于統(tǒng)計系和數(shù)學(xué)系的學(xué)生采用。

機器學(xué)習(xí)

原書名:Machine Learning

作者:Tom Mitchell

本書是CMU等許多國際知名大學(xué)機器學(xué)習(xí)課程的教材。目前發(fā)表的各種機器學(xué)習(xí)專著或論文基本都會引用這本書的內(nèi)容。作者Tom Mitchell是CMU的教授,美國人工智能協(xié)會的主席,《機器學(xué)習(xí)》雜志和“國際機器學(xué)習(xí)”年度會議的創(chuàng)始人,他在ML領(lǐng)域久負盛名。本書也是最經(jīng)典和采用率最高的機器學(xué)習(xí)教材。本書需要的數(shù)學(xué)基礎(chǔ)也很少,但對必要的背景介紹相當(dāng)豐富,非常適合初學(xué)者。

模式分類(原書第2版)

原書名:Pattern classification

主站蜘蛛池模板: 国产偷v国产偷∨精品视频 国产偷v国产偷v亚洲 | 91精品国产92 | 国产成人av在线 | 国产精品美女在线观看直播 | 国产色在线观看 | 日韩国产 | 黄色视屏在线免费观看 | 亚洲一级免费观看 | 精品成人 | 久久亚洲婷婷 | 国产日产久久欧美精品一区 | 免费黄色在线观看 | 在线 丝袜 欧美 日韩 制服 | 香蕉久久久久久 | 欧美午夜视频 | 亚洲欧美日韩另类精品一区二区三区 | 久久久久久久国产精品 | 午夜影院操 | 亚洲黄色免费在线看 | 日韩在线观看视频免费 | 爱爱视频天天操 | 欧日韩在线 | 亚洲爱爱视频 | 一区二区三区在线 | 欧 | 国产精品久久久久aaaa九色 | 日韩2020狼一二三 | 国产 日韩 欧美 在线 | 欧美一二区 | 狠狠躁夜夜躁人人爽视频 | 成人国产精品视频 | 精品国产乱码久久久久久1区2区 | 91高清视频在线观看 | 国产福利一区二区三区在线观看 | 伊人精品视频在线观看 | 亚洲日韩欧美一区二区在线 | 精品精品久久 | 国产黄色在线播放 | 国产在线2 | 亚洲九九九 | 国产在线中文字幕 | 久久久久美女 |