9299.net
大學生考試網 讓學習變簡單
當前位置:首頁 >> >>

一是基因芯片-東南大學生物電子學國家重點試驗室_圖文

一是基因芯片-東南大學生物電子學國家重點試驗室_圖文

第九章 數據挖掘與基因表達調控信息分析(2)
主講人:孫 嘯

制作人 :劉志華

東南大學

吳健雄實驗室

第四節 基因表達數據的聚類分析
基因表達數據主要來自于兩個方面:
一是基因芯片,這是最主要的表達數據來 源,利用基因芯片技術可以大規模并行獲 取基因轉錄結果mRNA的數據。 表達系列分析SAGE和差異顯示、蛋白質芯 片等是快速檢測蛋白質及其含量的另一類 技術。

聚類分析是模式識別中一種非常有吸 引力的方法,特別適用于模式分類數 不知道的情況。

從機器學習的角度來看,有兩種基本 的聚類分析:
有教師聚類 無教師聚類

基因表達數據聚類分析一般包括以下 幾個步驟:
(1)確定基因表達的數據 (2)計算相似性矩陣,各個矩陣元素代 表兩個基因的表達是否相似 (3)選擇算法進行聚類分析 (4)顯示分析結果。

對數據進行聚類分析之前,必須將包含在基 因表達矩陣中的數據進行相似程度分析,并 且對分析結果進行量化。 通常情況下,相似往往被賦于一個較大的量 化的值,而不相似則由一個較小的量化的值 來表示。 在實際計算中,往往以距離代替相似的概念, 相似性度量被轉化為兩個基因表達模式之間 的距離。距離越小,表達模式越相近,反之, 則表達模式差異大。

幾種常用的聚類方法
1.簡單聚類 2.層次式聚類 3.K平均聚類 4.自組織映射神經網絡 5. 模糊聚類分析方法 6、聚類分析結果的樹圖表示

1、簡單聚類
假設有n個基因

表達數據向量分別為X1, X2,…, XN
? 令任意一個基因的表達向量為第一個聚類的中心 ? 依次處理其它基因 ? 在處理第i個基因時,首先計算該基因的表達 數據向量與現有各類中心的距離 ? 假設與第j類的距離Dij最小,并且Dij<T,則 將基因i分配到第j類;否則生成一個新類,該 類的中心為第i個基因的表達向量。

2、層次式聚類

3、K平均聚類
任意選取K個基因表達向量作為初始聚類中心 Z1, Z2,…, Zk ? 反復迭代計算 ? 如果||X-Zj(l)||< ||X-Zi(l)||(i=1,2,…,K,i?j),則將X所 代表的基因歸于第j類。按照上述辦法處理所有的基 因; ? 經過上述處理,聚類可能發生變化,因此需要重新 計算K個新聚類中心:
?

1 Z j (l ? 1) ? Nj
?

X ? f j (l )

?X

對于所有的聚類中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K), 則迭代結束,得到最后的聚類結果;否則繼續進行 迭代計算。

4、自組織映射神經網絡

圖9.12 SOM聚類結果示意

5、模糊聚類分析方法
主要過程: (1)建立模糊相似矩陣 (2)生成模糊等價矩陣 (3)構建動態聚類圖

6、聚類結果顯示

圖9.15 基因表達模式聚類結果圖示

分類分析方法
有監督學習
疾病診斷、細胞類型識別

樣本分類:(例)

?急性淋巴細胞白血病(ALL)
?急性髓性白血病(AML)

例:兩類劃分

問題: 基因的選擇?

分類的方法?
? 貝葉斯分類法

? 支持向量機(SVM)
? k最近鄰法 ? 神經網絡方法 ? 決策樹方法 ? 投票分類法(多分類器)

7、主成分分析PCA

圖9.13 主元素對應特征值圖示

分析基因表達數據 發現與疾病直接相關的基因

發現這些基因的活動規律

第五節 基因調控網絡分析
一個基因網絡由一組生物分子(如基因、蛋 白質)以及它們之間的相互作用構成,這些 生物分子共同完成一些特定的細胞功能任務。 在實際分析過程中,往往以圖這種數據結構 表示基因網絡,圖中的節點代表基因或者蛋 白質,而節點之間的連線代表基因、蛋白質 之間的相互作用。基因網絡描述了特定細胞 或組織中的功能路徑,如代謝、基因調控, 信號傳導等。

谷氨酸鹽 底物 表達 ProB ?谷氨酰激酶 催化 反應 產生 谷氨酰磷酸脂

ATP 底物

產生 ADP

圖9.16 基因表達在化學催化中的作用

谷氨酸鹽

ATP

表達 抑制 ProB ?谷氨酰激酶

催化 反應 產生 谷氨酰磷酸脂 ADP NADPH;H+

表達 ProA ?谷氨酰磷酸脂還原酶

催化 反應 產生 谷氨酰?半醛 自然產生 1-吡咯啉-羧基 H2O NACPH NADP

表達 ProC
1-吡咯啉-5-羧基還原酶

催化 反應 產生 抑制 脯氨酸 NADP

圖9.17 代謝路徑示例:脯氨酸的生物合成

基因表達實際上是細胞、組織、器官 受遺傳和環境影響的結果。 一個基因的轉錄和表達由細胞的生化 狀態所決定,在一個基因的轉錄過程 中,一組轉錄因子作用于該基因的啟 動子區域,控制該基因轉錄,而這些 轉錄因子本身又是其它基因的產物。 當一個基因通過轉錄、翻譯形成功能 基因產物后,它將改變細胞的生化狀 態,從而直接或間接地影響其它基因 的表達,甚至影響自身的表達。多個 基因的表達不斷變化,使得細胞的生 化狀態不斷地變化。

一個基因的表達受其它基因的影響, 而這個基因又會影響其它基因的表達, 這種相互影響、相互制約關系構成了 復雜的基因表達調控網絡。 基因表達數據之中隱含基因之間的相 互作用關系,因而可以通過分析基因 表達數據,構建基因調控網絡。

幾種基因調控網絡模型
1、布爾網絡模型

前一個狀態 ? 后一個狀態 ?

A

B

C

A

B

C

系統運行軌跡

作用規則

循環

A

B

C

(1) A激活B
(2) B激活A和C

(3) C抑制A

1 2 3 4 5 6

1 1 0 0 0 0

1 1 1 0 0 0

0 1 1 1 0 0

2、線性組合模型
線性組合模型是一種連續網絡模型,在這種 模型中,一個基因的表達值是若干個其它基 因表達值的加權和。基本表示形式為:

X i (t ? ?t ) ? ? wij X j (t )
j

3、加權矩陣模型
加權矩陣模型與線性組合模型相似,在該模 型中,一個基因的表達值是其它基因表達值 的函數。

ri (t ) ? ?Wiju j (t )
j

4、互信息關聯網絡
可以用距離或相關系數作為基因表達模式之 間的相似性度量,還可以用另外一種度量形 式,即用熵和互信息描述基因與基因的關聯。 一個基因表達模式的熵是該模式所含信息量 的度量。設X是一個基因表達模式,用下式 計算熵:
H ( X ) ? ?? P( xi ) log2 ( P( xi ))
i ?1 n

5、基因調控網絡實例
真核生物生理過程的調控網絡GeneNet GeneNet展示了協調方式下基因的整體功能, 良好的調控功能和對外界刺激的反應。該基 因網具有以下基本功能:
(a) 描述執行特定生物功能時所涉及到的整體基 因交互作用 (b) 描述基因的蛋白質編碼 (c) 描述基因對外界刺激的傳感途徑 (d) 通過一組反饋自動地穩定網絡參數或者使網 絡轉換到新的功能狀態 (e) 利用外部信號、激素和代謝產物作為生理學 參數激發基因網糾正其作用

該基因網描述了四類實體:
(a) 細胞(組織,器官) (b) 蛋白質 (c) 基因 (d) 物質

該基因網還描述了實體間兩種關系:
(a) 反應(reaction), 即通過交互作用產 生新的實體或過程 (b) 調控(regulatory)事件, 特定反應對 實體的作用。

GeneNet網絡


網站首頁 | 網站地圖 | 學霸百科 | 新詞新語
All rights reserved Powered by 大學生考試網 9299.net
文檔資料庫內容來自網絡,如有侵犯請聯系客服。[email protected]
山东十一选五五码开 股票入门基础知识 内蒙古快三官网 最新赛车网游 急速赛车单机 快中彩中奖方式 安徽11选五基本走势 飞艇和赛车都是骗局 吉林11选5高手指点 亿鑫配资 楚天风采30选5走势图 平安银行股票 澳门2020年三合开奖结果 体彩陕西十一选五开 pc蛋蛋28 股票涨跌的 精准一头一尾中特平台大全