1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHỆ TP.HCM
KHOA MÔI TRƯỜNG & CÔNG NGHỆ SINH HỌC
BÀI GIẢNG:
ỨNG DỤNG TIN HỌC
TRONG CÔNG NGHỆ SINH HỌC
GVGD: BÙI VĂN THẾ VINH Tài liệu lưu hành nội bộ
TP.HCM, Tháng 01/2008
2
I. GIỚI THIỆU CHUNG VỀ STATGRAPHICS CENTURION (HOẶC
STATGRAPHICS PLUS)
Nhấp chọn “UPGRADE” để hoàn tất đăng ký bản quyền.
* Đối với Statgraphics Plus, chỉ cần chạy file “SGWIN.EXE”.
5
2. Thiết lập các thông số hệ thống ban đầu
Phần mềm Statgraphics Centurion có 2 hệ thống Menu có thể được sử dụng là
“Classic menu” với các heading lần lượt là File, Edit, Plot, Describe,
Compare,… và “Six sigma menu” với các heading lần lượt là File, Edit, Define,
Measure, Analyze,… Để chuyển đổi giữa 2 hệ thống Menu chọn Edit
Preferences xuất hiện hộp thoại:
Chọn tab “General”, trong box “System Options” click chọn hoặc bỏ chọn mục
“Use Six Sigma Menu”. Thông thường, để dễ sử dụng nên chọn hệ thống
“Classic menu” (tương tự như hệ thống menu được sử dụng trong Statgraphics
Plus).
3. Nhập dữ liệu và quản lý dữ liệu:
Dữ liệu phải được nhập vào “DataBook”, một “DataBook” chuNn gồm 10
“datasheet” được ký hiệu bằng các chữ cái từ A đến J. Trong mỗi “datasheet” có
các cột và hàng: mỗi hàng chứa thông tin về một mẫu, một trường hợp hay một
quan sát đơn lẻ còn mỗi cột đại diện cho một biến.
Có 2 cách để nhập dữ liệu vào “DataBook”:
- Cách 1: Nhập trực tiếp vào “DataBook”
- Cách 2: Nhập dữ liệu vào một phần mềm khác như Excel, sau đó copy hay
load vào phần mềm Statgraphics.
Trước khi nhập dữ liệu vào “DataBook”, cần phải định nghĩa biến trong mỗi cột
bằng cách click phải chuột vào cột muốn định nghĩa biến Chọn “Modify
column” xuất hiện hộp thoại:
6
Nhập tên biến vào mục “Name”, nhập phần chú thích vào mục “Comment” và
bảng sau:
Cen Plus Tên Chức năng Input dialog Hiển thị một hộp thoại nhập dữ liệu
để thay đổi cột dữ liệu Tables Hiển thị danh sách các bảng khác có
thể được tạo lập Graphs Hiển thị danh sách các dạng đồ thị
khác có thể được tạo lập Save results Cho phép các phân tích đã tính toán
được lưu vào các cột của datasheet
8
Analysis options Chọn những options khác nhau áp
dụng cho phép phân tích đang tiến
hành
Pane options Chọn những options khác nhau áp
dụng cho bảng biểu hay đồ thị đang
sử dụng
Graphics options Cho phép thay đổi tiêu đề, thang trục
và các đặc tính khác trên đồ thị đang
II. TIẾN HÀNH MỘT PHÉP PHÂN TÍCH THỐNG KÊ
Có hơn 150 phép phân tích thống kê trên Menu chính của chương trình
Statgraphics Centurion tuy nhiên các phép phân tích khác nhau đều có cùng một
cách tiến hành:
1. Khi một phép phân tích được lựa chọn từ menu chính, một hộp hội
thoại nhập dữ liệu (data input dialog box) được hiển thị, hộp thoại này
cho phép lựa chọn biến cần phân tích.
2. Dữ liệu sau đó được đọc và phân tích, một cửa sổ phân tích (analysis
window) mới được tạo ra với các bảng biểu và đồ thị kết quả mặc định.
3. Các kết quả xuất hiện lần đầu tiên được tính toán dựa trên những thông
số chuNn, các thông số mặc định này có thể được thay đổi bằng cách
chọn phím “Analysis Options” trên thanh công cụ analysis; các thông
số mới được thay đổi sẽ làm thay đổi kết quả trên các bảng biểu và đồ
thị.
4. Các bảng kết quả và đồ thị mới có thể được thêm vào hoặc bỏ bớt bằng
cách chọn phím “Tables” hay “Graphs” trên thanh công cụ phân tích.
5. Các bảng kết quả và đồ thị có thể được thay đổi bằng cách phóng đại
cửa sổ tương ứng và chọn “Pane options” trên thanh công cụ phân tích.
6. Đối với các đồ thị, có thể thay đổi phần tiêu đề, trục số, điểm số, font
chữ,… bằng cách phóng đại cửa sổ tương ứng và chọn “Graphics
options” trên thanh công cụ phân tích.
7. Các bảng kết quả và đồ thị có thể được in, chuyển thành file HTML
hay copy sang các chương trình ứng dụng khác như MS Word, Power
Point,…
8. Các kết quả dạng số có thể được lưu thành các cột kết quả trong một
data sheet bất kỳ bằng cách chọn “Save results” trên thanh công cụ
phân tích.
9. Toàn bộ phép phân tích có thể được lưu lại thành file StatFolio để tiện
sử dụng những lần sau.
Dữ liệu thân nhiệt trong ví dụ trên được lưu trong file bodytemp.sf3 trong
thư mục Data.
1. Chọn menu File Open Open Data Source
2. Trong hộp thoại “Data Source” chọn “STATGRAPHICS Data File”
3. Chọn file bodytemp.sf3 trong thư mục Data (C:\Program
Files\Statgraphics\STATGRAPHICS Centurion XV.I\Data)
4. Dữ liệu xuất hiện như bảng sau:
Thân nhiệt được trình bày trong cột bên trái với đơn vị đo là độ F.
Phép phân tích một biến được tiến hành bằng cách:
1. chọn Menu Describe Numeric Data One-Variable Analysis
2. Trong hộp thoại nhập dữ liệu, chọn cột dữ liệu cần phân tích
12
3. Kết quả phân tích sẽ được trình bày trong 4 cửa sổ:
Cửa sổ trên cùng bên trái cho biết dung lượng mẫu n=130 giá trị nằm trong
khoảng từ 96,3 đến 100,8 độ F. Cửa sổ trên cùng bên phải biểu diễn đồ thị phân
tán của số liệu với các điểm phân bố ngẫu nhiên theo hướng thẳng đứng. Các
điểm số liệu tập trung trong khoảng từ 98 đến 99 độ F và thưa dần ra 2 đầu. Hai
cửa sổ bên dưới biểu diễn các đặc trưng thống kê và đồ thị “box-and-whisker”.
1. Các đặc trưng thống kê:
Bảng kết quả được trình bày trong cửa sổ dưới cùng bên trái biểu diễn
nhiều kết quả thống kê của mẫu. Các kết quả thống kê khác có thể được thêm
13
vào bằng cách nhấp đúp chuột vào cửa sổ kết quả để phóng đại cửa sổ tương ứng
và chọn “Pane Options”
Một giả định thường gặp đối với dữ liệu ghi nhận được là mẫu có phân bố chuNn
percentile) = 97,8
- Trung vị (Median, 50
th
percentile) = 98,3
- Điểm tứ phân vị ¾ (75
th
percentile) = 98,7
- Giá trị cực đại (Maximum) = 100,8
Các giá trị này chia dãy số liệu thành 4 phần bằng nhau và là cơ sở để xây dựng
đồ thị “box-and-whisker”.
2. Đồ thị “box-and-whisker”
Đồ thị “box-and-whisker” được đề xuất bởi John Tukey và được xây dựng
bằng cách:
1. Dựng một khối hộp “box” kéo dài từ giá trị phân vị ¼ đến giá trị phân vị
¾. Vì vậy 50% số liệu sẽ nằm trong hộp này.
2. Kẻ một đường thẳng đứng ở vị trí trung vị mẫu, chia dãy số liệu thành 2
phần bằng nhau. Nếu mẫu có phân bố đối xứng thì đường thẳng này nằm
gần với trung tâm của khối hộp.
3. Đánh một dấu + vào vị trí trung bình mẫu. Một sự khác biệt đáng kể giữa
2 giá trị trung bình và trung vị cho thấy có sự hiện diện của một hay vài số
liệu có khả năng gây ra sai số (các số liệu này không có chung luật phân
phối so với các số liệu còn lại) làm cho phân bố của mẫu bị lệch.
15
4. Hai đầu đoạn thẳng được gọi là “whisker” nối từ giá trị cực tiểu đến điểm
phân vị ¼ và từ điểm phân vị ¾ đến giá trị cực đại trừ phi có một số giá trị
nằm quá xa so với khối hộp được xác định là “những điểm gây ra sai số”
(outside points), trong trường hợp đó, whisker được kéo dài đến những
điểm giá trị xa nhất không được xác định là điểm gây ra sai số.
các số liệu còn lại hay không (thường là phân bố chuNn) bằng cách chọn Menu
Describe Numeric Data Outlier Identification.
Trong ví dụ về kết quả đo thân nhiệt ở trên, sau khi tiến hành xác định
điểm outlier, bảng kết quả được trình bày trong phần dưới của cửa sổ bên trái
biểu diễn 5 giá trị nhỏ nhất và 5 giá trị lớn nhất của dữ liệu:
Giá trị “bất thường” nằm ở hàng 15 và được tô màu đỏ. Giá trị “Studentized
Value Without Deletion” là 3,479 được tính bằng công thức (X
i
– X)/S khi dùng
cả giá trị outlier để tính giá trị trung bình và độ lệch chuNn. Nếu giá trị
“Studentized Value Without Deletion” lớn hơn 3 thì số liệu này là nguyên nhân
gây ra sai số trừ khi mẫu có kích thước n vô cùng lớn hay mẫu không có phân bố
chuNn.
Phương pháp thường được sử dụng để xác định điểm outlier là phương pháp
Grubbs’ test. STATGRAPHICS sẽ tiến hành kiểm tra theo phương pháp này và
biểu diễn kết quả “P-value”. Nếu giá trị P-value < 0,05 thì điểm outlier thật sự
gây ra sai số. Trong ví dụ này, Giá trị P-value = 0,0484 (<0,05) Số liệu ở
hàng 15 là số liệu gây ra sai số. Có thể loại bỏ giá trị ở hàng 15 bằng cách lựa
chọn lại dữ liệu nhập
17
Vì số liệu ở hàng 15 là số liệu duy nhất lớn hơn 100 độ F nên phần dữ liệu phân
tích sẽ chỉ còn n = 129 giá trị. Kết quả xác định điểm outlier như sau:
Vì giá trị P-value = 0,676 lớn hơn rất nhiều so với 0,05 nên các số liệu còn lại
(129 số liệu) có chung một dạng phân bố.
Từ kết quả kiểm tra này, có thể quay trở lại từ nghiên cứu ban đầu để xác định
xem nguyên nhân nào có thể gây ra giá trị “bất thường” ở hàng 15 và có thể làm
lại thí nghiệm để ghi nhận lại kết quả ở hàng 15.
20
5. Ước lượng khoảng:
Sau khi đã loại bỏ số liệu có khả năng gây ra sai số ra khỏi mẫu, có thể
tiến hành ước lượng các thông số đặc trưng phân bố. Click chọn mục
“Confidence Intervals” từ hộp thoại “Tables”
Kết quả ước lượng trung bình và ước lượng độ lệch chuNn
Kết quả trên cho thấy từ dữ liệu thân nhiệt của 129 người có thể suy ra thân nhiệt
trung bình nằm trong khoảng [98,11-98,35] độ F. Kết luận đó có độ chính xác là
95% (mức ý nghĩa α=0,05). Có thể thay đổi mức ý nghĩa cho phép ước lượng
bằng cách chọn “Pane Options” và thay đổi thông số trong mục “Confidence
Level”
21
IV. SO SÁNH 2 MẪU
Trong ví dụ trước, thân nhiệt được đo từ 130 người, trong đó có 65 nam và 65 nữ.
Trong phần này, thân nhiệt của nam và nữ sẽ được so sánh xem có sự khác biệt
đáng kể giữa 2 mẫu hay không.
1. So sánh trung bình 2 mẫu:
Vào Menu Compare Two Samples Two-Sample Comparison
Hộp thoại nhập dữ liệu xuất hiện như sau:
: σ
1
≠ σ
2
23
Kết quả quan trọng nhất được tô đỏ. Giá trị P-value là một tiêu chuNn của F-test
để kiểm định giả thiết H
0
ở trên. Nếu P-value < 0,05 thì cho thấy có sự khác biệt
đáng kể giữa 2 phương sai ở mức ý nghĩa 5%. Trong ví dụ trên, giá trị P-value =
0,868 (>0,05) Không bác bỏ giả thiết H
0
(“Do not reject the null hypothesis
for alpha = 0.05”) hay có thể kết luận phương sai của hai mẫu không có sự khác
biệt về mặt thống kê.
3. So sánh 2 giá trị trung bình:
- Giả thiết H
0
: µ
1
= µ
2
- Đối thiết H
1
: µ
1
- Cách 2: Tất cả các kết quả được nhập trên cùng một cột, tạo một cột thứ
hai để nhập vào các mã (codes) để xác định xem các số liệu ở cột thứ nhất
thuộc mẫu nào (Tương tự như ví dụ về thân nhiệt ở trên, có 1 cột để nhập
thân nhiệt cho 130 người và 1 cột thứ hai để nhập các mã xác định là
“Male” hay “Female”).
Trong ví dụ này, dữ liệu được nhập vào theo cách thứ nhất ở trên.
1. Tiến trình so sánh nhiều mẫu:
Chọn Menu Compare Multiple Sample Multiple-Sample Comparison
Hộp thoại đầu tiên xuất hiện để xác định kiểu nhập dữ liệu ban đầu :
- Chọn “Multiple Data Columns” nếu nhập theo cách 1 ở trên
- Chọn “Data and Code Columns” nếu nhập theo cách 2 ở trên