LỜI MỞ ĐẦU
Ngày 28/11/1982, trên vùng đất Phong Châu lịch sử, Nhà máy Giấy Bãi
Bằng – công trình của tình hữu nghị, hợp tác Việt Nam – Thụy Điển chính thức
khánh thành và đi vào sản xuất, mở ra một bức tranh mới trong lịch sử ngành
công nghiệp giấy Việt Nam.
Trong hơn 25 năm qua, công ty Giấy Bãi Bằng đã trải qua một chặn
đường nhiều gian nan, thử thách, nhưng cũng đầy kiêu hãnh, tự hào để trở thành
con chim đầu đàn của Tổng công ty Giấy Việt Nam.
Giấy Bãi Bằng đã trở thành một thương hiệu nổi tiếng, đạt giải Sao vàng
Đất Việt, hàng Việt Nam chất lượng cao. Áp dụng hệ thống quản lý chất lượng
theo tiêu chuẩn ISO 9001:2000, sản phẩm Giấy Bãi Bằng càng ngày được nâng
cao chất lượng, mẫu mã đa dạng, đáp ứng nhu cầu sử dụng trong nước cũng như
xuất khẩu.
Giấy Bãi Bằng đã có nhiều đóng góp cho nền kinh tế đất nước và phát
triển kinh tế địa phương. Thông qua đóng góp ngân sách, giảm nhập khẩu hàng
hoá, kích thích sản xuất nguyên liệu, góp phần xóa đói giảm nghèo cho nông
dân các tỉnh trung du, miền núi phía bắc; hình thành một số ngành công nghiệp,
tiểu thủ công nghiệp liên quan đến sản xuất và gia công chế biến các sẩn phẩm
từ giấy, nhà máy đã tham gia giải quyết việc làm cho hàng vạn lao động xã hội
Bài luận văn này là một thử nghiệm nghiên cứu định lượng về tình hình sản
xuất kinh doanh của công ty Giấy Bãi Bằng nay là Tổng công ty Giấy Việt Nam.
Số liệu được lấy từ nhà máy Giấy của Tổng công ty. Số liệu trên được tổ chức
thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng
công ty trong ba năm 2006, 2007 và 2008. Bằng các phương pháp thống kê thích
hợp, luận văn này sẽ phác thảo một phần thực trạng sản xuất tại Tổng công ty
trong ba năm trên.
Sau lời mở đầu, luận văn này sẽ có 3 chương và danh mục tài liệu tham
khảo. Chương 1 sẽ trình bày về mục đích nghiên cứu của luận văn. Chương 2
dành để giới thiệu cơ sở lý thuyết của các phương pháp phân tích thống kê được
sử dụng trong quá trình phân tích số liệu. Chương 3 đưa ra các kết quả phân tích
trong hoạt động sản xuất của Tổng công ty, tìm ra những điểm bất hợp lý trong
Quá trình sản xuất bao gồm hai công đoạn chính là công đoạn sản xuất bột giấy
và công đoạn sản xuất giấy. Trước tiên ta sẽ đề cập đến công đoạn sản xuất bột
giấy với chức năng gia công các loại nguyên liệu thô (gỗ, tre nứa, v.v.) thành bột
giấy, làm nguyên liệu đầu vào cho công đoạn sản xuất giấy tiếp sau đó.
1. Quy trình sản xuất bột giấy
Quy trình sản xuất bột giấy được tóm tắt thành sơ đồ khối trong Hình 1.1.
Hình 1.1 Sơ đồ khối của quá trình sản xuất bột giấy
3
Nồi nấu
Bể hòa
loãng dịch
đen
Tháp
phóng
Bể chứa
dịch trắng
lọc dịch
trắng
Rửa bùn
vôi
Rửa bột
Chưng bốc
dịch đen
Bể chứa
dịch đen
đặc
Lọc bùn
vôi
Lò vôi
Bể xút hóa
Bột được nấu chín được chuyển sang tháp phóng bột, từ tháp phóng bột bột
được chuyển sang khu vực rửa bột. Bột sau khi được rửa sẽ chuyển sang khu
vực sản xuất giấy.
Hình 1.2 Sơ đồ công nghệ hệ thống chuẩn bị bột
Toàn bộ nước rửa bột (dịch đen) sẽ được thu hồi vào bể dịch đen loãng. Dịch
đen sẽ được chuyển đến các tháp chưng bốc để cô đặc đến nồng độ thích hợp.
Sau khi được cô đặc dịch đen được chuyển đến bể chứa dịch, rồi được chuyển
đến nồi hơi thu hồi. Ở nồi hơi thu hồi, dịch đen được đun để tạo thành dịch nóng
chảy và tạo ra hơi. Hơi sẽ được chuyển sang khu vực sản xuất giấy để sử dụng
tiếp.
Bể chứa bột hỗn
hợp tẩy trắng MC
Bể chứa bột Cô đặc
Nghiền đĩa
DD
Bể chứa bột
Máy làm
sạch HD
Bể chứa bột
đã nghiền
Bể
phối trộn
Đánh tơi, nghiền
(kiểu vít ép)
Phụ gia
Bể bột
giấy rách
thu hồi
hệ thống tiếp cận
4
MÁY XEO
5
Công nghệ giấy ở đây là một vòng tuần hoàn khép kín, lượng thải ra môi trường
không đáng kể, lợi nhuận của nhà máy giấy là lớn nếu ta làm tốt các công đoạn
thu hồi dịch.
2. Quy trình sản xuất giấy
Quá trình sản xuất giấy, sử dụng bột giấy có được từ công đoạn trên đây (hoặc
được mua từ các nguồn khác) để sản xuất thành các loại giấy thành phẩm, được
tiến hành thông qua các giai đoạn chuẩn bị bột giấy và giai đoạn xử lý bằng hệ
thống tiếp cận và máy xeo. Các giai đoạn này được tóm tắt thành sơ đồ khối
trong các Hình 1.2 và 1.3.
Trong giai đoạn đầu, bột giấy được chuyển sang hệ thống chuẩn bị bột để được
nghiền. Bột giấy sau khi được nghiền sẽ có các thông số về đặc tính thích hợp
với loại bột định sản xuất như độ thoát nước, kích thước sơ sợi, ... Lúc đó, bột
giấy sẽ được chuyển sang hệ thống tiếp cận và máy xeo.
Tại hệ thống tiếp cận, bột giấy sẽ được làm sạch nhiều cấp. Sau khi làm sạch,
bột chuyển sang bộ phận sàng để sàng lấy những bột hợp cách, tiếp theo bột hợp
cách được chuyển sang máy xeo để làm thành giấy thành phẩm và giấy thành
phẩm được chuyển sang khu vực hoàn thành để gia công thành các sản phẩm
bán ra thị trường.
3. Mục đích nghiên cứu
Mục tiêu nghiên cứu của bản luận văn này là xác định trong các nguyên vật liệu
đưa vào sản xuất bột giấy hoặc sản xuất giấy những nguyên vật liệu nào có tác
động ảnh hưởng chính đến quá trình sản xuất, từ đó có ảnh hưởng đến doanh thu
trong hoạt động sản xuất kinh doanh của Tổng công ty. Qua việc phân tích xử lý
số liệu, xem xét trong quá trình sản xuất của Tổng công ty có yếu tố nào là bất
hợp lý trong việc phối hợp dùng các nguyên vật liệu để đưa ra các kiến nghị sử
dụng định mức tiết kiệm nguyên vật liệu, giúp Tổng công ty xây dựng các
phương án điều hành hợp lý, có thể hạ giá thành sản xuất, hạ giá thành sản phẩm
và làm cho hoạt động kinh doanh của Tổng công ty có hiệu quả hơn.
chaf3tb Số chăn F3 trung bình
dientb Khối lượng điện trung bình
hoitb Khối lượng hơi trung bình
nuoctb Khối lượng nước trung bình
Trong các năm Tổng công ty đều có thời gian ngừng sản xuất để sửa chữa bảo
dưỡng máy móc nên số liệu thu được cụ thể là ở năm 2006 là 42 tuần tương ứng
với 42 lô bột giấy và 42 lô giấy. Năm 2007 Tổng công ty sản xuất trong 47 tuần
ứng với 47 lô bột giấy và 47 lô giấy. Đối với năm 2008 số lô bột giấy và số lô
giấy đã sản xuất được đều là 48 lô. Khối lượng sản phẩm của từng lô bột giấy
7
hay từng lô giấy cũng không giống nhau. Sau khi thu thập số liệu, để tiến hành
nghiên cứu phân tích số liệu đã có, chúng ta lấy số nguyên liệu đưa vào trong
sản xuất từng lô bột giấy hay lô giấy chia cho sản lượng từng tuần để được số
nguyên vật liệu trung bình để sản xuất 1 tấn bột giấy hoặc 1 tấn giấy tương ứng.
Các biến được sử dụng trong phân tích quá trình sản xuất 1 tấn bột giấy hoặc 1
tấn giấy được cho trong Bảng 1.1.
5. Phương pháp phân tích
Trước hết, chúng ta sử dụng phương pháp nghiên cứu thành phần chính để xem
trong tổ hợp các nguyên liệu đưa vào sản xuất bột giấy và giấy, tìm ra những
yếu tố nào là yếu tố chi phối chủ đạo trong quá trình sản xuất.
Tiếp theo, chúng ta sẽ tách riêng hai loại bột giấy và giấy có thông số kỹ thuật
khác nhau là bột trắng cao, bột trắng thấp, giấy trắng cao, giấy trắng thấp và tách
riêng từng năm, dùng phép kiểm định t – Student để so sánh giá trị trung bình
của các nguyên liệu đầu vào xem có gì khác nhau hay không, từ đó tìm ra các
yếu tố chưa hợp lý trong quá trình sản xuất của Tổng công ty.
Từ việc tìm ra những yếu tố chưa hợp lý trong quá trình sản xuất nói trên, chúng
ta sẽ đưa ra kiến nghị về tiêu chuẩn sử dụng các nguyên vật liệu để vừa đảm bảo
chất lượng cho quá trình sản xuất vừa tiết kiệm được nguyên vật liệu từ đó có
thể giúp Tổng công ty hạ giá thành sản xuất, hạ giá thành sản phẩm giúp hoạt
động kinh doanh của Tổng công ty có hiệu quả hơn.
khác biệt của mỗi doanh nghiệp so với doanh nghiệp khác.
9
Để làm được các phân tích trên người ta có thể có thể dùng các phương pháp
phân tích tương quan nhiều chiều, tuy nhiên điều đó hầu như không giải quyết
được bằng các công cụ thông thường. Việc giải quyết bài toán trên dựa trên tư
tưởng cơ bản sau đây:
Mỗi cá thể coi như một phần tử của tổng thể (P) với số phần tử (M) hữu hạn hay
vô hạn, mỗi chỉ tiêu coi như một biến, một số đo hay một đặc trưng của cá thể.
Mỗi cá thể được xác định bởi một véc tơ p chiều mà mỗi thành phần của véc tơ
đó là giá trị của một biến.
Trong nghiên cứu tổng thể với các biến như trên, nhiều khi người ta cần tìm
cách tổ hợp của các biến, tức là tổ hợp p véc tơ M chiều, lại thành các véc tơ đôi
một trực giao. Mỗi véc tơ này coi là một thành phần hay một biến mới, đo lường
các cá thể trên một mặt nào đó. Với số tổ hợp xác định trước, chúng ta thu được
một hệ thống chỉ báo (nói chung không có thực). Trong hệ thống này, mỗi chỉ
tiêu ban đầu, cũng là mỗi biến ban đầu, có phần đóng góp của mình tạo nên các
chỉ báo đó.
Chẳng hạn với p tiêu thức (biến) ban đầu ta lập
Y
k
= u
k1
X
1
+ u
k2
X
2
+ ..... + u
kp
Belarus 10300 50.0 65
Belgium 10100 329.0 96
Bolivia 7900 6.9 51
Giả sử có hai tiêu chuẩn nhân khẩu học được áp dụng để phân tích các tiêu thức
cũng như các quốc gia này. Các trọng số để xây dựng hai tiêu chuẩn đó được ấn
định như trong Bảng 1.b.
Bảng 1.b. Trọng số xác định các tiêu thức nhân khẩu học mới
P F U
Quan điểm 1 -0,15 0,05 0,25
Quan điểm 2 -0,2 -0,1 0,40
Các trọng số này không xuất phát từ chính số liệu mà xuất phát từ quan niệm
chủ quan (sau này ta sẽ mô tả cách xác định chúng một cách khách quan theo
những chuẩn mực nhất định)
Mỗi quốc gia được mô tả bởi 1 véc tơ 2 chiều S = [S(1), S(2)] với
S(1) = - 0,15P + 0,05F + 0,25U
S(2) = - 0,20P - 0,10F + 0,40U
Trong không gian hai chiều (S1, S2) ta có thể mô tả các biến. Mỗi biến tương
ứng là 1 véc tơ n chiều: P, F, U. Để đánh giá mối quan hệ giữa các tiêu chuẩn
mới lập với các tiêu thức ban đầu, người ta tính các hệ số tương quan (rPS1,
rPS2); (rFS1, rFS2) ; (rUS1, rUS2). Mỗi cặp hệ số này xác định 1 điểm trong
siêu phẳng tạo bởi S1 và S2. Với thí dụ này ta có vị trí của các biến P, F, U như
trong Hình 1.a.
11
Bảng 1.c. Số liệu nhân khẩu học theo các tiêu thức ban đầu và tiêu thức mới
P E U S1 S2
Afghanistan 20500 25.0 18 -3069.25 -4095.3
Argentina 33900 12.0 86 -5062.9 -6746.8
Armenia 3700 126.0 68 -531.7 -725.4
Australia 17800 2.3 85 -2646.64 -3526.23
Austria 8000 94.0 58 -1180.8 -1586.2
f
p
Hình 1.a. Các biến ban đầu trong mặt phẳng xác định bởi hai tiêu thức mới
12
1.0
0.0
5
-5
-1.0
u
f
-1.0
-5
0.0
5
1.0
p
Component 2
Component 2
Hình 1.b. Các biến ban đầu trong mặt phẳng của hai tiêu thức mới do SPSS tạo ra
Kỹ thuật phân tích thành phần chính là một bộ phận của phân tích nhân tố. Phân
tích nhân tố nói chung và phân tích thành phần chính nói riêng, được sử dụng
cho phân tích những số liệu lớn. Về mặt công cụ, đối với kỹ thuật này người ta
cần sử dụng các phép biến đổi trong không gian tuyến tính. Đặc biệt, các kỹ
thuật liên quan đến véc tơ riêng và giá trị riêng của ma trận đối xứng xác định
dương sẽ là công cụ yếu tố không thể thiếu trong việc xác định các thành phần
chính, các nhân tố chính cũng như các thành phần khác trong phương pháp này.
Cũng chính vì lý do này, người ta chỉ có thể thực hiện các mô hình phân tích
nhân tố cho các bộ số liệu cỡ lớn khi có sự hỗ trợ của các phần mềm thống kê
chuyên dụng.
) + d
2
(y
1
,
y
2
). Nói một cách khác, khi chỉ dùng một yếu tố là x hoặc y để xem xét sự khác
biệt giữa hai đối tượng A1 và A2 thì một phần thông tin đã bị mất đi. Nếu không
muốn mất thông tin thì tốt nhất là chọn một đường thẳng song song với đường
thẳng đi qua A1, A2. Khi chiếu vuông góc hai điểm này lên đường thẳng như
vậy khoảng cách ảnh bằng khoảng cách ban đầu.
z1
y1
A1
A2
y1
y2
A1
A2
y
x1
x2
x
y
x
x2
w2
x1
w1
)+d
2
(w
1
,w
2
) - 2 d
2
(u
1
,u
2
)(w
1
,w
2
)cosin(xOy)
Như vậy nếu muốn phản ánh sát nhất liên hệ của hai cá thể A
1
và A
2
, cần phải
chọn một trục sao cho khoảng cách của các hình chiếu xấp xỉ tốt nhất khoảng
cách ban đầu. Với n > 2 cá thể, ý tưởng trên dẫn đến yêu cầu bảo toàn tối đa sự
khác biệt của các cá thể khi xét trên cả p tiêu thức.
Để có thể tưởng tượng rõ ràng hơn cách tiếp cận này chúng ta xét trường hợp
các cá thể trong không gian ba chiều R
3
. Giả sử mỗi cá thể được đặc trưng bởi 3
tiêu thức X
Hình 2.b. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng
Khoảng cách của ảnh A
i
, A
j
sau phép chiếu là khoảng cách d
2
(f
i
, f
j
). Khoảng
cách này có thể xác định như sau:
d
2
(f
i
, f
j
) = d
2
(c
1i
,c
1j
) + d
2
(c
2i
, c
giảm dần của tổng bình phương các khoảng cách của các hình chiếu. Việc lựa
chọn số chiều không gian chiếu phụ thuộc vào nhiều yếu tố khác nhau, như mức
phân tán trong các mối quan hệ của p tiêu thức ban đầu, yêu cầu về bảo toàn
thông tin, ...
Tuy vậy, với ý muốn quan sát được số liệu một cách trực quan, người ta có thể
cố gắng bảo toàn thông tin ở mức chấp nhận được với số chiều không gian nhỏ
15
nhất. Người ta luôn hướng tới tới không gian 2 chiều hay 3 chiều, vì trong các
không gian này việc mô tả hình học khá thuận tiện đối với người sử dụng.
Trong phân tích nhân tố người ta sử dụng các khái niệm sau:
+ Mỗi véc tơ
∆
i
gọi là một trục chính của đám mây số liệu ban đầu.
+ Mỗi điểm A
i
chiếu lên p trục chính sẽ có p giá trị tương ứng, các giá trị này lập
nên véc tơ C
i
trong không gian p chiều.
+ Với n cá thể (n điểm) A
i
, A
j
, .....A
n
, ta có ma trận C = (c
ij
). Mỗi cột của ma trận
này là một véc tơ trong R
Ngoài phương pháp phân tích thành phần chính, một sô phương pháp khác như
phân tích tương ứng, phân tích tương quan chính tắc, phân nhóm, ... cũng được
xây dựng trên ý tương cơ bản đã trình bày trên đây.
4. Biểu diễn số liệu
Trước tiên ta đề cập tới việc biểu diễn số liệu trong các phân tích thống kê nhiều
chiều nói chung và trong phân tích nhân tố nói riêng. Thông thường việc biểu
16
diễn các số liệu nhiều chiều được trình bầy dưới ngôn ngữ véc tơ và ma trận
trong các không gian tuyến tính thực.
a. Số liệu và các đặc trưng
i - Bảng số liệu
Giả sử có n quan sát (n cá thể lập nên 1 mẫu), mỗi quan sát có p tiêu thức (biến).
Số liệu đó có thể trình bầy trong bảng sau:
11 1
1
p
n np
x x
X
x x
÷
=
÷
÷
K
M O M
L
Gọi X*
D
p
÷
=
÷
÷
O
17
Các trọng số này thông thường là các tần suất dòng trong bảng số liệu thô. Mỗi
dòng chỉ mang thông tin của một cá thể thì có thể viết D = E trong đó E là ma
trận đơn vị cấp n.
iii - Điểm trung bình (trung tâm) của đám mây số liệu và ma trận quy tâm
Mỗi dòng của X có thể xem là một điểm trong không gian R
p
, n điểm tạo nên
một tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hay điểm
trung tâm của đám mây này là g thì g có thể tính như sau:
g = X
T
DI,
trong đó I là véc tơ có tất cả các thành phần bằng 1 trong không gian R
n
. Dễ
dàng kiểm tra thấy g là một véc tơ p chiều. Chẳng hạn cho ma trận X ở Bảng 2.a
với các biến
X1 = tuổi thọ trung bình
X2 = tỷ lệ tăng dân số
X3 = tỷ lệ chết trẻ em
T
là một ma trận có n dòng (n = 10) như sau:
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
Ma trận này mô tả thô sự khác biệt hay sự phân tán của các cá thể so với mức
trung bình.
iv – Ma trận hiệp phương sai và ma trận hệ số tương quan
19
Rõ ràng ma trận Y trên đây chưa cung cấp một đặc trưng rõ ràng về sự khác biệt
giữa các đối tượng. Một cách thông thường nếu Y chỉ có hai dòng thi khoảng
cách của hai véc tơ này (được định nghĩa theo một cách nào đó) sẽ cho một độ
đo về sự khác biệt. Trong trường hợp tổng quát hoàn toàn có thể làm tương tự
như vậy, chỉ có khác là chúng ta không thể dùng một số thực để đo sự khác biệt
giữa nhiều cá thể mà phải dùng một ma trận. Dễ dàng thấy việc đo sự khác biệt
giữa các dòng của ma trận Y hoàn toàn tương đương với việc tìm cách đo sự
khác biệt của các dòng của X. Sau đây trở lại với chính ma trận X và thấy rõ hơn
vai trò của Y.
Đặc trưng quan trọng nói lên mức phân tán của mỗi biến và độ liên hệ giữa
∑
.
Với ví dụ trong Bảng 2a ta có ma trận hiệp sai V là
V=
13289 7672 561.821 44687.44
7.672 0.8056 31.9138 2817.43
561.821 31.9138 2421.443 191741
44687.44 2817.43 191741 35289619
− −
− −
− −
− −
Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trân này dễ dàng tìm được các
phương sai của các biến (các cột của X). Có thể chứng tỏ rằng:
20
V = X
T
D X- gg
T
= Y
T
D X,
+ Ma trận hệ số tương quan
Gọi ma trận D
Như đã biết Cov(X
i
,X
i
) = Var(X
i
) nên từ ma trận này dễ dàng tìm được các
phương sai của các biến (các cột của X). Có thể chứng tỏ rằng:
V = X
T
D X- gg
T
= Y
T
D X,
Chuẩn hóa ma trận X ta có ma trận Z = (z
ij
), trong đó
ij
ij
j
y
0.48142 0.018786
1.20327 0.50784 0.05696
−
−
− −
−
−
−
− −
Ma trận hệ số tương quan tuyến tính của các biến (R) được tính như sau:
R = D
1/s
VD
1/s
= Z
a- Khoảng cách
Khoảng cách trong không gian tuyến tính thông thường được sử dụng là khoảng
cách Ơcolit. Thông thường người ta định nghĩa khoảng cách giữa 2 điểm X1 và
X2 theo công thức Pithagorre như sau:
d
2
= (x
11
– x
21
)
2
+ (x
12
– x
22
)
2
+ ..... + (x
1j
– x
2j
)
2
+ ....... + (x
1p
– x
2p
)
2
(x
1p
– x
2p
)
2
,
hay
d
2
= (X
1
– X
2
)
T
1
2
0 ... 0
0 ... 0
... ... ... ...
0 0 ...
p
a
a
a
; X
j
> = X
i
T
MX
j
Chuẩn của một véc tơ được tính theo công thức
1/ 2
( )
T
M
X X MX=P P
Trong phân tích thống kê nếu chỉ quan tâm đến độ phân tán của các biến, thì M
thường xác định qua ma trận hiệp phương sai. Để có một độ đo khoảng cách
theo nghĩa mức tương ứng, trong phân tích thành phần chính ta có thể sử dụng
ma trận M có đường chéo là nghịch đảo của các phương sai của các biến. Điều
đó tương đương với việc chia tất cả các biến cho độ lệch tiêu chuẩn của nó.
Cách làm này làm cho sự khác biệt về độ đo dùng cho các biến khác nhau không
còn nữa. Ma trận hiệp phương sai của các biến đã biến đổi chính là ma trận hệ
số tương quan của các biến ban đầu. Với cách tính này ta có
2
1
2
1/
2
1/
1/
0
0
T
T
TX
j
= (TX
j
)
T
(TX
i
)
Biểu thức này cho thấy mối liên hệ giữa các độ đo trong không gian nhiều. Với
độ đo M bất kỳ nhờ phép biến đổi trên ta có thể quy về độ đo M = E, đây chính
là độ đo Ơcơlit thông thường.
c- Quán tính
23
Người ta gọi tổng quán tính của đám mây với tâm của nó là tổng các khoảng
cách (đo bằng metric – M) từ các điểm đến tâm của đám mây đó. Đại lượng này
được tính như sau:
1
( ) ( )
n
T
g i i i
i
I p X g M X g
=
− −
∑
Nếu ta chọn một điểm a nào đó thay cho g ta sẽ tính được I
= −
∑∑
,
tức là 2 lần tổng quán tính bằng trung bình bình phương của các khoảng cách
giữa các cá thể.
Theo công thức xác định ma trận hiệp phương sai, ta có thể tính tổng quán tính
I
g
qua ma trận V và m như sau:
I
g
= TraceMV = TraceVM,
trong đó TraceA (vết của A) là tổng các phần tử trên đường chéo của A. Như
vậy,
- Nếu M=E (E là ma trận đơn vị) thì tổng quán tính chính là tổng phương sai của
các biến.
- Nếu M = D
1/S
2
thì tổng này sẽ là tổng các phần tử trên đường chéo ma trận R
hay tổng quán tính bằng p (số biến số), mà không phụ thuộc vào các giá trị của
các biến số đó.
24
Trở lại thí dụ trên nếu ta chọn khoảng cách Ơcolit cho không gian các cá thể thì
tổng quán tính của đám mây số liệu nói trên là tổng các phần tử trên đường chéo
của V, tính được như sau:
I
g
= 132.89 + 0.8056 + 2421.4429 + 35289619.24 = 35292174.3175
Còn nếu ta chọn M = D
của mỗi cá thể với trung bình chung. Tuy nhiên mục đích của chúng ta, như đã
nêu từ đầu, là tóm tắt thông tin p chiều thành thông tin có số chiều ít hơn. Phép
chiếu từ R
p
lên một siêu phẳng cho phép chúng ta tóm tắt thông tin như vậy.
25