TÓM TẮT BÁO CÁO
Trong bất cứ nghành kinh doanh nào cũng có sự rủi ro. Và rủi ro về nhân sự là một bài
toán rất khó đối với nhà quản lý. Nói đúng hơn là làm sao có thể quản trị được nguồn
nhân lực của công ty, làm sao có thể kết thúc hợp đồng lao động với công nhân đúng thời
hạn? Công nhân không nghỉ ngang nữa chừng? Làm ảnh hưởng tới hoạt động sản xuất
của công ty. Vấn đề đặt ra ở đây là làm sao có thể nhận biết được các yếu tố nào trong
CSDL quản lý công nhân viên có thể gây nên tình trạng công nhân nghỉ việc. Tóm lại, rủi
ro về nhân sự là có thể xảy ra bất cứ lúc nào và nó sẽ gây ra tổn thất về tài chính cũng
như hoạt động sản xuất của công ty.
Bên cạnh đó, Trong thời đại ngày nay, sự bùng nổ của công nghệ thông tin đã khiến
cho nhu cầu tiếp nhận và xử lý thông tin trở nên cực kỳ bức thiết. Thông tin là vấn đề
quan trọng hàng đầu của các công ty, tổ chức doanh nghiệp. Các hệ thống thông tin được
duy trì tốt sẽ cho phép các công ty có được những quyết định mang tính nghiệp vụ thành
công. Thông tin lại nằm dưới dữ liệu. Bùng nổ thông tin kéo theo tình trạng bùng nổ dữ
liệu. Và mặc dù các hệ thống máy tính đã cố gắng lưu trữ một khối lượng dữ liệu cực lớn,
rất nhiều trường hợp con ngừời vẫn không khai thác được hết tiềm năng của chúng, có
nghĩa là không thể chiết xuất được các thông tin cần thiết ; chỉ có thể thu được thông tin
sau khi tổng kết các dữ liệu theo những hình thức khác nhau. Thông tin càng sâu thì mức
độ và hình thức tổng kết càng phức tạp, nhất là thực hiện trên một tập dữ liệu lớn. Đáp
ứng vấn đề này thì giải pháp tối ưu đó là Khai Phá Dữ Liệu .
Từ 2 cơ sở trên, Đề tài đã áp dụng triệt để phương pháp Khai Phá Dữ Liệu trên cơ sở dữ
liệu của công nhân viên của công ty. Đề tài đã đưa ra các tập luật cùng các phân tích lô-
gic về chúng, giảm thiểu được rủi ro về nhân sự cho công ty, cũng như giúp tăng cao
năng suất làm việc của nhân viên nhân sự trong công ty. Đồng thời, đề tài cũng giúp cho
nhân viên nhân sự có kinh nghiệm trong việc quản lý nhân sự trong công ty.
Cuối cùng, việc ứng dụng khai phá dữ liệu trong doanh nghiệp là điều mà các doanh
nghiệp ở Việt Nam cần hướng đến.
1
PHẦN MỞ ĐẦU
Lý do chọn đề tài:
Lý thuyết mới về sự tăng trưởng đã chỉ ra rằng một nền kinh tế muốn tăng trưởng
một số chương rình thu hẹp sản xuất, cắt giảm chi phí khi được thực hiện chắc chắn làm
giảm lượng nhân sự đang làm việc và có thể làm phát sinh các vấn đề khác liên quan đến
vi phạm luật lao động hay tổ chức công đoàn cơ sở.
Nhận thức được tầm quan trọng của rủi ro nhân sự trong hoạt dộng của doanh nghiệp,
em quyết định chọn đề tài “ Ứg dụng khai phá dữ liệu vào phân tích rủi ro nhân sự trong
công ty may Việt Thắng”. Hy vọng rằng đề tài là một phần góp sức vào việc dự đoán và
hạn chế một phần rủi ro cho hoạt động của doanh nghiệp. Đây là một vấn đề cấp thiết,
được sự quan tâm của mọi doanh nghiệp trong mọi thời kỳ và nhất là trong giai đoạn này.
2
Mục tiêu nghiên cứu
Như chúng ta đã biết, quản lý rủi ro chính là một phần quan trọng không thể thiếu của
bất kỳ doanh nghiệp nào, thuộc bất cứ lĩnh vực nào. Nhất là quản lý nhân sự, vì đây là
nghành khó kiểm soát rủi ro nhất( tại vì nguồn nhân lực rất khó kiểm soát). Việc quản lý
rủi ro có nhiều cách, nhiều phương pháp thực hiện, nhiều bước, nhiều công đoạn. Vì thế
bất kỳ doanh nghiệp nào cũng thiết lập riêng cho mình một quy trình hoạt động, nhất là
trong việc thực hiện các sản phẩm kinh doanh của mình. Trong những quy trình đó, họ cố
gắng đến mức tối đa có thể để hạn chế phần nào rủi ro mang lại. Nhưng đôi lúc, những
quy trình quy định đó chưa phù hợp với thực tế thay đổi hàng ngày, hoặc không thể ngăn
chặn hết những rủi ro tiềm ẩn, hay trong quá trình thực hiện yếu tố con người mang yếu
tố quyết định đến mức độ rủi ro có thể xảy ra chứ không phải là quy trình giáy tờ. Bất cứ
một doanh nghiệp nào cũng dễ dàng nhận thấy có hẳn một bộ phận chuyên kiểm tra
kiểm soát nội bộ. Mục tiêu của bộ phận này chính là đưa ra những cảnh báo, những dự
đoán một cách kịp thời những rủi ro trong quá trình tác nghiệp mang lại và bên cạnh đó là
giám sát mọi hoạt động tác nghiệp của những con người trong toàn bộ hệ thống doanh
nghiệp đó. Vì thế mục tiêu nghiên cứu của đề tài này cũng không nằm ngoài những nội
dung kể trên.
Đối tượng và phạm vi nghiên cứu
Đối tượng ngiên cứu của đề tài là việc tập trung nghiên cứu, phân tích, dự đoán rủi ro
về nhân sự và đưa ra giải pháp để khắc phục và phòng tránh.
Phạm vi nghiên cứu là hoạt động quản lý nhân sự tại Công Ty Cổ Phần May Việt Thắng.
-Giấy phép kinh doanh : Số 4103 004 063 cấp ngày 22/ 11/ 2005
Do Sở Kế Hoạch Và Đầu Tư TP.HCM.
-Mã số thuế : 0 304 163 091
-Vốn điều lệ : 16 tỷ VNĐ
- Điện thọai : (84- 8) 8 975 641 – 8 975 642 – 8 963 283
- Fax : (84- 8) 8 961 703
- Email :
- Website : www.vietthangcom.com
- Lĩnh vực kinh doanh của công ty là sản xuất, kinh doanh và xuất khẩu hàng dệt
may thời trang.
- Công ty hiện có gần 1.593 lao động, được phân bổ tại văn phòng công ty và nhà
máy: May 1, May 3, May 5 và trong năm 2008 công ty đã đầu tư mở rộng thêm nhà máy
May 7, họat động chính thức vào tháng 6 năm 2008.
-Nhận thấy rằng nguồn nhân lực vô cùng quan trọng, nó phản ánh thành quả công
ty chính vì lẽ đó công ty luôn có sự quan tâm đến đời sống của công nhân viên, thường
xuyên đào tạo nguồn nhân lực trong công ty.
-Cuối năm 2005: Để tiếp tục phù hợp với xu thế hội nhập khu vực và quốc tế, Bộ
Công Nghiệp và Dệt May Việt Nam chủ trương cổ phần hóa một số nhà máy may của
công ty và Công Ty Cổ Phần May Việt Thắng ( sau đây gọi tắt là công ty) đã ra đời chính
thức vào ngày 22/ 11/ 2005.
1.1.1: Quá trình hình thành và phát triển
1.1.1.1: Qúa trình hình thành
4
- Năm 1960: Công ty ban đầu được thành lập với tên gọi Vymytex, bao gồm 3
nhà máy chính: nhà máy đánh sợi, dệt và nhà máy đánh nhuộm-in và hòan tất với thiết bị
tiên tiến nhất lúc bấy giờ, chủ yếu được nhập khẩu từ Mỹ, Nhật Bản và Đài Loan.
- Năm 1975: Công ty được quốc hữu hóa và đổi tên thành “ CÔNG TY DỆT
VIỆT THẮNG”. Từ đó, công ty tiếp tục khi có những khỏan đầu tư nhỏ từ
UNDP( United Nation Development Program).
- Năm 1989: Công ty có sự đầu tư lớn lần đầu tiên tại Việt Nam, trong nghành
Công Nghiệp và Tập Đòan Dệt May Việt Nam chủ trương cổ phần hóa một số nhà máy
may của công ty và Công Ty Cổ Phần May Việt Thắng( sau đây gọi tắt là công ty) đã ra
đời chính thức vào ngày 22/11/2005.
1.1.1.2: Thành công đạt được
Qua gần 5 năm hình thành và phát triển công ty CP may Việt Thắng được các doanh
nghiệp trong nghành đánh giá là công ty có tốc độ phát triển tương đối nhanh. Trong
những năm qua công ty Việt Thắng đã được những thành quả như sau:
Chứng nhận ISO 9001-2000 năm 2005.
5
Chứng nhận SA năm 2006.
Người tiêu dùng bình chọn là hàng Việt Nam chất lượng cao 3 năm 2005-2007.
Giâý chứng nhận giải thưởng thời trang quần Kaki nam 2007.
Topten thương hiệu hàng đầu Việt Nam năm 2008.
Topten nghành hàng thương hiệu Việt Nam năm 2009.
Danh hiệu“ Thương hiệu mạnh”.
Bình chọn” topten hàng Việt Nam chất lượng cao”.
Bình chọn” Sản phẩm được người tiêu dùng yêu thích nhất”.
1.1.1.3: Chức năng và nhiệm vụ
Chức năng: Sản và thương mại các sản phẩm dệt, may và nguyên phụ liệu, gia công,
may, in trên vải, thêu, giặt chống nhàu. Sản xuất áo sơmi nam, nữ, quần Kaki, quần tây,
quần áo mùa đông, trang phục thể thao, chăn- drap-gối, áo ngủ, đồng phục. Mua bán
nguyên phụ liệu độc lập, có tư cách pháp nhân, có con dấu riêng và chịu trách nhiệm
trước pháp luật, nhà nước về các họat động của công ty.
Nhiệm vụ: Thực hiện đầy đủ các hoạch toán kinh tế, chứng từ sổ sách rõ ràng đúng lệnh
kế toán. Lập các chiến lược kinh doanh có hiệu quả. Mở rộng hợp tác kinh tế với các đối
tác trong và ngoài nước, nhận diện các mục tiêu, các mặt hàng, mẫu mã đang có xu
hướng phát triển để kịp thời đáp ứng nhu cầu, thị yếu của người tiêu dung. Thực hiện
việc quản lý lao động theo đúng quy định của pháp luật. Bồi dưỡng, nâng cao tay nghề,
trình độ chuyên môn kỹ thuật của người lao động. Không ngừng cải thiện đời sống vật
chất, tinh thần của công nhân viên.
các phòng ban nghiệp vụ của công ty.
Công ty CP may Việt Thắng nhận lao động từ nhiều nguồn khác nhau, đa số lao động của
công ty là những công nhân có trình độ chuyên môn cao và tay nghề kỹ thuật cao. Các
sản phẩm may mặc thường xuyên thay đổi kéo theo đó là áp lực về trình độ sản xuất,
chuyên môn. Chính vì thế mà huấn luyện tay nghề cho các công nhân tại Việt Thắng là
thường xuyên. Hàng năm, ngòai đào tạo cho công nhân mới, Việt Thắng còn tổ chức
hoặc công nhân đi học để nâng cao trình độ chuyên môn tại các tổ chức có uy tín.
Tổ chức bộ máy quản lý:
Sơ
đồ
1.1: Tổ chức bộ máy quản lý
7
TỔNG GIÁM ĐỐC
BAN NHÂN
SỰ
BAN NGHIỆP
VỤ
BAN KD
NỘI ĐỊA
BAN TÀI
CHÍNH
KẾ TOÁN
NHÀ MÁY 1 NHÀ MÁY 3 NHÀ MÁY 5 NHÀ MÁY 7
Theo sơ đồ tổ chức của công ty, mọi họat động sản xuất kinh doanh và điều hành, chịu
sự chỉ đạo của các bộ phận chức năng thông qua tổng giám đốc. Các ban chịu trách
nhiệm hỗ trợ tổng giám đốc trong mọi họat động nhằm phục vụ việc phát triển công ty và
trực tiếp liên kết chỉ đạo cho các nhà máy họat động. Trong khi đó nhà máy chỉ chịu trách
nhiệm thực hiện kế họach sản xuất từ công ty giao xuống. Như vậy, muốn thực hiện điều
độ công tác sản xuất, công ty phải xây dựng một hệ thống thông tin chặt chẽ từ công ty
đến các nhà máy.
tay nghề cao, dưới sự giám sát và quản lý chất lượng chặt chẽ theo tiêu chuẩn ISO, SA
1.2: QUY TRÌNH QUẢN LÝ VÀ ĐÀO TẠO NGUỒN NHÂN LỰC TẠI CÔNG TY
1.2.1: Quy trình quản lý
8
Công ty họat động theo nguyên tắc cấp trên ủy quyền cho cấp dưới thực hiện công
việc. Cấp trên có trách nhiệm kiểm tra, đôn đốc và giám sát cấp dưới thực hiện công việc
được ủy quyền. Cấp dưới báo cáo lên cấp trên nếu có vấn đề gì trong quá trình thực hiện
của các nhà máy.
Công ty thực hiện chế độ làm việc 6 ngày.
Số giờ làm việc trong ngày là 8 giờ: Sáng: 7h15-11h30
Chiều: 12h15-16h
Mỗi ngày tăng ca từ một đến hai giờ tùy vào tình hình kinh doanh của công ty va không
bắt buộc
Tình hình hoach toán và sử dụng lao động
Phải đảm bảo việc ghi chép, phản ánh kịp thời chính xác số ngày công thực hiện của
người lao động của từng phòng ban trong công ty.
Giúp việc quản lý lao động, kiểm tra chấp hành kỷ luật lao động để làm căn cứ tính tiền
lương, tiền thưởng cho người lao động.
1.2.2: Đào tạo nguồn nhân lực của nhà máy
. Mục đích của việc đào tạo tại công ty:
Cung cấp các kiến thức mới, nâng cao trình độ cho nhân viên, giúp nhân viên áp dụng
các kiến thức đã học để áp dụng hợp lý công việc có hiệu quả hơn. Giúp cho công nhân
mới vào thực hiện công việc dễ dàng hơn theo kịp nhịp độ sản xuất của công ty.
Khuyến khích động viên nhân viên, thỏa mãn nhu cầu phát triển của nhân viên.
Đào tạo không ngừng hoàn thiện và nâng cao kỹ năng chuyên môn của nhân viên để
đáp ứng nhu cầu ngày càng phát triển, phục vụ tốt mục tiêu phát triển lâu dài của công ty.
Chuẩn bị đội ngũ kế kận, tạo cho nhân viên những kỹ năng cần thiết và co hội thăng
tiến.
. Phân tích nhu cầu đào tạo:
Vào cuối mỗi năm, ban nhân sự sẽ phối hợp với các phụ trách nhân sự của các nhà
Trong cùng một chuyền, tổ, bộ phận: từ công đoạn chính này sang công đoạn chính
khác, từ công đọan phụ sang công đoạn chính…
. Đào tạo kỹ thuật an toàn lao động:
Để đảm bảo an toàn cho các công nhân viên nhà máy hàng năm công ty tổ chức các
lớp đào tạo: an toàn lao động cho toàn nhà máy và cho cán bộ quản lý.
Bước 1: học nội quy kỹ thuật lao động.
Bước 2: tổ chức học an toàn lao động cho tất cả các công nhân.
Phụ trách nhân sự lập danh sách từng chuyền, tổ tham gia diễn tập thoát hiểm, nội
dung an toàn lao động, phòng cháy chữa cháy.
Yêu cầu từng công nhân viên ký tên trong buổi học – huấn luyện. Tổ chức tại nhà máy
và sân tập của công ty.
. Đào tạo huấn luyện kỹ năng:
Nhằm đảm bảo sự hoạt động nhịp nhàng trong công tác sản xuất tại nhà máy. Bộ phận
phụ trách nhân sự lên kế hoạch sắp xếp thời gian và địa điểm họp, các chuyền tổ lập danh
sách công nhân cần đào tạo quy chế quản lý thông tin, quản đốc nhà máy sẽ trực tiếp
giảng dạy.
Đào tạo ngoài doanh nghiệp
. Gửi nhân viên đi đào tạo:
Nhằm nâng cao nghiệp vụ, chuyên môn của nhân viên, phụ trách nhân sự liên hệ với
ban nhân sự công ty, gửi nhân viên tham dự các khóa đào tạo, các buổi hội thảo, tập huấn
tọa đàm… Ở bên ngoài công ty do các đơn vị tư vấn, đào tạo tổ chức.
. Chương trình liên hệ với các trường đại học, cao đẳng, trung cấp:
Nhà máy mời các chuyên gia, các giáo viên của các trường đại học, cao đẳng, trung
cấp đến dạy hoặc cử nhân viên đến các trường để học.
-Mời giảng viên trường cao đẳng công nghiệp may và thời trang để dạy chuyên đề về
quản lý kỹ năng may công nghiệp cho các tổ trưởng, chuyền trưởng, chuyền phó, kỹ
thuật truyền và KCS tại công ty.
-Mời giảng viên trường đại học Công Nghiệp khoa Hóa về giảng dạy an toàn và sử dụng
hóa chất cho những công nhân viên làm việc trực tiếp với hóa chất.
-Cử nhân viên thủ kho đến trường đào tạo và nghiệp vụ, kỹ thuật MTC tham gia khóa học
người hòan thành tốt nhiệm vụ được giao và làm việc có hiệu quả cho mục tiêu cuối cùng
của tổ chức.Một cách nói khác: “Quản trị nguồn nhân lực là nghệ thuật lãnh đạo, nghệ
thuật chỉ huy, nghệ thuật sử dụng người, nghệ thuật thực hiện công việc bằng người
khác”.
- Vai trò: Nguồn lực con người đóng vai trò quan trọng trong hoạt động của các doanh
nghiệp hay tổ chức. Do đó việc khai thác tốt nguồn lực này để phục vụ phát triển doanh
nghiệp và xã hội là một vấn đề quan trọng trong việc quản lý các tổ chức và doanh
nghiệp. Việc quản lý nguồn lực đòi hỏi sự hiểu biết về con người ở nhiều khía cạnh, và
quan niệm rằng con người là yếu tố trung tâm của sự phát triển. Các kỹ thuật quản lý
nhân lực thường có mục đích tạo điều kiện để con người phát huy hết khả năng tiềm ẩn,
giảm lãng phí nguồn lực, tăng hiệu quả của tổ chức.
2.1.1.2:Tầm quan trọng của nguồn nhân lực
- Trong xu thế tòan cầu hóa, cuộc chạy đua phát triển nguồn nhân lực ở các quốc gia, các
khu vực trên thế giới về khả năng cạnh tranh trên thị trường lao động trong nước và thị
trường lao động quốc tế đang diễn ra quyết liệt.
- Đối với Việt Nam, nguồn nhân lực nước ta chủ yếu vẫn ở trình độ chuyên môn kỹ
thuật thấp, vì thế để thực hiện Công Nghiệp Hóa, Hiện Đại Hóa đất nước, tạo ra bước
nhảy vọt về phát triển kinh tế, nhất là để gia nhập các tổ chức kinh tế khu vực và thế giới
như APEC, AFTA, WTO… thì vấn đề phát triển nguồn nhân lực để tham gia vào nền
kinh tế tri thức, mà lao động tri thức là vốn nhân lực hàng đầu, đang là nhu cầu hết sức
cấp bách, đòi hỏi những thay đổi mang tính đột phá.
- Trên lĩnh vực kinh tế, với sự hấp dẫn ngày càng tăng của thị trường trong nước và tính
quan trọng của một địa bàn sản xuất, Việt Nam đang trở thành thị trường có sức hấp dẫn
mạnh mẽ đối với các nhà đầu tư, thương mại. Thế nhưng một vấn đề đặt ra là,trong quá
trình tòan cầu hóa kinh tế, thị trường được mở rộng không chỉ trong khu vực mà trên tòan
cầu, cùng với tự do hóa thương mại và đầu tư nước ngòai đã tạo ra sự cạnh tranh gay gắt
đối với mỗi doanh nghiệp, với mỗi nền kinh tế. Và ngược lại, tính cạnh tranh ấy sẽ có tác
động kích thích phát triển nguồn nhân lực. Tuy nhiên, so với các nước trên thế giới, quy
mô và chất lượng nguồn nhân lực nước ta vẫn đang đứng trước những thách thức to lớn
trong cạnh tranh và hội nhập vào quá trinh toàn cầu hóa.
động và hiệu quả công việc mức lương của người lao động không được thấp hơn mức
lương tối thiểu do nhà nước quy định.
Tiền lương danh nghĩa: Là tổng số tiền mà người lao động nhận được sau một thời
gian làm việc nhất định hoặc sau khi hòan thành một khối lượng công việc nhất định với
chất lượng nhất định, trong điều kiện nhất định.
Tiền lương thực tế: Là tổng số hàng hóa , dịch vụ mà người lao động có được từ tiền
lương danh nghĩa. L
tt
= L
dn
/CPI
Trong đó: L
tt
là tiền lương thực tế, L
dn
là tiền lương danh nghĩa, CPI là chỉ số giá cả
hàng hóa và dịch vụ tiêu dùng.
Muốn thu nhập của người lao động tăng thì chỉ số tiền lương danh nghĩa phải tăng
nhanh hơn chỉ số giá tiêu dùng hàng hóa và dịch vụ.
Tiền lương tối thiểu: Ở Việt Nam mức lương tối thiểu được ấn định theo giá sinh hoạt
đảm bảo cho người lao động làm công việc đơn giản nhất trong điều kiện lao động bình
thường bù đắp sức lao động đơn giản và một phần tích lũy tái sản xuất sức lao động. Mức
lương tối thiểu được mới nhất từ 01/01/09 áp dụng cho khu vực tp. HCM là:
Đối với doanh nghiệp trả lương theo sản phẩm: 650.000 đ/th
Đối với doanh nghiệp trả lương theo thời gian: 1.010.000 đ/th
13
. Bảo hiểm xã hội: Là khỏan trợ cấp cho người lao động khi họ gặp khó khăn như: đau
ốm, thai sản, tai nạn lao động, hưu trí mất sức hay tử tuất… theo quy định hiện nay thì tỷ
lệ này là 22%( trong đó tính vào chi phí sản xuất kinh doanh là 16% và người lao động
chịu 6%).
. Chức năng kích thích sản xuất của tiền lương
Chức năng này đòi hỏi người quản lý phải sử dụng tiền lương như là một đòn bẩy kinh
tế, thúc đẩy sản xuất phát triển, mỗi đồng lương trả cho công nhân phải tính toán, phải
được gắn với kết hợp lao động của họ, gắn với hiệu quả sản xuất kinh doanh của doanh
nghiệp. Để thực hiện chức năng này có hiệu quả đòi hỏi tiền lương phải đủ lớn để người
lao động có thể bù đắp được những chi phí chủ yếu của mình và phải chi trả lương có kế
hoạch để phân biệt được người làm việc tốt, người làm việc chưa tốt.
. Chức năng tích lũy của tiền lương
14
Tiền lương không chỉ được người lao động tiêu dùng trong quá trình làm việc mà còn
được tích lũy phòng những bất trắc có thể xảy ra trong cuộc sống của người lao động, khi
không thể làm việc nhưng vẫn phải tiêu dùng. Về nguyên tắc, tiền lương chỉ được tích lũy
khi người lao động không chi dùng hết tiền lương của mình. Trên thực tế tiền lương của
người lao động nói chung không đủ chi dùng, vì vậy không có điều kiện tích lũy. Tuy
nhiên nhà nước vẫn phải buộc người lao động phải tích lũy thông qua BHXH, BHYT,
bảo hiểm thất nghiệp trên cơ sở tiền lương cơ bản của mình.
2.1.2 Khái niệm tin học về khai phá tri thức từ dữ liệu
2.1.2.1: Khai phá dữ liệu
Khai phá dữ liệu như là quá trình ứng dụng một hay nhiều kỹ thuật máy để tự động
hóa quá trình phân tích và rút trích tri thức từ cơ sở dữ liệu. Mục đích chính của khai phá
dữ liệu là dự đóan và mô tả hay có người dùng là xác định chiều hướng và khuôn mẫu
của dữ liệu, người ta thường sử dụng các phương pháp sau:
KPDL mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ
liệu trong cơ sở dữ liệu hiện có. Gồm có kỹ thuật: phân cụm( clustering), trực quan
hóa( visualiztion), phân tích luật kết hợp( association rule)…
KPDL dự đóan: có nhiệm vụ đưa ra các dự đóan dựa vào các suy diễn trên dữ liệu
hiện thời. Kỹ thuật gồm: phân lớp( classification), hồi quy( regression)…
Lợi ích của việc KPDL là cung cấp tri thức hỗ trợ ra quyết định, dự báo, khái quát
dữ liệu.
2.1.2.2: Quy trình phát hiện tri thức
các ứng dụng dùng để quản lý dữ liệu và các bộ phận khác nhau trong RDBMS
SQL server 2005 được tối ưu để có thể chạy trên môi trường cơ sở dữ liệu rất lớn ( Verry
Large Database Enviroment) lên đến Tera – Byte và có thể phục vụ cùng lúc cho hàng
ngàn người dùng. SQL Server 2000 có thể ký hợp với các server khác như Microsoft
Internet Information Server ( IIS), E-Comemerce Server, Proxy Server…
3.2: Một số phương pháp khai phá dữ liệu thường dùng
3.2.1: Microsoft Decision Tree ( Cây quyết định)
Microsoft Decision Tree hỗ trợ cả việc phân loại và hồi quy và tạo rất tốt các mô hình
dự đoán. Sử dụng thuật toán này có thể dự đoán cả các thuộc tính rời rạc và liên tục.
Trong việc xây dựng mô hình, thuật toán này sẽ khảo sát ảnh hưởng của mỗi thuộc tính
trong tập dữ liệu và kết quả của thuộc tính dự đoán. Và tiếp đến nó sử dụng thuộc tính
input( với các quan hệ rõ ràng) để tạo thành một nhóm phân hóa gọi là các node. Khi
một node mới được thêm vào mô hình, một cấu trúc cây sẽ được thiết lập. Node đỉnh của
cây sẽ miêu tả sự phân tích ( bằng thống kê) của các thuộc tính dự đoán thông qua các
mẫu. Mỗi node thêm vào sẽ tạo ra dựa trên sự sắp xếp của các trường của thuộc tính dự
đoán để so sánh dữ liệu input. Nếu một thuộc tính input được coi là nguyên nhân của
thuộc tính dự đoán( to Favour One State Over Another) một node mới sẽ thêm vào mô
hình. Mô hình tiếp tục phát triển cho đến lúc không còn thuộc tính nào, tạo thành một sự
phân tách ( Split) để cung cấp một dự báo hoàn chỉnh thông qua các node đã tồn tại. Một
mô hình đòi hỏi tìm kiếm một sự kết hợp giữa thuộc tính và trường của nó, nhằm thiết lập
một sự phân phối không cân xứng giữa các trường trong thuộc tính dự đoán. Vì thế cho
phép dự đoán kết quả của thuộc tính dự đoán kết quả của thuộc tính dự đoán một cách tốt
nhất.
3.2.2: Microsoft Association Rules( Luật kết hợp)
Thuật toán này được thiết kế đặc biệt để sử dụng trong phân tích giỏ thị trường( basket
market) . Thuật toán này sẽ xem xét mỗi cặp biến, giá trị ( ví dụ như sản phẩm/xe đạp) là
một item. Một itemset là một tổ hợp các item trong một transaction đơn lẻ. Thuật toán sẽ
lướt qua tập hợp dữ liệu để cố gắng tìm kiếm các itemset nhằm vào việc xuất hiện trong
nhiều transaction. Tham chiếu support sẽ định nghĩa có bao nhiêu transaction mà itemset
sẽ xuất hiện trước khi nó được cho là quan trọng . Ví dụ: một itemset phổ biến có thể
Hình 3.1: Bảng Khảo Sát
Nội dung các cột như sau:
. soso (số sổ): Mỗi công nhân sẽ được cấp 1 số sổ bảo hiểm riêng.
.tuoi( Tuổi): ở cột này tuổi của công nhân được tính từ lúc công nhân mới vào làm lúc
đó họ đang bao nhiêu tuổi.
. gioitinh( Giới tính): Cột này thể hiện giới tính của công nhân, được đánh dấu “ x” là
nữ, để trống là nam.
.chucdanh( Chức danh): Cột này thể hiện lĩnh vực mà người công nhân làm trong công
ty. Và các lĩnh vực đã được rời rạc hoá như sau:
Công nhân là ủi: 1
Công nhân vận hành thiết bị: 2
Công nhân may công nghiệp: 3
Công nhân làm các công việc phụ khác( cắt chỉ, chống nhàu, vệ sinh, kho): 4
Ở cột này em đưa vào để khảo sát xem với lĩnh vực công việc nào thì công nhân ít nghĩ
việc hơn và lĩnh vực nào công nhân hay nghĩ hơn.
.diachi( Địa chỉ):Cột này thể hiện quê quán của công nhân với những:
18
Công nhân ở ngoài Bắc :1
Công nhân ở miền Trung: 2
Công nhân ở trong Nam: 3
Ở cột này em muốn khảo sát xem với những công nhân ở dâu thì dễ có biến động nghỉ
việc hơn, vì có khả năng cho rằng những công nhân ở miền Bắc dễ nghỉ hơn vì hiện nay
cũng đã có nhiều khu công nghiệp mới mở ở ngoài Bắc. Và hiện tượng công nhân nghỉ
việc chuyển ra Bắc là rất nhiều.
.mucluong( Mức lương): Đây là mức lương cơ bản mà công nhân nhận được.
. hientrang( Hiện trạng): Thể hiện công nhân đã nghỉ việc( NV) hay chưa.
Bài toán đặt ra ở đây là: Với các yếu tố đã được liệt kê ở bảng khảo sát thì yếu tố nào sẽ
ảnh hưởng nhiều đến việc công nhân xin nghỉ việc.
Đầu tiên từ bảng dữ liệu ban đầu em đã xây dựng nên bảng khảo sát ở trên.
Bước 1: Cột tuổi được lấy từ năm mà công nhân bắt đầu vào làm trừ đi năm sinh của
Đã nghỉ việc: 1
Vẫn còn làm: 2
3.4: Tiến hành Mining và kết quả:
3.4.1: Phương pháp Mining
Đề tài áp dụng phương pháp Mining : Tạo cây quyết định(Decision trees) và khai phá
luật kết hợp(association rules)
20
3.4.2: Kết quả khai phá:
Giải quyết bài toán: Quyết định về khả năng nghỉ việc của công nhân.
Qua khảo sát sơ bộ với cán bộ nhân sự của công ty em được biết 2 yếu tố chính quyết
định đến khả năng nghỉ việc của công nhân đó là mức lương và tuổi. Như vậy, em sẽ lấy
2 yếu tố này làm chính khi khai phá, ngoài ra sẽ lần lượt thay một số yếu tố khác như:
giới tính, địa chỉ, chức danh để tìm luật được chính xác hơn. Công cụ sử dụng là cây
quyết định và em sử dụng cây quyết định trên phần mềm.
Mô hình dự kiến:
HIENTRANG= β1 TUOI +β2 MUCLUONG +β3 CHUCDANH +β4 DIACHI
Chạy cây quyết định với 4 yếu tố tuổi, mức lương, chức danh, địa chỉ với độ tin cậy
conf = 0.7 ta có kết quả sau:
Hình 3.3: Bảng Chạy cây quyết định lần 1
Chọn conf = 0.75 và support = 0.04 ta có các luật:
Nếu MUCLUONG =1, thì HIENTRANG = 1 luật có support = 0.36, conf = 1, impt =
0.2061.
Nếu MUCLUONG =2, TUOI = 2, thì HIENTRANG =1 luật có support = 0.044, conf=
0.8462, impt= -1.0889.
Nếu MUCLUONG=2 ,TUOI = 2, CHUCDANH =4, thì HIENTRANG =2 luật có support
= 0.096, conf = 0.75, impt = -0.5229.
Nếu MUCLUONG =2, TUOI = 3, thì HIENTRANG =2 luật có support = 0.2, conf =
0.9091, impt = - 0.0334
21
Gần như dự đoán ban đầu 2 yếu tố chính quyết định đến việc nghỉ việc của công nhân
support=0.096, conf= 0.75, impt= -0.5229
Nếu MUCLUONG= 2,TUOI= 3, thì HIENTRANG=2,luật có support= 0.2, conf=
0.9091, impt= -2.1614
Nếu MUCLUONG= 3, GIOITINH= 1, thì HIENTRANG=1,luật có support=0.004,
conf= 1,impt= -2.1614
Nếu MUCLUONG=3, GIOITINH= 2, thì HIENTRANG= 2, luật có support= 0.012,
conf= 0.75, impt= -1.5272
Tiếp tục khảo sát lại chạy cây quyết định trên với độ tin cậy conf= 0.9 ta có được bảng
sau:
23
Hình 3.6: Bảng chạy kiểm thử lần 2
Kết quả chạy kiểm thử lại cũng tương đối chính xác.Từ kết quả trên ta cũng thấy được
ngoài 2 yếu tố chính là mức lương và tuổi thì còn có 2 yếu tố chức danh và giới tính cũng
là yếu tố quyết định nghỉ việc của công nhân.
Tiếp tục khảo sát các yếu tố trên với công cụ thực hiện là luật kết hợp và ta sẽ khảo sát
trên phần mềm luật kết hợp.
Ta nhận thấy rằng sẽ có một mối liên hệ nào đó giữa, chức danh và mức lương. Do đó, ta
sẽ chạy luật kết hợp giữa 3 yếu tố trên với độ tin cậy conf= 0.6 và support>= 0.7 ta được
kết quả như sau:
NẾU (TUOI=1) THÌ (MUCLUONG=1) support= 0.7292
NẾU (TUOI=3) THÌ (MUCLUONG=2) support= 0.7857
NẾU (CHUCDANH=3) THÌ (MUCLUONG=1) support= 0.8261
NẾU (CHUCDANH=2) THÌ (MUCLUONG=2) support= 0.7872
NẾU (CHUCDANH=4) THÌ (MUCLUONG=2) support= 0.7179
NẾU (TUOI=2 và CHUCDANH=4) THÌ (MUCLUONG=2) support= 0.7449
NẾU (TUOI=2 và CHUCDANH=2) THÌ (MUCLUONG=2) support= 0.86
24
Vậy: Với kết quả trên thì ta thấy được mức lương của công nhân có thể phụ thuộc rất
nhiều vào tuổi và chức danh công việc của họ. Hay nói cách khác kết quả trên chính là