ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ LÝ
NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
Hà nội, 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ LÝ
NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Nguyễn Trí Thành
Hà nội, 2015
2.3.2. Tiền xử lý và gán nhãn dữ liệu................................................................... 10
2.3.3. Lựa chọn và trích chọn đặc trưng............................................................... 14
2.3.4. Trích chọn đặc trưng và xây dựng mô hình ................................................ 15
Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH
CHỌN THÔNG TIN TRONG VĂN BẢN................................................................. 17
3.1. Một số nghiên cứu về trích chọn thông tintừ các trang tin ................................ 17
3.2. Phương pháp trích chọn thông tin dựa biểu thức chính quy .............................. 21
3.3. Trích chọn thông tin dựa vào mô hình tuần tự.................................................. 23
3.3.1. Mô hình Markov ẩn ................................................................................... 23
3.3.2. Mô hình Maximum Entropy Markov ......................................................... 25
3.3.3. Trường ngẫu nhiên có điều kiện ................................................................ 27
3.4. Nhận xét .......................................................................................................... 47
3.5. Tóm tắt chương 2 ............................................................................................ 47
Chương 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................... 49
4.1 Kết quả thực nghiệm......................................................................................... 49
4.1.1. Thu thập dữ liệu ........................................................................................ 49
4.1.2. Tiền xử lý dữ liệu ...................................................................................... 51
3.1.3. Lựa chọn và trích chọn đặc trưng............................................................... 61
ii
4.1.4. Mô hình và kết quả với tập dữ liệu kiểm thử.............................................. 63
4.2. Đánh giá .......................................................................................................... 65
KẾT LUẬN ............................................................................................................... 70
TÀI LIỆU THAM KHẢO ......................................................................................... 72
Tiếng Việt .............................................................................................................. 72
Tiếng Anh .............................................................................................................. 72
iii
minh họa là xác suất chung hay điều kiện, dự đoán lớp đơn hay dự đoán trên dữ liệu
chuỗi. ......................................................................................................................... 27
Hình 14: Mô hình đồ thị có hướng ............................................................................. 30
Hình 15: Bộ phân loại Naïve Bayes ........................................................................... 30
Hình 16: Đồ thị độc lập và đồ thị thành phần cho mô hình Markov ẩn ....................... 31
Hình 17: Bộ phân loại cực đại Entropy ...................................................................... 32
Hình 18: Trường ngẫu nhiên có điều kiện chuỗi tuyến tính ........................................ 33
Hình 19: Một dạng kết hợp của CRF chuỗi tuyến tính. .............................................. 35
Hình 20: Ví dụ một máy trạng thái hữu hạn ngẫu nhiên ............................................. 37
Hình 21: Ví dụ của các cấu trúc của CRF .................................................................. 44
Hình 22: Ví dụ của một CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo công thức… .. 46
Hình 23: Nguồn thông tin [4] ..................................................................................... 49
Hình 24: Lấy thông tin từ internet .............................................................................. 50
Hình 25: Tiền xử lý dữ liệu (1) .................................................................................. 54
Hình 26: Tiền xử lý dữ liệu (2) .................................................................................. 55
v
Danh sách các từ viết tắt, kí hiệu, thuật ngữ
Từ viết tắt
IR
IE
WI
CRF
NER
HMM
MEMM
CMM
SFSA
Do mức độ quan trọng của thông tin thời tiết, việc nghiên cứu phương pháp để trích
chọn thông tin thời tiết, từ các văn bản, trang tin tức hàng ngày giúp ích cho rất nhiều
người. Phạm vi của luận văn là nghiên cứu phương pháp trích chọn thông tin thời tiết
từ các văn bản, trang tin tức tiếng Việt. Các thông tin thời tiết hiện nay có sẵn ở rất
nhiều trang tin tức tiếng Việt, và được trình bày với nhiều dạng khác nhau [4]. Thông
tin thời tiết có thể ở dạng có cấu trúc (bảng thông tin về lượng mưa, hoặc nhiệt độ ở
các vùng miền trong cùng một thời điểm – Hình 1: Mẫu thông tin có cấu trúc), hoặc
phi cấu trúc (như dạng bản tin tóm tắt, hoặc chi tiết thông tin thời tiết của một vùng
miền tại một thời điểm – Hình 3: Mẫu thông tin phi cấu trúc), hoặc có thể ở dạng bán
cấu trúc (danh sách các thông tin thời tiết chung chung, gồm cả nhiệt độ, độ ẩm, tình
trạng nắng mưa của một số vùng miền – Hình 2: Mẫu thông tin bán cấu trúc). Ngoài
ra, thông tin thời tiết còn có thể được cung cấp không đầy đủ (một số thông tin không
có), hoặc không đồng bộ (các đơn vị đo có thể khác nhau). Do đó, nhiệm vụ trích chọn
thông tin khá phức tạp khi sự hoán đổi của các thuộc tính và lỗi đánh máy xảy ra trong
quá trình đưa tin lên các trang tin.
1
Hình 1: Mẫu thông tin có cấu trúc
Hình 2: Mẫu thông tin bán cấu trúc
2
Hình 3: Mẫu thông tin phi cấu trúc
Mục tiêu của luận văn là xây dựng một hệ thống bán tự động, nhằm lấy thông tin từ
các trang bản tin, và sau đó đưa vào hệ thống xử lý dữ liệu đầu vào, và xây dựng mô
hình để trích chọn các thông tin thời tiết. Từ mô hình đó, các bản tin có thể được đưa
Hình 4: Ví dụ thông tin thời tiết trên trang tin tức
Với kết quả của hệ thống, thông tin thời tiết có thể được cập nhật nhanh chóng hơn,
tiện lợi hơn cho những người có nhu cầu. Thay vì vào các trang tin và tìm sâu hơn khi
chúng ta quan tâm, hệ thống có thể cung cấp cho người dùng các thông tin cần thiết
một cách tập trung và cụ thể.
1.4. Ứng dụng của đề tài
Từ các thông tin thời tiết được trích chọn, chúng có thể được cung cấp cho người dân
và những người quan tâm một cách kịp thời.Người dân có thể đăng ký nhận tin nhắn
thời tiết mà họ quan tâm.Ví dụ, khi sinh sống ở khu vực nào đó, họ có thể chỉ quan
tâm tới tình hình thời tiết về nơi mà họ sinh sống, hoặc các loại bản tin cảnh báo đặc
biệt. Hệ thống xây dựng trên các thông tin được trích chọn có thể thực hiện việc lọc tin
theo từng loại thuộc tính để cung cấp cho người dùng một cách tự động và ngay khi có
tin tức mà họ cần biết.
Đối với các hệ thống dự báo thời tiết, các thông tin được trích chọn sẽ làm cơ sở để họ
xây dựng thêm, ví dụ như mô hình hóa các thông tin lên bản đồ một cách trực quan,
sinh động.Các thông tin thời tiết cung cấp cho hệ thống thông tin địa lý (GIS) sẽ giúp
cho người dùng có cái nhìn tổng quan rất sinh động, và chi tiết.
4
Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT
TRONG VĂN BẢN TIẾNG VIỆT
2.1. Mô tả bài toán và ý tưởng giải quyết
Bài toán trích chọn thông tin thời tiết cũng như nhiều bài toán trích chọn thông tin
khác, gồm các bước chính: thu thập dữ liệu từ các trang tin, xử lý dữ liệu để tăng hiệu
suất của hệ thống trích chọn thông tin, xây dựng mô hình để trích chọn thông tin một
cách bán tự động, và cuối cùng là kiểm nghiệm và đánh giá mô hình.
Trà
Khúc
Kôn
Ba
Cái N.T
ĐăkBla
Srêpôk
Tiền
Lý Nhân
Yên Thượng
Thượng Nhật
H
Q
Q
245
63
125
5
So sánh
TBNN
thực hiện việc làm sạch bằng cách điền các giá trị thiếu, làm trơn dữ liệu nhiễu, nhận
dạng và loại bỏ các giá trị ngoại lai, và giải quyết sự không thống nhất.Dữ liệu không
sạch có thể gây nhầm lẫn cho quá trình khai phá.Mặc dù hầu hết các thủ tục khai phá
dữ liệu có một vài bước để giải quyết với dữ liệu không hoàn chỉnh hoặc nhiễu, nhưng
chúng không đủ mạnh.Vì vậy, một bước tiền xử lý dữ liệu hữu ích là để lọc dữ liệu
qua các thủ tục làm sạch dữ liệu.
Các giá trị bị thiếu: Nếu biết trước được có nhiều bộ mà thiếu các giá trị cho một vài
thuộc tính, thì các giá trị bị thiếu có thể được điền lại bởi nhiều phương pháp khác
nhau như được mô tả như sau
1) Loại bỏ thông tin: Thường sử dụng phương pháp này khi nhãn cho lớp đó bị
thiếu (giả sử nhiệm vụ khai phá bao gồm cả việc phân loại hoặc mô tả). Cách
này không hiệu quả, trừ khi bộ đó có một vài thuộc tính có giá trị bị thiếu. Đặc
biệt khi tỉ lệ giá trị thiếu cho mỗi thuộc tính chiếm một phần đáng kể.
2) Điền giá trị còn thiếu bằng tay: Nói chung, phương pháp tiếp cận này tốn thời
gian và không khả thi trong trường hợp tập dữ liệu lớn với nhiều giá trị bị thiếu
3) Sử dụng biến toàn cục để điền vào giá trị thiếu: Thay thế toàn bộ giá trị thiếu
bằng một hằng số giống nhau, như nhãn “Không biết” hoặc “-∞”. Nếu giá trị
được thay thế là “Không biết”, chương trình khai phá có thể nghĩ sai rằng
chúng tạo ra khái niệm thú vị, đáng quan tâm, vì tất cả chúng đều có 1 giá trị
chung là “Không biết”. Vì vậy, mặc dù phương pháp này đơn giản, nó không
được khuyến nghị nên dùng.
4) Sử dụng trung bình thuộc tính để điền vào giá trị còn thiếu
5) Sử dụng trung bình thuộc tính cho tất cả các mẫu thuộc về cùng một lớp như
các bản ghi hiện có
6
6) Sử dụng giá trị có khả năng nhất để điền vào giá trị bị thiếu.
Trong hệ thống được xây dựng bởi phạm vi luận văn này, thông tin bị thiếu như bảng
trên là ít, do vậy chúng sẽ được bỏ qua.
X
Symbols
Động từ
Tính từ
Đại từ
Định từ và số từ
Phụ từ
Giới từ
Liên từ
Thán từ
Trợ từ
Thì ra, những, mà, …
Các từ không phân loại
BĐ1, KKL, …
Các kí tự đặc biệt như: >,
RAINFALL
HUMIDITY_PERCENTAGE
WINDSPEED
TEMPERATURE
Website/Internet
Thu thập dữ liệu
Tiền xử lý
Lựa chọn thuộc tính
đặc trưng
Trích chọn đặc trưng và
Xây dựng mô hình
Kết quả và đánh giá
Hình 5: Mô hình trích chọn thông tin thời tiết
2.2. Xây dựng mô hình của hệ thống
2.2.1. Thu thập dữ liệu
Nguồn thông tin cho bài toán có thể là các trang tin về thời tiết. Tuy nhiên, trong phạm
vi luận văn, nguồn thông tin chủ yếu được lấy từ trang thông tin của Trung tâm dự báo
khí tượng thủy văn trung ương [4].
Website của trung tâm dự báo thời tiết được trình bày thành các phần gồm có menu
chính, khung chuyển trang (thanh các mục lục ở bên trái), chính giữa là các thông tin
chi tiết về các bản tin, và các liên kết ở cuối trang. Thông tin trong trang tin được trình
KTTV Thời tiết hiện tại : Đà Nẵng 22°C Hải Phòng 17°C Nha Trang 25°C Pleiku
19°C Sơn La 22°C T.P Hồ Chí Minh 25°C Hà Nội 17°C Việt Trì 17°C Vinh 21°C
Cập nhật lúc: : 19h - 30/01/2015 Ảnh Radar Ảnh Vệ tinh Sản phẩm mô hình Bản đồ
thủy văn Liên kết -- Liên kết -- Bộ tài nguyên và môi trường Trung tâm khí tượng
thủy văn quốc gia Trang dự báo của Cơ quan Khí tượng Nhật bản Trang dự báo của
Cơ quan Khí tượng Hồng Kông Trang dự báo của Hải Quân Mỹ Sim so dep Tin tuc
Tin nhanh Doc bao sim so dep Sản phẩm mô hình dự báo Dự báo hạn ngắn Dự báo
hạn vừa Dự báo tháng Dự báo mùa
Có thể thấy thông tin ở các phần đã bị trộn lẫn với nhau.Phần đường liên kết tới các
trang, hình ảnh sẽ không được lưu lại.
Thông tin giữa các phần không được phân biệt rõ ràng nên việc tách các thông tin
không liên quan cần có xử lý cẩn thận và tùy từng trường hợp.
9
2.3.2. Tiền xử lý và gán nhãn dữ liệu
2.3.2.1 Loại bỏ các thông tin không liên quan
Trong các bản tin tiếng Việt từ internet, có thể thấy có rất nhiều thông tin không liên
quan chứa trong các bản tin này.Để loại bỏ những thông tin không liên quan, hệ thống
sẽ sử dụng các biểu thức chính quy để chỉ lọc các thông tin về thời tiết – đối tượng
chính mà hệ thống quan tâm.Một số tệp tin không chứa các thông tin thời tiết liên
quan, hoặc các trang thông tin tiếng Anh, cũng sẽ được loại bỏ.Việc kiểm tra trước khi
loại bỏ được thực hiện bằng sự hỗ trợ của công cụ hệ thống, và có thể cần sự kiểm tra
lại của người quản lý/người dùng của hệ thống.
Việc sử dụng biểu thức chính quy sẽ làm nổi bật các thông tin thời tiết, và cùng với sự
giám sát của người dùng, sẽ loại bỏ các thông tin không liên quan để lưu các thông tin
còn lại vào để xử lý bước tiếp theo.Tuy nhiên, các biểu thức chính quy đôi khi không
thể lọc hết các thông tin đó, do vậy người dùng cũng phải xem xét và cập nhật lại các
biểu thức, luật để sử dụng cho các lần sau.
sở dữ liệu rồi, thì xác suất xuất xuất hiện của từ đó trong từ điển sẽ tăng lên, ngược lại
thì sẽ thêm một mục trong từ điển và khởi tạo tần suất xuất hiện là 1. Ví dụ một phần
trong từ điển tách từ và từ loại tương ứng như sau
sáng NN:1
nhỏ JJ:1
vài D:2
hửng VB:1
đông_bắc NN:5
cấp NN:13
Tỉnh NC:2
Ngày NN:2
bắc NN:2
tây_bắc NN:2
rải_rác JJ:1
rải_rác NN:1
tại IN:1
phía_nam NN:2
Phía_bắc NN:1
phía_bắc NN:1
Ngoài ra, việc tách từ hoặc tách câu cũng cần phải dựa vào sự đánh giá của người quản
lý hệ thống. Do quá trình thu thập dữ liệu, loại bỏ các thông tin không liên quan có thể
làm mất định dạng hoặc khó phân biệt câu, đoạn liên kết với nhau, nên quá trình này
cần sự xem xét cẩn thận, hoặc đôi khi phải đối chiếu lại bản gốc từ bước thu thập. Do
đó, quá trình tách từ và xem xét nội dung mất thời gian và công sức của người xây
dựng, huấn luyện mô hình.
Công việc tách từ đôi khi cũng không thống nhất bởi chính người sử dụng hệ thống. Ví
dụ, “mùa đông”, “phía đông” có thể được coi như là một từ, hoặc tách riêng thành 2
mục khác nhau là “mùa”/“phía”, “đông”. Để đảm bảo và nâng cao độ chính xác của
mô hình, quá trình tách từ nên có sự hỗ trợ của công cụ hoặc cần một người hiểu biết
<mục từ 1>//NP//S_LOCATION
<mục từ 2>//NP//S_LOCATION
<mục từ 3>//NP//S_LOCATION
)
Với trường hợp các từ đơn thì việc gán nhãn đối tượng có tiền tố S_<tên nhãn>, có
nghĩa là bản thân từ đó là một đối tượng được xem xét. Ngoài ra, nếu một số từ ghép
với nhau mới tạo thành một đối tượng cần xem xét, quan tâm thì khi đó cách gán từ
loại cho đối tượng được thực hiện như sau
-Từ bắt đầu của đối tượng có tiền tố là B_<tên nhãn>
-Từ kết thúc của đối tượng có tiền tố là E_<tên nhãn>
-Các từ ở vị trí giữa, sẽ có tiền tố là M_<tên nhãn>
Một đối tượng gồm nhiều thành phần được gán nhãn có thể không có thành phần nhãn
M_<tên nhãn> hoặc có nhiều hơn 1 thành phần được gán nhãn M_<tên nhãn>.
Với các từ không được trợ giúp, người dùng cũng có thể thực hiện đơn giản bằng cách
sử dụng menu trợ giúp như hình minh họa:
13
Hình 7: Hỗ trợ gán nhãn đối tượng
Sau đó, từ sẽ được cập nhật nhãn đối tượng
Hình 8: Ví dụ kết quả gán nhãn đối tượng
2.3.3. Lựa chọn và trích chọn đặc trưng
Do sử dụng chương trình mã nguồn mở CRFSharp [23], chương trình sẽ sử dụng một
mẫu file để tạo ra tập các đặc trưng từ dữ liệu huấn luyện và kiểm thử. Trong đó mỗi
dòng trong file mẫu sẽ gồm tiền tố, định danh và xâu mô tả luật. Xâu mô tả luật chính
14
15
Quá trình xây dựng tập các đặc trưng từ các văn bản sẽ được thực hiện bằng cách xây
dựng mảng dữ liệu, trong đó có bản thân từ trong các văn bản và từ loại tương ứng.Tập
các đặc trưng có dạng
featureSet = {
{0,0} [“TRUNG TÂM”] {0,1} [“NN”]
{0,0} [“DỰ BÁO”]
{0,1} [“VB”]
{0,0} [“KHÍ TƯỢNG”]
{0,1} [“NN”]
{0,0} [“THỦY VĂN”]
{0,1} [“NN”]
…
}
Các tham số để xây dựng mô hình sẽ được sử dụng lại, thừa kế từ thư viện này.
16
Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT
BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN
3.1. Mộtsố nghiên cứu về trích chọn thông tintừ các trang tin
đóng gói để nói tới chương trình trích chọn.Vì vậy hai thuật ngữ bộ trích chọn và bộ
đóng gói có thể thay thế cho nhau.
Một bộ trích chọn thường thực hiện thủ tục khớp mẫu (một dạng của máy hữu hạn
trạng thái) dựa trên một tập các luật trích chọn. Phạm vi, độ phức tạp của thủ tục này
17