báo cáo thực tập tại đến công ty outsourceit vietnam đối tượng rút trích metadata của đề tài là những bài báo khoa học và có định dạng là tập tin - Pdf 22

Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
LỜI CẢM ƠN.
Đầu tiên, tôi xin gửi lời cảm ơn chân thành đến thầy ThS Huỳnh Ngọc Tín đã
giúp đỡ và giới thiệu tôi thực tập tại Công ty Outsourceit Vietnam. Không những thế,
trong quá trình thực tập thầy đã chỉ bảo và hướng dẫn tận tình cho tôi những kiến thức
lý thuyết, cũng như các kỹ năng trong lập trình, cách giải quyết vấn đề, đặt câu hỏi …
Thầy luôn là người truyền động lực trong tôi, giúp tôi hoàn thành tốt giai đoạn thực tập
tốt nghiệp.
Cho phép tôi gửi lời cảm ơn sâu sắc đến Công ty Outsourceit Vietnam đã tạo
mọi điều kiện thuận lợi giúp tôi cũng như các sinh viên khác hoàn thành giai đoạn thực
tập tốt nghiệp.
Chân thành cảm ơn đến các bạn trong nhóm thực tập đã hỗ trợ để tôi có thể
hoàn thành tốt công việc được giao.
Tôi xin chân thành biết ơn sự tận tình dạy dỗ của tất cả các quý thầy cô Khoa
Công nghệ phần mềm – Trường Đại học Công Nghệ Thông Tin – Đại học Quốc gia
TPHCM.
Lời cảm ơn chân thành và sâu sắc, tôi xin gửi đến gia đình, đã luôn sát cánh và
động viên tôi trong những giai đoạn khó khăn nhất.
Sinh viên
Võ Đinh Duy
Trang 1
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
ACKNOWLEDGMENTS
I would like to send my sincere thank to Md. Huynh Ngoc Tin for the support
and introducing me to Outsourceit Vietnam Company. From what he has taught me -
how to apply theory into application, the skills of raising questions, solving problems
all are valuable lessons that I have learned from my dedicated tutor that helps me
complete my internship well.
Moreover, I would like to send my appreciations to Outsourceit Vietnam
Company for giving me the chance to work in professional software company with
many advantages provided for internship and great colleagues network.

…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
ĐÁNH GIÁ KẾT QUẢ THỰC TẬP CỦA KHOA.
Trang 4
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………

CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP 11

Bảng 1: Tóm tắt quá trình thực tập tốt nghiệp 11
 !"
#$%&'()
#$*+,-%
#./0#
##12"+03#
#4567703809!#
#:;<+'4
#=5>96<'?>:
4./0@A!+&?>2'():
4./0B:
4CA!+&?>2'()B:
Bảng 2: Kế hoạch thực tập 18
:D.E77
FGBGHIJKCLMNCO
Trang 5
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
+%P1QO
J(P1QO
#$;R/0P!)
#88
#88
##S
#4
#:))8
4 >7TJUV!<H<W
4H?)+X?Y'#
4H?)+Z82[\?7T!/C)W#

MỤC LỤC 5

CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP 11

Bảng 1: Tóm tắt quá trình thực tập tốt nghiệp 11
 !"
#$%&'()
#$*+,-%
#./0#
##12"+03#
#4567703809!#
#:;<+'4
#=5>96<'?>:
4./0@A!+&?>2'():
4./0B:
4CA!+&?>2'()B:
Trang 8
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
Bảng 2: Kế hoạch thực tập 18
:D.E77
FGBGHIJKCLMNCO
+%P1QO
J(P1QO
#$;R/0P!)
#88
#88
##S
#4
#:))8
4 >7TJUV!<H<W

CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP.
1.1 Giới thiệu.
Thực tập tốt nghiệp là một giai đoạn quan trọng đối viên sinh viên năm cuối, đặc
biệt là sinh viên công nghệ thông tin. Thực tế công việc, cùng với những kinh nghiệm
và kỹ năng học tập được trong giai đoạn này, sẽ giúp cho sinh viên vững vàng hơn khi
đi vào công việc thực tế đầy áp lực. Với ý nghĩa thực tiễn đó, được sự cho phép của
nhà trường, tôi đã may mắn được là sinh viên thực tập tại Công ty Outsourceit
Vietnam, một công ty chuyên gia công phần mềm cho các đối tác nước ngoài. Với thời
gian thực tập khoảng 3 tháng, nhưng nó đã đem lại cho tôi nhiều kinh nghiệm và kỹ
năng trong công việc, cũng như nghiên cứu. Tôi được tham gia vào dự án IDRS
(Intelligent Document Retrieval System), một dự án nghiên cứu về vấn đề rút trích
thông tin metadata trong các bài báo khoa học. Cùng với những sinh viên thực tập khác
và với sự hướng dẫn tận tình của thầy Huỳnh Ngọc Tín, dự án IDRS hiện nay đã khá
hoàn chỉnh như những mục tiêu đề ra.
Tên công ty thực tập Outsourceit Int. Vietnam Co., Ltd
Địa chỉ 43/7 Hoàng Diệu, P12, Q4, Tp. HCM, Vietnam
Thời gian 15/03/2010 -> 15/06/2010
Cán bộ trực tiếp quản lý ThS Huỳnh Ngọc Tín
Dự án tham gia IDRS – Intelligent Document Retrieval System
Vị trí thực tập Developer
Bảng 1: Tóm tắt quá trình thực tập tốt nghiệp
Trang 11
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
1.2 Công ty Outsourceit Vietnam.
Công ty Outsourceit Vietnam là một chi nhánh của công ty Outsourceit
International AS, đặt trụ sở tại Nauy. Outsourceit Vietnam được thành lập vào năm
2007 với 100% vốn nước ngoài. Với hơn 3 năm thành lập tại Việt Nam, cùng với kinh
nghiệm hơn 10 năm của công ty mẹ tại Nauy, công ty Outsourceit Vietnam ngày càng
phát triển với đội ngũ kỹ thuật viên chuyên nghiệp. Outsourceit Vietnam chuyên cung
cấp xây dựng chương trình cho các khách hàng Châu Âu, thông qua công ty mẹ tại

Mục tiêu của đề tài là nghiên cứu cách rút trích thông tin metadata từ những bài báo
khoa học. Những thông tin metadata bao gồm: tiêu đề bái báo, các tác giả, nơi công
tác, email, các tài liệu tham khảo trong bài báo… Kết quả của quá trình rút trích sẽ
được sử dụng trong việc tổ chức dữ liệu cho thư viện số và làm giàu ontology.
1.3.3 Phạm vi nghiên cứu.
Đối tượng rút trích metadata của đề tài là những bài báo khoa học và có định dạng
là tập tin PDF. Đề tài thực tập tập trung nghiên cứu cách rút trích thông tin metadata,
còn việc tổ chức dữ liệu thư viện số và làm giàu ontology là hướng đi kế tiếp cho đề
tài, trong lần nghiên cứu này chúng tôi chưa đi sâu vào vấn đề đó.
1.3.4 Khảo sát các nghiên cứu liên quan.
Theo [6], hiện nay chúng ta có hai cách tiếp cận chính trong vấn đề rút trích thông
tin đó là: phương pháp máy học và những phương pháp khác dựa trên những luật kết
hợp với các tập từ điển và ontology. Cũng theo tài liệu [6], phương pháp rút trích máy
học bao gồm những phương pháp: symbolic learning, inductive logic programming,
grammar induction, Support Vector Machine, Hidden Markov models (HMMS) và
Trang 13
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
phương pháp thống kê. Phương pháp máy học cho ra kết quả rút trích chính xác khá
cao từ 96% đến 100% tùy theo từng loại metadata khác nhau [7][8]. Đối với phương
pháp sử dụng luật kết hợp với từ điển và ontology thì có nhiều cách tiếp cận khác nhau.
Như trong tài liệu [9], tác giả đã đưa ra gợi ý về phương pháp rút trích thông tin luận lý
(như tiêu đề, tác giả, các đinh nghĩa, bổ đề …) từ các bài báo toán học. Những thông
tin metadata được rút ra thông qua thuật toán rút trích luận lý, bao gồm hai giai đoạn.
Đầu tiên tác giả tiến hành phân đoạn văn bản (dựa trên các dấu hiệu như: khoảng trắng,
kiểu chữ, từ khóa) để xác định các heading, footnote, số trang, running header. Sau đó
sẽ tiến hành gán các nhãn metadata phù hợp cho từng đoạn văn bản dựa trên cách trình
bày layout, vị trí và thông tin kiểu chữ. Tác giả đã kiểm chứng phương pháp này với tỷ
lệ chính xác khá cao là 93,1%. Hay trong tài liệu [10], tác giả đề ra phương pháp làm
giàu ontology Artist bằng cách rút trích những thông tin liên quan đến các nghệ sĩ như:
ngày sinh, nơi sinh, nơi làm việc, ngày lập gia đình, tiểu sử; từ những kết quả tìm kiếm

trong giao tiếp.
1.4.2 Thời gian và kế hoạch thực tập:
Có thể chia quá trình thực tập thành hai giai đoạn chính là:
Trang 15
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
• Tìm hiểu ontology: Tìm hiểu ontology để có thể xây dựng một khung sườn
nhằm cho phép lưu trữ các thực thể, được rút trích thông qua IDRS, cũng như
những mối quan hệ hệ giữa những thực thể đó. Những công việc cụ thể là:
o Tìm hiểu khái niệm về ontology. Tìm hiểu những thành phần cấu thành nên
một ontology: concept (thực thể khái niệm), relationship (mối quan hệ),
attribute (thuộc tính), individual (cá thể) [1].
o Tìm hiểu công cụ Protégé. Công cụ này hỗ trợ cho chúng ta xây dựng một
ontology nhanh chóng và chính xác.
o Xem xét và tìm hiểu ngôn ngữ truy vấn ontology, SPARQL.
o Thiết kế và xây dựng module ontology dựa trên ý tưởng và mã nguồn của
Protégé.
• Tìm hiểu, ứng dụng GATE và luật ngữ pháp JAPE:
General Architecture for Text Engineering hay GATE là một phần mềm nguồn
mở có khả năng giải quyết hầu hết các vấn đề trong xử lý từ ngữ (text processing)
[2]. GATE là một công cụ được Đại học Sheffield nghiên cứu và phát triển từ năm
1995 và đến bây giờ nó đã được các nhà khoa học, giảng viên, sinh viên, công ty sử
dụng rộng rãi trong các thao tác xử lý ngôn ngữ tự nhiên, mà chủ yếu là rút trích
thông tin trong nhiều ngôn ngữ [3].
JAPE (Java Annotation Patterns Engine) cho phép chúng ta đưa ra và nhận dạng
các pattern trong một tài liệu. Nó hỗ trợ cho GATE rất nhiều trong quá trình xử lý
như: chặt câu, nhận dạng các thực thể…
Những công việc cụ thể trong giai đoạn này là:
Trang 16
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
o Tìm hiểu về GATE: các khái niệm cơ bản (Gate Document, Gate Corpus,

Trong chương này sẽ trình bày những ý tưởng và các bước để có thể rút trích được
thông tin Metadata
Chương tiếp theo sẽ nói về chương trình rút trích được nhóm xây dựng: các thông
tin khái quát về chương trình, giao diện sử dụng, thực nghiệm và đánh giá chương
trình.
Phần kết luận sẽ tổng hợp những nội dung kiến thức đã được tiếp cận, những kỹ
năng lập trình đã được học hỏi, kinh nghiệm thực tiễn đã tích lũy, những điều làm được
và chưa được trong dự án IDRS và phương hướng sắp tới
Trang 18
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT.
2.1 Giới thiệu về JAPE.
JAPE (Java Annotation Patterns Engine) là một thành phần của GATE, dùng để
nhận biết các thực thể được định nghĩa trước thông qua các luật, là ngôn ngữ dùng để
viết biểu thức đặc tả (RE – Regular expression) thông qua chú thích [4].
2.2 Luật JAPE.
Ngữ pháp JAPE bao gồm một tập các phase, mỗi phase có thể chứa nhiều luật tương
đương với định dạng các pattern khác nhau. Luật JAPE luôn luôn bao gồm 2 vế: trái
(Left) và phải (Right). Vế trái của luật chứa những mô tả về pattern. Chúng có thể chứa
các toán tử regular expression (như: *, ?, +). Vế phải bao gồm các chú thích do ta tự
định nghĩa, chúng chứa thông tin về tên nhãn. Ngoài ra vế phải có thể chứa mã code
Java để tạo hoặc chỉnh sửa các chú thích.
Sau đây là một ví dụ đơn giản:
1. Phase: Jobtitle
2. Input: Lookup
3. Options: control = brill
4.
5. Rule: Jobtitle1
6. (
7. {Lookup.majorType == jobtitle}

phải. Các nhãn phụ không được trùng nhau trong cùng một rule.
• Dòng 10 ” >”: là dấu hiệu ngăn cách giữa vế trái và vế phải.
Trang 20
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
• Dòng 11 “:jobtitle.JobTitle = {rule = "JobTitle1"}”: dòng này ta sẽ gán nhãn
chính thức cho một từ hay một ngữ mà có nhãn phụ là “jobtitle” và có luật là
“JobTitle1”.
2.3 Độ ưu tiên trong Jape.
Như đã nói trên, JAPE cung cấp 5 tùy chọn option đó là: brill, all, first, once,
appelt. Các tùy chọn này được khai báo ở đầu mỗi phase.
2.3.1 Brill.
Khi có nhiều hơn một luật trong cùng một vùng của tài liệu, thì tất cả các luật
này sẽ được chọn. Vì thế một vùng của tài liệu có thể được gán nhãn bằng nhiều tên
khác nhau, nên đối số “Priority” lúc này là không cần thiết.
Brill sẽ thực thi tất cả các luật phù hợp. Các luật này sẽ gán nhãn cho một vùng
tài liệu phù hợp với luật mà có độ lớn dài nhất.
2.3.2 All.
Chế độ All cũng tương tự giống với Brill, nó cũng sẽ thực thi tất cả các luật nào
phù hợp, nhưng chế độ so khớp vẫn tiếp tục thực thi từ một vùng tài liệu đã được gán
nhãn, thông qua luật này, trước đó.
Ví dụ: aaabbb
Khi áp dụng chế độ All thì ví dụ trên sẽ được gán nhãn như sau: [aaa[bbb]]. Vì
aaabbb và bbb cùng so khớp phù hợp với luật. Nếu chúng ta áp dụng luật Brill vào ví
dụ này thì nó sẽ được gán nhãn như sau [aaabbb].
2.3.3 First.
Chế độ này sẽ lựa chọn luật phù hợp đầu tiên để gán nhãn. Khi một luật đã được
chọn, thì chế độ này sẽ không cố gắng so khớp để có thể tìm ra vùng tài liệu phù hợp
dài hơn.
Trang 21
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112

Rule: Urlpre
(
(({Token.string == "http"} | {Token.string == "ftp"})
{Token.string == ":"}
{Token.string == "/"}
{Token.string == "/"} )
|
( {Token.string == "www"}
{Token.string == "."} )
): urlpre
>
:urlpre.UrlPre = {rule = "UrlPre"}
Luật trên định nghĩa một pattern cho phép nhận dạng tiền tố Url như http://,
ftp:// hay www. Quan sát ví dụ ta thấy loại chú thích (Annotation) Token và đặc tính
string của nó đã được sử dụng đến. Đặc tính string cho phép lấy ra chuỗi ký tự của
Token. Dùng toán tử “= =”để so sánh chuỗi ký tự trong Token với một chuỗi ký tự cụ
thể nào đó. Ví dụ trên cho ta thấy một pattern có thể được định nghĩa để so khớp với
những chuỗi ký tự cụ thể nào đó. Nếu chuỗi ký tự ấy xuật hiện trong tài liệu, thì nó sẽ
được gán một nhãn thích hợp.
2.4.2 So khớp với những loại chú thích khác (Annotation Types).
Ngoài khả năng so khớp với những chuỗi ký tự cụ thể, luật ngữ pháp JAPE còn cho
phép so khớp với những loại chú thích khác, đã được xử lý gán nhãn, trong các module
trước đó như: gazetteer, tokeniser, hoặc các module khác.
Trang 23
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
Rule: Known
Priority: 100
(
{Location}|
{Person}|

length Số lượng ký tự có trong
Token
Là một số nguyên dương
(>=1).
orth Cho biết trạng thái các ký
tự trong Token là viết hoa
hay viết thường.
upperInitial (chữ cái đầu
viết hoa, các chữ còn lại
thì không).
allCaps (tất cả các ký tự
đều viết hoa).
lowercase (tất cả các ký
tự đều viết thường).
mixedCaps (có cả ký tự
viết hoa và viết thường
trong chuỗi Token)
string Chuỗi ký tự của Token Chuỗi ký tự String
position Đặc tính này chỉ xuất hiện
khi Token là dấu câu
startpunct
Trang 25


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status