BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
KHOA QUẢN LÝ ĐẤT ĐAI & BẤT ĐỘNG SẢN
BÁO CÁO TỐT NGHIỆP
ĐỀ TÀI:
ỨNG DỤNG PHẦN MỀM DTREG ĐỂ ĐÁNH GIÁ
THÍCH NGHI ĐẤT ĐAI CHO TRỒNG ĐIỀU TRÊN ĐỊA
BÀN HUYỆN ĐỊNH QUÁN TỈNH ĐỒNG NAI
SVTH
MSSV
LỚP
KHÓA
NGÀNH
:
:
:
:
:
PHAN NGUYỄN HOÀNG HẢI
07124027
DH07QL
2007 - 2011
Quản lý đất đai
TP. Hồ Chí Minh, tháng 8 năm 2011
nghiệm và bài học quý báu làm hành trang cho tôi trong cuộc sống và công
việc sau này.
Quý Anh, Chị đã giúp đỡ và tạo điều kiện thuận lợi để tôi an tâm hoàn
thành việc học.
Lời cuối cùng, tôi cảm ơn các bạn lớp Quản Lý Đất Đai Khóa 33, Quản
Lý Thị Trường Bất Động Sản khóa 33 đã đồng hành, giúp đỡ tôi trong suốt
thời gian học tập, sinh hoạt tại trường.
Với lòng biết ơn sâu sắc nhất, xin chúc quý thầy cô, quý anh chị, và các
bạn nhiều sức khỏe và thành công trong cuộc sống.
TP.Hồ Chí Minh, ngày 20 tháng 8 năm 2011
Sinh viên
Phan Nguyễn Hoàng Hải
TÓM TẮT
Sinh viên thực hiện: Phan Nguyễn Hoàng Hải, Ngành Quản Lý Đất Đai, Khoa
Quản Lý Đất Đai & Bất Động Sản, Trường Đại Học Nông Lâm TP.Hồ Chí Minh.
Đề tài: “ỨNG DỤNG PHẦN MỀM DTREG ĐỂ ĐÁNH GIÁ THÍCH NGHI
ĐẤT ĐAI CHO TRỒNG ĐIỀU TRÊN ĐỊA BÀN HUYỆN ĐỊNH QUÁN TỈNH
ĐỒNG NAI”
Giáo viên hướng dẫn: TS. Trần Thanh Hùng, Bộ môn Kinh tế Đất Đai & Bất
Động Sản, Khoa Quản Lý Đất Đai & Bất Động Sản Trường Đại Học Nông Lâm
TP.Hồ Chí Minh.
Hiện nay, trong công tác quản lý đất đai ở nước ta được pháp luật quy định thì
nội dung đánh giá đất đai là một trong hai nội dung quản lý quan trọng, nội dung này
có nhiệm vụ cung cấp căn cứ khoa học hỗ trợ cho việc lập quy hoạch sử dụng đất đai,
hoạch định các chính sách tài chính về đất đai và các công tác quản lý khác.
Mức độ chính xác của việc đánh giá phân hạng thích nghi không chỉ phụ thuộc
MỤC LỤC
ĐẶT VẤN ĐỀ............................................................................................................... 1
Phần 1
TỔNG QUAN ............................................................................................................... 3
1.1. Khái niệm, đặc điểm và vai trò của đất đai............................................................. 3
1.2. Tổng quan về đánh giá đất đai của FAO ................................................................ 5
1.2.1. Định nghĩa đánh giá đất đai của FAO ............................................................ 5
1.2.2. Một số khái niệm trong đánh giá đất đai........................................................ 5
1.2.3. Khái quát phương pháp đánh giá đất đai theo FAO ...................................... 6
1.3. Tổng quan về khai phá dữ liệu.............................................................................. 10
1.3.1. Khái niệm khai phá dữ liệu .......................................................................... 10
1.3.2. Quá trình khai phá dữ liệu............................................................................ 10
1.3.3. Chức năng của khai phá dữ liệu ................................................................... 11
1.3.4. Các kỹ thuật khai phá dữ liệu....................................................................... 11
1.3.5. Ứng dụng của khai phá dữ liệu: ................................................................... 12
1.3.6. Giới thiệu về phần mềm DTREG ................................................................ 12
1.4. Khả năng ứng dụng khai phá dữ liệu trong đánh giá đất đai ................................ 15
1.5. Khái quát về địa bàn nghiên cứu .......................................................................... 17
1.5.1. Điều kiện tự nhiên ........................................................................................ 17
1.5.2. Điều kiện kinh tế xã hội ............................................................................... 19
1.6. Nội dung và phương pháp nghiên cứu.................................................................. 23
1.6.1. Nội dung nghiên cứu .................................................................................... 23
1.6.2. Phương pháp nghiên cứu.............................................................................. 24
1.6.3. Phương tiện nghiên cứu ............................................................................... 24
Phần 2
KẾT QUẢ NGHIÊN CỨU ...................................................................................... 25
2.1. Đánh giá chung về điều kiện tự nhiên, kinh tế xã hội .......................................... 25
2.2. Khái quát về tài nguyên đất đai trên địa bàn huyện định quán ............................. 26
2.2.1. Phân loại các nhóm đất chính của huyện Định Quán .................................. 26
LQ (Land Quality)
: Chất lượng đất đai
LC (Land Characteristic)
: Tính chất đất đai
LUR (Land Use Requirements)
: Yêu cầu sử dụng đất
FAO (Food and Agriculture Organization) : Tổ chức lương - nông Liên hợp quốc
LE
: Đánh giá đất đai
LHSDĐĐ
: Loại hình sử dụng đất đai
KTXH
: Kinh tế xã hội
DANH MỤC BẢNG VÀ HÌNH
Bảng 1. Cấu trúc phân loại khả năng thích nghi đất đai .................................................. 9
Bảng 2. Cơ cấu các nhóm đất chính của huyện Định Quán .......................................... 26
Bảng 3. Hiện trạng sử dụng đất nông nghiệp ................................................................ 29
phụ thuộc vào việc xác định số lượng và loại yếu tố đặc điểm của đất đai, mà còn phụ
thuộc quyết định vào việc định lượng mối quan hệ giữa các yếu tố đặc điểm này với
năng suất cây trồng, hiệu quả kinh tế và giá trị đất đai. Tuy nhiên hiện nay việc định
lượng các mối quan hệ này còn mang tính kinh nghiệm chủ quan, nên căn cứ định
lượng phân cấp thích nghi của từng yếu tố đặc điểm đất đai có sai số lớn (±30%). Cho
nên, kết quả đánh giá phân hạng thích nghi đất đai chỉ có giá trị định hướng chung, mà
không thể sử dụng làm căn cứ khoa học cho việc định giá đất đai, phục vụ công tác
quy hoạch, hoạch định các chính sách tài chính về đất đai và các công tác quản lý
khác.
Để giải quyết vấn đề lượng hóa các nhà kinh tế lượng đề xuất sử dụng kỹ thuật
phân tích hồi quy tuyến tính bằng phương pháp bình phương bé nhất xác định hàm số
biểu thị sự phụ thuộc năng suất cây trồng vào các yếu tố đặc điểm đất đai. Hàm số
được xác định trong kinh tế học thường gọi là hàm sản xuất. Trong các hàm này biến
số phụ thuộc là năng suất cây trồng, còn biến số độc lập là các yếu tố đặc điểm đất đai,
tất cả các biến số thuộc loại liên tục (continuous) hay nhị nguyên (dichotomous). Hàm
hồi quy được xác định bằng các phần mềm phân tích thống kê hiện có Eview, SPSS,
NLREG,…
Tuy nhiên, trong thực tế không phải tất cả các yếu tố đặc điểm tự nhiên của đất
đai đều là các biến số thuộc loại liên tục hay có thể được chuyển về loại nhị nguyên,
mà còn là các đại lượng biến thiên có miền giá trị là các phạm trù, được gọi là biến rời
rạc (discrete) hay là biến phạm trù (categorical). Với biến phạm trù thì kỹ thuật và
công cụ phân tích hồi quy nêu trên lại tỏ ra kém hiệu quả trong việc xử lý dữ liệu. Các
kỹ thuật và công cụ khai phá dữ liệu được phát triển gần đây trong lĩnh vực khoa học
công nghệ thông tin thì lại tỏ ra hiệu quả và được ứng dụng rộng rãi trong việc xử lý
dữ liệu về môi trường, sinh học, kinh tế, xã hội, chính trị, ... với các biến số liên tục và
biến rời rạc bằng các mô hình cây quyết định (decision tree), máy phân lớp sử dụng
1
Ngành Quản lý đất đai
2
Ngành Quản lý đất đai
SVTH: Phan Nguyễn Hoàng Hải
Phần 1
TỔNG QUAN
1.1. Khái niệm, đặc điểm và vai trò của đất đai
Khái niệm đất đai
Đất đai là một loại tài nguyên tự nhiên, một loại tài nguyên sản xuất, bao gồm cả
lục địa và mặt nước trên bề mặt trái đất. Theo quan điểm kinh tế học thì đất đai không
chỉ bao gồm mặt đất còn bao gồm cả tài nguyên trong lòng đất và tất cả mọi thứ sinh
sôi trên mặt đất và trong lòng đất không do lao động và con người làm ra, tức là bao
gồm nước mặt đất và nước ngầm, thổ nhưỡng, thực vật và động vật. Với nghĩa chung
nhất, đó là lớp bề mặt của trái đất, bao gồm đồng ruộng, đồng cỏ, bãi chăn thả, cây
rừng, bãi hoang, mặt nước, đầm lầy và bãi đá... Với nghĩa hẹp thì đất đai biểu hiện
khối lượng và tính chất của quyền lợi hoặc tài sản mà một người có thể chiếm đối với
đất. Nó có thể bao gồm lợi ích trên đất về mặt pháp lý cũng như những quyền theo tập
quán không thành văn.
Đất đai là một nguồn tài nguyên thiên nhiên, là tư liệu sản xuất đặc biệt, là thành
phần quan trọng của môi trường sống, là địa bàn phân bố khu dân cư, xây dựng cơ sở
kinh tế, văn hoá, an ninh và quốc phòng.
Đất đai là tài sản vì đất đai có đầy đủ thuộc tính của một tài sản như: đáp ứng
được nhu cầu nào đó của con người, tức là có giá trị sử dụng; con người có khả năng
chiếm hữu và sử dụng; là đối tượng trao đổi, mua bán (tức là có tham gia vào giao lưu
dân sự)... Đất đai còn được coi là tài sản chuyển tiếp qua các thế hệ và được coi là một
dạng tài sản trong phương thức tích luỹ của cải vật chất của xã hội.
Đất đai cố định về vị trí, có giới hạn về không gian và vô hạn về thời gian sử
của con người, còn vị trí của đất đai là thuộc tính không gian địa lý (tự nhiên). Vị thế
không đồng nhất với vị trí, “Đồng sàng, dị mộng”.
Vậy tại sao trong nghiên cứu cũng như trong thực tế định giá đất đai và bất động
sản người ta chỉ nhắc đến “vị trí, vị trí và vị trí”? Phải chăng vị trí địa lý là yếu tố cấu
thành giá trị của đất đai, là thuộc tính quan trọng mà nhà định giá phải quan tâm.
Trước hết cần xem xét mối quan hệ giữa vị trí địa lý của đất đai và giá trị của nó.
Từ thực tế có thể khẳng định giữa chúng không có quan hệ với nhau. Vị trí tự bản thân
nó, tức vị trí trong trạng thái “trần trụi” không có ảnh hưởng tác động đến giá trị đất
đai, không phải là thuộc tính mà nhà định giá cần quan tâm.
Thuộc tính vị trí của đất đai mà các nhà định giá muốn nói đến chính là vị trí
trong không gian địa lý - kinh tế, vị trí trong không gian kinh tế - xã hội đô thị. Ở đây,
có thể nói, vị trí địa lý đã được bao phủ bởi các thuộc tính kinh tế - xã hội của đất đai,
hay nói theo ngôn ngữ của lý thuyết vị thế - chất lượng, đấy chính là vị thế, thuộc tính
tạo ra “khả năng sinh lời của vị trí”, thuộc tính so sánh lợi ích của các đơn vị diện tích
đất đai ở các vị trí khác nhau.
Tổ hợp vị thế xã hội và chất lượng tự nhiên trong một thửa đất cụ thể tạo ra một
khả năng đáp ứng nhu cầu hoạt động kinh tế - xã hội của con người, được gọi là dịch
vụ đất đai. Dịch vụ đất đai là đối tượng của cung cầu thị trường đất đai. Cung cầu về
đất đai trên thị trường là cung cầu về dịch vụ đất đai, chứ không phải là cung cầu về
một thửa đất cụ thể như một số tác giả đã khẳng định.
Đất đai có khả năng tái tạo và nâng cao chất lượng về mặt tự nhiên và vị thế xã
hội thông qua hoạt động đầu tư của con người.
Ngoài ra đất đai còn có một số đặc tính khác như: tính cố định, tính khan hiếm,
tính dị biệt, tính thích ứng và tính tăng trị.
Tính dị biệt tức sự khác biệt, nhưng chỉ khác biệt tương đối. Có nghĩa là các
thửa đất đai khác nhau về mặt lượng, chứ không khác nhau về mặt chất.
Tính cố định và khan hiếm do no giới hạn bởi bề mặt địa cầu và trong phạm
vi lãnh thổ của từng quốc gia.
Tính thích ứng là khả năng sử dụng vào các mục đích khác nhau.
Tính tăng trị có nghĩa là giá trị đất đai có xu hướng tăng dần do nhu cầu và
Đơn vị bản đồ đất đai là một phần của hệ thống sử dụng đất trong đánh giá đất.
Đây là một khoanh/vạt đất được xác định cụ thể trên bản đồ đơn vị đất đai (LUM) với
những đặc tính và tính chất đất đai riêng biệt thích hợp đồng nhất cho từng LUT, có
cùng một điều kiện quản lý đất và cùng một khả năng sản xuất và cải tạo đất.
Khái niệm về hệ thống sử dụng đất (Land use system – LUS)
LUS là một LUT bố trí trong một điều kiện tự nhiên cụ thể, có thể là một LMU. Nó
bao hàm cả vấn đề đầu tư, cải tạo đất và thu nhập có thể có.
Loại hình sử dụng đất đai (Land Use Type-LUT) Là những loại hình đặc biệt
của sử dụng đất được mô tả theo các thuộc tính nhất định. Các thuộc tính đó bao gồm: quy
trình sản xuất, các đặc tính về quản lý đất đai như sức kéo trong làm đất , đầu tư vật tư kỹ
thuật ... và các đặc tính về kinh tế kỹ thuật như định hướng thị trường, vốn thâm canh, lao
động, vấn đề sở hữu đất đai. Không phải tất cả các thuộc tính trên đều được đề cập đến như
nhau trong các dự án LE mà việc lựa chọn các thuộc tính và mức độ mô tả chi tiết phụ
thuộc vào tình hình sử dụng đất của địa phương cũng như cấp độ, yêu cầu chi tiết và mục
tiêu của mỗi dự án LE khác nhau .
Phân hạng thích hợp đất đai Phân hạng thích hợp đất đai là sự kết hợp các
tính thích hợp từng phần của các yếu tố chẩn đoán vào thành khả năng thích hợp tổng
thể của LMU cho một LUT nhất định. Ký hiệu phân hạng thích hợp đất đai: S1, S2, S3
và N1, N2
Đặc tính đất đai (Land Characteristic) Là thuộc tính của đất đai mà chúng ta có
thể đo đếm và ước lượng được, tính chất đất đai được dùng để phân biệt các đơn vị bản
đồ đất đai với nhau và để mô tả các đặc tính đất đai.
Đặc tính đất đai bao gồm:
Khí hậu: mưa, gió, nhiệt độ không khí, ẩm độ, bức xạ,….
Đất: sa cấu, ẩm độ chất, các chất trong đất, độ sâu tầng đất,…
Nước: độ sâu ngập, thời gian ngập, khối lượng nước hồ, ….
Địa hình /địa chất: mẫu chất, cao độ, độ dốc,….
5
hợp với yêu cầu cần thiết của con người về bảo vệ nguồn tài nguyên thiên nhiên trong
tương lai.
1.2.3. Khái quát phương pháp đánh giá đất đai theo FAO
1. Mục đích
Xác định và xây dựng nguyên lý, quan điểm và quy trình LE cho sử dụng đất
nông nghiệp như: trồng trọt, chăn nuôi, thủy sản; lâm nghiệp, bảo tồn thiên nhiên.
Có khả năng áp dụng được cho toàn cầu và xuống đến cấp địa phương của
cả các quốc gia.
Cung cấp những thông tin cần thiết cho quy hoạch sử dụng đất đai.
Hệ thống này được sử dụng như là nền tảng để đánh giá các hệ thống LE
hiện có thông qua sự so sánh và kết quả.
Với hệ thống này sẽ là cơ sở cho việc nghiên cứu thành những hệ thống LE
mới riêng cho các vùng chuyên biệt.
2. Nguyên tắc đánh giá đất đai
Khả năng thích nghi của đất đai được đánh giá và phân hạng cho các loại
hình sử dụng đất (các LUT) cụ thể.
6
Ngành Quản lý đất đai
SVTH: Phan Nguyễn Hoàng Hải
Việc đánh giá đòi hỏi có sự so sánh giữa lợi nhuận thu được và đầu tư cần
thiết trên các loại đất khác nhau (phân bón, lao động, thuốc trừ sâu, máy móc, ... ).
Đánh giá yêu cầu phải có quan điểm tổng hợp, nghĩa là phải có sự phối hợp
và tham gia đầy đủ của các nhà nông học, lâm nghiệp, kinh tế và xã hội học.
Việc đánh giá đất đai phải phù hợp với điều kiện tự nhiên, kinh tế –xã hội
của vùng, khu vực nghiên cứu.
Khả năng thích hợp đưa vào sử dụng phải dựa trên cơ sở bền vững, các
4
Xác định
đơn vị đất
đai
5
Đánh
giá
khả
năng
thích
hợp
6
Xác định
Hiện
trạng
KTXH –
môi
trường
7
Xác định
LHSDĐĐ
thích hợp
nhất
8
Quy
hoạch
- Những yêu cầu và ưu tiên của chủ sử dụng đất.
- Các điều kiện tổng quát về kinh tế - xã hội và sinh thái nông nghiệp trong
vùng đánh giá đất.
5) Quyết định các yêu cầu sử dụng đất (chủ yếu về tự nhiên và sinh học) cho
mỗi loại hình sử dụng đất được lựa chọn.
6) Đối chiếu xếp hạng các LUT trên cơ sở so sánh các yêu cầu sử dụng đất của
các LUT với các tính chất đất đai của LMU nhằm xác định mức độ phù hợp của các
tính chất đất đai của mỗi LMU cho mỗi LUT. Quá trình đối chiếu này là tiền đề của
nội dung phân hạng tích hợp của các LMU cho từng LUT. Tiến hành phân hạng thích
hợp đất đai cho các LUT đã đối chiếu.
7) Đề xuất hệ thống sử dụng đất tối ưu và các giải pháp tạo các LUT thích hợp
phục vụ quy hoạch sử dụng đất và tăng cường công tác quản lý, bảo vệ tài nguyên đất
của vùng.
5. Cấu trúc phân hạng thích hợp đất đai theo FAO
a. Cấu trúc tổng quát của phân loại khả năng thích nghi đất đai: gồm 4 cấp
- Bộ (Orders): phản ánh các loại thích nghi. Trong bộ phân ra làm 2 mức: thích
nghi (S) và không thích nghi (N).
- Lớp (Classes): phản ánh mức độ thích nghi của bộ.
- Lớp phụ (Sub-classes): phản ánh những giới hạn cụ thể của từng đơn vị đất đai
với từng loại hình sử dụng đất. Những yếu tố này tạo ra sự khác biệt giữa các dạng
thích nghi trong cùng một lớp.
- Đơn vị (Units): phản ánh những sự khác biệt về yêu cầu quản trị của các dạng
thích nghi trong cùng một lớp phụ.
Bộ thích nghi đất đai được chia làm 3 lớp: S1 (thích nghi cao), S2 (thích nghi
trung bình), S3 (thích nghi kém).
S1: Thích nghi cao (Highly Suitable): Đất đai không thể hiện những hạn chế
hoặc chỉ thể hiện những hạn chế ở mức độ nhẹ, rất dễ khắc phục. Sản xuất trên đất này
sẽ dễ dàng và cho hiệu quả cao.
S2: Thích nghi trung bình (Moderately Suitable): Đất đai có thể hiện các hạn
chế nhưng ở mức độ trung bình có thể khắc phục được bằng các biện pháp kỹ thuật
L ớp phụ (Sub-class)
S1
S2
S3
S2/Sl (*)
S2/De
S2/Ir
N1
N2
Đơn vị (Unit)
S2/De1 (**)
S2/De2
S2/De3
....
N1/Ir
N1/De
…
(*)Yếu tố hạn chế (Sl: độ dốc; De: độ dày tầng đất mặt; Ir: khả năng tưới)
(**)Yếu tố hạn chế trong cùng 1 lớp phụ, phản ảnh sự khác biệt về mặt quản trị
(ví dụ: De1: <50cm, De2: 50-100cm, De3: >100cm)
b. Phương pháp xác định loại khả năng thích nghi đất đai:
Kết hợp theo điều kiện hạn chế:
Sử dụng theo cấp hạn chế cao nhất để kết luận khả năng thích nghi chung. Thí
chế của phương pháp này chúng ta nên đồng thời áp dụng phương pháp chủ quan, thảo
luận kỹ càng giữa các chuyên gia và người sử dụng đất. Đồng thời có xem xét thêm
vấn đề kinh tế xã hội và môi trường để điều chỉnh hạng đất cho phù hợp thực tế.
1.3. Tổng quan về khai phá dữ liệu
1.3.1. Khái niệm khai phá dữ liệu
Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri
thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có.
1.3.2. Quá trình khai phá dữ liệu
Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức. Thuật
ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ
sở dữ liệu (knowledge discovery in database_KDD) (theo Fayyad Smyth and
Piatestky-Shapiro 1989). Quá trình này gồm có 6 bước:
Hình 1. Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức
được chiết xuất ra. Nội dung của quá trình như sau:
Gom dữ liệu (gatherin)
Trích lọc dữ liệu (selection)
Ở giai đoạn này dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào
đó.
Làm sạch và tiền xử lý dữ liệu (cleansing preprocessing).
Chuyển đổi dữ liệu (transformation)
10
Ngành Quản lý đất đai
SVTH: Phan Nguyễn Hoàng Hải
Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục
1 lớp). Mô hình được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình
chấp nhận được.
Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ
liệu vào các cụm, sao cho các đối tượng thuộc cùng một lớp là tương đồng.
Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá
trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm
được. Phương pháp khai phá luật kết hợp gồm có hai bước:
- Bước 1: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến được xác
định thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu.
11
Ngành Quản lý đất đai
SVTH: Phan Nguyễn Hoàng Hải
- Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả
mãn độ hỗ trợ và độ tin cậy cực tiểu.
Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở chỗ nó
dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị
rời rạc.
Giải thuật di truyền
Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng chính của giải thuật
là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh
học.
Mạng nơron
Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay.
12
Ngành Quản lý đất đai
SVTH: Phan Nguyễn Hoàng Hải
DTREG phân tích giá trị và cho ra một mô hình chỉ cách tốt nhất để dự đoán giá trị
của biến kết quả dựa trên giá trị biến cho trước.
Ngoài việc xây dựng mô hình dự báo, DTREG còn thực hiện V-fold qua sự xác
nhận tính hợp lệ và lấy mẫu những cản trở để đo chất lượng mô hình.
DTREG có thể tạo những mô hình cây đơn cổ điển cũng như TreeBoost,
Decision Tree Forest gồm có nhiều cây. DTREG cũng có thể xây dựng mô hình
Support Vector Machine (SVM) và Hồi quy logictic (Logistic Regression) .
DTREG bao gồm ngôn ngữ chuyển đổi dữ liệu (DTL: data transformation
language) để chuyển đổi biến, tạo ra biến mới và chọn các dòng để phân tích.
Đặc điểm của DTREG
Dễ sử dụng: DTREG là một ứng dụng thiết thực được cài đặt dễ dàng trên các
hệ thống Windows bất kỳ. DTREG dùng giá trị phân cách dấu phẩy những file dữ liệu
để dễ dàng tạo ra hầu hết các nguồn dữ liệu bất kỳ. Một khi bạn tạo những file dữ liệu
của bạn, ngay khi cung cấp nó vào trong DTREG, và để DTREG làm tất cả công việc
tạo cây quyết định, SVM hoặc mô hinh Logistic Regression. Ngay cả những phân tích
phức tạp cũng có thể thực hiện trong vài phút.
Cây phân lớp và cây hồi quy: DTREG có thể xây dựng cây phân lớp nơi mà
biến kết quả được dự đoán là categorical và cây hồi quy khi mà biến kết quả là
continuous như số lượng thu vào hoặc bán ra.
Single-tree, TreeBoost, Decision Tree Forests, Support Vector Machine và
Logistic Regression: Bằng cách đánh dấu (check) một button, bạn có thể điều khiển
DTREG xây dựng một lớp mô hình single-tree, một mô hình treeBoost gồm có một
chuỗi cây, Decision Tree Forest.
source code C, C++ và SAS@ để tính toán giá trị dự đoán. Source code này có thể
được bao gồm trong chương trình ứng dụng để thực hiện việc cho điểm vùng dữ liệu
lớn.
Có khả năng rất mạnh: Enterprise Version của DTREG có thể sử dụng
không giới hạn số dòng dữ liệu. DTREG có thể xây dựng cây phân lớp với những biến
dự báo có hàng trăm loại biến dự báo được sử dụng một thuật toán gom cụm hiệu quả.
(Nhiều chương trình cây quyết định khác hạn chế biến dự báo tối đa là 16 loại).
Thư viện DTREG COM: DTREG COM Library có thể được gọi từ chương
trình ứng dụng để tính toán dự báo giá trị biến kết quả sử dụng cây quyết định phát
sinh bởi DTREG.
2. Cây quyết định
Một trong những phương pháp mô hình hóa phức tạp nhất là cây quyết định và
phương pháp “tập hợp” (ensemble) cây, như TreeBoost và Decision Tree Forest.
Chương trình DTREG phân tích (“khai thác”) tập giá trị dữ liệu và tạo ra cây
quyết định. Cây quyết định có thể sử dụng để dự đoán giá trị của biến target dựa trên
những giá trị của những biến predictor. Giống như một cái cây thật, cây quyết định có
gốc, nhánh và lá. Một dự đoán được tạo bằng cách vào cây tại gốc và theo nhánh trái
hoặc phải dựa vào giá trị biến predictor cho đến khi tới lá. Mỗi lá chỉ ra giá trị có khả
năng phù hợp nhất cho biến target đã cho bởi giá trị predictor dẫn đến lá.
Khái niệm cây quyết định đã có từ lâu, nó bắt nguồn từ khái niệm cơ bản về quá
trình suy diễn, nhưng khả năng phân tích một tập dữ liệu lớn với nhiều biến lại đòi hỏi
năng lực của máy tính rất lớn mà điều này là không khả thi cho đến hiện nay, khi mà
những máy tính tốc độ cao được phát triển.
Cây quyết định có một số thuận lợi hơn trong cạnh tranh.
Đặc điểm của những mô hình cây quyết định cơ sở:
Cây quyết định dễ xây dựng: Ngay khi cung cấp tập dữ liệu vào DTREG, nó
sẽ làm tất cả các công việc xây dựng cây quyết định và tỉa (rút gọn) nó 1 cách hiệu quả
nhất.
Cây quyết định dễ hiểu: Trái với sự phức tạp của các mô hình hồi quy phi
tuyến, hay các mạng Neural. Cây quyết định cung cấp một mô hình trình bày dữ liệu
hình cây đơn cổ điển cũng như mô hình Tree Boost và Rừng Cây Quyết Định. Đối với
nhiều ứng dụng phương pháp cây tổng quát sản sinh những kết quả đúng đắn nhất của
những phương pháp mô hình bất kỳ
1.4. Khả năng ứng dụng khai phá dữ liệu trong đánh giá đất đai
Trong phương pháp đánh giá đất của FAO, ở Việt Nam thông thường trong các
đánh giá đất đai hiện nay thường áp dụng phương pháp kết hợp theo điều kiện hạn chế,
dựa vào mức độ thích nghi của các yếu tố thành phần, mức độ thành phần tổng hợp
được xác định theo nguyên tắc dựa vào cấp hạn chế cao nhất để kết luận khả năng
thích nghi chung, mà không tính đến tầm quan trọng và sự tương tác hỗ trợ thay thế
giữa các yếu tố thành phần. Việc đánh giá phân hạng thích nghi đất đai của FAO là do
sự nhận định chủ quan của người đánh giá xác định theo đặc điểm, đặc tính sinh lý của
loại cây trồng mà các nhà nông học đã nhận định để đưa ra những cấp phân hạng S1,
S2, S3, N. Do đó làm cho kết quả đánh giá phân hạng thích nghi đất đai chỉ có giá trị
định hướng chung.
Để khắc phục những hạn chế của phương pháp đánh giá đất của FAO có thể ứng
dụng kỹ thuật khai phá dữ liệu vào trong đánh giá đất đai. Từ năng suất cây trồng
trong quá trình canh tác ta tiến hành phân tích hồi quy cây quyết định để định lượng
trong đánh giá đất đai. Phân tích hồi quy cây quyết định dựa trên nền tảng toán rời rạc,
các biến yếu tố đặc điểm đất đai ví dụ như loại đất (đất đỏ, đất đen, đất xám….) được thể
hiện dưới dạng TEXT, dạng mô phỏng gọi là biến phạm trù (categorical), mà không phải
dưới dạng các biến số liên tục hay biến nhị nguyên như trong các phần mềm phân tích
thống kê hiện có Eview, SPSS,… Kết quả phân tích hồi quy cây quyết định sẽ cho ta
kết quả là một tổ hợp các yếu tố đặc điểm của đất đai, tương ứng với mỗi tổ hợp đó là
một mức sản lượng trung bình với sai số cho phép.
Chương trình DTREG là phần mềm phân tích thống kê mạnh mẽ nó đáp ứng các
yêu cầu cho việc phân tích hồi quy cây quyết định. Ngay khi cung cấp tập dữ liệu vào
DTREG, nó sẽ làm tất cả các công việc xây dựng cây quyết định, phân tích hồi quy và
tỉa (rút gọn) dữ liệu 1 cách hiệu quả nhất. Trái với sự phức tạp của các mô hình hồi
quy phi tuyến, hay các mạng Neural. Cây quyết định cung cấp một mô hình trình bày
dữ liệu rõ ràng, logic.
Thuộc tính A có các giá trị {a1, a2, …,an}. Dùng thuộc tính A để phân chia tập dữ
liệu thành n tập con {S1, S2,…,Sn}
Sij: số mẫu của lớp Ci thuộc tập con Sj (A = aj)
- Entropy của thuộc tính A:
E(A)
n
s 1 j ... s mj
j 1
s
I ( s 1 j ,..., s mj )
- Độ lợi thông tin dựa trên phân nhánh bằng thuộc tính A:
G(A) I(s1 , s 2 ,..., s m ) E(A)
Chỉ số Gini (Gini Index): trái với Gain, Gini đo độ “không trong suốt” của
thông tin, phép chia được chọn là phép chia có chỉ số Gini thấp nhất.
Chỉ số Gini của nút t:
GINI(t ) 1 p( j t )
2
Như vậy, xét cho cùng, tuy với cách thức khác nhau, nhưng về bản chất vấn đề,
các phương pháp đều nhằm tối thiểu hóa sự hỗn loạn, và tối đa hóa độ lợi thông tin.
Tuy nhiên, khả năng ứng dụng của mỗi loại mô hình trong đánh giá đất đai là khác
nhau.
Hồi quy cây quyết định
- Dự báo các loại hình sử dụng đất thích hợp từ các biến liên tục và rời rạc. Do
đó mở ra khả năng nghiên cứu chính xác hơn ảnh hưởng của nhiều yếu tố đặc điểm đất
đai đến loại hình sử dụng đất, tiềm năng sử dụng đất nông nghiệp.
- Kết quả là một mô hình trình bày dữ liệu một cách dễ hiểu, rõ ràng. Việc dự
báo loại hình sử dụng đất thích hợp, phân cấp thích nghi đất đai hiển thị trên mô hình,
không cần tính toán.
- Cây quyết định xử lý được sự tương tác giữa các biến: tự động phân phối
những tương tác này bằng cách chia những trường hợp và phân tích mỗi nhóm một
cách riêng biệt. Từ đó thấy được mức độ tác động khác nhau của các yếu tố đến tiềm
năng sử dụng đất nông nghiệp tại những phân khúc khác nhau.
- Cây quyết định nhận ra những biến quan trọng, tạo nên sự khác biệt lớn khả
năng thích nghi đất đai.
Bằng các mô hình cây quyết định (decision tree), và phần mềm DTREG (Phillip
H. Sherrod, 2003) có thể định lượng mối quan hệ giữa các yếu tố đặc điểm đất đai với
năng suất cây trồng, phân cấp thích nghi của từng yếu tố đặc điểm đất đai với sai số
nhỏ hơn rất nhiều. Trong đề tài này, chúng tôi chọn huyện Định Quán – tỉnh Đồng
Nai, loại hình sử dụng đất là đất trồng điều làm ví dụ để ứng dụng khai phá dữ liệu để
định lượng trong đánh giá đất đai.
1.5. Khái quát về địa bàn nghiên cứu
1.5.1. Điều kiện tự nhiên
1. Vị trí địa lý
Huyện Định Quán với diện tích tự nhiên 971,23 km2 là huyện trung du phía Bắc
tỉnh Đồng Nai thuộc vùng Kinh tế trọng điểm phía Nam (KTTĐPN) – vùng kinh tế
năng động nhất cả nước.
Huyện Định Quán nằm trong tọa độ 110 00’30’’ – 110 25’00’’ vĩ độ Bắc và
chủ yếu của vành đai tín phong và khí hậu nhiệt đới ít hơi ẩm, nóng và hầu như không
mưa. Tuy nhiên do ảnh huởng của những cánh rừng phía bắc nên nhiệt độ không khí
phần nào đuợc điều hoà và dịu đi so với tính chất thực của nó.
- Mùa mưa: từ tháng 5 đến tháng 10, cũng chịu ảnh huởng chung của khí hậu
vùng Đông Nam Bộ, có gió mùa Tây Nam mang nhiều hơi ẩm từ biển Ấn Độ Duơng
khí hậu xích đạo nhiệt đới có đặc tính nóng ẩm và mưa nhiều. Ngoài ra còn chịu ảnh
huởng của vùng khí hậu cao nguyên (Bảo Lộc – Lâm Đồng) nên luợng mưa theo mùa
thương lớn, và đây cũng là nguồn nước chính cung cấp cho hồ Trị An
Nhiệt độ trung bình từ 23oC đến 29oC chênh lệch nhiệt độ không cao giữa các
tháng trong năm, giữa các ngày trong tháng, giữa ngày và đêm.
- Tổng tích ôn cao và nhiệt độ ít phân hoá tạo điều kiện cho việc bố trí các thời vụ
cây trồng trong năm. Tuy nhiên lượng mưa phân bố không đồng đều thường gây ảnh
hưởng đến sự tăng trưởng của cây trồng đặc biệt là sự lây lan sâu bệnh. Do đó cần phân
vùng nông nghiệp và lựa chọn cơ cấu cây trồng cho thích hợp với từng mùa vụ trong
năm.
- Do ảnh hưởng vùng cao nguyên Bảo Lộc – Lâm Đồng là sờn chắn gió tây
mang nhiều hơi ẩm từ biển Ấn Độ Dương nên lượng mưa ở Định Quán tương đối lớn
từ 2500 – 2800mm/ năm, có số ngày mưa từ 150 – 160 ngày/năm. Lượng mưa thường
phân bố theo mùa. Huyện Định Quán nằm trong vùng có lượng mưa cao nhất của tỉnh,
trung bình hàng năm từ 2.500 – 2.800mm. Khí hậu có hai mùa rõ rệt: mùa khô từ
tháng 11 đến tháng 4, vào thời gian này hầu như không có mưa. Mùa mưa từ tháng 5
đến tháng 10 chiếm 90% tổng lượng mưa cả mùa mưa, số ngày mưa từ 150 – 170
ngày/năm.
Có hai huớng gió chính và thổi theo mùa. Mùa khô có gió Đông Bắc (khô và
nóng), mùa mưa có gió Tây Nam (ẩm và nóng).
4. Thuỷ văn
Trên địa bàn có 02 tuyến thủy văn quan trọng: Sông Đồng Nai và Sông La Ngà
- Sông Đồng Nai bắt nguồn từ dãy Trường Sơn Nam, có độ dốc bình quân lưu vực
4,6%, độ cao trung bình lưu vực 470m, độ cao nguồn 1700m, lưu vực nước 30 tỷ
m3/năm.