Download Khóa luận tốt nghiệp: Phân đoạn từ Tiếng Việt sử dụng mô hình CRFs
1. Mở đầu
1.1 Tính cấp thiết
Trong những năm gần đây, cùng với sự bùng nổ thông tin toàn cầu, thì lượng thông tin trên văn bản và web tiếng Việt cũng tăng lên nhanh chóng. Đây quả thực là một nguồn thông tin đầy tiềm năng cần được khai thác. Nếu chúng ta có thể sử dụng chúng để xây dựng một cơ sơ tri thức tiếng Việt thì ta sẽ có một cơ sở tri thức rất có giá trị. Song việc đó tới nay vẫn còn là một thách thức. Trong nỗ lực xây dựng một cơ sở tri thức tiếng Việt thì việc hiểu các văn bản tiếng Việt, tóm tắt văn bản tiếng Việt, hay phân loại văn bản tiếng Việt…là những công việc không thể thiếu được. Chính vì lý do đó, Bộ Khoa học - Công nghệ đã phê duyệt đề tài cấp nhà nước với tên gọi "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt" năm 2006. Một dạng điển hình về kết quả của đề tài là các công cụ cơ bản dùng để xử lý văn bản (tiếng Việt) như kiểm lỗi chính tả, phân tách từ, xác định loại từ, phân tích cú pháp... Công việc cơ bản đầu tiên có tính tiên quyết là phân đoạn từ tiếng Việt. Ý thức được những lợi ích của việc xây dựng cơ sở tri thức tiếng Việt nói chung và bài toán phân đoạn từ tiếng Việt nói riêng, em đã chọn hướng nghiên cứu trong khóa luận của mình là xây dựng một hệ thống phân đoạn từ tiếng Việt
1.2 Mục tiêu nghiên cứu
Đưa ra được một hệ thống phân đoạn từ với độ chính xác cao. Hệ thống phải thể hiện được những ưu điểm so với các phương pháp đã có hiện nay và có thể đưa vào ứng dụng được, nhằm vào mục tiêu xây dựng cơ sở tri thức tiếng Việt. Để làm được điều đó, trước hết ta cần xây dựng được bộ convert dữ liệu về dạng chuẩn phục vụ việc học máy. Đó là một chuỗi các quá trình xử lý dữ liệu: từ việc ghi lại từ internet và các nguồn khác, trính rút nội dung chính, phân đoạn từ bán tự động, đến việc chuyển dữ liệu đã xử lý về dạng chuẩn iob2. Tiếp theo mục tiêu của khóa luận là phải đưa ra được các lựa chọn thuộc tính tốt nhất cho học máy. Đó là việc áp dụng mô hình CRFs với những đặc điểm riêng của tiếng Việt, và nó hoàn toàn khác với các mô hình đã có trong tiếng Anh, tiếng Trung, Thái Lan…
2. Nội dung
2.1 Phân đoạn từ tiếng Việt
Từ vựng tiếng Việt
- Tiếng – đơn vị cấu tạo lên từ
- Cấu tạo từ
- Nhập nhằng
Phân đoạn từ tiếng Việt bằng máy tính
- Phương pháp Maximum Matching
- Phương pháp TBL
- Phương pháp WFST
Phương pháp tiếp cận của khóa luận
2.2 Conditional Random Field
Định nghĩa CRF
Huấn luyện CRF
Suy diễn CRF
2.3 Phân đoạn từ tiếng Việt với mô hình CRF
Mô tả bài toán phận đoạn từ tiếng Việt
- Thu thập dữ liệu
- Chuẩn bị dữ liệu
- Đầu vào và đầu ra của mô hình CRFs
Lựa chọn thuộc tính
- Mẫu ngữ cảnh từ điển
- Mẫu ngữ cảnh từ vựng
- Mẫu ngữ cảnh phát hiện tên thực thể
- Mẫu ngữ cảnh phát hiện từ láy
- Mẫu ngữ cảnh âm tiết tiếng Việt
- Mẫu ngữ cảnh dạng regular expression
Cách đánh giá
- Phương pháp đánh giá
- Các đại lượng đo độ chính xác
2.4 Thử nghiệm và đánh giá
Môi trường thử nghiệm
- Phần cứng
- Phần mềm
Mô tả thử nghiệm
- Thiết lập tham số
- Mô tả thử nghiệm
Kết quả thử nghiệm
- Thử nghiệm 1
- Thử nghiệm 2
- Thử nghiệm 3
- Thử nghiệm 4
- Thử nghiệm 5
Phân tích và thảo luận kết quả thử nghiệm
3. Kết luận
Khóa luận đã hệ thống hóa một số vấn đề về phân đoạn từ tiếng Việt bao gồm tìm hiểu về từ vựng tiếng Việt, các hướng tiếp cận bài toán phần đoạn từ tiếng Việt kèm theo đánh giá nhận xét. Đồng thời đề xuất phương án phân đoạn từ tiếng Việt bằng học máy sử dụng mô hình CRF, thực nghiệm trên dữ liệu tiếng Việt cho kết quả rất khả quan. Sau đây là tóm lược một số ý chính luận văn đã đề cập tới
- Đã trình bày hệ thống về mô hình CRF, gồm định nghĩa, các huấn luyện mô hình và cách suy diễn mô hình. Chương này cũng cho thấy mô hình CRF tốt hơn so với các phương pháp trước đó như MEMM…
- Đã mô tả chi tiết các phương pháp phân đoạn tiếng Việt theo hướng thi hành phương pháp áp dụng mô hình CRF. Quá trình thu thập và xử lý dữ liệu đã mô tả chi tiết. Đã đề xuất một số mẫu ngữ cảnh với các đặc điểm riêng của tiếng Việt. Chương này cũng đã đưa ra cách đánh giá độ chính xác của mô hình theo ước lượng chéo trên k tập con, với ba độđo là độ chính xác, độ hồi tưởng, và độđo F1.
Kết quả thực nghiệm và các đánh giá được trình bày chi tiết trong chương 4. Nhiều thử nghiệm đã được tiến hành để so sánh và tìm ra mô hình tốt nhất cho bài toán, và luận văn cũng đạt được những kết quả khả quan.
4. Tài liệu tham khảo
Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến. Cơ sở ngôn ngữ học và tiếng Việt. Nxb Giáo dục, H., 1997, trang 142–152.
Nguyễn Việt Cường. Bài toán lọc và phân lớp nội dung Web tiếng Việt với hướng tiếp cận Entropy cực đại. Luận văn tốt nghiệp ĐHCN 2005
Nguyễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể. Luận văn tốt nghiệp ĐHCN 2005
Website: http://ngonngu.net/
A. McCallum, D. Freitag, and F. Pereia. Maximum entropy markov models for information extraction and segmentation. In Proc. Interational Conference on Machine Learning, 2000
Andrew McCallum. Efficiently Inducing Features of Conditional Random Fields. Computer Science Department. University of Massachusetts....