Luận văn tốt nghiệp: Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
388 1
Tải về máy để xem đầy đủ hơn, bản xem trước là bản PDF
Tags: #luận văn#luận án#đồ án#khóa luận#báo cáo
Mô tả chi tiết
1. Mở đầu
Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Tuy nhiên tồn tại một nghịch lý là dù được ví như thư viện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xung quanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữa con người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có thể giao tiếp tốt với nhau. Hơn nữa, mỗi search engine sẽ mang đặc thù của ngôn ngữ mà nó hiển thị như search engine Tiếng Việt phải giải quyết những vấn đề đặc trưng của Tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp trong Tiếng Việt. Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine sẽ tiếp cận thì ta có thể tối ưu hoá cơ hội nhận được các thông tin hữu ích. Đây là mục tiêu chính của luận văn.
2. Nội dung
2.1 Tổng quan về hệ thống Search Engine
Các bộ phận cấu thành hệ thống Search Engine
- Bộ thu thập thông tin – Robot
- Bộ lập chỉ mục – Index
- Bộ tìm kiếm thông tin – Search Engine
Nguyên lý hoạt động
2.2 Bộ thu thập thông tin – Robot
Ứng dụng của Robot
- Phân tích, thống kê – Statistical Analysis
- Duy trì siêu liên kế - Maintenance
- Ánh xạ địa chỉ web - Mirroring
- Phát hiện tài nguyên – Resource Discovery
- Kết hợp các công dụng trên- Combined uses
Robot chỉ mục – Robot Indexing
Các chiến thuật thu thập dữ liệu
- Chiến thuật tìm kiếm theo chiều sâu
- Chiến thuật tìm kiếm theo chiều rộng
- Chiến thuật tìm kiếm theo ngẫu nhiên
Những vấn đề cần lưu ý của web robot
- Chi phí và hiểm hoạ
- Tiêu chuẩn loại trừ robot
2.3 Bộ lập chỉ mục – Index
Khái quát về hệ thống lập chỉ mục
Tổng quan về phương pháp lập chỉ mục
- Xác định mục từ quan trọng cần lập chỉ mục
- Một số hàm tính trọng số mục từ
- Lập chỉ mục tự động cho tài liệu
Lập chỉ mục cho tài liệu tiếng Việt
- Khó khăn cho việc lập chỉ mục tiếng Việt
- Đặc điểm về từ trong tiếng Việt và việc tách từ
- Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả)
- Giải quyết các vấn đề về từ của tiếng Việt
- Xây dựng từ điển tiếng Việt
2.4 Bộ tìm kiếm thông tin – Search Engine
Vì sao ta cần một công cụ tìm kiếm (SE)?
Các phương thức tìm kiếm
- Tìm theo từ khoá – Keyword searching
- Những khó khăn khi tìm theo từ khoá
- Tìm theo ngữ nghĩa – Concept-based searching
Các chiến lược tìm kiếm
- Tìm thông tin với các thư mục chủ đề
- Tìm thông tin với các công cụ tìm kiếm
- Tối ưu câu truy vấn
- Truy vấn bằng ví dụ
2.5 Một số Search Engine thông dụng trên thế giới và Việt Nam
Một số search engine thông dụng trên thế giới
- Thư mục của Yahoo, Google
- Alltheweb
- AltaVista
- Lycos
- HotBot
Một số search engine thông dụng ở Việt Nam
- Netnam
- Vinaseek
2.6 Thiết kế dữ liệu
Cơ sở dữ liệu trong SQL
Hệ thống tập tin
2.7 Thu thập thông tin
Cấu trúc dữ liệu
- Cấu trúc UrlInfo
- Cấu trúc StartUrlInfo
- Cấu trúc FileRetrieval
- Cấu trúc ProjectInfo
Xử lý của web robot
Giải quyết các vấn đề của web robot
- Tránh sự lặp lại
- Tránh làm qúa tải server
- Tránh truy xuất đến các dạng tài nguyên không thích hợp
- Tránh các lỗ đen (black holes)
- Tránh những nơi cấm robot
Các thuật toán phân tích cấu trúc file HTML
- Thuật toán lấy liên kết
- Thuật toán lấy tiêu đề
- Thuật toán lấy nội dung
Duy trì thông tin cho cơ sở dữ liệu
Resume project
- Nguyên tắc resume của ứng dụng cũ
- Cải tiến của ứng dụng mới
2.8 Lập chỉ mục
Tính trọng số của từ
Tập tin nghịch đảo
Từ điển chỉ mục
Quá trình stemming
2.9 Các module, package, lớp chính của chương trình
Các module, package của chương trình
Các lớp đối tượng chính trong từng module
3. Kết luận
Về cơ bản luận văn đã thực hiện tốt các nội dung đề ra và đạt được một số kết quả nhất định :
- Luận văn đã trình bày cơ sở lý thuyết về nguyên lý vận hành của một hệ thống search engine.
- Tìm hiểu các phương thức và chiến lược trong việc thiết kế từng module cụ thể cho hệ thống.
- Tìm hiểu các vấn đề đặc trưng của một hệ thống thu thập thông tin hoạt động trên môi trường mạng. Đề xuất một vài giải pháp xử lý những khó khăn của webrobot.
- Tìm hiểu các vấn đề đặc trưng của một hệ thống search engine tiếng Việt. Đề xuất một vài giải pháp đơn giản để xử lý những vấn đề khó khăn của tiếng Việt.
- Tìm hiểu hoạt động, thống kê một số đặc trưng và cách sử dụng của một số search engine thông dụng trên thế giới và Việt Nam
- Tìm hiểu cơ bản về Semantic Search Engine
- Xây dựng ứng dụng thử nghiệm cho một hệ thống search engine tiếng Việ
4. Tài liệu tham khảo
Gerard Salton, Michael J.McGill, Introduction to Modern Information Retrieval
C.J. van Rijsbergen , Department of Computing Science University of Glasgow, Information Retrieval
Huỳnh Thụy Bảo Trân. Luận án thạc sĩ khoa học. Nghiên cứu một số mô hình và xây dựng thử nghiệm một search engine Tiếng Việt. Người hướng dẫn khoa học : GS.TS.Hoàng Văn Kiếm.
Đoàn Hữu Quang Vinh. Luận văn cử nhân tin học. Xây dựng công cụ hỗ trợ quá trình tiền xử lý cho hệ thống search engine. GVHD : Huỳnh Thụy Bảo Trân.
Bùi Ngọc Tuấn Anh, Trần Nguyễn Hoàng Phương. Luận văn cử nhân tin học. Nghiên cứu một số thuật toán tra cứu thông tin trên Internet và cài đặt thử nghiệm. GVHD: Hồ Bảo Quốc...