Download Luận văn tốt nghiệp: Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt



1. Mở đầu





Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Tuy nhiên tồn tại một nghịch lý là dù được ví như thư viện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xung quanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữa con người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có thể giao tiếp tốt với nhau. Hơn nữa, mỗi search engine sẽ mang đặc thù của ngôn ngữ mà nó hiển thị như search engine Tiếng Việt phải giải quyết những vấn đề đặc trưng của Tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp trong Tiếng Việt. Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine sẽ tiếp cận thì ta có thể tối ưu hoá cơ hội nhận được các thông tin hữu ích. Đây là mục tiêu chính của luận văn.





2. Nội dung





2.1 Tổng quan về hệ thống Search Engine





Các bộ phận cấu thành hệ thống Search Engine







  • Bộ thu thập thông tin – Robot


  • Bộ lập chỉ mục – Index


  • Bộ tìm kiếm thông tin – Search Engine






Nguyên lý hoạt động





2.2 Bộ thu thập thông tin – Robot





Ứng dụng của Robot







  • Phân tích, thống kê – Statistical Analysis


  • Duy trì siêu liên kế - Maintenance


  • Ánh xạ địa chỉ web - Mirroring


  • Phát hiện tài nguyên – Resource Discovery


  • Kết hợp các công dụng trên- Combined uses






Robot chỉ mục – Robot Indexing





Các chiến thuật thu thập dữ liệu







  • Chiến thuật tìm kiếm theo chiều sâu


  • Chiến thuật tìm kiếm theo chiều rộng


  • Chiến thuật tìm kiếm theo ngẫu nhiên






Những vấn đề cần lưu ý của web robot







  • Chi phí và hiểm hoạ


  • Tiêu chuẩn loại trừ robot






2.3 Bộ lập chỉ mục – Index





Khái quát về hệ thống lập chỉ mục





Tổng quan về phương pháp lập chỉ mục







  • Xác định mục từ quan trọng cần lập chỉ mục


  • Một số hàm tính trọng số mục từ


  • Lập chỉ mục tự động cho tài liệu






Lập chỉ mục cho tài liệu tiếng Việt







  • Khó khăn cho việc lập chỉ mục tiếng Việt


  • Đặc điểm về từ trong tiếng Việt và việc tách từ


  • Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả)


  • Giải quyết các vấn đề về từ của tiếng Việt


  • Xây dựng từ điển tiếng Việt






2.4 Bộ tìm kiếm thông tin – Search Engine





Vì sao ta cần một công cụ tìm kiếm (SE)?





Các phương thức tìm kiếm







  • Tìm theo từ khoá – Keyword searching


  • Những khó khăn khi tìm theo từ khoá


  • Tìm theo ngữ nghĩa – Concept-based searching






Các chiến lược tìm kiếm







  • Tìm thông tin với các thư mục chủ đề


  • Tìm thông tin với các công cụ tìm kiếm


  • Tối ưu câu truy vấn


  • Truy vấn bằng ví dụ






2.5 Một số Search Engine thông dụng trên thế giới và Việt Nam





Một số search engine thông dụng trên thế giới







  • Thư mục của Yahoo, Google


  • Alltheweb


  • AltaVista


  • Lycos


  • HotBot






Một số search engine thông dụng ở Việt Nam







  • Netnam


  • Vinaseek






2.6 Thiết kế dữ liệu





Cơ sở dữ liệu trong SQL





Hệ thống tập tin





2.7 Thu thập thông tin





Cấu trúc dữ liệu







  • Cấu trúc UrlInfo


  • Cấu trúc StartUrlInfo


  • Cấu trúc FileRetrieval


  • Cấu trúc ProjectInfo






Xử lý của web robot





Giải quyết các vấn đề của web robot







  • Tránh sự lặp lại


  • Tránh làm qúa tải server


  • Tránh truy xuất đến các dạng tài nguyên không thích hợp


  • Tránh các lỗ đen (black holes)


  • Tránh những nơi cấm robot






Các thuật toán phân tích cấu trúc file HTML







  • Thuật toán lấy liên kết


  • Thuật toán lấy tiêu đề


  • Thuật toán lấy nội dung






Duy trì thông tin cho cơ sở dữ liệu





Resume project







  • Nguyên tắc resume của ứng dụng cũ


  • Cải tiến của ứng dụng mới






2.8 Lập chỉ mục





Tính trọng số của từ





Tập tin nghịch đảo





Từ điển chỉ mục





Quá trình stemming





2.9 Các module, package, lớp chính của chương trình





Các module, package của chương trình





Các lớp đối tượng chính trong từng module





3. Kết luận





Về cơ bản luận văn đã thực hiện tốt các nội dung đề ra và đạt được một số kết quả nhất định :







  • Luận văn đã trình bày cơ sở lý thuyết về nguyên lý vận hành của một hệ thống search engine.


  • Tìm hiểu các phương thức và chiến lược trong việc thiết kế từng module cụ thể cho hệ thống.


  • Tìm hiểu các vấn đề đặc trưng của một hệ thống thu thập thông tin hoạt động trên môi trường mạng. Đề xuất một vài giải pháp xử lý những khó khăn của webrobot.


  • Tìm hiểu các vấn đề đặc trưng của một hệ thống search engine tiếng Việt. Đề xuất một vài giải pháp đơn giản để xử lý những vấn đề khó khăn của tiếng Việt.


  • Tìm hiểu hoạt động, thống kê một số đặc trưng và cách sử dụng của một số search engine thông dụng trên thế giới và Việt Nam


  • Tìm hiểu cơ bản về Semantic Search Engine


  • Xây dựng ứng dụng thử nghiệm cho một hệ thống search engine tiếng Việ






4. Tài liệu tham khảo





Gerard Salton, Michael J.McGill, Introduction to Modern Information Retrieval





C.J. van Rijsbergen , Department of Computing Science University of Glasgow, Information Retrieval





Huỳnh Thụy Bảo Trân. Luận án thạc sĩ khoa học. Nghiên cứu một số mô hình và xây dựng thử nghiệm một search engine Tiếng Việt. Người hướng dẫn khoa học : GS.TS.Hoàng Văn Kiếm.





Đoàn Hữu Quang Vinh. Luận văn cử nhân tin học. Xây dựng công cụ hỗ trợ quá trình tiền xử lý cho hệ thống search engine. GVHD : Huỳnh Thụy Bảo Trân.





Bùi Ngọc Tuấn Anh, Trần Nguyễn Hoàng Phương. Luận văn cử nhân tin học. Nghiên cứu một số thuật toán tra cứu thông tin trên Internet và cài đặt thử nghiệm. GVHD: Hồ Bảo Quốc...


Liên hệ Admin để có thêm trợ giúp

Về các lỗi download tài liệu, lỗi cài đặt source code

Phản ánh về các link lỗi để đội ngữ Admin chỉnh lại