Download Luận văn: Khai phá dữ liệu Web và máy tìm kiếm



1. Mở đầu





Ngày nay, sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Trong những năm gần đây Intrnet đã trở thành một trong những kênh về khoa học, thông tin kinh tế, thương mại và quảng cáo. Một trong những lý do cho sự phát triển này là chi phí thấp để duy trì một trang Web trên Internet. So sánh với những dịch vụ khác như đăng tin hay quảng cáo trên một tờ báo hay tạp chí, thì một trang Web "đòi" rẻ hơn rất nhiều và cập nhật nhanh chóng hơn tới hàng triệu người dùng khắp mọi nơi trên thế giới. Có thể nói Internet như là cuốn từ điển Bách khoa toàn thư với nội dung và hình thức đa


 dạng. Nó như một xã hội ảo, nó bao gồm các thông tin về mọi mặt của đời sống kinh tế, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh





2. Nội dung





2.1 Tổng quan về khai phá dữ liệu Web và máy tìm kiếm





Khai phá dữ liệu Web





Tổng quan về máy tìm kiếm





2.2 Tổng quan về xử lý song song





Máy tính song song





Mô hình lập trình song song





Hiệu năng của xử lý song song





Môi trường lập trình song song





PVM (Parallel Virtual Machine)





Giao thức truyền thông điệp MPI.





2.3 Giới thiệu về module Crawler trong các máy tìm kiếm





Tổng quan





Cấu trúc cơ bản của một crawler





Các crawler đa luồng (Multi-threaded crawlers)





Các thuật toán crawling





Các tiêu chuẩn đánh giá các crawler





​2.4 Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa





Giới thiệu chung về máy tìm kiếm ASPseek





Cấu trúc cơ sở dữ liệu trong máy tìm kiếm ASPseek





Tìm hiểu về việc thực thi quá trình crawler trong module index của máy tìm kiếm VietSeek





3. Kết luận





Một ứng dụng MPI có thể được thực thi như là một tập các nhiệm vụ truyền thông đồng thời. Một chương trình bao gồm các đoạn mã của người lập trình được liên kết với các hàm thư viện được cung cấp bởi phần mềm MPI. Mỗi nhiệm vụ được chỉ định một thứ hạng (rank) duy nhất trong khoảng 1-> n-1 với các ứng dụng có n nhiệm vụ. Các hạng này được sử dụng để xác định các nhiệm vụ MPI khác nhau trong việc gửi và nhận tin cũng như thực hiện các thao tác truyền thông nói chung. Nhiệm vụ MPI có thể chạy trên cùng bộ xử lý hoặc các bộ xử lý khác nhau một cách đồng thời. Lợi ích của các rank là làm cho thao tác phối hợp độc lập với vị trí vật lý của các thành phần.





4. Tài liệu tham khảo





Đỗ thị Diệu Ngọc (2003). Một số vấn đề về phân lớp cho .... Luận văn đại học khoa Công Nghệ Đại học Quốc Gia Hà Nội 2003





G.A.Geist, J.A.Kolh, P.M.Papadopoulos, PVM and MPI: a comparison of features. Applied Mathematical Sciences subprogram of the Office of Energy Reaseach, US Department of Energy. May 30 1996





Gautam Pant, Padmini Srinivasan, Fillipo Menczer. Crawling the Web. The University of Iowa, Iowa City IA 52242, USA


Liên hệ Admin để có thêm trợ giúp

Về các lỗi download tài liệu, lỗi cài đặt source code

Phản ánh về các link lỗi để đội ngữ Admin chỉnh lại