Download Luận văn: Khai phá dữ liệu Web và máy tìm kiếm
1. Mở đầu
Ngày nay, sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Trong những năm gần đây Intrnet đã trở thành một trong những kênh về khoa học, thông tin kinh tế, thương mại và quảng cáo. Một trong những lý do cho sự phát triển này là chi phí thấp để duy trì một trang Web trên Internet. So sánh với những dịch vụ khác như đăng tin hay quảng cáo trên một tờ báo hay tạp chí, thì một trang Web "đòi" rẻ hơn rất nhiều và cập nhật nhanh chóng hơn tới hàng triệu người dùng khắp mọi nơi trên thế giới. Có thể nói Internet như là cuốn từ điển Bách khoa toàn thư với nội dung và hình thức đa
dạng. Nó như một xã hội ảo, nó bao gồm các thông tin về mọi mặt của đời sống kinh tế, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh
2. Nội dung
2.1 Tổng quan về khai phá dữ liệu Web và máy tìm kiếm
Khai phá dữ liệu Web
Tổng quan về máy tìm kiếm
2.2 Tổng quan về xử lý song song
Máy tính song song
Mô hình lập trình song song
Hiệu năng của xử lý song song
Môi trường lập trình song song
PVM (Parallel Virtual Machine)
Giao thức truyền thông điệp MPI.
2.3 Giới thiệu về module Crawler trong các máy tìm kiếm
Tổng quan
Cấu trúc cơ bản của một crawler
Các crawler đa luồng (Multi-threaded crawlers)
Các thuật toán crawling
Các tiêu chuẩn đánh giá các crawler
2.4 Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa
Giới thiệu chung về máy tìm kiếm ASPseek
Cấu trúc cơ sở dữ liệu trong máy tìm kiếm ASPseek
Tìm hiểu về việc thực thi quá trình crawler trong module index của máy tìm kiếm VietSeek
3. Kết luận
Một ứng dụng MPI có thể được thực thi như là một tập các nhiệm vụ truyền thông đồng thời. Một chương trình bao gồm các đoạn mã của người lập trình được liên kết với các hàm thư viện được cung cấp bởi phần mềm MPI. Mỗi nhiệm vụ được chỉ định một thứ hạng (rank) duy nhất trong khoảng 1-> n-1 với các ứng dụng có n nhiệm vụ. Các hạng này được sử dụng để xác định các nhiệm vụ MPI khác nhau trong việc gửi và nhận tin cũng như thực hiện các thao tác truyền thông nói chung. Nhiệm vụ MPI có thể chạy trên cùng bộ xử lý hoặc các bộ xử lý khác nhau một cách đồng thời. Lợi ích của các rank là làm cho thao tác phối hợp độc lập với vị trí vật lý của các thành phần.
4. Tài liệu tham khảo
Đỗ thị Diệu Ngọc (2003). Một số vấn đề về phân lớp cho .... Luận văn đại học khoa Công Nghệ Đại học Quốc Gia Hà Nội 2003
G.A.Geist, J.A.Kolh, P.M.Papadopoulos, PVM and MPI: a comparison of features. Applied Mathematical Sciences subprogram of the Office of Energy Reaseach, US Department of Energy. May 30 1996
Gautam Pant, Padmini Srinivasan, Fillipo Menczer. Crawling the Web. The University of Iowa, Iowa City IA 52242, USA