Download Luận văn ThS: Học bán giám sát trên đồ thị với ứng dụng tra cứu ảnh
1. Mở đầu
Trong tra cứu ảnh dựa trên nội dung, các đặc trưng được trích chọn một cách tự động bằng cách sử dụng kỹ thuật của thị giác máy chủ yếu là các đặc trưng mức thấp thấp (màu, kết cấu, hình dạng, vị trí không gian…). Mặc dù nhiều thuật toán phức tạp đã được thiết kế để mô tả màu sắc, hình dáng và đặc trưng kết cấu, nhưng các thuật toán này vẫn không thể phản ánh thỏa đáng ngữ nghĩa ảnh. Do vậy, khoảng cách ngữ nghĩa giữa các đặc trưng mức thấp và các khái niệm mức cao vẫn còn lớn nên hiệu suất của CBIR là vẫn còn xa với mong đợi của người dùng. Để thu hẹp khoảng cách ngữ nghĩa, phản hồi liên quan (Relevance Feedback - RF) được xem như là một công cụ hiệu quả để cải thiện hiệu năng của hệ thống CBIR. Gần đây, rất nhiều nhà nghiên cứu bắt đầu xem phản hồi liên quan như là bài toán phân lớp hoặc bài toán học. Người sử dụng sẽ cung cấp các mẫu dương hoặc mẫu âm và hệ thống sẽ học từ các mẫu này để phân tách tất cả dữ liệu thành nhóm liên quan và không liên quan. Do vậy, rất nhiều phương pháp học máy có thể được áp dụng. Những phương pháp học có thể được phân thành hai lớp: Quy nạp và Truyền dẫn tùy theo dữ liệu không được gán nhãn có được dùng trong chiến lược huấn luyện hay không.
2. Nội dung
2.1 Khái quát về CBIR và học trên đồ thị
Tra cứu ảnh dựa trên nội dung với phản hồi liên quan
- Giới thiệu
- Kiến trúc tổng quan của hệ thống CBIR với phản hồi liên quan
- Các kỹ thuật phản hồi liên quan
Học máy thống kê
- Một số khái niệm
- Các phương pháp học máy
Học trên đồ thị
- Giới thiệu
- Xây dựng đồ thị
- Phân tích đồ thị
- Các mô hình học dựa trên đồ thị
2.2 Tra cứu ảnh dựa trên xếp hạng đa tạp
Thuật toán lan truyền nhãn
- Ký hiệu
- Nội dung thuật toán
- Sự hội tụ của thuật toán
- Phương pháp xác định siêu tham số của đồ thị
- Độ phức tạp của thuật toán
CBIR dựa trên Xếp hạng đa tạp
- Giới thiệu
- Học truyền dẫn trong CBIR
- Học truyền dẫn với phản hồi liên quan
Kỹ thuật xếp hạng đa tạp cải tiến
- Giới thiệu
- Xây dựng đồ thị
- Tính toán xếp hạng
- Phân tích độ phức tạp
2.3 Thực nghiệm
Môi trường thực nghiệm
- Cơ sở dữ liệu
- Trích chọn đặc trưng
Mô tả chương trình thực nghiệm
- Mở ảnh truy vấn
- Tra cứu ảnh
- Phản hồi liên quan
Đánh giá hiệu năng
- Đánh giá qua độ chính xác với các ảnh trả về khác nhau
- Đánh giá qua khảo sát trên tập dữ liệu khác
- Đánh giá về thời gian thực hiện
3. Kết luận
Nội dung Luận văn đã trình bày phương pháp tra cứu ảnh với phản hồi liên quan sử dụng mô hình Học bán giám sát trên đồ thị. Một số phương pháp học bán giám sát dựa trên đồ thị theo thuật toán lan truyền nhãn. Trước hết, tiến hành xây dựng một đồ thị có trọng số với các đỉnh là các ảnh trong cơ sở dữ liệu. Sau mỗi vòng lặp phản hồi, các ảnh được người dùng gán nhãn sẽ được xem như các đỉnh trên đồ thị, tất cả các ảnh trong cơ sở dữ liệu lan truyền xếp hạng của chúng đến các ảnh dữ liệu bên cạnh thông qua đồ thị có trọng số. Quá trình lan truyền của các điểm số xếp hạng lặp đi lặp lại cho đến khi hội tụ tới một tình trạng ổn định toàn cục để xếp hạng các ảnh liên quan đến ảnh truy vấn. Về mặt thực nghiệm, chương trình tra cứu ảnh được cài đặt bằng ngôn ngữ Matlab. Kết quả thực nghiệm trên tập dữ liệu ảnh Corel và tập dữ liệu Caltech cho thấy tốc độ tra cứu ảnh đã được cải thiện đáng kể so với một số phương pháp khác, tuy nhiên vẫn còn một vài vấn đề hạn chế, như kết quả tra cứu chưa chính xác cao
4. Tài liệu tham khảo
B. Thomee and M. Lew, “Interactive search inimage retrieval: a survey,” International Journal of Multimedia Information Retrieval , vol. 1, no. 2, pp.71–86, 2012.
Bin Xu, Jiajun Bu, Chun Chen, Can Wang, Deng Cai, Xiaofei He, “EMR: A Scalable Graph-based Ranking Model for Content-based Image Retrieval”, IEEE Transactions on Knowledge & Data Engineering, vol. 27, no. , pp. 102-114, Jan. 2015
Chang Ran, "Effective Graph-Based Content-Based Image Retrieval Systems for Large-Scale and Small-Scale Image Databases" (2013). All Graduate Theses and Dissertations. Paper 2123.
J. He, M. Li, H.-J. Zhang, H. Tong, and C. Zhang, “Manifold-ranking based image retrieval,” in Proceedings of the 12th Annual ACM International Conference on Multimedia, 2004, pp. 9– 16....