Đề tài Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm

Tóm tắt nội dung Trích xuất thông tin từ dữ liệu bán cấu trúc là một bài toán được sự quan tâm tại nhiều hội nghị lớn trên thế giới [9],[10],[12],[13]. Bài toán này là một thành phần không thể thiếu trong các ứng dụng về thu thập và trích xuất thông tin hiện nay. Một trong những ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang Thương mại Điện tử để Xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tốt nhất đến người tiêu dùng. Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu bán cấu trúc và áp dụng để Xây dựng hệ thống tìm kiếm giá cả sản phẩm. Khóa luận xác định một tập luật trích xuất giá cả để giải bài toán trích xuất giá khi cho biết tên sản phẩm và trên cơ sở đó, bài toán tự động trích xuất thông tin về tên và giá của sản phẩm được giải quyết. Khóa luận đưa ra các bước Xây dựng hệ thống tìm kiếm giá cho sản phẩm trên các trang web tiếng Việt. Khóa luận đã tiến hành các thực nghiệm và đánh giá kết quả. Kết quả thực nghiệm cho thầy các thông tin được trích xuất từ hệ thống là có độ tin cậy. Mục lục Tóm tắt nội dung .i Mục lục ii Bảng các kí hiệu và chữ viết tắt . v Danh sách các hình . .vi Danh sách bảng biểu viii Giới thiệu . 1 Chương 1. Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 3 1.1 Bài toán trích xuất thông tin .3 1.1.1 Giới thiệu bài toán . .3 1.1.2 Dữ liệu của bài toán .3 1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin 4 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc . .6 1.2.1 Vấn đề đặt ra với bài toán 6 1.2.2 Một số phương pháp trích xuất thông tin cho dữ liệu bán cấu trúc .6 1.2.3 Phương pháp đánh giá 7 1.2.4 Ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 8 Chương 2. Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc .10 2.1 Trích xuất thông tin dựa vào cây DOM . .10 2.1.1 Khái nhiệm cây DOM . .10 2.1.2 Xây dựng cây DOM . 11 2.1.3 Sử dụng cây DOM để trích xuất thông tin . 12 2.2 Trích xuất thông tin dựa theo các mẫu biểu thức chính qui .13 iii 2.2.1 Khái niệm biểu thức chính qui . 13 2.2.2 Sử dụng biểu thức chính qui để trích xuất thông tin 14 2.3 Một số giải thuật trích xuất thông tin cho dữ liệu bán cấu trúc 14 2.3.1 Hai kiểu biểu diễn của các trang giàu dữ liệu 14 2.3.2 Một số giải thuật điển hình 16 Chương 3. Áp dụng bài toán trích xuất thông tin bán cấu trúc để Xây dựng hệ thống tìm kiếm giá cả sản phẩm 21 3.1 Khái quát hệ thống tìm kiếm giá cả của sản phẩm .21 3.1.1 Khái niệm .21 3.1.2 Các phương pháp Xây dựng .21 3.1.3 Các hệ thống hiện tại . .22 3.2 Cơ sở thực tiễn 23 3.3 Cơ sở khoa học .25 3.3.1 Phân loại trang kinh doanh . 26 3.3.2 Bài toán trích xuất thông tin giá cả của một sản phẩm xác định. 27 3.3.3 Bài toán tự động trích xuất thông tin về tên và giá của sản phẩm trong các trang Kinh doanh sản phẩm .33 3.4 Các bước Xây dựng hệ thống 37 3.4.1 Mô hình hệ thống .37 3.4.2 Khả năng mở rộng của hệ thống 40 Chương 4. Thực nghiệm và đánh giá kết quả . .41 4.1 Môi trường phần cứng và phần mềm . .41 4.1.1 Cấu hình phần cứng .41 4.1.2 Công cụ phần mềm 41 4.2 Kết quả thực nghiệm .44 iv 4.2.1 Thực nghiệm trích xuất giá của một sản phẩm cho trước 44 4.2.2 Thực nghiệm xác định website Kinh doanh .49 4.2.3 Thực nghiệm thu thập và trích xuất thông tin từ một website .52 4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống 53 Kết luận .55 Tài liệu tham khảo 56

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY