Đề tài Trích chọn thông tin y tế tiếng việt cho bài toán tìm kiếm ngữ nghĩa

TÓM TẮT Trích chọn thông tin y tế nhằm Xây dựng được một tập dữ liệu tốt, đầy đủ để hỗ trợ việc tìm kiếm ngữ nghĩa đang là nhu cầu thiết yếu, nhận được sự quan tâm đặc biệt trong thời gian gần đây. Ontology là cách biểu diễn khái niệm, thuộc tính, Quan hệ trong miền ứng dụng đảm bảo tính nhất quán và đủ phong phú. Xây dựng hệ thống trích chọn thông tin dựa trên một Ontology y tế Tiếng Việt cho phép tìm kiếm và khai phá loại dữ liệu thuộc miền ứng dụng hiệu quả hơn là một nhu cầu thiết yếu. Khóa luận này đề cập tới việc Xây dựng một hê thống trích chọn thông tin dựa trên một ontology trong lĩnh vực y tế tiếng Việt. Khóa luận đã phân tích một số phương pháp, công cụ Xây dựng Ontology để lựa chọn một mô hình và Xây dựng được một Ontology y tế tiếng Việt với 21 lớp thực thể,13 mối Quan hệ và trên 500 thể hiện của các lớp thực thể. Khóa luận đã tiến hành chú thích cho 96 file dữ liệu với trên 1500 thể hiện. Hệ thống nhận diện thực thể thực nghiệm của khóa luận đã hoạt động có tính khả thi với độ đo F1 trung bình qua 10 lần thực nghiệm đạt khoảng 64%. MỤC LỤC Lời mở đầu .1 Chương 1 3 TỔNG QUAN VỀ TÌM KIẾM NGỮ NGHĨA .3 1.1. Nhu cầu về tìm kiếm ngữ nghĩa 3 1.2. Nền tảng tìm kiếm ngữ nghĩa 4 1.2.1.Web ngữ nghĩa .4 1.2.2. Ontology .5 1.3. Kiến trúc của một máy tìm kiếm ngữ nghĩa 5 1.4.Trích chọn thông tin .6 Chương 2 9 Xây dựng ONTOLOGY Y TẾ TIẾNG VIỆT 9 2.1. Giới thiệu Ontology .9 2.1.1. Khái niệm Ontology .9 2.1.2. Các thành phần của Ontology .10 2.1.3 Một số công trình liên quan tới Xây dựng Ontology 11 2.2. Lý thuyết Xây dựng Ontology .12 2.1.1. Phương pháp Xây dựng Ontology .12 2.1.2. Công cụ Xây dựng Ontology .13 2.1.3. Ngôn ngữ Xây dựng Ontology 15 2.3. Xây dựng Ontology y tế tiếng Việt .16 Chương 3 17 NHẬN DẠNG THỰC THỂ . . .17 3.1. Giới thiệu bài toán nhận dạng thực thể .17 3.1.1. Giới thiệu chung về nhận dạng thực thể .17 3.1.2. Một số kết quả nghiên cứu về nhận dạng thực thể .18 3.2. Đặc điểm dữ liệu tiếng Việt 19 3.2.1. Đặc điểm ngữ âm . .19 3.2.2. Đặc điểm từ vựng .20 3.2.3. Đặc điểm ngữ pháp . 20 3.3. Một số phương pháp nhận dạng thực thể 21 3.3.1. Phương pháp dựa trên luật, bán giám sát .23 3.3.2. Các phương pháp máy trạng thái hữu hạn 23 iv 3.3.3. Phương pháp sử dụng Gazetteer .24 3.4. Nhận dạng thực thể y tế tiếng Việt 25 3.4.1. Nhận dạng thực thể tiếng Việt 25 3.4.2. Nhận dạng thực thể y tế tiếng Việt .26 Chương 4 30 XÁC ĐỊNH Quan hệ NGỮ NGHĨA. . 30 4.1. Tổng quan về xác định Quan hệ ngữ nghĩa 30 4.1.1. Khái quát về Quan hệ ngữ nghĩa .30 4.1.2. Trích chọn Quan hệ ngữ nghĩa 31 4.1.3. Một số nghiên cứu liên quan đến xác định Quan hệ ngữ nghĩa 35 4.2. Gán nhãn ngữ nghĩa cho câu .37 4.3.1. Phân lớp với xác định quan hệ, nhận dạng thực thể .39 4.3.2. Thuật toán SVM (Support Vector Machine) 41 4.3.3 Phân lớp đa lớp với SVM 41 4.3.4. Áp dụng SVM vào phân loại Quan hệ ngữ nghĩa trong lĩnh vực y tế tiếng Việt 42 Chương 5 43 THỰC NGHIỆM. . 43 5.1. Môi trường thực nghiệm .43 5.1.1. Phần cứng .43 5.1.2 Phần mềm 43 5.1.3 Dữ liệu thử nghiệm 44 5.2 Xây dựng Ontology 44 5.2.1. Phân cấp lớp thực thể . .44 5.2.2. Các mối Quan hệ giữa các lớp thực thể . 47 5.3. Chú thích dữ liệu 48 5.4. Nhận dạng thực thể . .50 5.4.1. Xây dựng tập gazetteer .50 5.4.2.Đánh giá hệ thống nhận dạng thực thể 51 5.4.3. Kết quả đạt được .52 5.4.4. Nhận xét và đánh giá 52 5.5. Gán nhãn ngữ nghĩa cho câu .53 PHỤ LỤC - MỘT SỐ THUẬT NGỮ ANH VIỆT 54 KẾT LUẬN 55

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY