Đồ án Xây dựng từ điển danh từ tiếng Việt dựa theo từ điển wordnet

MỤC LỤC LỜI CẢM ƠN . 3 MỞ ĐẦU . . 4 CHƯƠNG 1: GIỚI THIỆU . . 5 1.1 Đặt vấn đề . 5 1.1.1 Tổ chức cơ sở ngữ nghĩa từ vựng . 5 1.1.2 Mô hình gán nhãn ngữ nghĩa . . 6 1.2 Các hướng tiếp cận truyền thống . 6 1.2.1 Xây dựng từ điển phân loại dựa trên từ điển MRD . . 7 1.2.2 Sử dụng các liên kết trong các từ điển đã có . 7 1.2.3 Sử dụng ánh xạ từ điển MRD song ngữ . . 7 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT . . 8 2.1 Các vấn đề về Ngôn Ngữ học . . 8 2.1.1 Từ trong Tiếng Việt . . 8 2.1.2 Từ trong Tiếng Anh . 10 2.1.3 Nghĩa của từ: . . 10 2.1.4 Quan hệ đồng âm, đồng nghĩa . . 17 2.1.5 So sánh từ tiếng Việt và từ tiếng Anh về hình thái . 19 2.1.6 So sánh từ tiếng Việt và từ tiếng Anh về mặt ngữ pháp . . 20 2.1.7 So sánh từ tiếng Việt và tiếng Anh về mặt nhãn ngữ nghĩa . . 23 2.2 WordNet . 25 2.2.1 Mô hình WordNet . 26 2.2.2 Danh từ trong WordNet . . 33 2.2.3 Định dạng file cơ sở dữ liệu trong WordNet . . 42 2.2.4 Số lượng từ, synset trong WordNet . 44 Chương 3: XÂY DỰNG MÔ HÌNH VÀ THỰC NGHIỆM . 45 3.1 Phương pháp dịch ttự động WordNet qua tiếng Việt . 45 3.1.1 Dịch từ WordNet . . 45 3.1.2 Dịch từ từ điển tiếng Việt . . 48 3.1.3 Tổ chức dữ liệu . . 52 Đồ án tốt nghiệp - CNTT MỞ ĐẦU Trong những năm gần đây, trong lĩnh vực xử lý ngôn ngữ tự nhiên thì xử lý ngữ nghĩa chiếm vai trò quyết định tính chính xác của các mô hình xử lý ngôn ngữ tự nhiên. Để xử lý ngữ nghĩa chúng ta phải có cơ sở tri thức ngữ nghĩa từ vựng của ngôn ngữ cần xử lý, hiện nay tiếng Anh đã có cơ sở tri thức ngữ nghĩa hoàn chỉnh. Trong đó hệ thống cơ sở tri thức ngữ nghĩa từ vựng WordNet là phổ biến nhất hiện nay. Đây là mạng ngữ nghĩa đồ sộ hơn 110.000 synset tiếng Anh. Các nhà ngôn ngữ học, tâm lý học và tin học đã bỏ ra gần 20 năm để xây dựng hệ thống này và ngày nay chúng vẫn còn được nâng cấp về số lượng và chất lượng. Tuy nhiên với các ngôn ngữ khác, hệ thống như vậy vẫn chưa có nhiều. Điển hình là tiếng Việt, hiện nay chúng ta vẫn chưa có hệ thống cơ sở tri thức ngữ nghĩa từ vựng như vậy. Do đó vấn đề cấp bách hiện nay là phải xây dựng một hệ thống ngữ nghĩa của tiếng Việt cho máy tính nếu chúng ta muốn phát triển các ứng dụng về xử lý ngôn ngữ tự nhiên. WordNet phân biệt giữa danh từ, động từ, tính từ và trạng từ, vì họ làm theo quy tắc ngữ pháp khác nhau. Danh từ là một loại từ phổ biến và phổ dụng trong mọi ngôn ngữ. Ðến nay, đã có nhiều cách phân lớp danh từ tiếng Việt theo các tiêu chí khác nhau, nhưng ít nhiều các cách này đều mang tính chủ quan và chỉ được thực hiện trên một số ít các ví dụ cụ thể. Tuy nhiên, trong thực tế, khi phân giải ngữ nghĩa của một danh từ tiếng Việt trong một ngữ cảnh bất kì, chúng ta lại cần đến một hệ thống phân lớp hoàn chỉnh cho tất cả các danh từ tiếng Việt theo những ý niệm chung nhất trong tư duy của con người. Việc xây dựng một hệ thống phân lớp như thế đã được thực hiện thành công lần đầu tiên đối với tiếng Anh qua mạng WordNet, và cũng chính từ đây, các mạng tương tự cho tiếng Pháp, Tây Ban Nha, Ðức, Hoa, Nhật, . đã được hình thành trên cơ sở mạng này. Việc xây dựng một mạng từ vựng tương tự WordNet có nhiều ý nghĩa. Nó cho việc phát triển các ứng dụng xử lý ngôn ngữ tiếng Việt, cho các nghiên cứu về ngôn ngữ học tiếng Việt. Do vậy, trong bài báo cáo này, em trình bày về phương pháp xây dựng từ điển danh từ Tiếng Việt dựa theo từ điển WordNet. Đồ án được chia thành các phần như sau: Chương 1: Tìm hiểu đề tài và phương pháp tiếp cận. Chương 2: Tìm hiểu về tiếng Việt và WordNet áp dụng trong việc xây dựng từ điển danh từ tiếng Việt Chương 3: Xây dựng mô hình tổ chức dữ liệu cho WordNet tiếng Việt và thực nghiệm.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY