Docstoc

LTC

Document Sample
LTC Powered By Docstoc
					LINK-BASED TEXT CLASSIFICATION
   I.        Giới thiệu chung:
   -     Một trong những vấn đề được quan tâm trong khai thác dữ liệu đó là các bộ dữ liệu có cấu trúc,
         trong đó có các mối liên kết giữa có objects với nhau. Các liên kết này cũng thể hiện quy luật của
         các objects và chúng ta có thể khai thác thông tin từ những liên kết này. Mối quan tâm trong lĩnh
         vực này càng được nâng cao với trong mạng xã hội, quan hệ reference-citation trong các paper,
         … Điểm chung là liên kết giữa chúng đều có thể được thể hiện dưới dạng đồ thị. Trong paper,
         nhóm tác giả đề xuất phương pháp mô hình hóa link distribution, và thuộc tính của các đối
         tượng có liên kết. Mô hình học được sử dụng là mô hình logistic regression, cho cả nội dung và
         liên kết.


   II.       Các khái niệm và mô hình hóa đối tượng:
2.1 Các khái niệm
   -     Mô hình link-based nói chung được thể hiện dưới dạng đồ thị có hướng. Các khái niệm trong đồ
         thị bao gồm:
              o O = {X1, … , Xn} là tập các đối tượng (objects). Mỗi đối tượng là một đỉnh trong đồ thị.
              o L là tập các link từ đối tượng i đến đối tượng j : Xi  Xj . Mỗi link này là một cạnh trong
                  đồ thị.
              o G(O, L) là đồ thị có hướng này.
              o C là tập các nhãn (categories). c(X) là nhãn của đối tượng X.
              o I(X) là tập các láng giềng theo link vào (incoming) của đối tượng X.
              o O(X) là tập các láng giềng theo link ra (outgoing) của đối tượng X.
              o Co(X) là tập các Y sao cho tồn tại Z nối tới X và Y.
                  Ví dụ:
                  Tập objects O = {1, 2, 3 ,4 ,5 ,6, 7}
                  Tập nhãn C = {green (g), blue (b), red (r)}
                  Xét đỉnh 3:
                  c(3) = b
                  I(3) = {1, 4, 5}
                  O(3) = {6}
                  Co(3) = {2, 5}




   2.2 Feature của đối tượng:
   -     Là các feature nguyên thủy của đối tượng. Trong trường hợp này là vector thể hiện như bài toán
         phân loại văn bản thông thường (đọc thêm feature training)
         Ví dụ: Vector hóa
        Văn bản A: Tôi là học sinh.
        Văn Bản B: Tôi là sinh viên.
        Văn bản C: Tôi là giáo viên.
        Biểu diễn văn bản theo vector:

                Tôi             là              học             sinh        viên           giáo
Văn bản A       1               1               1               1           0              0
Văn bản B       1               1               0               1           1              0
Văn bản C       1               1               0               0           1              1

        Vector A = (1,1,1,1,0,0)
        Vector B = (1,1,0,1,1,0)
        Vector C = (1,1,0,0,1,1)

    2.3 Feature của kết nối (link)
Khái niệm 1:
   - Categories Distribution CD là một vector C chiều (C là số categories). Mỗi phần tử i thể hiện số
       lượng đối tượng nhãn bằng i.

Khái niệm 2:
   - CD(I(X)) là CD của tập link ra khỏi X.
       Ví dụ:
       I(6) = {3, 7} do đó CD(I(6)) = (0, 1, 1)
       Vì số link vào từ nhãn g là 0, số link vào từ nhãn b là 1, số link
       vào từ nhãn r là 1.
       Tương tự CD(I(5)) = (1, 0, 0)

    -   CD(O(X)) là CD của tập link ra khỏi X.
        Ví dụ:
        O(1) = {2, 3, 5} do đó CD(O(1)) = (1, 2, 0)
        Vì số link ra đến nhãn g là 1, số link ra đến nhãn b là 2.
        CD(O(5)) = (0, 1, 0)

    -   CD(Co(X)) là tập CD của các link Co của X.
        Ví dụ:
        Co(3) = {2, 5} thì CD(Co(3)) = (1, 1, 0)

Count-link:
   - Count-link là vector thể hiện tính chất link của một đối tượng.
              LD(X) = CD(I(X)) + CD(O(X)) + CD(Co(X))
   - Ví dụ:
       LD(3) = (1, 2, 0) + (0, 0, 1) + (1, 1, 0) = (1, 3, 1)
       LD(1) = (0, 0, 0) + (1, 2, 0) + (0, 0, 0) = (1, 2, 0)
   - Theo nhóm tác giả, count-link là cách làm đạt hiệu quả tốt nhất nên được ưu tiên sử dụng.
   III.    Logistic Regression
   -   Đầu tiên ta cần train được mô hình logistic riêng cho OA và LD riêng. Logistic OA được dùng để
       tính xác suất một văn bản X có feature là OA(X) có nhãn là c hay không.


           Input: OA(X), c
                                             Logistic OA                                Output: P(c|OA(X))




            Input: LD(X), c
                                              Logistic LD                               Output: P(c|LD(X))


       Một đối tượng X có nhãn là c khi xảy ra đồng thời việc X có nhãn là c dựa theo OA(X) và việc X
       có nhãn là c dựa theo LD(X). Do đó, nhãn của một đối tượng X là nhãn c mà có
                     lớn nhất.


   IV.     Mô hình phân loại
   -   Input là một tập văn bản có liên kết được chưa được gán nhãn như sau:




   -   Việc phân loại văn bản được chia làm 2 bước:

Bước 1: bootstrap
   - Sử dụng mô hình Logistic OA đã được train trước để phân lớp văn bản bước đầu chỉ được trên
       object attributes mà thôi.
   - Khi phân lớp trong boostrap, ta chưa quan tâm đến các link có sẵn trong tập văn bản input.
   - Lúc này c(X) = max(P(ci|OA(X)))
Bước 2: iteration
   - Bước này được lập đi lập lại. Tại mỗi bước lặp, LD của các văn bản được tính lại. Việc phân lớp
       lúc này dựa trên cả OA và LD. Quá trình này lặp đi lặp lại đến khi hội tụ kết quả hoặc đạt số lần
       lặp tối đa.




    -   Trong quá trình này nhãn của văn bản được gán trực tiếp vào đồ thị và dùng để phân loại cho các
        văn bản sau đó. Do đó cần phải xếp thứ tự các đỉnh được update trước. Độ ưu tiên dựa vào link-
        diversity (độ đa dạng của liên kết), nếu link-diversity càng thấp thì càng được tin tưởng.
    -   Ví dụ:
        LD(1) = (2, 0, 0) có độ ưu tiên cao hơn LD(2) = (0, 2, 3) và cao hơn LD(3) = (2, 3, 1).

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:0
posted:1/26/2013
language:Vietnamese
pages:4