Data Mining Tong hop by hoclaptrinh

VIEWS: 58 PAGES: 97

									B? GIÁO D?C VÀ ?ÀO T?O      T?P ?OÀN B?U CHÍNH VI?N THÔNG VI?T NAM
H?C VI?N CÔNG NGH? B?U CHÍNH VI?N THÔNG
------------------




Tài li?u Data mining


L?p: Khoa h?c máy tinh -CH09CNK1
Giáo viên: PGS,TS. ?? Trung Tu?n




Hà n?i 7/2010
4. Nh?ng khái ni?m c? b?n c?a Data mining
M?t quan ni?m sai l?m ph? bi?n v? data mining là mong mu?n r?ng h? th?ng
data mining có th? t? ??ng phát hi?n ra t?t c? các tri th?c có giá tr? mà
???c nhúng trong m?t c? s? d? li?u l?n ??a ra mà không c?n s? can thi?p
ho?c s? ch? d?n c?a con ng??i.
M?c dù có l? s? h?p d?n ??u tiên là có m?t h? th?ng data mining t? ??ng,
trong th?c t? nh?ng h? th?ng nh? v?y s? khám phá ra m?t t?p pattern l?n.
Toàn b? t?p pattern ???c sinh ra có l? d? dàng v??t quá kích th??c c?a c?
s? d? li?u ??a ra.
?? cho phép m?t h? th?ng data mining “ run loose” trong khai phá c?a các
pattern mà không c?n cung c?p cho nó b?t k? s? ch? d?n v? các ph?n c?a c?
s? d? li?u mà ng??i dùng mu?n th?m dò ho?c các ki?u c?a pattern mà ng??i
dùng mong mu?n tìm ra s? thú v? là ?? cho phép n?i l?ng m?t data mining “
monster”. H?u h?t các pattern ???c khám phá s? là không thích h?p ?? phân
tích ch?c n?ng c?a ng??i dùng. H?n n?a nhi?u pattern ???c phát hi?n m?c
dù có liên quan t?i ch?c n?ng ch?c n?ng phân tích. Có l? r?t khó ?? hi?u
ho?c ít giá tr?, không m?i l? ho?c thi?u ti?n ích – làm cho chúng thi?u
thú v?. Vì v?y nó không th?c t? và không mong mu?n sinh ra, l?u tr? ho?c
bi?u di?n t?t c? các pattern mà có th? ???c khám phá t? m?t c? s? d? li?u
???c ??a ra.
M?t k?ch b?n th?c t? h?n là mong mu?n ng??i dùng có th? giao ti?p v?i h?
th?ng data mining s? d?ng m?t t?p nguyên th?y data mining ???c thi?t k?
?? t?ng hi?u qu? và khai phá tri th?c có giá tr?. Nh?ng nguyên th?y bao
g?m nh?ng ??c t? c?a các ph?n c?a c? s? d? li?u ho?c m?t t?p d? li?u mà
ng??i dùng quan tâm ( bao g?m các thu?c tính c? s? d? li?u ho?c kích
th??c c?a kho d? li?u quan tâm). Các lo?i ki?n th?c ???c khai thác, ki?n
th?c n?n h?u ích trong quy trình khai phá, các ph??ng pháp hi?u qu? ??
?ánh giá pattern và tri th?c khai phá nên ???c hình ?nh nh? th? nào.
Nh?ng nguyên th?y cho phép ng??i dùng giao ti?p tr?c ti?p v?i h? th?ng
data mining trong su?t quá trình khai phá ?? nghiên c?u, phát hi?n ra t?
các góc ho?c chi?u sâu và quy trình khai phá tr?c ti?p.
Ngôn ng? truy v?n khai phá d? li?u ( data mining) có th? ???c thi?t k? ??
k?t h?p các nguyên th?y cho phép ng??i dùng t??ng tác linh ho?t v?i các
h? th?ng data mining. Ngôn ng? truy v?n data mining cung c?p m?t n?n
t?ng giao di?n ?? h?a ng??i dùng thân thi?n. Trong ch??ng này ta có th?
tìm hi?u v? các nguyên th?y data mining m?t cách chi ti?t c?ng nh? nghiên
c?u cách thi?t k? c?a ngôn ng? truy v?n data mining d?a trên các nguyên
t?c này.
4.1 Các khái ni?m c? b?n c?a data mining
Cái gì ??nh ngh?a m?t nhi?m v? (ch?c n?ng) c?a data mining
M?i m?t ng??i dùng s? có m?t ch?c n?ng( nhi?m v?) data mining trong ??u
ví d? nh? m?t vài form c?a vi?c phân tích d? li?u mà cô ?y mu?n th? hi?n.
M?t nhi?m v? data mining có th? ???c ??c t? trong m?t form c?a ngôn ng?
truy v?n data mining cái gì s? là ??u vào c?a h? th?ng data mining. Ngôn
ng? truy v?n data mining ???c ??nh ngh?a trong các thu?t ng? c?a các
nguyên th?y sau ?ây mà ???c th? hi?n ? hình 4.1.
Task – relevant data( d? li?u thích h?p(có liên quan)):
 ?ây là ph?n c? s? d? li?u ???c nghiên c?u t? m?. Ví d? gi? s? r?ng b?n
là m?t ng??i qu?n lý vi?c bán hàng c?a AllElectronics ? Hoa k? và
Canada. C? th? b?n mu?n nghiên c?u v? xu h??ng mua hàng c?a các khách
hàng ? Canada. Thay vì khai thác trên toàn b? c? s? d? li?u b?n có th?
ch? ra r?ng ch? d? li?u liên quan ??n vi?c mua hàng c?a khách hàng ?
canada c?n ???c l?y ra cùng v?i thông tin khách hàng liên quan. B?n có
th? ch? ra các thu?c tính quan tâm ?? ???c xem xét trong quá trình khai
phá. Nh?ng thu?c tính này g?i là Revalant attributes. Ví d? n?u b?n ch?
quan tâm t?i vi?c nghiên c?u gi?a các m?i quan h? ,các m?t hàng ???c mua,
l??ng và tu?i c?a khách hàng hàng n?m, các thu?c tính name c?a quan h?
item, income và age c?a quan h? customer có th? ???c ??c t? nh? là các
thu?c tính thích h?p cho quá trình khai phá. Ph?n c?a c? s? d? li?u ???c
khai phá g?i là minable view. M?t minable view có th? ???c s?p x?p ho?c
nhóm theo m?t ho?c m?t t?p các thu?c tính hay các chi?u.




2. Các lo?i tri th?c ???c khai phá: Nó ch? ra nh?ng ch?c n?ng c?a data
mining ???c th?c hi?n. Nh? là các ??c tính, nh?n th?c, s? k?t h?p, s?
phân l?p, s? phân nhóm ho?c phân tích quá trình ti?n hóa. Ví d? n?u
nghiên c?u nh?ng thói quen mua hàng c?a các khách hàng ? Canada b?n có
th? ch?n s? k?t h?p gi?a profile khách hàng và các m?t hàng(item) mà
khách hàng mu?n mua.
Tri th?c n?n t?ng: Ng??i dùng có th? xác ??nh ki?n th?c n?n ho?c ki?n
th?c thu?c mi?n ???c khai thác. Các ki?n th?c này có ích trong vi?c h??ng
d?n quá trình khai phá tri th?c và ?ánh giá các m?u(pattern) ???c phát
hi?n. Có nhi?u lo?i ki?u ki?n th?c n?n. Trong ch??ng này ta t?p chung
th?o lu?n v? m?t ki?u ki?n th?c n?n t?ng ph? bi?n ???c bi?t nh? là phân
c?p khái ni?m(concept hierarchies). Phân c?p khái ni?m r?t có ích ? ch?
nó cho phép d? li?u ???c khai phá ? nhi?u m?c ?? tr?u t??ng. Các ví d?
khác bao g?m ni?m tin c?a ng??i s? d?ng v? các m?i quan h? trong d? li?u.
?i?u này có th? ???c s? d?ng ?? ?ánh giá các pattern ???c khai phá theo
m?c ?? c?a ??t xu?t, b?t ng? khi các pattern không mong mu?n ???c cho
r?ng là h?p d?n.
Các ph??ng pháp thú v?: Các ch?c n?ng này ???c s? d?ng ?? tách các
pattern không mong mu?n t? tri th?c. Chúng ???c s? d?ng ?? h??ng d?n quá
trình khai phá ho?c sau khi khai phá ?? ?ánh giá các m?u khai phá. Các
ki?u tri th?c khai nhau có các ph??ng pháp thú v? khác nhau. Ví d? các
ph??ng pháp cho các lu?t liên k?t bao g?m s? h? tr?( ph?n tr?m c?a d?
li?u thích h?p mà trong lu?t pattern xu?t hi?n) và s? t? tin( s?c m?nh
c?a s? hàm ý trong lu?t). Các lu?t mà giá tr? h? tr? và giá tr? t? tin là
d??i ng??ng c?a ng??i dùng ??c t? là ???c xem nh? là không h?p d?n.

Trình di?n và tr?c quan c?a các pattern ???c khai phá:
?i?u này nói ??n d?ng hi?n th? c?a các pattern ???c khai phá. Ng??i s?
d?ng có th? ch?n các các d?ng khác nhau cho vi?c trình di?n tri th?c nh?
là các b?ng lu?t, bi?u ??, ?? th?, cây quy?t ??nh và hình kh?i.

Sau ?ây chúng ta nghiên c?u m?i nguyên th?y này là d??i d?ng chi ti?t
h?n. Vi?c ??c t? các nguyên th?y này là ???c t?ng h?p ? trong hình 4.2.
     4.1.1 Task – relevant data(d? li?u liên quan t?i nhi?m v?):
Khái ni?m nguyên th?y ??u tiên là ??c t? c?a d? li?u khai phá ???c th?
hi?n. Thông th??ng m?t ng??i s? d?ng ch? quan tâm m?t t?p con c?a c? s?
d? li?u. Không th?c t? ?? khai phá b?a bãi toàn b? c? s? d? li?u. C? th?
b?i vì s? l??ng pattern sinh ra có th? là c?p s? nhân so v?i kích th??c
c?a c? s? d? li?u. H?n n?a các pattern ???c phát hi?n có th? là không
thích h?p v?i m?i quan tâm c?a ng??i s? d?ng.
       Task – relevant data ( d? li?u thích h?p v?i nhi?m v?)
C? s? d? li?u ho?c tên kho d? li?u
Các b?ng c? s? d? li?u ho?c các kh?i kho d? li?u
Các ?i?u ki?n cho s? l?a ch?n d? li?u
Các chi?u ho?c các thu?c tính thích h?p
Các ?i?u ki?n gom nhóm d? li?u




Ki?u tri th?c ???c khai phá
??c tính, tính ch?t
S? suy xét nh?n th?c
K?t h?p, m?i quan h?
S? phân l?p, s? d? báo
S? phân nhóm



Ki?n th?c n?n t?ng
Phân c?p khái ni?m( concept hierarchies)
S? tin t??ng c?a ng??i s? d?ng v? các m?i quan h? trong d? li?u




Các phép ?o s? h?p d?n c?a pattern
Tính ??n gi?n ( simplicity)
S? ch?c ch?n (ví d? : s? t? tin)
Ti?n ích( ví d? : s? h? tr?)
S? m?i l?



Hình ?nh hóa c?a các pattern ???c khai phá
Các lu?t, các b?ng, các báo cáo, các ?? th?, ?? h?a, cây quy?t ??nh và
các hình kh?i
Drill – down và roll - up


Trong m?t c? s? d? li?u quan h?, t?p d? li?u liên quan t?i ch?c n?ng
(task – relevant data) có th? ???c s?u t?p quan câu truy v?n quan h? liên
quan t?i các thao tác nh? selection, projection, join và aggregation.
Vi?c truy xu?t c?a d? li?u có th? ???c xem nh? m?t « subtask » c?a nhi?m
v? khai phá d? li?u. K?t qu? c?a quá trình s?u t?p d? li?u trong m?i quan
h? d? li?u m?i ???c g?i là quan h? d? li?u kh?i t?o (initial data
relation). Quan h? d? li?u có th? ???c s?p x?p ho?c góm nhóm theo ?i?u
ki?n ???c ??c t? trong câu truy v?n. D? li?u có th? ???c làm s?ch ho?c
bi?n ??i( ví d? : ???c k?t h?p trên các thu?c tính nào ?ó) ?u tiên ?? áp
d?ng cho vi?c phân tích khai phá d? li?u. Quan h? kh?i t?o có th? phù h?p
ho?c không phù h?p v?i quan h? v?t lý trong c? s? d? li?u. Vì v?y các
quan h? ?o ???c g?i là views trong tr??ng c?a c? s? d? li?u, t?p d? li?u
thích h?p cho data mining ???c g?i là minable view.
Ví d? 4.1
N?u nhi?m v? khai phá d? li?u là ?? nghiên c?u nh?ng m?i quan h? gi?a các
m?t hàng th??ng xuyên ???c mua t?i công ty AllElectronic ? Canada. D?
li?u thích h?p có th? ???c ??c t? b?ng vi?c cung c?p các thông tin sau :
. Tên c?a c? s? d? li?u ho?c kho d? li?u ???c s? d?ng ( ví d? :
AllElectronic_db)
. Tên các b?ng ho?c các kh?i d? li?u ch?a d? li?u thích h?p( item,
customer, purchases và items_sold)
. Các ?i?u ki?n cho vi?c l?a ch?n d? li?u phù h?p( ví d? : truy xu?t d?
li?u liên quan ??n vi?c mua t?i Canada cho n?m hi?n t?i)
. Các thu?c tính ho?c các chi?u liên quan ( name và price trong b?ng
item, income và age trong b?ng customer)
Ngoài ra ng??i dùng có th? ch? rõ r?ng d? li?u ???c truy xu?t có th? ???c
góm nhóm b?i các thu?c tính c? th?. Nh? là “ group by date”. Các thông
tin ???c ??a ra câu SQL có th? ???c s? d?ng ?? truy xu?t d? li?u thích
h?p.
Trong m?t data warehouse, d? li?u có th? ???c l?u tr? trong m?t c? s? d?
li?u ?a chi?u, ???c bi?t nh? là m?t kh?i d? li?u mà có th? ???c cài ??t
s? d?ng c?u trúc m?ng ?a chi?u, m?t c?u trúc quan h?, ho?c k?t h?p c? hai
???c c? th? trong ch??ng 2. T?p d? li?u thích h?p có th? ???c ??c t? b?i
vi?c l?c d? li?u d?a trên ?i?u ki?n, slicing( l?y d? li?u cho m?t giá tr?
thu?c tính ???c ??a ra ho?c “ slide”) ho?c là dicing( trích cái chung c?a
m?t vài slide) c?a kh?i d? li?u.

Chú ý r?ng trong m?t truy v?n khai phá d? li?u các ?i?u ki?n cung c?p cho
vi?c l?a ch?n d? li?u có th? ? m?c ?? khái ni?m cao h?n d? li?u trong c?
s? d? li?u ho?c trong kho d? li?u. Ví d?: m?t ng??i dùng có th? ??c t?
m?t l?a ch?n trên các item t?i AllElectonic s? d?ng khái ni?m “ type =
home entertainment” m?c dù các items cá nhân trong c? s? d? li?u có th?
không ???c l?u tr? theo ki?u(type) mà còn ? m?c khái ni?m th?p h?n. Nh?
là “ TV”, “ CD player” ho?c “VCD”. M?t khái ni?m phân c?p trên item mà
???c c? th? “ home entertainment” là ? m?c ?? cao h?n, bao g?m các khái
ni?m ? m?c th?p {“ TV”, “CD player”, “ VCR”} có th? ???c s? d?ng trong
t?p d? li?u thích h?p v?i nhi?m v?.
M?t t?p các thu?c tính thích h?p ??a ra s? liên quan t?i các thu?c tính
khác mà không ???c ?? c?p m?t cách rõ ràng nh?ng mà nó nên ???c bao g?m
b?i vì chúng ???c ??a ra b?i khái ni?m phân c?p ho?c chi?u liên quan
trong t?p các thu?c tính thích h?p ??a ra. Ví d? t?p các thu?c tính liên
quan trong câu truy v?n bao g?m city. Tuy nhiên thu?c tính này là m?t
ph?n c?a các khái ni?m phân c?p khác nh? là khái ni?m phân c?p street <
city< province_or_state<country cho chi?u location. Trong tr??ng h?p này
các thu?c tính street, province_or_state and country c?ng nên ???c bao
g?m trong t?p các thu?c tính liên quan b?i vì chúng th? hi?n m?c ?? tr?u
t??ng cao h?n và th?p h?n c?a city. ?i?u này t?o ?i?u ki?n cho vi?c khai
phá tri th?c ? các m?c ?? tr?u t??ng b?i s? chuyên môn hóa ( drill –
down) và t?ng quát(roll-up).
??c ?i?m c?a các thu?c tính ho?c các chi?u thích h?p có th? là m?t ch?c
n?ng khó ??i v?i ng??i dùng. M?t ng??i dùng có th? ch? có m?t ý t??ng thô
v? các thu?c tính thích h?p cho vi?c th?m dò khai phá. H?n n?a khi d?
li?u khai phá ???c ch? rõ ng??i dùng có th? b? sót thêm vào các d? li?u
liên quan có liên quan m?nh m? v? ng? ngh?a v?i chúng. Ví dù vi?c bán các
m?t hàng liên quan ch?t ch? t?i các s? ki?n c? th? nh? là Halloween ho?c
giáng sinh ho?c ho?c t?i các nhóm ng??i c? th?, các nhân t? này không
???c bao g?m trong vi?c phân tích d? li?u yêu c?u. V?i nh?ng tr??ng h?p
nh? v?y k? thu?c ???c s? d?ng ?? giúp vi?c ??c t? t? m? c?a các d? li?u
liên quan. Các ch?c n?ng này ?? ?ánh giá và x?p h?ng các thu?c tính theo
s? phù h?p c?a nó v?i các thao tác. Ngoài ra k? thu?t tìm ki?m các thu?c
tính quan h? m?nh m? v? ng? ngh?a ???c s? d?ng ?? làm t?ng t?p d? li?u
kh?i t?o ???c ??a ra b?i ng??i dùng.
4.1.2 Các lo?i trí th?c ???c khai phá
Vi?c xác ??nh các lo?i tri th?c ???c khai phá là r?t quan tr?ng. Vì ?i?u
này nó quy?t ??nh ch?c n?ng khai phá d? li?u ???c th?c hi?n. Các lo?i tri
th?c bao g?m mô t? khái ni?m(??c tính và s? mô t?), s? k?t h?p, s? phân
l?p, s? phân nhóm, d? báo và phân tích s? phát tri?n.
Ngoài ra vi?c xác ??nh các ki?u tri th?c ???c khai phá cho m?t nhi?m v?
khai phá d? li?u ???c ??a ra, ng??i dùng có th? ??c t? và ??a ra các
pattern template mà các pattern ???c khai phá ph?i phù h?p. Các template
ho?c các metapattern( còn g?i là metarule ho?c meta queries) có th? ???c
dùng ?? h??ng d?n quá trình khai phá. Vi?c s? d?ng metapattern là ???c
th? hi?n trong ví d? sau:
Ví d? 4.2
M?t ng??i dùng nghiên c?u thói quen mua hàng c?a các khách hàng
AllElectronic có th? ch?n ?? khai phá các lu?t k?t h?p c?a d?ng sau:

                         P(X : customer,W) ^Q(X; Y ) => buys(X,Z)

?i?u ki?n X là m?t khóa c?a quan h? customer, P và Q là predicate
variables (các bi?n thu?c tính) là các bi?n có th? ???c kh?i t?o b?i các
thu?c tính thích h?p ho?c các chi?u ??a ra vì là m?t ph?n c?a ch?c n?ng
d? li?u liên quan. W,Y,Z là object variables(các bi?n ??i t??ng) là các
bi?n có th? l?y giá tr? c?a các thu?c tính t??ng ?ng cho khác hàng X.
Vi?c tìm ki?m các lu?t quan h? là b? ràng bu?c b?i các metarule ???c ??a
ra nh?:
        age(X, “30 - ") ^ income(X, “40 - 50K") => buys (X, “V CR")
[2.2%, 60%] (4.1)
and
    occupation(X; “student") ^ age(X; “20 - 29") ) => buys (X;
“computer") [1.4%, 70%]: (4.2)

Theo lu?t ??u thì các khách hàng ? ?? tu?i 30 v?i m?c l??ng hàng n?m là
t? 40k t?i 50k ( v?i 60%) là s? mua VCR và các tr??ng h?p này chi?m vào
kho?ng 2.2% trong t?ng s? giao dich. Và lu?t th? hai thì khách hàng là
sinh viên và ? ?? tu?i 20 là thích mua máy tính vào kho?ng 70% và chi?m
1.4% trong t?ng s? giao d?ch.
4.1.3 Tri th?c n?n t?ng: Khái ni?m phân c?p
Tri th?c n?n t?ng là thông tin v? l?nh v?c ???c khai phá mà có ích trong
quá trình khai phá. Trong ph?n này chúng ta t?p chung vào m?t tri th?c c?
s? ??n gi?n nh?ng có kh? n?ng m?nh ?ó là concept hierarchies( khái ni?m
phân c?p). Khái ni?m phân c?p cho phép khai phá tri th?c ? nhi?u m?c ??
tr?u t??ng.
Nh? ?ã mô t? trong ch??ng 2. M?t khái ni?m phân c?p ??nh ngh?a m?t lu?ng
các ánh x? t? m?t t?p các khái ni?m ? m?c ?? th?p t?i m?c ?? cao, các
khái ni?m chung h?n. M?t khái ni?m phân c?p cho chi?u locaition ???c ch?
ra trong hình 4.3 ánh x? khái ni?m m?c ?? th?p(cities) t?i nh?ng khái
ni?m t?ng quát h?n n?a( contries).
Chú ý r?ng khái ni?m phân c?p này ???c th? hi?n nh? là m?t tâp các node
t? ch?c trong m?t cây mà m?i node th? hi?n m?t khái ni?m. M?t node ??c
bi?t là g?c c?a cây. Nó bi?u th? giá tr? t?ng quát nh?t c?a chi?u ???c
??a ra. N?u nó không ???c hi?n th? rõ ràng thì nó b? ?n. Khái ni?m phân
c?p này bao g?m 4 m?c ??. Theo quy ??c các m?c ?? trong khái ni?m phân
c?p này ???c ?ánh s? t? cao xu?ng th?p b?t ??u v?i m?c ?? ) cho t?t c?
các node. Trong ví d? c?a chúng ta m?c ?? 1 th? hi?n khái ni?m country
trong khi m?c ?? 2 và 3 th? hi?n các khái ni?m province_or_state và city.
Các lá c?a h? th?ng phân c?p t??ng ?ng v?i các giá tr? d? li?u thô c?a
chi?u (c?p d? li?u nguyên th?y). Nh?ng giá tr? c? th? nh?t ho?c các khái
ni?m c?a các thu?c tính ho?c chi?u ???c ??a ra. M?c dù m?t khái ni?m phân
c?p th??ng ??nh ngh?a m?t s? phân lo?i ???c th? hi?n d??i d?ng m?t cây.
Nó c?ng có th? có d?ng là m?t ph?n ho?c m?t l??i.
Các khái ni?m phân c?p là m?t d?ng có ích c?a ki?n th?c n?n t?ng mà trong
?ó chúng cho phép d? li?u thô ???c x? lý ? m?c ?? tr?u t??ng cao h?n,
t?ng quát h?n. S? t?ng quát c?a d? li?u ho?c rolling up là ??t ???c b?i
vi?c thay th? m?c ?? d? li?u nguyên th?y (nh? là tên thành ph? cho
location ho?c giá tr? s? cho tu?i) b?ng các khái ni?m m?c ?? cao h?n( nh?
là các l?c ??a cho v? trí ho?c trong ph?m vi nh? “20-39”, “40-59", “60+"
cho tu?i). ?i?u này cho phép ng??i dùng nhìn th?y d? li?u ý ngh?a h?n và
tr?u t??ng, làm cho các pattern khai phá d? hi?u h?n. Nhìn chung có l?i
th? c?a vi?c nén d? li?u. Khai phá trên m?t t?p d? li?u nén s? yêu c?u
các thao tác ra vào ít h?n và hi?u qu? h?n khai phá trên m?t t?p d? li?u
l?n và không nén.

N?u k?t qu? d? li?u xu?t hi?n chung chung, các khái ni?m phân c?p c?ng
cho phép chuyên môn hóa ho?c drilling down theo ?ó các giá tr? khái ni?m
???c thay th? b?i các khái ni?m m?c ?? th?p h?n. B?ng rolling up và
drilling down ng??i dùng có th? view d? li?u t? quan ?i?m khác nhau, ??t
???c s? hi?u bi?t sâu h?n t? bên trong các m?i quan h? d? li?u ?n.
Các khái ni?m phân c?p có th? ???c cung c?p b?i ng??i s? d?ng h? th?ng,
các chuyên gia trong các l?nh v?c, ho?c các k? s? tri th?c. Các ánh x? d?
liêu thông th??ng ho?c các ?ng d?ng c? th?. Các khái ni?m phân c?p có th?
th??ng ???c khai phá t? ??ng ho?c ??nh ngh?a ??ng d?a trên vi?c phân tích
th?ng kê c?a d? li?u phân tán. Vi?c sinh ra t? ??ng c?a các khái ni?m
phân c?p là ?ã ???c tranh lu?n chi ti?t trong ch??ng 3.



Có th? có nhi?u h?n m?t khái ni?m phân c?p cho m?t thu?c tính và chi?u
???c ??a ra d?a trên các quan ?i?m khác nhau c?a ng??i dùng. Gi? s? ví d?
ng??i qu?n lý bán hàng c? AllElectronics quan tâm nghiên c?u v? thói quen
mua hàng c?a khách hàng t?i các ??a ?i?m khác nhau. Khái ni?m phân c?p
cho v? trí c?a hình 4.3 s? là có ích nhi?m v? khái phá nh? v?y. Gi? s?
r?ng ng??i qu?n lý marketing ph?i ngh? ra các chi?n d?ch qu?ng cáo cho
AllElectronics. Ng??i dùng s? mu?n xem location ???c t? ch?c v?i khía
c?nh ngôn ng? ( bao g?m ti?ng anh cho vancouver, Montreal và New York;
ti?ng pháp cho Montreal; Ti?ng tây ban nha cho New York và Miami..) ??
thu?n l?i cho vi?c qu?ng cáo. H? th?ng phân c?p theo v? trí này ???c th?
hi?n trong hình 4.4. Chú ý r?ng khái ni?m phân c?p này d?ng l??i, node
“New York” có hai node cha là “ English” và “ Spanish”.
Có 4 ki?u chính c?a các khái ni?m phân c?p. Ch??ng 2 ?ã gi?i thi?u các
ki?u ph? bi?n nh?t- sschema hierarchies ( phân c?p theo l??c ??) and set-
grouping hierarchies( phân c?p theo nhóm) cái mà chúng ta s? xem d??i
?ây. Ngoài ra chúng ta c?ng nghiên c?u . operation-derived hierarchies
(phân c?p xu?t phát t? thao tác) và rule-based hierarchies( phân c?p
d?a trên lu?t).
A schema hierarchy(c? th? h?n là a schema – defined hierarchy)
Là toàn b? hay m?t ph?n th? t? gi?a các thu?c tính trong l??c ?? c? s? d?
li?u. Phân c?p theo l??c ?? nh?n m?nh m?i quan h? ng? ngh?a gi?a các
thu?c tính. Thông th??ng m?t phân c?p theo l??c ?? mô t? m?t chi?u c?a
kho d? li?u.
Ví d? 4.3 L??c ?? quan h? cho address bao g?m cac thu?c tính street,
city, province_or_state và country. Chúng ta có th? ??nh ngh?a phân c?p
l??c ?? location b?i th? t? sau:
street < city < province or state < country
?i?u này có ngh?a là street có m?c khái ni?m th?p h?n city, city th?p h?n
province_or_state, và province_or_state th?p h?n country. Phân c?p theo
l??c ?? cung c?p thông tin metadata. Ví d? d? li?u v? d? li?u. S? ??c t?
c?a nó trong thu?t ng? toàn b? hay m?t ph?n th? t? gi?a các thu?c tính là
ng?n g?n h?n ??nh ngh?a t??ng ???ng mà li?t kê các ví d? nh? street,
province, state và country.
Nh? l?i r?ng khi xác ??nh d? li?u liên quan t?i tác v? ng??i dùng ??c t?
các thu?c tính thích h?p cho vi?c th?m dò khai thác. N?u m?t ng??i dùng
ch? ??c t? m?t thu?c tính liên quan t?i b?t k? phân c?p theo l??c ?? ch?a
city có th? t? ??ng ??a ra các thu?c tính liên quan. Ví d? các thu?c tính
street, province_or_state và country c?ng có th? ???c t? ??ng bao g?m cho
vi?c khai thác.
A set – grouping hierarchy( phân c?p gom nhóm)
T? ch?c các giá tr? cho thu?c tính ho?c chi?u ??a ra thành nhóm c?a các
h?ng s? ho?c ph?m vi giá tr?. Toàn b? ho?c m?t ph?n th? t? có th? ???c
??nh ngh?a gi?a các nhóm. Phân c?p gom nhóm có th? ???c s? d?ng ?? c?i
ti?n ho?c làm phong phú h?n phân c?p theo l??c ?? khi hai ki?u này k?t
h?p v?i nhau. Chúng th??ng ???c s? d?ng ?? ??nh ngh?a m?t t?p nh? các
quan h? gi?a các ??i t??ng.
Ví d? 4.4 M?t phân c?p theo nhóm c?a các thu?c tính tu?i có th? ???c ??c
t? trong ph?m v? sau:



Chú ý r?ng vi?c ??c t? ph?m vi gi?ng nhau c?ng có th? ???c sinh ra t?
??ng và xem chi ti?t trong ch??ng 3.
Ví d? 4.5 Phân c?p theo nhóm có th? t?o thành m?t ph?n c?a phân c?p theo
l??c ?? và ng??c l?i. Ví d? xem xét phân c?p khái ni?m cho location trong
hình 4.3 ??nh ngh?a city< province_or_state < country. Gi? s? r?ng các
giá tr? h?ng cho country bao g?m “ canada”, “USA”, “ Germany”, “
England”, và “Brazil”. Nhóm có th? ???c s? d?ng ?? c?i ti?n phân c?p này
b?ng cách thêm vào m?c ?? trên country nh? là continent( châu l?c) và
nhóm theo giá tr? country.
Operation – derived hierarchies là d?a trên các thao tác ???c ??c t? b?i
ng??i dùng, các chuyên gia, ho?c h? th?ng khai phá d? li?u. Các thao tác
bao g?m vi?c gi?i mã thông tin t? chu?i ???c mã hóa, trích d?n thông tin
t? các ??i t??ng d? li?u ph?c t?p, và phân c?m d? li?u.

Ví d? 4.6 M?t ??a ch? email ho?c m?t URL c?a WWW ch?a các thông tin phân
c?p s?, ngành, các tr??ng ??i h?c( ho?c công ty) và các n??c. Các thao
tác gi?i mã có th? ???c ??nh ngh?a ?? trích xu?t thông tin ?? t?o thành
d?ng phân c?p khái ni?m.
Ví d? ??a ch? email dmbook@cs.sfu.ca ??a ra th? t? “ login – name <
department < university< country” th? hi?n m?t d?ng phân c?p khái ni?m
cho ??a ch? email. T??ng t? ??a ch? URL “
http://www.cs.sfu.ca/research/DB/DBMiner” có th? ???c gi?i mã ?? cung c?p
m?t ph?n th? t? có d?ng c? s? c?a phân c?p khái ni?m cho URLS.
Ví d? 4.7 Các thao tác có th? ???c ??nh ngh?a ?? trích rút thông tin t?
các ??i t??ng d? li?u ph?c t?p. Ví d? xâu “ Ph.D int Computer Science,
UCLA, 1995” là m?t ??i t??ng ph?c t?p th? hi?n b?ng c?p ??i h?c. Xâu này
bao g?m các thông tin v? lo?i v?n b?ng h?c thu?t, l?nh v?c, tr??ng ??i
h?c vf n?m t?t nghi?p. Các thao tác có th? ???c ??nh ngh?a ?? trích thông
tin nh? v?y là các d?ng phân c?p khái ni?m.
Ngoài ra các thao tác thu?c toán h?c và th?ng kê nh? là phân c?m d? li?u
và các thu?t toán phân tích d? li?u phân tán có th? ???c s? d?ng ?? hình
thành các khái ni?m phân c?p nh? ?ã tranh lu?n trong ph?n 3.5.
A rule – based hierarchy : h? th?ng phân c?p d?a trên lu?t s?y ra khi
toàn b? phân c?p khái ni?m ho?c m?t ph?n c?a nó ???c ??nh ngh?a b?i m?t
t?p các lu?t, và ???c ?ánh giá ??ng d?a trên c? s? d? li?u hi?n tài và
vi?c ??nh ngh?a các lu?t.
Ví d? 4.8 Các lu?t sau ?ây có th? ???c s? d?ng ?? phân lo?i các m?t hàng
AllElectronic nh? low_profit_margin, medium_profit_margin,
high_profit_margin. V?i ?i?u ki?n s? d? l?i nhu?n (profit margin) c?a m?t
hàng X là ???c ??nh ngh?a khi có s? khác bi?t gi?a giá bán l? và chi phí
th?c t? c?a X. M?t hàng có s? d? l?i nhu?nits h?n 50$ ???c ??nh ngh?a là
m?t hàng low_profit_margin, các m?t hàng có l?i nh?u t? 50$ t?i 250$ ???c
??nh ngh?a là m?t hàng medium_profit_margin, và m?t hàng có l?i nhu?n
l?n h?n 250$ ???c ??nh ngh?a là m?t hàng high_profit_margin.


Vi?c s? d?ng phân c?p khái ni?m cho data mining ???c miêu t? trong các
ch??ng còn l?i c?a quy?n sách này.
4.1.4. ?? ?o quan tâm - Interestingness measures
M?c dù ??c ?i?m c?a d? li?u liên quan t?i tác v? và các lo?i tri th?c
???c khai phá
(characterizaton, association…) có th? làm gi?m ?áng k? s? l??ng pattern
???c sinh ra. M?t quy trinh data mining có l? v?n sinh ra m?t s? l??ng
l?n pattern. Thông th??ng ch? m?t ph?n nh? c?a các pattern này là th?c s?
cho ng??i dùng quan tâm. Vì v?y ng??i dùng c?n ph?i ti?p t?c gi?i h?n s?
l??ng pattern không ???c quan tâm ???c quy trình tr? v?. Có th? ??t ???c
?i?u này b?ng cách xác ??nh các ph??ng pháp c?n thi?t ?? ??c l??ng s? ??n
gi?n, s? ti?n ích, s? ch?c ch?n và s? m?i m? c?a các pattern.
Trong ph?n này chúng ta nghiên c?u m?t vài ph??ng pháp c?a pattern
interestingness. Các ph??ng pháp d?a trên c?u trúc c?a pattern và th?ng
kê chúng. Nhìn chung m?i ph??ng pháp quan h? t?i m?t threshold . Là cái
mà có th? ???c ki?m soát b?i ng??i dùng. Các lu?t mà không phù h?p v?i
threshold ???c xem nh? là không h?p d?n và vì v?y là không ???c trình bày
t?i ng??i dùng nh? là tri th?c.
Simplicity: M?t nhân t? góp ph?n vào s? thú v? c?a m?t pattern là s? ??n
gi?n cho toàn b? pattern ??i v?i s? nh?n th?c c?a con ng??i. M?c tiêu ??n
gi?n c?a các ph??ng pháp c?a các pattern ???c xem nh? là ch?c n?ng c?a
c?u trúc pattern, xác ??nh kích th??c c?a pattern d?ng bit ho?c s? l??ng
thu?c tính hay thao tác xu?t hi?n trong pattern. Ví d? c?u trúc ph?c t?p
c?a m?t lu?t là khó h?n ?? gi?i thích và do ?ó ít h?p d?n h?n ?? quan
tâm.
Rule length: Ví d? là m?t ph??ng pháp ??n gi?n. ??i v?i các lu?t ???c th?
hi?n d??i d?ng liên l?t th??ng( nh? là m?t t?p tính ch?t liên k?t) ?? dài
lu?t là thông th??ng ???c ??nh ngh?a nh? là s? l??ng các liên k?t trong
lu?t.
Các lu?t k?t h?p, nh?n th?c, phân l?p có chi?u dài v??t ng??ng do ng??i
dùng ??nh ngh?a ???c xem nh? là không thú v?. ??i v?i các pattern ???c
th? hi?n d??i d?ng cây quy?t ??nh. Simplicity có th? là m?t ch?c n?ng c?a
s? l??ng lá o?c s? node c?a cây.
Certainty. M?i pattern ???c khám phá có m?t ph??ng pháp ch?c ch?n liên
quan t?i s? ?ánh giá tính h?p l? ho?c s? tin c?y c?a pattern. M?t ph??ng
pháp ch?c ch?n cho s? k?t h?p các lu?t v?i d?ng “ A=>B” là confidence.
M?t t?p d? li?u liên quan t?i tác v? ( ho?c các giao d?ch trong m?t c? s?
d? li?u giao d?ch). S? t? tin c?a “ A=>B” ???c ??nh ngh?a là :

Ví d? 4.9. Gi? s? r?ng m?t t?p d? li?u liên quan t?i tác v? bao g?m các
giao d?ch t? phòng máy tính c?a AllElectronics. M?t confidence c?a 85%
cho lu?t k?t h?p

Có ngh?a là 85% các khác hàng mua m?t máy tính c?ng s? mua ph?n m?m.
M?t giá tr? confidence c?a 100% ho?c 1 ch? ra r?ng lu?t luôn chính xác
trên d? li?u ???c phân tích. Nh?ng lu?t nh? v?y ???c g?i là exact.
??i v?i lu?t phân l?p, confidence còn g?i là s? tin c?y( reliability)
ho?c chính xác(accuracy). Các lu?t phân l?p ?? xu?t m?t mô hình phân bi?t
các ??i t??ng, ho?c tuples c?a m?t l?p m?c tiêu(bigSpenders) t? các ??i
t??ng c?a l?p t??ng ph?n(budgetSpenders). M?t giá tr? tin c?y th?p ch? ra
r?ng lu?t trong câu h?i không chính xác phân lo?i m?t s? l??ng l?n các
??i t??ng l?p t??ng ph?n nh? các ??i t??ng l?p ?ích. Các lu?t tin c?y
c?ng ???c bi?t nh? rule strength, rule quality, certainty factor, và
discriminating weight.
Utility. S? h?u ích ti?m n?ng c?a m?t pattern là m?t nhân t? xác ??nh s?
h?p d?n c?a nó. Nó có th? ???c ?o b?ng ch?c n?ng utility nh? là h? tr?.
H? tr? c?a m?t k?t h?p pattern liên quan t?i % c?a d? li?u liên quan t?i
tác v?( ho?c các giao dich) cho pattern là ?úng. ??i v?i các lu?t quan h?
c?a d?ng “ A=>B” nó ???c ??nh ngh?a là:

Ví d? 4.10
Gi? s? r?ng m?t t?p d? li?u liên quan t?i tác v? bao g?m các giao d?ch t?
phòng máy tính c?a AllElectronics. M?t h? tr? 30% cho lu?t k?t h?p ngh?a
là 30% c?a t?t c? khách hàng trong phòng máy tính mua c? máy tính và ph?n
m?m.
Các lu?t k?t h?p th?a mãn c? hai m?t là ng??i dùng ??nh ngh?a ng??ng tin
c?y nh? nh?t và ng??ng h? tr? nh? nh?t do ng??i dùng ??nh ngh?a là ???c
g?i là strong association rules và ???c xem là h?p d?n. Các lu?t v?i h?
tr? th?p th? hi?n ? nhi?u ho?c là hi?m ho?c là ngo?i l?.
T? s? c?a ph??ng trình h? tr? ???c bi?t nh? là lu?t count. Khá th??ng
xuyên con s? này ???c hi?n th? thay vì h? tr?. Vi?c h? tr? có th? d? dàng
b?t ngu?n t? nó.
Vi?c mô t? ??c ?i?m và bi?t s? là b?n ch?t, sinh ra tuple. B?t k? tuple
???c sinh ra th? hi?n ít h?n Y% c?a t?ng s? tuple liên quan t?i tác v?
???c xem nh? là ?n. tuple là không ???c hi?n th? t?i ng??i dùng. Giá tr?
c?a Y là noise threshold.
Novelty. Pattern Novelty là nh?ng ?óng góp thông tin m?i ho?c t?ng hi?u
su?t cho t?p pattern ??a ra. Ví d?, m?t tr??ng h?p ngo?i l? d? li?u có
th? ???c coi là novel mà trong ?ó nó khác bi?t d?a trên trên mô hình
th?ng kê ho?c ni?m tin c?a ng??i dùng. M?t chi?n l??c khác cho vi?c phát
hi?n tính m?i là lo?i b? các m?u th?a. N?u phát hi?n ra m?t quy t?c có
th? ???c ng? ý b?i m?t quy t?c khác là có s?n trong c? s? tri th?c ho?c
trong t?p các lu?t xu?t phát sau ?ó ho?c là các lu?t c?n ???c ki?m tra
l?i ?? lo?i b? s? th?a ti?m n?ng.
Khai phá v?i các phân l?p khái ni?m có th? ??t k?t qu? trong m?t s? l??ng
l?n các lu?t th?a. Ví d? gi? s? r?ng các lu?t quan h? sau ?ây ???c khai
phá t? c? s? d? li?u AllElectronic s? d?ng phân l?p khái ni?m trong hình
4.3 cho location:

Gi? s? r?ng lu?t(4.6) có 8% h? tr? và 70% confidence. Có l? lu?t expect
có ?? tin c?y kho?ng 70% là t?t vì t?t c? các tuples ??i di?n cho các
??i t??ng d? li?u cho Montreal c?ng là các ??i t??ng d? li?u cho Canada.
Lu?t (4,6) là t?ng quát h?n là Rule (4,7), và do ?ó, chúng tôi mong mu?n
lu?t ?? x?y ra th??ng xuyên h?n sau này. Do ?ó, hai quy t?c không nên s?
h? tr? nh? nhau. Gi? s? r?ng kho?ng m?t ph?n t? c?a t?t c? doanh s? bán
hàng ? Canada ??n t? Montreal. Sau ?ó chúng tôi mong ch? s? h? tr? c?a
các lu?t liên quan ??n Montreal là m?t ph?n t? c?a s? h? tr? c?a các lu?t
liên quan ??n Canada. Nói cách khác, chúng tôi mong ??i. Nói cách khác,
chúng tôi mong ??i s? h? tr? c?a lu?t (4,7) là 8% x 1/ 4 = 2%. N?u s? tin
c?y và s? h? tr? th?c t? c?a các lu?t (4,7) ???c nh? mong ??i, sau ?ó các
lu?t ???c xem là th?a vì nó không cung c?p b?t k? thông tin b? sung và
nói chung là ít h?n Rule (4,6). Nh?ng ý t??ng ?ang ti?p t?c th?o lu?n ?
Ch??ng 6 v? khai phá lu?t k?t h?p.
Ví d? trên c?ng minh ho? r?ng khi khai thác ki?n th?c ? nhi?u c?p ??, ?ó
là lý do ?? có ng??ng h? tr? và ?? tin c?y khác nhau, tùy thu?c vào m?c
?? granularity c?a ki?n th?c trong pattern ???c khai phá . Ví d?, khi
pattern là phân tán ? các c?p th?p h?n. Chúng ta có th? thi?t l?p các
ng??ng h? tr? t?i thi?u ??i v?i các lu?t có ch?a các khái ni?m m?c th?p
là th?p h?n các lu?t ch?a các khái ni?m ? m?c ?? cao h?n.
D? li?u data mining cho phép ng??i dùng các ph??ng pháp linh ho?t, t??ng
tác c? th?, ki?m nghi?m và ng??ng t??ng ???ng c?a chúng. Có r?t nhi?u
bi?n pháp khách quan, ngoài nh?ng nghiên c?u c? b?n ? trên. Các bi?n pháp
ch? quan t?n t?i là t?t, mà hãy xem xét ni?m tin ng??i s? d?ng v? các m?i
quan h? trong d? li?u, ngoài các bi?n pháp khách quan th?ng kê. các bi?n
pháp theo s? thích s? ???c th?o lu?n chi ti?t h?n trong su?t cu?n sách ,
liên quan ??n vi?c khai thác các ??c tính, k?t h?p , và các lu?t phân
l?p và m?u l?ch.
4.1.5. Th? hi?n và tr?c quan c?a các m?u ???c phát hi?n
??i v?i khai phá d? li?u hi?u qu?, h? th?ng khai phá d? li?u s? có th?
hi?n th? các m?u phát hi?n ? nhi?u hình th?c, ch?ng h?n nh? các lu?t,
b?ng bi?u, crosstabs, bánh ho?c các bi?u ?? , cây quy?t ??nh, l?p ph??ng,
ho?c các th? hi?n tr?c quan khác (Hình 4,5). Cho phép hình dung c?a mô
hình phát hi?n d??i nhi?u hình th?c có th? giúp ng??i s? d?ng xác ??nh
pattern mong mu?n và t??ng tác ho?c h??ng d?n các h? th?ng phát hi?n
thêm. M?t ng??i s? d?ng s? có th? xác ??nh các lo?i trình bày s? ???c s?
d?ng ?? hi?n th? các m?u phát hi?n.
Vi?c s? d?ng khái ni?m phân c?p ?óng vai trò quan tr?ng trong vi?c giúp
?? ng??i s? d?ng hình ?nh v? các m?u phát hi?n. Khai thác m? v?i khái
ni?m phân c?p cho phép các ??i di?n c?a ki?n th?c phát hi?n trong các
khái ni?m cao c?p, có th? ???c d? hi?u h?n cho ng??i dùng h?n so v?i các
quy t?c th? hi?n trong ?i?u ki?n c?a nguyên th?y (t?c là, nguyên) d?
li?u, ch?ng h?n nh? ch?c n?ng ho?c multivalued ph? thu?c quy t?c, ho?c
ràng bu?c toàn v?n. H?n n?a, h? th?ng khai thác d? li?u nên s? d?ng khái
ni?m phân c?p th?c hi?n khoan xu?ng và ho?t ??ng roll-up, do ?ó ng??i
dùng có th? ki?m tra phát hi?n các mô hình ? nhi?u c?p ?? tr?u t??ng.
Ngoài ra, pivoting (ho?c xoay), slicing, và dicing ho?t ??ng tr? giúp
ng??i s? d?ng xem d? li?u t?ng quát và ki?n thc t? nh?ng quan ?i?m di
erent. Các ho?t ??ng này ?ã ???c th?o lu?n chi ti?t trong Ch??ng 2. M?t
h? th?ng khai thác d? li?u c?n cung c?p các ho?t ??ng nh? t??ng tác v?i
kích th??c b?t k?, c?ng nh? cho các giá tr? cá nhân c?a m?i chi?u.
M?t s? d?ng ??i di?n có th? ???c t?t h?n phù h?p h?n ??i v?i các lo?i
tri th?c. Ví d?, quan h? t?ng quát và crosstabs t??ng ?ng c?a chúng
(cross-tabulations) ho?c pie / bi?u ?? là t?t cho trình bày các mô t?
??c tính, trong khi cây quy?t ??nh là m?t l?a ch?n ph? bi?n cho các phân
l?p. Các bi?n pháp theo s? thích s? ???c hi?n th? cho m?i mô hình phát
hi?n ra, ?? giúp ng??i dùng xác ??nh các pattern cho các ki?n th?c có
ích. Chúng bao g?m ?? tin c?y, h? tr?, và ??m, và ???c di?n t? trong
Ph?n 4.1.4.
4.2 NGÔN NG? TRUY V?N KHAI PHÁ D? LI?U
Vì sao nó là quan tr?ng ?? có m?t ngôn ng? truy v?n khai phá d? li?u?
Tôt, nh? l?i r?ng, m?t tính n?ng mong mu?n c?a h? th?ng khai phá d? li?u
là kh? n?ng h? tr? ad-hoc và t??ng tác khai phá d? li?u trong th? t?
thu?n ti?n ?? khám phá ki?n th?c m?t cách m?m d?o và hi?u qu?. Ngôn ng?
khai phá d? li?u có th? ???c thi?t k? ?? h? tr? tính n?ng trên.

Hình 4.5: Các hình khác nhau ?? th? hi?n và hình dung hình m?u khám phá.

T?m quan tr?ng c?a vi?c thi?t k? m?t ngôn ng? truy v?n khai phá d? li?u
t?t c?ng có th? ???c nhìn t? l?ch s? c?a h? th?ng c? s? d? li?u quan h?.
h? th?ng c? s? d? li?u quan h? ?ã th?ng tr? th? tr??ng c? s? d? li?u
trong nhi?u th?p k?. Các chu?n hóa c?a ngôn ng? truy v?n quan h?, di?n ra
? giai ?o?n ??u c?a phát tri?n c? s? d? li?u quan h?, ???c nhi?u tín
nhi?m cho s? thành công c?a tr??ng c? s? d? li?u quan h?. M?c dù m?i h?
th?ng c? s? d? li?u quan h? th??ng m?i có giao di?n ?? h?a ng??i dùng c?a
nó, lõi bên trong c?a m?i giao di?n là ngôn ng? truy v?n quan h? chu?n.
Các chu?n c?a ngôn ng? truy v?n quan h? cung c?p m?t n?n t?ng mà trên ?ó
các h? th?ng quan h? ???c phát tri?n và ti?n hóa. Nó t?o ?i?u ki?n trao
??i thông tin và chuy?n giao công ngh?, và thúc ??y th??ng m?i hóa và
ch?p nh?n r?ng rãi c?a công ngh? c? s? d? li?u quan h?. Các ho?t ??ng
chu?n hóa g?n ?ây trong các h? th?ng c? s? d? li?u, ch?ng h?n nh? công c?
liên quan ??n SQL-3, OMG, và ODMG, minh ho? thêm t?m quan tr?ng c?a vi?c
có m?t ngôn ng? c? s? d? li?u tiêu chu?n cho s? thành công trong vi?c
phát tri?n và th??ng m?i hóa các h? th?ng c? s? d? li?u. Do ?ó, có m?t
ngôn ng? truy v?n t?t cho khai phá d? li?u có th? giúp chu?n hóa s? phát
tri?n c?a các n?n t?ng cho h? th?ng khai phá d? li?u.
Thi?t k? m?t ngôn ng? khai phá d? li?u thông minh là thách th?c b?i vì
khai phá d? li?u bao g?m m?t ph?m vi r?ng các nhi?m v?, t? tính ch?t d?
li?u t?i nguyên t?c liên k?t khai phá, phân lo?i d? li?u, và phân tích
quá trình bi?n ??i. M?i công vi?c có yêu c?u khác nhau. Thi?t k? c?a m?t
ngôn ng? truy v?n khai phá d? li?u hi?u qu? ?òi h?i m?t s? hi?u bi?t sâu
s?c v? s?c m?nh, gi?i h?n, và c? ch? c? b?n c?a các lo?i nhi?m v? khai
phá d? li?u.
Làm th? nào ?? b?n thi?t k? m?t ngôn ng? truy v?n khai phá d? li?u? Ph?n
tr??c trong ch??ng này, chúng ta ?ã xem xét m?t cách thô s? ?? xác ??nh
m?t nhi?m v? khai phá d? li?u ? d?ng truy v?n khai phá d? li?u. Các xác
??nh thô s?:
T?p h?p các d? li?u liên quan ??n nhi?m v?, ???c khai phá.
Các lo?i tri th?c ???c khai phá.
Tri th?c n?n s? ???c s? d?ng trong quá trình khám phá
Các bi?n pháp r?t nhi?u lý thú và ng??ng ?? ?ánh giá mô hình, và
Trình bày d? ki?n s? cho hình dung các phát hi?n m?u.
D?a trên nh?ng cách thô s?, chúng ta thi?t k? m?t ngôn ng? truy v?n cho
khai phá d? li?u ???c g?i là DMQL vi?t t?t c?a Data Mining Query
Language. DMQL cho phép các khai phá ad-hoc nhi?u lo?i tri th?c t? c? s?
d? li?u quan h? và d? li?u ch?a ? nhi?u c?p ?? tr?u t??ng 2 .

Ngôn ng? này thông qua m?t cú pháp gi?ng SQL, ?? nó có th? d? dàng ???c
tích h?p v?i ngôn ng? truy v?n quan h?, SQL. Cú pháp c?a DMQL ???c ??nh
ngh?a trong m?t ng? pháp BNF m? r?ng, trong ?ó “[]” ??i di?n cho 0 ho?c
m?t s? c?, “{ }" ??i di?n cho 0 ho?c nhi?u l?n xu?t hi?n, và t? trong
phông ch? sans serif ??i di?n cho t? khoá.

Trong m?c 4.2.1 ??n 4.2.5, chúng ta phát tri?n các cú pháp DMQL cho t?ng
khai phá d? li?u thô s?. Trong Ph?n 4.2.6, chúng ta cho th?y m?t ví d?
truy v?n khai phá d? li?u, quy ??nh trong cú pháp ???c ?? xu?t. M?t b?n
tóm t?t c?p cao nh?t c?a ngôn ng? ???c th? hi?n trong hình 4.6.

4.2.1. Cú pháp cho ??c t? d? li?u nhi?m v? liên quan.
B??c ??u tiên trong vi?c xác ??nh m?t nhi?m v? khai phá d? li?u là ??c
?i?m k? thu?t c?a các tác v? d? li?u có liên quan, ngh?a là, các d? li?u
trên ?ó mà khai phá ???c th?c hi?n. ?i?u này liên quan ??n vi?c xác ??nh
các c? s? d? li?u và b?ng ho?c kho d? li?u có ch?a các d? li?u có liên
quan, ?i?u ki?n ?? l?a ch?n các d? li?u có liên quan, các thu?c tính có
liên quan ho?c kích th??c cho th?m dò, và h??ng d?n v? vi?c ??t ho?c nhóm
các d? li?u l?y. DMQL cung c?p các m?nh ?? cho các ??c ?i?m k? thu?t c?a
các thông tin ?ó, nh? sau.
use database (database_name), or use data warehouse
(data_warehouse_name): M?nh ?? use h??ng nhi?m v? khai phá d? li?u t?i c?
s? d? li?u ho?c kho ch?a c? s? d? li?u quy ??nh.
from {relation(s)/cube(s)} [where (condition)]: M?nh ?? from và where
t??ng ?ng xác ??nh các b?ng c? s? d? li?u ho?c d? li?u hình kh?i tham
gia, và các ?i?u ki?n xác ??nh các d? li?u ???c l?y ra.
in relevance to (att_or_dim_list): M?nh ?? này li?t kê các thu?c tính
ho?c kích th??c ?? th?m dò.
order by (order_list): M?nh ?? order by quy ??nh c? th? trình t? phân
lo?i c?a d? li?u nhi?m v? có liên quan.
group by (grouping_list): M?nh ?? group by xác ??nh ?i?u ki?n c? th? cho
các nhóm d? li?u.
having (condition): M?nh ?? having quy ??nh c? th? ?i?u ki?n theo ?ó
các nhóm d? li?u ???c coi là có liên quan.
Nh?ng m?nh ?? này thành l?p m?t truy v?n SQL ?? t?p h?p d? li?u nhi?m v?
liên quan.
Ví d? 4.11: Ví d? này cho th?y làm th? nào ?? s? d?ng DMQL ?? xác ??nh d?
li?u nhi?m v? liên quan ???c mô t? trong Ví d? 4.1 cho khai phá c?a các
k?t h?p gi?a các m?c th??ng xuyên mua t?i AllElectronics c?a khách hàng
Canada, liên quan ??n thu nh?p c?a khách hàng và ?? tu?i. Ngoài ra, ng??i
dùng ch? ??nh r?ng cô mu?n các d? li?u ???c nhóm l?i theo ngày. Các d?
li?u ???c l?y t? m?t c? s? d? li?u quan h?.


4.2.2. Cú pháp ?? xác ??nh các lo?i ki?n th?c ???c khai phá.
(K? thu?t ki?n th?c khai phá) tuyên b? là dùng ?? xác ??nh các lo?i ki?n
th?c ???c khai phá. Nói cách khác, nó cho th?y các ch?c n?ng khai thác d?
li?u s? ???c th?c hi?n. Cú pháp c?a nó ???c ??nh ngh?a d??i ?ây ?? mô t?
tính ch?t, phân bi?t, liên k?t, phân lo?i, và d? ?oán.
1. Tính ch?t.

?i?u này ch? ??nh r?ng các mô t? ??c tính s? ???c khai thác. M?nh ??
analyze, ???c s? d?ng ?? mô t? tính ch?t, quy ??nh c? th? các bi?n pháp
t?ng h?p, ch?ng h?n nh? count, sum, ho?c count% (t? l? ph?n tr?m count,
ngh?a là, t? l? c?a tuple trong các t?p d? li?u có liên quan v?i các tính
ch?t xác ??nh. Nh?ng bi?n pháp này s? ???c tính cho m?i tính ch?t d? li?u
???c tìm th?y.
Ví d? 4.12 sau ?ây xác ??nh r?ng các lo?i ki?n th?c ???c khai phá là m?t
mô t? tính ch?t thói quen mua s?m c?a khách hàng. ??i v?i m?i ??c ?i?m,
t? l? ?áp ?ng b? nhi?m v? có liên quan mà tính ch?t là ???c hi?n th?.

2. Phân bi?t.

?i?u này ch? rõ r?ng mô t? bi?u th?c s? ???c khai phá. Nh?ng mô t? so
sánh m?t l?p m?c tiêu c?a các ??i t??ng v?i m?t ho?c nhi?u l?p t??ng ph?n
khác. Do ?ó, lo?i tri th?c ???c g?i là comparison. ??i v?i tính ch?t,
m?nh ?? analyze quy ??nh c? th? các bi?n pháp t?ng h?p, ch?ng h?n nh?
count, sum, ho?c count%, s? ???c tính toán và hi?n th? cho t?ng mô t?.
Ví d? 4.13 Ng??i s? d?ng có th? phân ??nh lo?i khách hàng, và sau ?ó khai
phá mô t? c?a m?i th? lo?i. Ví d?, m?t ng??i s? d?ng có th? ??nh ngh?a
bigSpenders nh? khách hàng mua các s?n ph?m ?ó có giá $ 100 ho?c nhi?u
h?n trung bình, và budgetSpenders nh? khách hàng mua hàng mua ít h?n $
100 trung bình. Vi?c khai phá c?a mô t? các bi?u th?c cho khách hàng t?
m?i lo?i này có th? ???c quy ??nh t?i DMQL nh? hình bên d??i, n?i mà ??
c?p ??n m?i quan h? m?c. ??m các b? nhi?m v? có liên quan ?áp ?ng t?ng mô
t? là ?? ???c hi?n th?.

3. Liên k?t.

?i?u này ch? khai phá v? các mô hình liên k?t. Khi khai phá liên k?t c?
th?, ng??i dùng có tùy ch?n c?a vi?c cung c?p các m?u (còn g?i là
metapattern ho?c metarule) v?i m?nh ?? matching. Các metapattern có th?
???c s? d?ng ?? t?p trung khám phá các mô hình phù h?p v?i các
metapattern nh?t ??nh, do ?ó vi?c thi hành cú pháp b? sung cho nhi?m v?
khai phá. Ngoài vi?c cung c?p cú pháp, các metapattern miêu t? ?i?m u?n
d? li?u ho?c các gi? thuy?t mà ng??i dùng th?y thú v? ?? ?i?u tra. Khai
phá v?i vi?c s? d?ng các metapattern, ho?c khai phá h??ng d?n metarule,
cho phép s? b? sung linh ho?t cho khai phá lu?t ad-hoc. Trong khi các
metapattern có th? ???c s? d?ng trong khai phá c?a các hình th?c khác c?a
tri th?c, chúng là h?u ích nh?t cho các liên k?t khai phá do có s? l??ng
l?n các liên k?t có kh? n?ng t?o ra.
Ví d? 4.14 Các metapattern c?a Ví d? 4.2 có th? ???c quy ??nh nh? sau ??
h??ng d?n vi?c khai phá c?a các lu?t liên k?t mô t? thói quen mua s?m c?a
khách hàng.

4. Phân lo?i.

Các quy ??nh mà các mô hình phân lo?i d? li?u s? ???c khai phá. M?nh ??
analyze quy ??nh r?ng vi?c phân lo?i ???c th?c hi?n theo các giá tr? c?a
(classifying_attribute_or_dimension). ??i v?i các thu?c tính phân minh
ho?c kích th??c, thông th??ng m?i giá tr? ??i di?n cho m?t l?p (nh?
“Vancouver”, “New York”, “Chicago”, và nh? v?y cho th?y kích th??c
location). ??i v?i các thu?c tính s? ho?c kích th??c, m?i l?p có th? ???c
xác ??nh b?i m?t ph?m vi c?a các giá tr? (nh? “20-39”, “40-59”, “60-89”
cho tu?i). Phân lo?i cung c?p m?t khuôn ng?n g?n mà mô t? t?t nh?t các
??i t??ng trong m?i l?p và phân bi?t chúng t? các l?p khác.
Ví d? 4.15 ?? khai phá các m?u phân lo?i tín d?ng c?a khách hàng n?i mà
phân lo?i tín d?ng ???c xác ??nh b?i các thông tin tín d?ng thu?c tính,
các k? thu?t DMQL sau ?ây ???c s? d?ng:

5. D? ?oán.


Cú pháp DMQL này là dành cho d? ?oán. Nó xác ??nh khai phá các giá tr?
c?a d? li?u liên t?c b? m?t ho?c không rõ, ho?c c?a s? phân tán d? li?u,
cho các thu?c tính ho?c kích th??c xác ??nh trong m?nh ?? analyze. M?t mô
hình d? ?oán ???c xây d?ng d?a trên các phân tích c?a các giá tr? thu?c
tính khác ho?c kích th??c mô t? các ??i t??ng d? li?u (các b?). M?nh ??
set có th? ???c dùng ?? c? ??nh giá tr? c?a các thu?c tính khác.

Ví d? 4.16 ?? d? ?oán giá bán l? c?a m?t m?c m?i t?i AllElectronics, các
k? thu?t DMQL sau ?ây ???c s? d?ng:

M?nh ?? set xác ??nh r?ng các mô hình d? ?oán k?t qu? v? giá c? là dành
cho t?p h?p các d? li?u có liên quan nhi?m v? liên quan ??n TV c?a SONY.
N?u không có m?nh ?? set l?p ???c xác ??nh, thì quay tr? l?i d? ?oán s?
là m?t d? li?u phân tán cho t?t c? các lo?i và nhãn hi?u c?a
AllElectronics m?c trong d? li?u nhi?m v? có liên quan.
Các ngôn ng? khai phá d? li?u c?ng nên cho phép các k? thu?t c?a các lo?i
tri th?c khác ???c khai phá, ngoài nh?ng gì ???c hi?n th? ? trên. Nó bao
g?m vi?c khai phá các c?m d? li?u, lu?t ti?n hóa hay ki?u tu?n t?, và ??
l?ch.
4.2.3 Cú pháp cho ??c ?i?m khái ni?m h? th?ng phân c?p.
Khái ni?m phân c?p cho phép khai phá tri th?c ? nhi?u c?p ?? tr?u t??ng.
?? thích ?ng v?i quan ?i?m khác nhau c?a ng??i s? d?ng có liên quan ??n
các d? li?u, có th? có nhi?u h?n m?t khái ni?m phân c?p cho m?i thu?c
tính ho?c kích th??c. Ví d?, m?t s? ng??i dùng có th? thích ?? t? ch?c
các v? trí nhánh theo các ph?m vi và các tr?ng thái, trong khi nh?ng
ng??i khác có th? thích ?? t? ch?c chúng theo ngôn ng? ???c s? d?ng.
Trong tr??ng h?p này, ng??i dùng có th? ch? ra khái ni?m h? th?ng phân
c?p ???c s? d?ng.
use hierarchy (hierarchy) for (attribute_or_ dimension).
N?u không, m?t h? th?ng phân c?p m?c ??nh cho m?i thu?c tính ho?c kích
th??c ???c s? d?ng.
Làm th? nào chúng ta có th? ??nh ngh?a khái ni?m phân c?p, s? d?ng DMQL?
Trong Ph?n 4.1.3, chúng t nghiên c?u b?n lo?i khái ni?m phân c?p, c? th?
là gi?n ??, nhóm t?p h?p, xu?t phát t? ho?t ??ng, và d?a trên nguyên t?c
phân c?p. Hãy nhìn vào cú pháp sau ?? xác ??nh t?ng lo?i h? th?ng phân
c?p.
1. ??nh ngh?a c?a l??c ?? phân c?p.
Ví d? 4.17. Tr??c ?ó, chúng ta xác ??nh m?t h? th?ng l??c ?? phân c?p cho
m?t ??a quan h? address nh?: street < city < province_or_state <
country. ?i?u này có th? ???c ??nh ngh?a trong ngôn ng? truy v?n khai phá
d? li?u nh?:
Tr?t t? c?a các thu?c tính ???c li?t kê là quan tr?ng. Trong th?c t?,
tr?t t? ???c ??nh ngh?a trong ?ó xác ??nh r?ng treet là m?t khái ni?m c?p
?? th?p h?n so v?i city, ?ó là khái ni?m l?n l??t m?t c?p th?p h?n
province_or_state, và vv.
Ví d? 4.18. M?t h? th?ng khai phá d? li?u thông th??ng s? có m?t h?
th?ng khái ni?m ???c ??nh ngh?a tr??c cho l??c ?? date (day, month,
quarter, year), nh?:

Ví d? 4.19. Khái ni?m phân c?p có th? ??nh ngh?a liên quan ??n m?t s?
quan h?. Ví d?, item_hierarchy có th? liên quan ??n hai m?i quan h?,
item, và supplier, ??nh ngh?a trong l??c ?? sau ?ây.

H? th?ng phân c?p item_hierarchy có th? ???c quy ??nh nh? sau:

N?u ??nh ngh?a khái ni?m phân c?p có ch?a thu?c tính mà ???c chia s? b?i
hai m?i quan h?, sau ?ó các thu?c tính có tên b?t ??u b?ng m?i quan h?
c?a mình, b?ng cách s? d?ng cùng m?t d?u ch?m (“.”) ký hi?u nh? trong SQL
(ví d?., item.supplier). Vi?c k?t h?p ?i?u ki?n c?a hai quan h? ???c quy
??nh b?i m?nh ?? where.
2. ??nh ngh?a c?a phân c?p nhóm.
Ví d? 4.20 H? th?ng phân c?p thi?t cho nhóm age c?a Ví d? 4.4 có th? ???c
xác ??nh ? ph?m vi nh? sau:


Hình 4.7: M?t khái ni?m h? th?ng phân c?p cho thu?c tính age.
Các ký hi?u “…” ng?m ??nh t?t c? các giá tr? có th? trong ph?m vi nh?t
??nh. Ví d?, “{20,…,39}” bao g?m t?t c? các s? nguyên trong kho?ng 20 và
39. Ph?m vi c?ng có th? ???c ch? ??nh v?i các s? th?c nh? là ?i?m cu?i.
Các khái ni?m h? th?ng phân c?p t??ng ?ng ???c hi?n th? trong hình 4.7.
Khái ni?m chung nh?t v? age là all, và ???c ??t t?i g?c c?a h? th?ng.
Theo quy ??c, giá tr? all là luôn luôn ? m?c 0 c?a h? th?ng phân c?p nào.
Nút all trong hình 4.7 có ba nút con, ??i di?n cho nhi?u d?ng tr?u t??ng
c? th? c?a age, c? th? là young, middle_aged và senior. ?ây là nh?ng c?p
1 c?a h? th?ng. Ph?m vi age cho m?i khái ni?m c?p 1 ???c ??nh ngh?a ? m?c
2 c?a h? th?ng.
Ví d? 4.21 H? th?ng l??c ?? phân c?p trong Ví d? 4.17 cho v? trí có th?
???c tinh ch? b?ng cách thêm m?t c?p ?? khái ni?m b? sung, continent.

B?ng cách li?t kê các country (mà AllElectronics bán hàng hóa) thu?c v?
m?i continent, chúng ta xây d?ng m?t l?p b? sung khái ni?m trên ??u c?a
h? th?ng l??c ?? phân c?p c?a Ví d? 4.17.
3. ??nh ngh?a c?a h? th?ng phân c?p xu?t phát t? ho?t ??ng.
Ví d? 4.22 ?? thay th? cho các h? th?ng phân c?p nhóm cho age trong Ví d?
4.20, m?t ng??i s? d?ng có th? mu?n xác ??nh m?t h? th?ng phân c?p xu?t
phát t? ho?t ??ng v? age d?a trên th? t?c nhóm d? li?u. ?i?u này ??c bi?t
h?u ích khi các giá tr? c?a m?t thu?c tính ???c phân ph?i không th?ng
nh?t. M?t h? th?ng phân c?p v? age d?a trên các phân nhóm có th? ???c
??nh ngh?a v?i phát bi?u sau:

Phát bi?u này ch? ra r?ng m?t thu?t toán nhóm m?c ??nh s? ???c th?c hi?n
trên t?t c? các giá tr? age trong quan h? custumer ?? hình thành các c?m
n?m. Các c?m là các dãy v?i nh?ng cái tên ??nh ngh?a rõ ràng là
“age_category(1)”,. . . , “age_category(5)”, t? ch?c theo th? t? t?ng
d?n.
4. ??nh ngh?a h? phân c?p d?a trên nguyên t?c.
Ví d? 4.23 M?t khái ni?m phân c?p có th? ???c xác ??nh d?a trên m?t b?
quy t?c. Hãy xem xét nh?ng khái ni?m v? phân c?p Ví d? 4.8 m?t hàng t?i
AllElectronics. H? th?ng phân c?p này d?a trên l?i nhu?n m?c, n?i mà các
m?c l?i nhu?n c?a m?t kho?n m?c ???c ??nh ngh?a là chênh l?ch gi?a giá
bán l? m?t hàng, và các chi phí phát sinh do AllElectronics mua hàng ??
bán. H? th?ng phân c?p c?a t? ch?c ghi vào trong các m?c
low_profit_margin, medium_profit_margin, và high_profit_margin, và ???c
??nh ngh?a trong DMQL do b? quy t?c sau ?ây.

4.2.4 Cú pháp cho các ??c ?i?m theo gi?i h?n h?p d?n.
Ng??i dùng có th? ?i?u khi?n s? m?u x?u tr? l?i b?i h? th?ng khai phá d?
li?u b?ng cách xác ??nh các m?u h?p d?n và các ng??ng mô hình t??ng ?ng.
Gi?i h?n h?p d?n bao g?m s? t? tin, h? tr?, ti?ng ?n, và các bi?n pháp
tính m?i ???c mô t? trong m?c 4.1.4. các gi?i h?n h?p d?n và ng??ng có
th? ???c ch? ??nh b?i ng??i s? d?ng v?i phát bi?u:

Ví d? 4.24 Trong quy t?c liên k?t khai phá, ng??i s? d?ng có th? gi?i h?n
các quy t?c ?? ???c tìm th?y b?ng cách xác ??nh m?t ng??ng h? tr? t?i
thi?u và s? t? tin t?i thi?u là 0.05 và 0.7, t??ng ?ng, v?i phát biêu:

Gi?i h?n h?p d?n và giá tr? ng??ng có th? ???c thi?t l?p và thay ??i
t??ng tác.

4.2.5 Cú pháp cho trình bày mô hình và ??c ?i?m k? thu?t tr?c quan.
Làm th? nào ng??i dùng có th? ch? ??nh các hình th?c trình bày và tr?c
quan ???c s? d?ng trong hi?n th? các m?u khám phá? Ngôn ng? truy v?n khai
phá d? li?u c?a chúng ta c?n cú pháp cho phép ng??i dùng ch? ??nh vi?c
hi?n th? các m?u phát hi?n trong m?t ho?c nhi?u hình th?c, bao g?m các
quy t?c, b?ng bi?u, crosstab, bi?u ?? hình tròn ho?c bi?u ?? c?t, cây
quy?t ??nh, hình kh?i, ???ng cong, ho?c các b? m?t. Chúng ta xác ??nh
phát bi?u hi?n th? DMQL cho m?c ?ích này:

N?i (rerult_form) có th? có d?ng trình bày hay tr?c quan tri th?c ???c
li?t kê ? trên.
Khai phá t??ng tác cho phép các mô hình khám phá s? ???c xem ? các c?p ??
khái ni?m khác nhau ho?c t? góc ?? khác nhau. ?i?u này có th? ???c th?c
hi?n v?i các hành ??ng roll-up và drill-down, nh? mô t? trong Ch??ng 2.
Mô hình có th? ???c cu?n lên, ho?c ???c xem ? m?c ?? t?ng quát h?n, b?ng
climbing up các khái ni?m h? th?ng phân c?p v? m?t thu?c tính ho?c kích
th??c (thay th? các giá tr? khái ni?m m?c th?p h?n giá tr? m?c ?? cao
h?n). Khái quát c?ng có th? ???c th?c hi?n b?ng cách h? các thu?c tính
ho?c kích th??c. Ví d?, gi? s? m?t m?u ch?a các thu?c tính city. Do h?
th?ng phân c?p v? trí city < province or state < country < continent, sau
?ó h? các thu?c tính city t? các mô hình s? t?ng h?p d? li?u cho các
thu?c tính c?p ?? ti?p theo th?p nh?t, province_or_state. Mô hình có th?
???c khoan xu?ng, ho?c xem ? m?c ?? th?p nói chung, b?ng stepping down
khái ni?m h? th?ng phân c?p v? m?t thu?c tính ho?c kích th??c. Các m?u
c?ng có th? ???c làm gi?m nói chung b?ng cách thêm các thu?c tính ho?c
kích th??c ?? mô t? chúng. Các thu?c tính thêm vào ph?i là m?t trong
nh?ng thu?c tính liên quan ???c li?t kê trong m?nh ?? in relevant cho ??c
?i?m k? thu?t nhi?m v? có liên quan. Ng??i s? d?ng luân phiên có th? xem
các m?u ? các c?p ?? tr?u t??ng khác nhau v?i vi?c s? d?ng các cú pháp
DMQL sau ?ây:
Ví d? 4.25 Gi? s? mô t? ???c khai phá d?a vào kích th??c location, age,
và income. Có th? “roll up on location” ho?c “drop age" ?? khái quát
các m?u khám phá.
4.2.6 ??a t?t c? l?i v?i nhau – m?t ví d? v? truy v?n DMQL
Trong các cu?c th?o lu?n ? trên, chúng tôi trình bày cú pháp DMQL ?? mô
t? các câu truy v?n khai phá d? li?u trong 5 thu?t ng? nguyên th?y d?
li?u. ??i v?i m?t truy v?n nh?t ??nh, nh?ng nguyên th?y xác ??nh d?a liêu
liên quan t?i các tác v?, các lo?i ki?n th?c ???c khai thác, các khái
ni?m phân c?p và các bi?n pháp lý thú ???c s? d?ng và các d?ng pattern
?uoc tr?c quan. ? ?ây chúng tôi ??t các thành ph?n này v?i nhau. Hãy xem
m?t ví d? ??c t? ??y ?? c?a m?t truy v?n DMQL.
Ví d? 4.26 Mô t? tính ch?t khai phá - Mining charcteristic desciptons
Gi? s?, nh? m?t ng??i qu?n lý ti?p th? c?a AllElectronics, b?n mu?n ??
??c tr?ng cho nh?ng thói quen mua s?m c?a khách hàng mua các s?n ph?m có
giá không d??i 100 $, liên quan ??n tu?i tác c?a khách hàng, lo?i m?t
hàng ?ã mua, và ??t các m?t hàng ???c làm. ??i v?i m?i ??c ?i?m phát hi?n
ra, b?n s? mu?n bi?t t? l? ph?n tr?m khách hàng có mà ??c tr?ng. ??c
bi?t, b?n ch? quan tâm ??n vi?c mua hàng s?n xu?t t?i Canada, và tr? ti?n
cho ng??i M? v?i m?t th? tín d?ng. B?n mu?n xem các mô t? k?t qu? d??i
d?ng b?ng. truy v?n khai thác d? li?u này ???c th? hi?n trong DMQL nh?
sau.

Các truy v?n khai thác d? li?u ???c phân tách ?? t?o m?t truy v?n SQL mà
truy t?p các tác v? d? li?u có liên quan t? các c? s? d? li?u
AllElectronics. Các khái ni?m phân c?p location_hierarchy t??ng ?ng v?i
h? th?ng phân c?p khái ni?m v? hình 4.3 ???c s? d?ng ?? t?ng h?p các v?
trí nhánh t?i các m?c ?? khái ni?m c?p cao h?n nh? “ Canada”. M?t thu?t
toán khai thác lu?t ??c tr?ng, s? d?ng d? li?u t?ng quát, sau ?ó có th?
???c th?c thi.. Gi?i thu?t khai thác các lu?t ??c tr?ng ???c gi?i thi?u
t?i Ch??ng 5 .Nh?ng mô t? ??c ?i?m khai thác, xu?t phát t? các thu?c tính
tu?i tác, ch?ng lo?i và ??a ?i?m th?c hi?n, ???c hi?n th? nh? m?t b?ng,
ho?c m?i quan h? t?ng quát (Hình 4.8).T? l? tuples có liên quan tác v?
?áp ?ng m?i t?ng quát tuple sinh ra ???c hi?n th? theo s? %. N?u không
có hình th?c tr?c quan ???c ??c t? m?t hình th?c m?c ??nh ???c s?
d?ng.Các ng??ng ti?ng ?n c?a 0,05 ngh?a là b?t k? tuple t?ng quát các m?t
hàng ??i di?n cho ít h?n 5% c?a t?ng s? ??m ???c b? qua t? hi?n th?.
T??ng t?, DMQL c?a các câu truy v?n khai phá d? li?u cho mô t?, k?t h?p,
phân l?n và d? báo là ???c ??a ra.Ví d? truy v?n ???c trình bày trong các
ch??ng sau nghiên c?u khai thác c?a các lo?i ki?n th?c

4.3 Thi?t k? giao di?n ?? h?a ng??i s? d?ng d?a trên ngôn ng? truy v?n
khai phá d? li?u
A ngôn ng? khai phá d? li?u cung c?p các khái ni?m c?n thi?t cho phép
ng??i dùng ?? giao ti?p v?i h? th?ng khai phá d? li?u. Tuy nhiên, ng??i
dùng thi?u kinh nghi?m có th? tìm ngôn ng? khai phá d? li?u ?? dùng và cú
pháp khó nh?. Thay vào ?ó, ng??i dùng mong mu?n giao ti?p v?i h? th?ng
khai phá d? li?u thông qua m?t giao di?n ?? h?a ng??i dùng(GUI). Trong
công ngh? c? s? d? li?u quan h?, SQL ph?c v? nh? m?t lõi chu?n cho ngôn
ng? “ core language” c?a vi?c cài ??t h? th?ng khai phá d? li?u. Cung c?p
m?t c? s? cho vi?c phát tri?n hi?u qu? GUI.
M?t giao di?n khai phá d? li?u bao g?m các thành ph?n ch?c n?ng sau:
Data collection and data mining query composition: Thành ph?n này cho
phép ng??i dùng xác ??nh d? li?u liên quan t?i tác v? và ?? t?o ra các
câu truy v?n khai phá d? li?u. Nó t??ng t? nh? GUIs s? d?ng c?a các truy
v?n quan h?.
Trình bày c?a các pattern ???c khai phá: thành ph?n này cho phép hi?n th?
c?a các m?u phát hi?n d??i nhi?u d?ng khác nhau. Bao g?m c? b?ng bi?u, ??
th?, bi?u ??, ???ng cong, ho?c các k? thu?t hình t??ng khác.
Hierarchy specication and manipulation: thành ph?n này cho phép ??c t? h?
th?ng phân c?p khái ni?m thao tác b?i ng??i s? d?ng, ho?c t? ??ng (d?a
trên phân tích các d? li?u b?ng bàn tay). Ngoài ra, thành ph?n này cho
phép phân c?p khái ni?m ???c thay ??i b?i ng??i s? d?ng, ho?c ?i?u ch?nh
t? ??ng d?a trên m?t t?p d? li?u ???c phân b?.
Manipulation of data mining primitives: thành ph?n này cho phép ?i?u
ch?nh ??ng c?a d ng??ng khai phá d? li?u , c?ng nh? l?a ch?n, hi?n th?,
và thay ??i phân c?p khái ni?m . Nó c?ng có th? cho phép thay ??i các câu
truy v?n khai phá d? li?u tr??c ?ó.
Interactive multilevel mining: thành ph?n này cho phép roll-up ho?c
drill down trên các m?u phát hi?n
Các thông tin khác: thành ph?n này có th? bao g?m sách h??ng d?n tr?c
tuy?n, l?p ch? m?c tìm ki?m, g? l?i, và các ph??ng ti?n t??ng tác ?? h?a
khác.

B?n có cho r?ng ngôn ng? truy v?n khai phá d? li?u có th? ti?n tri?n ??
t?o thành m?t tiêu chu?n cho thi?t k? giao di?n GUIs khai phá d? li?u?
N?u nh? s? ti?n hóa là có th?, các tiêu chu?n s? t?o thu?n l?i cho phát
tri?n ph?n m?m khai thác d? li?u và h? th?ng truy?n thông.
M?t s? nguyên th?y GUI, ch?ng h?n nh? ch? vào m?t ?i?m nào ?ó trong m?t
???ng cong ho?c bi?u ??, tuy nhiên, r?t khó ?? ch? ??nh m?t truy v?n d?
li?u b?ng cách s? d?ng ngôn ng? v?n b?n d?a trên khai phá d? li?u nh?
DMQL. Ngoài ra, m?t GUI d?a trên tiêu chu?n hóa ngôn ng? có th? ti?n
tri?n và thay th? các d? li?u ngôn ng? SQL .Th?i gian s? tr? l?i.

4.4 T?ng k?t
Chúng ta ?ã nghiên c?u n?m khái ni?m c? b?n ?? ??c t? cho m?t nhi?m v?
data mining trong truy v?n data mining. Nh?ng khái ni?m c? b?n này là ??c
t? c?a các d? li?u liên quan( t?p d? li?u ???c khai phá), ki?u tri th?c
???c khai phá ( ??c ?i?m, s? mô t?, quan h?, phân l?p ho?c d? báo). Ki?n
th?c c? b?n( ?i?n hình trong d?ng c?a th?a k? khái ni?m), các phép ?o ??
h?p d?n và trình di?n tri th?c và k? thu?t hình ?nh hóa ???c s? d?ng ??
hi?n th? các m?u ???c khai phá.
Trong ??nh ngh?a d? li?u liên quan t?i tác v? (task – relevant data)
ng??i dùng ??c t? c? s? d? li?u và các b?ng( ho?c kho d? li?u và kh?i d?
li?u) ch?a d? li?u ???c khai phá. Các ?i?u ki?n ?? ch?n và gom nhóm d?
li?u và các thu?c tính (ho?c các chi?u) ???c xem xét trong su?t quá trình
khai thác.
Th?a k? khái ni?m (Concept hierarchies) cung c?p ki?n th?c n?n có ích cho
vi?c khai phá các m?u trong m?t m?c ?? cao ng?n g?n và và thu?n ti?n
trong vi?c khai phá tri th?c t?i các m?c ?? tr?u t??ng khác nhau.
Các phép ?o ?? h?p d?n c?a m?u (pattern interestingness ) ?ánh giá s? ??n
gi?n, s? ch?c ch?n, s? ti?n ích ho?c m?i l? c?a các m?u ???c khai phá.
Các phép ?o này có th? ???c s? d?ng ?? giúp gi?m s? l??ng m?u không h?p
d?n tr? l?i ng??i s? d?ng.
Ng??i dùng nên có th? ??c t? d?ng mong mu?n v? hình ?nh cho các m?u
???c khai phá nh? là th??c, b?ng bi?u ??, cây quy?t ??nh, kh?i, ?? th?,
ho?c báo cáo. Các thao tác Roll up và drill down c?ng nên có s?n cho các
m?u t?i các m?c ?? tr?u t??ng khác nhau.
Ngôn ng? truy v?n Data mining có th? ???c thi?t k? ?? h? tr? ad – hoc và
khai phá d? li?u. M?t ngôn ng? truy v?n khai phá d? li?u nh? là DMQL nên
cung c?p các l?nh cho vi?c ??c t? m?i khái ni?m c? b?n data mining c?ng
nh? cho th?a k? khái ni?m. Ngôn ng? truy v?n là d?a trên SQL và có l? là
m?t form chu?n trên giao di?n ?? h?a ng??i dùng cho khai phá d? li?u có
th? d?a trên.
Concept Description: Characterization and Comparison
Mô t? khái ni?m: ??c ?i?m và so sánh
T? m?t quan ?i?m phân tích d? li?u c?a xem, khai phá d? li?u có th? ???c
chia thành hai lo?i: Khai phá d? li?u mô t? và khai phá d? li?u d? ?oán.
Lo?i th? nh?t mô t? các d? li?u m?t cách súc tích và mang tính tóm t?t,
??ng th?i trình bày tính ch?t thú v? chung c?a d? li?u, trong khi lo?i
th? 2 xây d?ng m?t ho?c m?t b? các mô hình, b?ng cách th?c hi?n phân
tích nh?t ??nh trên b? d? li?u ?ã có s?n, và c? g?ng ?? d? ?oán hành vi
c?a các b? d? li?u m?i.
C? s? d? li?u th??ng l?u m?t l??ng l?n d? li?u m?t cách r?t chi ti?t. Tuy
nhiên, ng??i dùng th??ng xuyên xem các b? d? li?u ???c tóm t?t ng?n g?n
b?ng các thu?t ng? cô ??ng và mang tính mô t?. Nh?ng ph?n mô t? d? li?u
này có th? cung c?p m?t b?c tranh t?ng th? c?a m?t l?p d? li?u ho?c phân
bi?t nó v?i m?t b? các l?p d? li?u so sánh khác. H?n n?a, ng??i s? d?ng
thích s? ??n gi?n c?ng nh? linh ho?t c?a vi?c s? h?u các b? d? li?u có
???c mô t? ? các c?p ?? chi ti?t khác nhau, ? nh?ng góc ?? khác nhau.
Cách khai thác d? li?u mô t? này ???c g?i là khai phá d? li?u, và các
hình th?c m?t thành ph?n quan tr?ng c?a vi?c khai thác d? li?u.
Trong ch??ng này, chúng ta s? h?c cách làm th? nào ?? vi?c mô t? khái
ni?m có th? ???c th?c hi?n m?t cách có hi?u su?t và hi?u qu?.
5.1. Mô t? khái ni?m - What is concept description
M?t h? th?ng qu?n lý c? s? d? li?u th??ng cung c?p các công c? thu?n ti?n
cho ng??i dùng ?? trích xu?t các lo?i d? li?u ???c l?u gi? trong c? s? d?
li?u l?n. Công c? khai phá d? li?u nh? v?y th??ng s? d?ng ngôn ng? truy
v?n c? s? d? li?u, ch?ng h?n nh? SQL, ho?c ngôn ng? vi?t báo cáo. Nh?ng
công c? này, ví d?, có th? ???c s? d?ng ?? xác ??nh v? trí s? ?i?n tho?i
c?a m?t ng??i t? m?t danh m?c ?i?n tho?i trên m?ng, ho?c in m?t danh
sách các b?n ghi cho t?t c? các giao d?ch th?c hi?n trong m?t c?a hàng
máy tính ???c ??a ra trong n?m 1997. Các h?i d? li?u t? c? s? d? li?u, và
áp d?ng các ch?c n?ng t?ng h?p (nh? t?ng k?t, ??m, …) ?? các d? li?u ??i
di?n cho m?t ch?c n?ng quan tr?ng c?a h? th?ng c? s? d? li?u: ?ó x? lý
truy v?n. Các lo?i k? thu?t x? lý truy v?n ?ã ???c phát tri?n. Tuy nhiên,
x? lý truy v?n không ph?i là khai phá d? li?u. Trong khi x? lý truy v?n
l?y t?p h?p d? li?u t? c? s? d? li?u và có th? tính toán các ch?c n?ng
t?ng h?p trên d? li?u l?y ra, khai phá d? li?u phân tích d? li?u và phát
hi?n ra các m?u thú v? ?n trong c? s? d? li?u.
Lo?i ??n gi?n nh?t c?a khai phá d? li?u mô t? là mô t? khái ni?m. Mô t?
khái ni?m ?ôi khi ???c g?i là mô t? l?p khi khái ni?m này ???c mô t? dùng
?? ch? m?t l?p các ??i t??ng. M?t khái ni?m th??ng ???c hi?u là t?p h?p
các d? li?u nh? âm thanh n?i, ng??i mua th??ng xuyên, h?c sinh t?t
nghi?p, ... Là nhi?m v? khai phá d? li?u, mô t? khái ni?m không ph?i là
m?t ?i?u tra ??n gi?n c?a d? li?u. Thay vào ?ó, nó s? t?o ra các mô t?
cho ??c tính và so sánh các d? li?u. ??c ?i?m cung c?p m?t t?ng k?t ng?n
g?n và cô ??ng v? vi?c thu ???c các d? li?u, trong khi khái ni?m hay so
sánh l?p (còn g?i là phân bi?t cung c?p các mô t? so sánh) hai hay nhi?u
b? s?u t?p d? li?u. Do vi?c mô t? khái ni?m liên quan ??n vi?c mô t? ??c
tính c?a c? hai và so sánh, chúng ta s? nghiên c?u k? thu?t ?? hoàn thành
m?i nhi?m v?.
Có nhi?u cách th??ng xuyên ?? mô t? m?t t?p h?p các d? li?u, và nhi?u
ng??i khác nhau có th? mu?n xem cùng m?t khái ni?m ho?c l?p c?a các ??i
t??ng t? m?c tr?u t??ng khác nhau. Do ?ó, mô t? v? khái ni?m m?t ho?c m?t
l?p d? li?u th??ng là không duy nh?t. M?t s? mô t? có th? ???c ?a thích
h?n nh?ng lo?i khác, d?a trên các bi?n pháp theo s? thích khách quan v?
?? xúc tích ho?c ph?m vi c?a các mô t?, ho?c các bi?n pháp ch? quan xem
xét nh?ng ki?n th?c n?n ho?c ni?m tin c?a ng??i dùng. Vì v?y, ?i?u quan
tr?ng là làm th? nào ?? có th? t?o ra các mô t? khái ni?m khác nhau m?t
cách v?a thu?n ti?n v?a hi?u qu?.
Mô t? khái ni?m có quan h? ch?t ch? v?i t?ng h?p d? li?u. V?i s? l??ng
l?n d? li?u ???c l?u gi? trong c? s? d? li?u, nó r?t h?u ích ?? có th? mô
t? khái ni?m b?ng các thu?t ng? ng?n g?n và cô ??ng ? c?p ?? tr?u t??ng
t?ng quát (Thay vì m?c ?? tr?u t??ng th?p h?n). Cho phép d? li?u ???c t?p
h?p ? nhi?u c?p ?? khái quát tr?u t??ng t?o ?i?u ki?n cho ng??i dùng
trong vi?c xem xét các hành vi chung c?a d? li?u. Ví d?, v?i c? s? d?
li?u AllElectronics, thay vì ki?m tra giao d?ch khách hàng cá nhân, doanh
s? nhà qu?n lý có th? ?? xem d? li?u ???c t?ng h?p ? m?c cao h?n, ch?ng
h?n nh? t?ng k?t c?a các nhóm khách hàng theo vùng ??a lý, t?n su?t mua
cho m?i nhóm, và thu nh?p c?a khách hàng. Cách mô t? ??c tính nhi?u chi?u
và ?a c?p ?? nh? v?y là t??ng t? v?i vi?c phân tích d? li?u ?a chi?u
trong kho d? li?u. Trong b?i c?nh ?ó, vi?c mô t? khái ni?m s? t??ng t?
nh? vi?c x? lý phân tích tr?c tuy?n (OLAP) trong kho d? li?u, ?ã có trong
Ch??ng 2.
"S? khác bi?t gi?a mô t? khái ni?m trong c? s? d? li?u l?n và x? lý phân
tích trên dây chuy?n" Khác bi?t c? b?n c?a chúng bao g?m 2 ?i?u sau:.
Kho d? li?u và các công c? OLAP ???c d?a trên m?t mô hình d? li?u ?a
chi?u mà xem d? li?u ? d?ng c?a m?t kh?i d? li?u, bao g?m kích th??c
(ho?c các thu?c tính) và các bi?n pháp (t?ng h?p các ch?c n?ng). Tuy
nhiên, các lo?i d? li?u có th? có c?a các kích th??c và các bi?n pháp ??i
v?i h?u h?t các phiên b?n th??ng m?i c?a các h? th?ng này b? h?n ch?. .
Nhi?u h? th?ng hi?n t?i gi?i h?n kích th??c OLAP ?? nonnumeric data1.
T??ng t? nh? v?y, các bi?n pháp (nh? ??m (), t?ng h?p (), chia trung bình
()) trong các h? th?ng hi?n hành OLAP ch? áp d?ng cho d? li?u s?. Ng??c
l?i, ?? hình thành khái ni?m, các thu?c tính c? s? d? li?u có th? ???c
các d? li?u khác nhau các lo?i, bao g?m ki?u s?, k ph?i ki?u s? , ??c
bi?t, v?n b?n ho?c hình ?nh. H?n n?a, t?p h?p nh?ng thu?c tính trong c?
s? d? li?u có th? bao g?m các lo?i d? li?u ph?c t?p, ch?ng h?n nh? b? s?u
t?p d? li?u không ph?i ki?u s?, s? h?p nh?t c?a các vùng không gian,
thành ph?n c?a hình ?nh, t?ng h?p v?n b?n, và nhóm ??i t??ng c?a con tr?.
Vì v?y, OLAP, v?i nh?ng h?n ch? c?a nó trên kích th??c có th?, và các
lo?i bi?n pháp, ??i di?n cho m?t mô hình ??n gi?n cho d? li?u phân tích
c?n thi?t. Khái ni?m mô t? trong c? s? d? li?u có th? x? lý d? li?u ph?c
t?p các lo?i thu?c tính và t?p h?p chúng, khi c?n thi?t.
Tr?c tuy?n phân tích x? lý trong kho d? li?u là hoàn toàn do ng??i s?
d?ng ki?m soát quá trình. Vi?c l?a ch?n kích th??c và ?ng d?ng c?a OLAP
ho?t ??ng, ch?ng h?n nh? khoan xu?ng, roll-up, dicing, và slicing, ???c
??nh h??ng và ki?m soát b?i ng??i s? d?ng. M?c dù ki?m soát trong ph?n
l?n h? th?ng OLAP là khá thân thi?n v?i ng??i s? d?ng, ng??i dùng không
?òi h?i ph?i có s? hi?u bi?t t?t v? vai trò c?a m?i chi?u. H?n n?a, ??
tìm ki?m mô t? th?a ?áng các d? li?u, ng??i dùng có th? c?n ph?i ch? ??nh
m?t chu?i dài c?a các ho?t ??ng OLAP. Ng??c l?i, khái ni?m mô t? trong
khai phá d? li?u cho m?t quá trình t? ??ng giúp ng??i s? d?ng xác ??nh
kích th??c (ho?c các thu?c tính) bao g?m trong phân tích, và m?c ?? mà
các d? li?u ???c thi?t l?p nên ???c khái quát trong m?t t?ng h?p tóm t?t
c?a d? li?u.
Trong ch??ng này, chúng ta s? tìm hi?u ph??ng pháp ?? mô t? khái ni?m,
bao g?m s? khái quát multi-level, t?ng k?t, s? ??c tr?ng phân bi?t. Nh?ng
ph??ng pháp v?y thi?t l?p n?n t?ng cho vi?c th?c hi?n hai mô-?un ch?c
n?ng chính trong khai phá d? li?u: s? ??c tr?ng và phân bi?t các m?c .
Ngoài ra, chúng ta s? ki?m tra k? thu?t trình bày các mô t? khái ni?m
trong nhi?u m?u, bao g?m c? b?ng bi?u, bi?u ??, ?? th?, và quy t?c.

5.2. T?ng quát d? li?u và ??c tính d?a trên s? tóm t?t - Data
generalization and summarization-based characterization
D? li?u và các ??i t??ng trong c? s? d? li?u th??ng ch?a thông tin chi
ti?t ? các c?p ?? khái ni?m nguyên th?y. Ví d?, m?i quan h? m?c trong m?t
c? s? d? li?u bán hàng có th? ch?a các thu?c tính mô t? thông tin s?n
ph?m th?p c?p nh? m?c ID, tên, th??ng hi?u, th? lo?i, nhà cung c?p, ??a
?i?m th?c hi?n, và giá c?... Nó r?t h?u ích ?? có th? tóm t?t m?t b? d?
li?u l?n và hi?n t?i nó ? m?c ?? khái ni?m cao. Ví d?, t?ng k?t m?t s?
l??ng l?n các h?ng m?c liên quan ??n doanh thu mùa Giáng sinh cung c?p
m?t mô t? chung c?a các d? li?u ?ó, có th? ???c r?t h?u ích cho các nhà
qu?n lý bán hàng và ti?p th?. ?i?u này ?òi h?i m?t ch?c n?ng quan tr?ng
trong khai phá d? li?u: t?ng quát d? li?u.
T?ng quát d? li?u là m?t quá trình mà tóm t?t m?t b? d? li?u l?n tác v?
có liên quan trong c? s? d? li?u t? m?t c?p ?? khái ni?m t??ng ??i th?p
??n cao h?n m?c khái ni?m. Ph??ng pháp cho hi?u qu? và khái quát c?a b?
d? li?u l?n có th? ???c phân lo?i theo hai cách ti?p c?n: (1) các kh?i d?
li?u ti?p c?n, và (2) các ph??ng pháp quy n?p thu?c tính ??nh h??ng.
5.2.1. Ti?p c?n kh?i d? li?u cho t?ng quát hóa d? li?u - Data cube
approach for data generalization
Trong ph??ng pháp ti?p c?n kh?i d? li?u (ho?c OLAP cách ti?p c?n) vào
t?ng quát d? li?u, d? li?u ?? phân tích ???c l?u tr? trong m?t c? s? d?
li?u ?a chi?u, ho?c kh?i d? li?u. Kh?i d? li?u và s? d?ng nóa trong OLAP
cho khái quát d? li?u ???c mô t? chi ti?t trong Ch??ng 2. Nhìn chung, các
ph??ng pháp ti?p c?n kh?i d? li?u "materializes kh?i d? li?u" b?ng cách
tr??c tiên c?n xác ??nh các tính toán chi phí cho các truy v?n th??ng
xuyên x? lý. Các ho?t ??ng này th??ng liên quan ??n ch?c n?ng t?ng h?p,
ch?ng h?n nh? ??m (), t?ng h?p (), trung bình (), và t?i ?a (). Các tính
toán ???c th?c hi?n, và k?t qu? ???c l?u tr? trong kh?i d? li?u. Tính
toán nh? v?y có th? ???c th?c hi?n cho các c?p d? li?u tr?u t??ng. Nh?ng
quan ?i?m này có th? ???c s? d?ng ?? h? tr? quy?t ??nh, khám phá ki?n
th?c, và nhi?u ?ng d?ng khác.
M?t t?p h?p các thu?c tính có th? t?o thành m?t h? th?ng ho?c m?t c?u
trúc m?ng tinh th?, xác ??nh m?t kích th??c kh?i d? li?u. Ví d?, ngày
tháng có th? bao g?m các thu?c tính c?a ngày, tu?n, tháng, quý, và n?m ?ó
hình thành m?t c?u trúc m?ng tinh th?, và kh?i d? li?u m?t chi?u h??ng
cho th?i gian. M?t kh?i d? li?u có th? l?u tr? ???c tính toán tr??c các
ch?c n?ng t?ng h?p cho t?t c? hay m?t s? kích th??c c?a nó. Các
precomputed t??ng ?ng v?i các nhóm theo quy ??nh c?a các b? khác nhau
ho?c các t?p con c?a các thu?c tính.
Khái quát và chuyên môn có th? ???c th?c hi?n trên m?t kh?i d? li?u ?a
chi?u b?i roll-up ho?c khoan xu?ng ho?t ??ng. M?t ho?t ??ng roll-up làm
gi?m s? kích th??c trong m?t kh?i d? li?u, hay giá tr? t?ng quát thu?c
tính ??n các khái ni?m m?c ?? cao h?n. M?t ho?t ??ng khoan xu?ng thì
ng??c l?i. T? nhi?u ch?c n?ng t?ng h?p c?n ph?i ???c tính liên t?c trong
phân tích d? li?u, l?u tr? k?t qu? precomputed trong m?t kh?i l?p ph??ng
d? li?u ?a chi?u có th? ??m b?o th?i gian ph?n ?ng nhanh và linh ho?t
cung c?p quan ?i?m c?a d? li?u t? góc ?? khác nhau và ? các c?p ?? khác
nhau c?a tr?u t??ng.
Cách ti?p c?n d? li?u cung c?p m?t kh?i th?c hi?n effcient d? li?u t?ng
quát, mà trong các hình th?c chuy?n m?t ch?c n?ng quan tr?ng trong vi?c
khai phá d? li?u mô t?. Tuy nhiên, nh? ?ã ch? ra trong Ph?n 5.1, d? li?u
th??ng m?i tri?n khai h?u h?t các kh?i l?p ph??ng nh?t các lo?i d? li?u
c?a kích th??c ?? ??n gi?n, d? li?u nonnumeric và các bi?n pháp ??n gi?n,
các giá tr? t?ng h?p s?, trong khi nhi?u ?ng d?ng có th? yêu c?u vi?c
phân tích d? li?u ph?c t?p h?n các lo?i. H?n n?a, cách ti?p c?n kh?i d?
li?u không th? tr? l?i m?t s? câu h?i quan tr?ng mà có th? mô t? khái
ni?m, ch?ng h?n nh? có kích th??c nên ???c s? d?ng trong các mô t?, và
vào nh?ng gì các c?p trong quá trình t?ng quát c?n ??t. Thay vào ?ó, nó
lá trách nhi?m c?a nh?ng quy?t ??nh này cho ng??i s? d?ng.
Trong ti?u m?c ti?p theo, gi?i thi?u m?t cách ti?p c?n thay th? cho d?
li?u khái quát ???c g?i là thu?c tính ??nh h??ng c?m ?ng, và xem xét làm
th? nào nó có th? ???c áp d?ng ?? mô t? khái ni?m. H?n n?a, c?n th?o lu?n
làm th? nào ?? tích h?p hai ph??ng pháp ti?p c?n, kh?i d? li?u và quy n?p
thu?c tính ??nh h??ng, cho khái ni?m mô t?.
5.2.2. Quy n?p h??ng thu?c tính - Attribute-oriented induction
Ph??ng pháp quy n?p thu?c tính ??nh h??ng vào d? li?u t?ng quát và ??c
tính d?a trên t?ng k?t l?n ??u tiên ???c ?? xu?t trong n?m 1989, m?t vài
n?m tr??c khi gi?i thi?u ph??ng pháp ti?p c?n kh?i d? li?u. Cách ti?p c?n
d? li?u hình kh?i có th? ???c coi nh? là m?t kho d? li?u trên,
precomputation ??nh h??ng, ph??ng pháp ti?p c?n v?t hoá xem. Nó th?c hi?n
ra ???ng dây tr??c khi t?p h?p m?t OLAP ho?c khai phá d? li?u truy v?n
???c g?i cho ch? bi?n. M?t khác, cách ti?p c?n thu?c tính ??nh h??ng, ít
nh?t là trong ?? ngh? ban ??u c?a nó, là m?t, quan h? truy v?n c? s? d?
li?u theo ??nh h??ng t?ng quát trên, trên m?ng d? li?u phân tích k?
thu?t. Tuy nhiên, không có rào c?n v?n có phân bi?t hai cách ti?p c?n
tr?c tuy?n k?t h?p so v?i dòng precomputation off. M?t s? aggregations
trong kh?i d? li?u có th? ???c tính trên m?ng, trong khi dòng off
precomputation không gian ?a chi?u có th? t?ng t?c ?? c?m ?ng thu?c tính
??nh h??ng là t?t. Trong th?c t?, h? th?ng khai phá d? li?u d?a trên c?m
?ng thu?c tính ??nh h??ng, ch?ng h?n nh? DMBiner, ?ã ???c t?i ?u hóa ??
bao g?m các dòng precomputation off.
Chúng ta hãy l?n ??u tiên gi?i thi?u ph??ng pháp quy n?p thu?c tính ??nh
h??ng. Chúng ta s? th?c hi?n m?t phân tích chi ti?t c?a ph??ng pháp và
các bi?n th? c?a nó và các ph?n m? r?ng.
Ý t??ng chung c?a c?m ?ng thu?c tính ??nh h??ng là ?? thu th?p các d?
li?u ??u tiên tác v? có liên quan b?ng cách s? d?ng m?t truy v?n c? s? d?
li?u quan h? và sau ?ó th?c hi?n khái quát d?a trên vi?c ki?m tra s?
l??ng các giá tr? riêng bi?t c?a t?ng thu?c tính trong các thi?t l?p có
liên quan c?a d? li?u. Khái quát ???c th?c hi?n b?ng cách lo?i b? thu?c
tính ho?c thu?c tính t?ng quát (còn g?i là Xích kinh khái ni?m phân c?p).
T?p h?p ???c th?c hi?n b?ng cách sáp nh?p gi?ng nhau, tuples t?ng quát,
và tích l?y ???c tính t??ng ?ng. ?i?u này làm gi?m kích th??c c?a d? li?u
t?ng quát ??t. Các m?i quan h? k?t qu? t?ng quát có th? ???c ánh x? vào
các hình th?c khác nhau ?? trình bày cho ng??i s? d?ng, ch?ng h?n nh?
bi?u ?? ho?c các quy ??nh.
Dòng sau các ví d? minh h?a quá trình quy n?p thu?c tính ??nh h??ng:
Example 5.1 Specifying a data mining query for characterization with
DMQL.
Ví d? 5.1 Xác ??nh m?t truy v?n khai phá d? li?u ?? mô t? tính v?i DMQL.
Gi? s? m?t ng??i s? d?ng mu?n mô t? các ??c ?i?m chung c?a sinh viên t?t
nghi?p t?i các c? s? d? li?u Big-??i h?c, ???c ??t thu?c tính: tên, gi?i
tính, l?n, n?i sinh, ngày sinh, n?i c? trú, s? ?i?n tho?i (?i?n tho?i),
và ?i?m trung bình (c?p ?i?m trung bình).
M?t truy v?n cho khai phá d? li?u ??c tính này có th? ???c th? hi?n trong
khai phá d? li?u ngôn ng? DMQL truy v?n nh? sau.
use   Big University DB

mine characteristics   as \Science Students"

in relevance to name, gender, major, birth place, birth date, residence,
phone#, gpa from student

where status in \graduate"
Chúng ta s? xem cách này ví d? v? m?t truy v?n ?i?n hình khai phá d? li?u
có th? áp d?ng c?m ?ng thu?c tính ??nh h??ng khai thác các mô t? ??c
tr?ng.
"B??c ??u tiên c?a c?m ?ng thu?c tính ??nh h??ng là gì?"
??u tiên, d? li?u t?p trung ph?i ???c th?c hi?n tr??c khi gi?i thi?u
thu?c tính ??nh h??ng. B??c này t??ng ?ng v?i các ??c ?i?m k? thu?t c?a
các tác v? d? li?u có liên quan (ho?c, d? li?u ?? phân tích) nh? mô t?
trong Ch??ng 4. Các d? li?u ???c thu th?p d?a trên thông tin cung c?p
trong câu truy v?n khai phá d? li?u. K? t? khi m?t truy v?n khai phá d?
li?u th??ng liên quan ??n ph?n m?t ch? c?a c? s? d? li?u, l?a ch?n các
thi?t l?p có liên quan c?a d? li?u không ch? giúp khai thác thêm
effcient, nh?ng c?ng có ngu?n g?c k?t qu? có ý ngh?a h?n so v?i khai thác
khoáng s?n trên toàn b? c? s? d? li?u.
Xác ??nh t?p các thu?c tính có liên quan (t?c là thu?c tính cho khai
thác, th? hi?n ? DMQL v?i s? liên quan trong quy ??nh t?i kho?n) có th?
???c khó kh?n cho ng??i s? d?ng. ?ôi khi m?t ng??i dùng có th? l?a ch?n
ch? có m?t vài thu?c tính mà cô c?m th?y có th? là quan tr?ng, trong khi
thi?u nh?ng ng??i khác mà c?ng s? ?óng m?t vai trò trong các mô t?. Ví
d?, gi? s? r?ng kích th??c c?a n?i sinh ???c xác ??nh b?i các thu?c tính
thành ph?, ti?u bang hay t?nh, và qu?c gia. Trong s? nh?ng thu?c tính
này, các ng??i s? d?ng ch? có suy ngh? ?? xác ??nh thành ph?. ?? cho phép
t?ng quát v? kích th??c n?i sinh, các thu?c tính khác xác ??nh kích th??c
này c?ng nên ???c bao g?m.
Nói cách khác, có h? th?ng t? ??ng bao g?m các t?nh, ti?u bang và qu?c
gia nh? là các thu?c tính có liên quan cho phép thành ph? ???c t?ng quát
cho nh?ng khái ni?m cao c?p trong quá trình c?m ?ng. ? thái c?c khác, m?t
ng??i s? d?ng có th? gi?i thi?u quá nhi?u thu?c tính b?ng cách xác ??nh
t?t c? các thu?c tính có th? v?i các ?i?u kho?n "trong liên quan ??n *".
Trong tr??ng h?p này, t?t c? các thu?c tính trong m?i quan h? xác ??nh
b?i các t? kho?n s? ???c bao g?m trong phân tích. Nhi?u ng??i trong s?
nh?ng thu?c tính này không có kh? n?ng ?óng góp cho m?t mô t? thú v?. 5,4
ph?n mô t? m?t ph??ng pháp ?? x? lý các tr??ng h?p nh? v?y b?ng cách l?c
ra th?ng kê không liên quan ho?c y?u có liên quan thu?c tính t? quá trình
khai thác mô t?.
"Gì` n?i trong tình tr?ng "t?t nghi?p" 'kho?n ngh?a là gì? "
Các ?i?u kho?n trên, n?i ng? ý r?ng m?t h? th?ng c?p b?c t?n t?i khái
ni?m v? t? cách thu?c tính. h? th?ng c?p b?c m?t nh? v?y khái ni?m nguyên
th?y t? ch?c các c?p d? li?u giá tr? cho tình tr?ng, ch?ng h?n nh? "Th?c
s?", "MA", "Qu?n tr? Kinh doanh", "Ti?n s?", "C? nhân", "BA", thành cao
h?n khái ni?m c?p, ch?ng h?n nh? "t?t nghi?p" và h?c "". ?i?u này s? d?ng
khái ni?m h? ??ng c?p không xu?t hi?n trong ngôn ng? truy v?n quan h?
truy?n th?ng, nh?ng v?n là m?t tính n?ng ph? bi?n trong khai phá d? li?u
ngôn ng? truy v?n.
Example 5.2 Transforming a data mining query to a relational query.
Ví d? 5.2 vi?c chuy?n m?t truy v?n khai phá d? li?u cho m?t truy v?n quan
h?.
Các truy v?n khai phá d? li?u trình bày trong Ví d? 5.1 là chuy?n ??i
thành các truy v?n quan h? sau ?ây cho b? s?u t?p c?a t?p tác v? có liên
quan c?a d? li?u.
use Big University DB

select name, gender, major, birth place, birth date, residence, phone#,
gpa from student
where status in f\M.Sc.", \M.A.", \M.B.A.", \Ph.D."g
Các truy v?n ???c th?c hi?n chuy?n ??i ??i v?i c? s? d? li?u quan h?, Big
University_ DB, và tr? v? d? li?u hi?n th? trong B?ng 5.1. B?ng này ???c
g?i là (tác v? liên quan) ban ??u làm vi?c liên quan. Nó là d? li?u trên
?ó c?m ?ng s? ???c th?c hi?n.
L?u ý r?ng m?i tuple là, trên th?c t?, m?t k?t h?p c?a các c?p thu?c
tính-giá tr?. Do ?ó, chúng ta có th? ngh? ??n m?t tuple trong m?t m?i
quan h? nh? là m?t quy lu?t c?a conjuncts, và quy n?p v? m?i quan h? nh?
là s? t?ng quát c?a các quy t?c này.
"Bây gi? r?ng các d? li?u ?ã s?n sàng cho c?m ?ng thu?c tính ??nh h??ng,
làm th? nào là thu?c tính ??nh h??ng c?m ?ng th?c hi?n?"

name   gender    major birth place birth date residence   phone#     gpa

Jim Woodman M     CS    Vancouver, BC, Canada 8-12-76     3511 Main St.,
Richmond    687-4598    3.67
Scott Lachance    M     CS    Montreal, Que, Canada 28-7-75     345 1st
Ave., Vancouver 253-9106      3.70
Laura Lee F       physics     Seattle, WA, USA 25-8-70    125 Austin Ave.,
Burnaby     420-5232    3.83


Table 5.1: Initial working relation: A collection of task-relevant data.

lo?i b? thu?c tính này d?a trên các nguyên t?c sau ?ây: N?u có m?t s?
l??ng l?n các giá tr? khác bi?t cho m?t thu?c tính c?a các m?i quan h?
làm vi?c ban ??u, nh?ng ho?c là (1) không có nhà ?i?u hành t?ng quát v?
các thu?c tính (ví d?, không có khái ni?m phân c?p de ? Ned cho thu?c
tính), ho?c (2) cao h?n m?c khái ni?m ???c th? hi?n trong ?i?u kho?n c?a
các thu?c tính khác, sau ?ó thu?c tính c?n ???c lo?i b? t? các m?i quan
h? làm vi?c. các lý do ??ng sau quy ??nh này là gì? M?t c?p thu?c tính-
giá tr? ??i di?n cho m?t liên kê?t trong m?t tuple t?ng quát, ho?c quy
t?c. Vi?c lo?i b? các liên kê?t m?t lo?i b? m?t h?n ch? và vì th? t?ng
quát hóa các quy t?c.
N?u, nh? trong tr??ng h?p 1, có m?t s? l??ng l?n các giá tr? khác bi?t
cho các thu?c tính nh?ng không có ?i?u hành t?ng quát cho nó, thu?c tính
c?n ???c lo?i b? vì nó không th? ???c khái quát hóa, và b?o qu?n nó s?
bao hàm s? gi? m?t s? l??ng l?n disjuncts mà mâu thu?n v?i m?c tiêu t?o
ra các quy t?c súc tích. M?t khác, hãy xem xét tr??ng h?p 2, n?i mà các
khái ni?m m?c ?? cao h?n c?a các thu?c tính ???c th? hi?n trong ?i?u
kho?n c?a các thu?c tính khác. Ví d?, gi? s? r?ng các thu?c tính trong
câu h?i là ???ng ph?, mà các khái ni?m m?c ?? cao h?n ???c ??i di?n b?i
các thu?c tính (thành ph?, t?nh, bang, qu?c gia). Vi?c lo?i b? các ???ng
ph? là t??ng ???ng v?i vi?c áp d?ng m?t nhà ?i?u hành t?ng quát. Quy lu?t
này t??ng ?ng v?i quy t?c t?ng quát ???c g?i là r?i ?i?u ki?n trong máy
tính h?c t?p v?n h?c vào vi?c h?c-t?-ví d?.
Thu?c tính t?ng quát d?a trên các nguyên t?c sau ?ây: N?u có m?t s? l??ng
l?n các giá tr? khác bi?t cho m?t thu?c tính trong m?i quan h? làm vi?c
ban ??u, và t?n t?i m?t t?p h?p các nhà khai thác t?ng quát v? thu?c
tính, sau ?ó m?t nhà ?i?u hành t?ng quát c?n ???c l?a ch?n và áp d?ng cho
các thu?c tính. Quy t?c này d?a trên các lý lu?n sau ?ây. S? d?ng m?t nhà
?i?u hành t?ng quát ?? khái quát m?t giá tr? thu?c tính trong m?t tuple,
ho?c quy t?c, trong quan h? làm vi?c s? làm cho s? cai tr? bao g?m nhi?u
tuples d? li?u g?c, do ?ó khái quát các khái ni?m nó ??i di?n.
?i?u này t??ng ?ng v?i quy t?c t?ng quát ???c g?i là leo cây t?ng quát
trong vi?c h?c-t?-ví d?.

C? hai quy t?c, lo?i b? thu?c tính và thu?c tính t?ng quát, cho r?ng n?u
có m?t s? l??ng l?n các giá tr? khác bi?t cho m?t thu?c tính, khái quát
h?n n?a nên ???c áp d?ng. ?i?u này ??t ra câu h?i: làm th? nào l?n là \
m?t s? l??ng l?n các giá tr? khác bi?t cho m?t thu?c tính "???c coi là?
Tùy thu?c vào các thu?c tính ho?c ?ng d?ng có liên quan, m?t ng??i s?
d?ng có th? thích m?t s? thu?c tính v?n còn ? m?c ?? tr?u t??ng khá th?p
trong khi nh?ng ng??i khác ?? ???c t?ng quát ??n m?c cao h?n. Vi?c ki?m
soát các thu?c tính m?t cách cao c?n ???c t?ng quát th??ng khá ch? quan.
Vi?c ki?m soát các quá trình này ???c g?i là thu?c tính t?ng quát ki?m
soát. N?u các thu?c tính t?ng quát là "quá cao", nó có th? d?n ??n s?
t?ng quát-over, và các quy ??nh k?t qu? có th? không ???c r?t thông
tin.M?t khác, n?u không ph?i là thu?c tính t?ng quát cho m?t su \ ?
ciently c?p cao ", sau ?ó t?ng quát, theo có th? d?n, n?i mà các quy t?c
thu ???c có th? không ???c thông tin m?t trong hai. Nh? v?y, s? cân b?ng
c?n ph?i ??t ???c trong thu?c tính ??nh h??ng t?ng quát.
Có nhi?u cách có th? ?? ?i?u khi?n m?t quá trình t?ng quát. Hai ph??ng
pháp ti?p c?n thông th??ng ???c mô t? d??i ?ây.
• Các k? thu?t ??u tiên, khái quát thu?c tính ???c g?i là ng??ng ki?m
soát, ho?c là m?t s? t?ng quát b? ?â?p lu?a tu?i cho t?t c? các thu?c
tính, ho?c ??t m?t ng??ng cho m?i thu?c tính. N?u s? l??ng các giá tr?
khác bi?t trong m?t thu?c tính l?n h?n ng??ng thu?c tính, ti?p t?c lo?i
b? thu?c tính ho?c thu?c tính t?ng quát ph?i ???c th?c hi?n. H? th?ng
khai phá d? li?u thông th??ng có m?t giá tr? m?c ??nh ng??ng thu?c tính
(thông th??ng khác nhau, 2-8), và nên cho phép các chuyên gia và ng??i
dùng ch?nh s?a các giá tr? ng??ng là t?t. N?u ng??i dùng c?m th?y r?ng
eralization gen-??t ??n m?t m?c ?? quá cao cho m?t thu?c tính ??c bi?t,
cô có th? làm t?ng ng??ng. ?i?u này t??ng ?ng v?i khoan xu?ng d?c theo
thu?c tính. Ngoài ra, ti?p t?c t?ng h?p m?t quan h?, cô ?y có th? làm
gi?m ng??ng c?a m?t thu?c tính c? th?, t??ng ?ng v?i cán lên cùng thu?c
tính.
K? thu?t th? hai, ???c g?i là ki?m soát t?ng quát ng??ng liên quan, l?p
m?t ng??ng cho m?i quan h? t?ng quát. N?u s? l??ng (riêng bi?t) tuples
trong quan h? t?ng quát l?n h?n ng??ng này, khái quát h?n n?a ph?i ???c
th?c hi?n.N?u không, không có khái quát h?n n?a ph?i ???c th?c hi?n. Nh?
v?y m?t ng??ng c?ng có th? ???c cài s?n trong h? th?ng khai phá d? li?u
(th??ng là trong vòng m?t lo?t các 1-30), ho?c thi?t l?p b?i m?t chuyên
gia ho?c ng??i s? d?ng, và c?n ???c ?i?u ch?nh. Ví d?, n?u ng??i dùng c?m
th?y r?ng m?i quan h? t?ng quát quá nh?, cô có th? làm t?ng ng??ng, trong
?ó hàm ý khoan xu?ng. N?u không, ti?p t?c t?ng h?p m?t quan h?, cô ?y có
th? làm gi?m ng??ng, mà ng? ý cán lên.
Hai k? thu?t có th? ???c áp d?ng theo th? t?: ??u tiên áp d?ng các k?
thu?t ki?m soát thu?c tính ng??ng ?? khái quát m?i thu?c tính, và sau ?ó
áp d?ng ki?m soát ng??ng liên quan ?? ti?p t?c gi?m kích c? c?a m?i quan
h? t?ng quát.
Chú ý r?ng không có v?n ?? mà t?ng quát k? thu?t ki?m soát ???c áp d?ng,
ng??i dùng nên ???c phép ?i?u ch?nh các ng??ng t?ng quát ?? có ???c mô t?
khái ni?m thú v?. Vi?c ?i?u ch?nh này, nh? chúng ta ?ã th?y ? trên, c?ng
t??ng t? nh? khoan xu?ng và l?n lên, nh? ???c th?o lu?n trong ho?t ??ng
OLAP trong Ch??ng 2. Tuy nhiên, có s? phân bi?t gi?a các ph??ng pháp ho?t
??ng OLAP và c?m ?ng thu?c tính ??nh h??ng. Trong OLAP, m?i b??c khoan
xu?ng ho?c cán lên ???c ch? ??o và ki?m soát b?i ng??i s? d?ng, trong khi
? quy n?p thu?c tính ??nh h??ng, h?u h?t các tác ph?m ???c th?c hi?n t?
??ng b?i quá trình c?m ?ng và ?i?u khi?n b?i ng??ng khái quát, và ch?
?i?u ch?nh nh? ???c th?c hi?n b?i ng??i s? d?ng sau khi c?m ?ng t? ??ng.
Trong quá trình c?m ?ng nhi?u c? s? d? li?u theo ??nh h??ng, ng??i dùng
quan tâm trong vi?c nh?n thông tin ??nh l??ng ho?c th?ng kê v? các d?
li?u ? các c?p ?? khác nhau c?a tr?u t??ng. Vì v?y, ?i?u quan tr?ng là
tính tích l?y và t?ng h?p các giá tr? khác trong quá trình c?m ?ng. Khái
ni?m, ?i?u này ???c th?c hi?n nh? sau. M?t bi?n pháp ??c bi?t, ho?c thu?c
tính s?, ?ó là liên k?t v?i c? s? d? li?u m?i tuple là ch?c n?ng t?ng
h?p, ??m. Giá tr? c?a nó ??i v?i m?i tuple trong quan h? làm vi?c ban ??u
???c kh?i t?o vào 1. Thông qua lo?i b? thu?c tính và thu?c tính t?ng
quát, tuples trong m?i quan h? làm vi?c ban ??u có th? ???c t?ng quát,
k?t qu? là nhóm c?a tuples gi?ng h?t nhau. Trong tr??ng h?p này, t?t c?
các tuples gi?ng h?t nhau t?o thành m?t nhóm ph?i ???c sáp nh?p vào m?t
tuple.
Các tính m?i này tuple t?ng quát, ???c thi?t l?p ?? t?ng s? tuples t? m?i
quan h? làm vi?c ban ??u ???c ??i di?n b?i (t?c là, ?ã ???c sáp nh?p vào)
các tuple m?i t?ng quát.
Ví d?, gi? s? r?ng b?ng cách gi?i thi?u thu?c tính ??nh h??ng, 52 d? li?u
tuples t? m?i quan h? làm vi?c ban ??u là t?t c? các t?ng quát cho cùng
m?t tuple, T. ?ó là, các t?ng quát c?a các tuples 52 k?t qu? 52 tr??ng
h?p gi?ng h?t nhau c?a T tuple. . 52 Nh?ng tuples trùng ???c sáp nh?p ??
t?o thành m?t trong nh?ng d? c?a T, mà tính ???c thi?t l?p là 52. Các
ch?c n?ng ph? bi?n t?ng h?p bao g?m t?ng h?p và avg. ??i v?i m?t tuple
t?ng quát nh?t ??nh, t?ng h?p có ch?a t?ng c?a các giá tr? c?a m?t s?
thu?c tính nh?t ??nh cho m?i quan h? làm vi?c ban ??u tuples t?o thành
tuple t?ng quát.
Gi? s? r?ng T tuple ch?a các ??n v? t?ng h?p (soldÑ nh? là m?t ch?c n?ng
t?ng h?p. Giá tr? t?ng h?p cho T tuple sau ?ó s? ???c thi?t l?p ?? cho
t?ng s? ??n v? ???c bán cho m?i 52 tuples Các avg t?ng h?p (trung bình).
???c tính theo công th?c , avg = t?ng / ??m.
Ví d? 5.3 Thu?c tính ??nh h??ng c?m ?ng. ? ?ây chúng tôi hi?n th? nh? th?
nào là do ??nh h??ng c?m ?ng ???c th?c hi?n v? m?i quan h? làm vi?c ban
??u c?a B?ng 5.1, ??t ???c trong Ví d? 5.2. ??i v?i m?i thu?c tính c?a
m?i quan h? này, s? ti?n thu ???c khái quát nh? sau:
Tên: Vì có m?t s? l??ng l?n các giá tr? khác bi?t cho tên và không có
ho?t ??ng t?ng quát de ? Ned vào nó, thu?c tính này ???c l?y ra.
Gi?i tính: Vì ch? có hai giá tr? khác bi?t cho gi?i tính, thu?c tính này
???c gi? l?i và không có khái quát ???c th?c hi?n trên ?ó.
Chính: Gi? s? r?ng m?t h? th?ng khái ni?m ?ã ???c de ? Ned cho phép các
thu?c tính ch? y?u ???c t?ng quát v?i các giá tr? (ch? & khoa h?c, k?
thu?t kinh doanh,). Gi? s? c?ng là ng??ng thu?c tính t?ng quát ???c thi?t
l?p ?? 5, và ?ó có h?n 20 giá tr? khác bi?t cho chính trong quan h? làm
vi?c ban ??u. B?i thu?c tính t?ng quát và ki?m soát t?ng quát thu?c tính,
chính vì th? t?ng quát hóa b?i leo khái ni?m cho h? th?ng c?p b?c.
N?i sinh: thu?c tính này có m?t s? l??ng l?n các giá tr? khác bi?t, do
?ó, chúng tôi xin khái quát nó. Gi? s? r?ng m?t h? th?ng khái ni?m t?n
t?i cho n?i khai sinh, ???c xác ??nh là t?nh <thành ph? hay qu?c gia <nhà
n??c. Gi? s? r?ng s? l??ng các giá tr? khác bi?t cho ??t n??c trong quan
h? làm vi?c ban ??u l?n h?n ng??ng thu?c tính t?ng quát. Trong tr??ng h?p
này, ??a ?i?m sinh s? ???c g? b?, vì ngay c? khi t?n t?i m?t nhà ?i?u
hành t?ng quát cho nó, ng??ng khái quát s? không ???c hài lòng. Gi? s?
r?ng thay vì ví d? c?a chúng tôi, s? l??ng các giá tr? khác bi?t cho ??t
n??c s? th?p h?n ng??ng thu?c tính t?ng quát. Trong tr??ng h?p này, n?i
khai sinh là t?ng quát v? n??c sinh.
ngày tháng n?m sinh: Gi? s? r?ng m?t h? th?ng phân c?p hi?n có có th?
khái quát ngày sinh ??n tu?i tác, và ?? tu?i ?? ?? tu?i, và r?ng s? l??ng
các ph?m vi tu?i (ho?c kho?ng) là nh? ??i v?i các ng??ng thu?c tính t?ng
quát. Khái quát v? ngày sinh do ?ó s? di?n ra.
c? trú: Gi? s? c? trú là de ? Ned b?i s? thu?c tính, ???ng, thành ph? n?i
c? trú, t?nh n?i c? trú - ho?c ti?u bang và qu?c gia c? trú. S? l??ng các
giá tr? khác bi?t cho s? l??ng và ???ng ph? có th? s? r?t cao, t? các
khái ni?m này là khá th?p c?p. Các thu?c tính s? l??ng và ???ng ph? do ?ó
c?n ???c lo?i b?, do ?ó c? trú sau ?ó t?ng quát v? thành ph? n?i c? trú,
trong ?ó có ít giá tr? khác bi?t.
?i?n tho?i #: Nh? v?i các tên thu?c tính ? trên, thu?c tính này ch?a quá
nhi?u giá tr? khác bi?t và do ?ó c?n ???c lo?i b? trong t?ng quát.
GPA: Gi? s? r?ng m?t h? th?ng khái ni?m t?n t?i cho ?i?m trung bình mà
các nhóm c?p ?i?m s? giá tr? vào kho?ng nh? f3.75-4.0, 3,5-3,75,. .. ),
Mà l?n l??t ???c nhóm l?i thành các giá tr? ?ó, ch?ng h?n nh?
(fexcellent, r?t t?t,. . ). Thu?c tính do ?ó có th? ???c t?ng quát.

Quá trình t?ng quát s? cho k?t qu? trong các nhóm c?a tuples gi?ng h?t
nhau. Ví d?, hai ??u tiên c?a B?ng 5.1 tuples t?ng h?p c? hai gi?ng nhau
??n cùng m?t tuple (c? th? là, các tuple ??u tiên hi?n th? trong b?ng này
gi?ng h?t nhau 5.2Ñ tuples sau ?ó ???c sáp nh?p thành m?t., V?i tính c?a
h? tích l?y ???c. Quá trình này d?n ??n m?i quan h? t?ng quát th? hi?n
trong B?ng 5.2.

gender      major birth country    age range   residence city   gpa
      count
M     Science     Canada     20-25 Richmond    very good   16
F     Science     Foreign    25-30 Burnaby     excellent   22


Table 5.2: A generalized relation obtained by attribute-oriented
induction on the data of Table 4.1.
C?n c? vào v?n t? v?ng ???c s? d?ng trong OLAP, chúng tôi có th? xem nh?
m?t th??c ?o ??m, và các thu?c tính còn l?i là kích th??c. L?u ý r?ng các
ch?c n?ng t?ng h?p, ch?ng h?n nh? t?ng h?p, có th? ???c áp d?ng cho các
thu?c tính s?, nh? ti?n l??ng và bán hàng. Nh?ng thu?c tính này ???c g?i
là thu?c tính ?o l??ng.
Các m?i quan h? t?ng quát c?ng có th? ???c trình bày trong các hình th?c
khác, nh? ???c th?o lu?n trong các kho?n sau ?ây.
5.2.3. Trình bày b?t ngu?n t? t?ng quát hóa - Presentation of the derived
generalization
"Thu?c tính ??nh h??ng c?m ?ng t?o ra m?t ho?c m?t b? mô t? khái quát.
Làm th? nào nh?ng mô t? này có th? ???c hình t??ng? "Nh?ng mô t? có th?
???c trình bày cho ng??i dùng trong m?t s? cách khác nhau.
K?t qu? t? các mô t? khái quát quy n?p thu?c tính ??nh h??ng là ph? bi?n
nh?t ???c hi?n th? trong hình th?c c?a m?t m?i quan h? t?ng quát, ch?ng
h?n nh? m?i quan h? t?ng quát trình bày trong B?ng 5.2 Ví d? 5.3.
Ví d? Gi? s? r?ng c?m ?ng 5.4 thu?c tính ??nh h??ng ?ã ???c th?c hi?n
trên m?t quan h? bán hàng c?a c? s? d? li?u AllElectronics, k?t qu? là mô
t? khái quát c?a B?ng 5.3 cho doanh s? bán hàng n?m 1997. Mô t? ???c hi?n
th? trong hình th?c c?a m?t m?i quan h? t?ng quát.

location   item sales (in million dollarsÑ            count (in thousandsÑ
Asia TV    15    300
Europe     TV    12    250
North America    TV    28   450
Asia computer    120   1000
Europe     computer    150  1200
North America    computer   200  1800

Table 5.3: A generalized relation for the sales in 1997.
Mô t? c?ng có th? ???c hình t??ng trong các hình th?c cross-tabulations,
ho?c crosstabs. Trong m?t hai chi?u, Crosstab, m?i hàng ??i di?n cho m?t
giá tr? t? m?t thu?c tính, và m?i c?t t??ng tr?ng cho m?t giá tr? t?
thu?c tính khác. Trong m?t Crosstab n chi?u (??i v?i n> 2), các c?t có
th? ??i di?n các giá tr? c?a nhi?u h?n m?t thu?c tính, v?i t?ng s? ph?
hi?n th? cho các nhóm thu?c tính giá tr?. ??i di?n này c?ng t??ng t? nh?
b?ng tính. Nó r?t d? dàng ?? b?n ?? tr?c ti?p t? m?t c?u trúc hình kh?i
d? li?u vào m?t Crosstab.
Ví d? 5.5 M?i quan h? t?ng quát th? hi?n trong B?ng 5.3 có th? ???c
chuy?n thành 3-x?p c?t-dimensionalcross th? hi?n trong B?ng 5.4


location n    item                TV    computer    both     items
             sales        count         sales count          sales count

Asia       15             300           120    1000          135    1300
Europe               12           250          150    1200          162    1450
North America             28            450           200    1800          228    2250

all   regions             45            1000          470    4000          525    5000


Table 5.4: A crosstab for the sales in 1997.
D? li?u t?ng quát có th? ???c trình bày trong các hình th?c ?? th?, ch?ng
h?n nh? bi?u ?? thanh, bi?u ?? pie, và ???ng cong. Hình ?nh v?i ?? th? là
ph? bi?n trong phân tích d? li?u. ?? th? nh? v?y và nh?ng ???ng cong có
th? ??i di?n cho 2-D ho?c d? li?u 3-D.
Ví d? 5,6 Các d? li?u bán hàng c?a Crosstab th? hi?n trong B?ng 5.4 có
th? ???c chuy?n ??i thành các ??i di?n bi?u ?? thanh c?a hình 5.1, và
bi?u ?? pie ??i di?n c?a hình 5.2.
Figure 5.1: Bar chart representation of the sales in 1997.




Figure 5.2: Pie chart representation of the sales in 1997.

Cu?i cùng, m?t ba chi?u liên quan t?ng quát ho?c Crosstab có th? ???c ??i
di?n b?i m?t kh?i d? li?u 3-D. Nh? v?y xem hình kh?i 3-D là m?t công c?
h?p d?n cho các trình duy?t kh?i l?p ph??ng.




Figure 5.3: A 3-D Cube view representation of the sales in 1997.
Ví d? 5.7 Xem xét các kh?i d? li?u th? hi?n trong hình 5.3 cho m?c kích
th??c, v? trí, và chi phí. Kích th??c c?a m?t t? bào (hi?n th? nh? m?t
kh?i l?p ph??ng nh? bé) ??i di?n cho s? c?a ô t??ng ?ng, trong khi ??
sáng c?a t? bào có th? ???c dùng ?? ??i di?n cho m?t bi?n pháp khác c?a
t? bào, ch?ng h?n nh? t?ng h?p (doanh thu). Pivoting, khoan, và các ho?t
??ng c?t-và-dicing có th? ???c th?c hi?n trên trình duy?t c?a kh?i d?
li?u v?i cách nh?p chu?t.
M?t m?i quan h? t?ng quát c?ng có th? ???c ??i di?n trong các hình th?c
quy t?c logic. Thông th??ng, m?i tuple t?ng quát ??i di?n cho m?t phân b?
r?i r?c lu?t. K? t? khi d? li?u trong m?t c? s? d? li?u l?n th??ng span
?a d?ng c?a các phân b?, m?t chi?c tuple t?ng quát là không ?? trang
tr?i, ho?c ??i di?n, 100% các m?i quan h? làm vi?c tuples ban ??u, ho?c
tr??ng h?p.
Do ?ó s? l??ng thông tin, ch?ng h?n nh? t? l? hài lòng c?a tuples d? li?u
? es bên tay trái c?a các quy t?c c?ng hài lòng c?a ? es phía bên ph?i
các quy t?c, nên ???c k?t h?p v?i nguyên t?c m?i. M?t nguyên t?c logic ?ó
là liên k?t v?i các thông tin ??nh l??ng ???c g?i là m?t quy t?c ??nh
l??ng.
?? xác ??nh m?t quy t?c ??nh l??ng ??c tr?ng, chúng tôi gi?i thi?u các t-
tr?ng l??ng là m?t bi?n pháp r?t nhi?u lý thú trong ?ó mô t? typicality
c?a t?ng phân b? r?i r?c trong các quy t?c, ho?c c?a m?i tuple trong quan
h? t?ng quát t??ng ?ng. bi?n pháp ???c ??nh ngh?a nh? sau. Hãy ?? cho l?p
??i t??ng mà là ?? ???c ??c tr?ng (ho?c mô t? b?i ruleÑ các l?p h?c ???c
g?i là m?c tiêu Hãy ?? qa là m?t tuple t?ng quát mô t? các l?p m?c tiêu..
Tr?ng l??ng t-cho qa là ph?n tr?m tuples c?a t?ng l?p m?c tiêu t? ban ??u
làm vi?c liên quan ???c bao ph? b?i qa

N
t weight = count(qa Ñ=?i=1count(qiÑ;    (5.1Ñ
Chính th?c, chúng tôi havewhere N là s? tuples cho l?p m?c tiêu trong
quan h? t?ng quát, Q1, .. . , QN ?ang tuples cho l?p m?c tiêu trong quan
h? t?ng quát, và qa là ? Q1,. .. , QN. Rõ ràng, ph?m vi cho tr?ng l??ng-t
là [0, 1] (ho?c [% 0, 100%]).
M?t nguyên t?c ??nh l??ng ??c tr?ng sau ?ó có th? ???c ??i di?n ho?c là
(i) trong logic hình th?c b?ng cách liên k?t các giá tr? t-tr?ng l??ng
corre-sponding v?i nhau phân b? r?i r?c bao g?m các h?ng m?c tiêu, ho?c
(ii) trong b?ng quan h? ho?c Crosstab m?u b?ng cách thay ??i các giá tr?
tính trong các b?ng cho tuples c?a t?ng l?p m?c tiêu v?i các giá tr? t-
tr?ng l??ng t??ng ?ng.
M?i phân b? r?i r?c c?a m?t quy t?c ??c tính ??nh l??ng ??i di?n cho m?t
?i?u ki?n. Nói chung, phân ly c?a nh?ng ?i?u ki?n này t?o thành m?t ?i?u
ki?n c?n thi?t c?a t?ng l?p m?c tiêu, vì ?i?u ki?n là b?t ngu?n d?a trên
t?t c? các tr??ng h?p c?a t?ng l?p m?c tiêu, ?ó là, t?t c? các tuples c?a
t?ng l?p m?c tiêu ph?i ?áp ?ng ?i?u ki?n này.
Tuy nhiên, quy lu?t không th? là m?t ?i?u ki?n su ? cient c?a t?ng l?p
m?c tiêu, k? t? khi m?t tuple ?áp ?ng ???c các ?i?u ki?n t??ng t? có th?
thu?c v? l?p khác. Do ?ó, nguyên t?c ph?i ???c th? hi?n d??i d?ng các

8X; target class(X) =>    condition1(X)[t : w1] _v..v    _ conditionn
(X)[t : wn]:    (5.2)


quy t?c ch? ra r?ng n?u X là trong l?p m?c tiêu, có m?t kh? n?ng wi r?ng
X th?a mãn conditioni, n?i wi là giá tr? t-tr?ng l??ng cho ?i?u ki?n ho?c
phân b? r?i r?c tôi, và tôi ?ang ? trong (1;:::, n)
Ví d? 5.8 Các Crosstab th? hi?n trong B?ng 5.4 có th? ???c chuy?n thành
quy lu?t logic hình th?c. Hãy ?? cho l?p m?c tiêu là t?p c?a các máy
tính. Các quy t?c ??c tr?ng t??ng ?ng, trong logic hình th?c, là

8X; item(X Ñ = \computer"    Ñ
(location(XÑ = \Asia"Ñ [t : 25:00%]_ (location(XÑ = \Europe"Ñ [t :
30:00%] _
(location(XÑ = \North America"Ñ [t : 45:00%] (5.3Ñ
Chú ý r?ng t-tr?ng l??ng ??u tiên tr? giá 25,00% là thu ???c b?ng n?m
1000, giá tr? t??ng ?ng v?i khe c?m tính cho (máy tính; Á), chia cho
4000, giá tr? t??ng ?ng v?i khe c?m tính cho (máy tính, t?t c? các vùng).
(?ó là, 4.000 ??i di?n cho t?ng s? các máy tính bán ra). Các t-tr?ng
l??ng c?a hai disjuncts t??ng t? khác ?ã ???c b?t ngu?n. quy ??nh ??nh
l??ng ??c tr?ng cho các l?p m?c tiêu khác có th? ???c tính trong m?t th?i
trang t??ng t?.
5.3. Cài ??t hi?u qu? quy n?p h??ng thu?c tính (Effcient implementation
of attribute-oriented induction)
5.3.1. Thu?c tính c? b?n theo h??ng thu?t toán qui n?p - Basic attribute-
oriented induction algorithm
D?a trên các cu?c th?o lu?n ? trên, chúng tôi tóm t?t các k? thu?t c?m
?ng thu?c tính ??nh h??ng v?i các thu?t toán sau ?ây mà các m? quy t?c
t?ng quát ??c tr?ng trong m?t c? s? d? li?u quan h? d?a trên yêu c?u d?
li?u c?a ng??i dùng khai thác m?.
Thu?t toán 5.3.1 (thu?c tính c? b?n theo ??nh h??ng c?m ?ng cho khai phá
d? li?u ??c ?i?m) Khai thác t?ng quát tính ??c thù trong m?t c? s? d?
li?u quan h? d?a trên yêu c?u d? li?u c?a ng??i dùng khai thác m?.
??u vào. (I) M?t c? s? d? li?u quan h? DB, (ii) khai phá d? li?u m?t truy
v?n, DMQuery, (iii) Gen (ai), m?t t?p h?p các khái ni?m phân c?p ho?c
khai thác các thu?c tính t?ng quát v? ai, và (iv) Ti, m?t t?p các thu?c
tính t?ng quát ng??ng cho các thu?c tính ai, và T, m?t ng??ng khái quát
m?i quan h?.
??u ra. M?t mô t? ??c ?i?m d?a trên DMQuery.
Ph??ng pháp.
InitRel: Tính toán m?i quan h? làm vi?c ban ??u, W0. ?i?u này ???c th?c
hi?n b?ng cách b?t ngu?n m?t truy v?n c? s? d? li?u quan h? d?a trên truy
v?n khai phá d? li?u, DMQuery. Các truy v?n ???c th?c hi?n quan h? ??i
v?i c? s? d? li?u, DB, và k?t qu? truy v?n hình th?c t?p h?p các tác v?
d? li?u có liên quan, W0.
2. PreGen: Chu?n b? c?a quá trình t?ng quát. ?i?u này ???c th?c hi?n b?ng
cách (1) quét các m?i quan h? làm vi?c ban ??u W 0 m?t l?n và thu th?p
các giá tr? khác bi?t cho m?i ai thu?c tính và s? l??ng xu?t hi?n c?a m?i
giá tr? khác bi?t trong W 0, (Máy tính t?i thi?u mong mu?n 2N c?p Li cho
m?i ai thu?c tính c?a nó ???c d?a trên ho?c ng??ng m?c ??nh thu?c tính
Ti, nh? ???c gi?i thích thêm trong ?o?n sau, và (3) xác ??nh b?n ??-c?p
(v, v0) cho m?i ai thu?c tính trong W 0, trong ?ó v là m?t giá tr? riêng
bi?t c?a ai trong W 0, và v 'là t??ng ?ng v?i giá tr? t?ng quát c?a nó ?
c?p Li.
Chú ý r?ng m?c t?i thi?u mong mu?n Li c?a ai ???c xác ??nh d?a trên m?t
chu?i các Gen ?i?u hành và / ho?c các khái ni?m phân c?p có s?n ?? cho
t?t c? các giá tr? khác bi?t cho ai thu?c tính trong W 0 có th? ???c t?ng
quát cho m?t s? trung tâm mua ? các khái ni?m khác bi?t t?ng quát , n?i ?
là s? có th? khác bi?t l?n nh?t c?a các giá tr? t?ng quát c?a ai trong W
0
  ? m?t m?c ?? phân c?p khái ni?m ?ó là không l?n h?n ng??ng thu?c tính
c?a ai. Chú ý r?ng m?t h? th?ng khái ni?m, n?u ???c, có th? ???c ?i?u
ch?nh ho?c tinh ch? n?ng ??ng, ho?c, n?u không ???c, có th? ???c t?o ra
t? ??ng d?a trên s? li?u th?ng kê d? li?u phân ph?i, nh? ???c th?o lu?n
trong Ch??ng 3.
PrimeGen: Tính toán m?i quan h? t?ng quát t??ng, R p. ?i?u này ???c th?c
hi?n b?ng (1) thay th? giá tr? trong m?i v ai c?a W 0 v?i khái ni?m t?
tiên t??ng ?ng c?a nó v0 xác ??nh t?i b??c PreGen; và (2) sáp nh?p tuples
gi?ng h?t nhau trong m?i quan h? làm vi?c ?i?u này liên quan ??n vi?c
tích l?y các thông tin s? và máy tính b?t k? giá tr? t?ng h?p khác ??
tuples k?t qu?. Các m?i quan h? k?t qu? là R p.
B??c này có th? ???c e ? ciently th?c hi?n trong hai bi?n th?: (1) ??i
v?i m?i tuple t?ng quát, chèn tuple thành m?t p ???c s?p x?p nguyên t? R
m?i quan h? b?i m?t tìm ki?m nh? phân: n?u tuple là ?ã có trong R p, ch?
c?n t?ng s? l??ng và giá tr? t?ng h?p khác phù h?p, n?u không thì chèn nó
vào R p. (2) Vì trong nhi?u tr??ng h?p s? l??ng các giá tr? khác bi?t ?
m?c ?? quan h? chính là nh?, quan h? chính có th? ???c mã hoá nh? là m?t
m?ng m chi?u n?i m là s? thu?c tính trong R p, và kích th??c t?ng có các
t??ng ?ng t?ng quát giá tr? thu?c tính. M?i ph?n t? m?ng gi? ???c tính
t??ng ?ng và t?p h?p các giá tr? khác, n?u có. Vi?c chèn c?a m?t tuple
t?ng quát ???c th?c hi?n b?ng bi?n pháp t?p h?p trong ph?n t? m?ng t??ng
?ng.
Trình bày: Trình bày ngu?n g?c t?ng quát hóa-Presentation: Presentation
of the derived generalization.
Determine whether the generalization is to be presented at the
abstraction level of the prime relation, or if further enforcement of the
relation generalization threshold is desired. In the latter case, further
generalization is performed on R p by selecting attributes for further
generalization. (This can be performed by either interactive drilling or
presetting some preference standard for such a selection). This
generalization process continues until the number of distinct generalized
tuples is no greater than T. This derives the final generalized relation
Rf .
Xác ??nh xem t?ng quát hóa là ?? ???c di?n t? ? m?c ?? tr?u t??ng c?a m?i
quan h? chính, ho?c n?u ti?p t?c thi hành ng??ng khái quát m?i quan h? là
yêu c?u. Trong tr??ng h?p th? hai, ti?p t?c t?ng quát hóa ???c th?c hi?n
trên Rp b?ng cách ch?n thu?c tính khái quát h?n n?a. (?i?u này có th?
???c th?c hi?n b?ng cách khoan t??ng tác ho?c ??nh v? m?t s? tiêu chu?n
?u tiên l?a ch?n). Quá trình này ti?p t?c cho ??n khi t?ng quát hóa b? d?
li?u t?ng quát là không có khác bi?t l?n h?n T. ?i?u này b?t ngu?n t?
quy?t ??nh các m?i quan h? t?ng quát hóa Rf.
Multiple forms can be selected for visualization of the output relation.
These include a (1) generalized relation, (2) crosstab, (3) bar chart,
pie chart, or curve, and (4) quantitative characteristic rule.
Nhi?u hình th?c có th? ???c ch?n cho bi?u di?n c?a quan h? ??u ra. Chúng
bao g?m m?t (1) m?i quan h? t?ng quát, (2) b?ng chéo, (3) bar bi?u ??,
bi?u ?? pie, ho?c ???ng cong, và (4) ??nh l??ng quy lu?t ??c tr?ng.
“How eficient is this algorithm?"
Let's examine its computational complexity. Step 1 of the algorithm is
essentially a relational query whose processing eficiency depends on the
query processing methods used. With the successful implementation and
commercialization of numerous database systems, this step is expected to
have good performance.
“Làm th? nào th?c hi?n thu?t toán này?”
Hãy ki?m tra ph?c t?p tính toán c?a nó. B??c 1 c?a thu?t toán c? b?n là
m?t câu truy v?n quan h? mà x? lý th?c hi?n ph? thu?c vào ph??ng pháp
truy v?n ???c s? d?ng. V?i vi?c th?c hi?n thành công c?a các h? th?ng c?
s? d? li?u, b??c này d? ki?n s? có hi?u qu? t?t.
For Steps 2 & 3, the collection of the statistics of the initial working
relation W0 scans the relation only once. The cost for computing the
minimum desired level and determining the mapping pairs (v; v’) for each
attribute is dependent on the number of distinct values for each
attribute and is smaller than n, the number of tuples in the are a total
of n tuples in W0 and p tuples in Rp. For each tuple t in W0 fisubstitute
its attribute values based on the derived mappingpairs. This results in a
generalized tuple t0. If variation (1) is adopted, each t0 takes O(log p)
to find the location for count incrementation or tuple insertion. Thus
the total time complexity is O (n u log p) for all of the generalized
tuples. If variation (2) is adopted, each t0 takes O(1) to find the tuple
for count incrementation. Thus the overall time complexity is O(n) for
all of the generalized tuples. (Note that the total array size could be
quite large if the array is sparse). Therefore, the worst case time
complexity should be O(n u log p) if the prime relation is structured as
a sorted relation, or O(n) if the prime relation is structured as a m-
dimensional array, and the array size is reasonably small.
Finally, since Step 4 for visualization works on a much smaller
generalized relation, Algorithm 5.3.1 is eficient based on this
complexity analysis.
??i v?i b??c 2 và 3, b? s?u t?p c?a các s? li?u th?ng kê c?a m?i quan h?
khai thác ban ??u W0 quét các m?i quan h? m?t l?n. Chi phí cho máy tính
m?c ?? yêu c?u t?i thi?u và xác ??nh các c?p l?p bi?u ?? (v, v’) cho m?i
thu?c tính ph? thu?c vào s? l??ng các giá tr? riêng bi?t cho t?ng thu?c
tính và nh? h?n n, s? b? d? li?u trong quan h? ban ??u. Các ngu?n g?c c?a
m?i quan h? chính Rp ???c th?c hi?n b?ng cách chèn nh? t?ng quát vào m?i
quan h? nguyên t?. T?ng c?ng có n b? d? li?u trong W0 và nh? p trong Rp.
??i v?i m?i t trong W0, thay th? các giá tr? thu?c tính c?a nó d?a trên
các b?n ??. K?t qu? là trong t?ng quát hóa t’ b? d? li?u. N?u bi?n (1)
???c thông qua, m?i t’c?n O (log p) ti?p t?c v?i t?ng bi?n ??m ho?c chèn
thêm b? d? li?u. Nh? v?y t?ng th?i gian ph?c t?p là O (n x log p) cho t?t
c? tr??ng h?p b? d? li?u t?ng quát hóa. N?u bi?n (2) ???c thông qua, m?i
t’c?n O (1) ?? tìm b? d? li?u t?ng ??m. Nh? v?y t?ng th?i gian ph?c t?p
là O (n) cho t?t c? các tr??ng h?p t?ng quát. (L?u ý r?ng t?ng s? m?ng
kích th??c có th? khá l?n n?u là m?ng th?a). Vì v?y các tr??ng h?p x?u
nh?t th?i gian ph?c t?p có th? O (n x log p) n?u m?i quan h? chính có c?u
trúc nh? là m?t m?i quan h? phân lo?i, ho?c O (n) n?u m?i quan h? chính
có c?u trúc nh? m?t m?ng m chi?u,và kích th??c m?ng nh? v?a ph?i. .
Cu?i cùng, k? t? b??c 4 cho các ch??ng trình hình dung v? m?t m?i quan h?
t?ng quát nh? h?n nhi?u, thu?t toán 5.3.1 là k?t qu? d?a trên s? phân
tích ?? ph?c t?p này.
5.3.2    Cài ??t x? lý kh?i d? li?u th?c hi?n theo ??nh h??ng ?? suy
di?n- Data cube implementation of attribute-oriented induction
Section 5.3.1 presented a database implementation of attribute-oriented
induction based on a descriptive data mining query. This implementation,
though efficient, has some limitations.
Ph?n 5.3.1 trình bày m?t c? s? d? li?u th?c hi?n quy n?p ??nh h??ng c?a
thu?c tính mô t? d?a trên truy v?n khai thác d? li?u. ?i?u này th?c hi?n
m?c dù hi?u qu?, còn có m?t s? h?n ch?.
First, the power of drill-down analysis is limited. Algorithm 5.3.1
generalizes its task-relevant data from the database primitive concept
level to the prime relation level in a single step. This is eficient.
However, it facilitates only the roll up operation from the prime
relation level, and the drill down operation from some higher abstraction
level to the prime relation level. It cannot drill from the prime
relation level down to any lower level because the system saves only the
prime relation and the initial task-relevant data relation, but nothing
in between. Further drilling-down from the prime relation level has to be
performed by proper generalization from the initial task-relevant data
relation.
Tr??c tiên, kh? n?ng c?a phân tích khoan-xu?ng b? h?n ch?. Thu?t toán
5.3.1 t?ng quát có liên quan tác v? d? li?u c?a nó t? c?p ?? khái ni?m c?
s? d? li?u ban ??u ??n m?c quan h? chính trong m?t b??c.Có hi?u qu?. Tuy
nhiên, nó ch? t?o thu?n l?i cho phép toán d??i lên t? c?p quan h? chính,
và trên xu?ng m?t s? phép toán t? c?p ?? tr?u t??ng cao h?n cho quan h?
chính. Nó không th? ch?t ch? t? c?p quan h? chính xu?ng m?c th?p b?t k?
do h? th?ng ch? l?u l?i quan h? chính và các nhi?m v? có liên quan m?i
quan h? d? li?u, nh?ng không có gì ? gi?a. H?n n?a trên-xu?ng t? c?p
quan h? chính ph?i ???c th?c hi?n b?ng cách khái quát nhi?m v? thích h?p
t? quan h? d? li?u có nhi?m v? liên quan ban ??u.
Second, the generalization in Algorithm 5.3.1 is initiated by a data
mining query. That is, no precomputation is performed before a query is
submitted. The performance of such query-triggered processing is
acceptable for a query whose relevant set of data is not very large,
e.g., in the order of a few mega-bytes. If the relevant set of data is
large, as in the order of many giga-bytes, the on-line computation could
be costly and time-consuming. In such cases, it is recommended to perform
precomputation using data cube or relational OLAP structures, as
described in Chapter 2.
Th? hai, t?ng quát hóa trong thu?t toán 5.3.1 ???c kh?i x??ng b?i m?t
truy v?n khai thác d? li?u. Ngh?a là, không ??nh tr??c ???c th?c hi?n
truy v?n ???c. Vi?c th?c hi?n x? lý truy v?n-kh?i s? m?t quá trình nh?
v?y là ch?p nh?n cho m?t truy v?n có liên quan t?p h?p các d? li?u không
ph?i là r?t l?n, ví d? nh?, theo trình t? c?a m?t vài mega-byte. N?u các
thi?t l?p có liên quan c?a d? li?u l?n, nh? trong th? t? c?a nhi?u giga-
byte, các dòng tính toán trên có th? s? r?t t?n kém và t?n th?i gian.
Trong tr??ng h?p ?ó, ?? th?c hi?n s? d?ng d? li?u hình kh?i ho?c các c?u
trúc quan h? OLAP, nh? mô t? trong Ch??ng 2.
Moreover, many data analysis tasks need to examine a good number of
dimensions or attributes. For example, an interactive data mining system
may dynamically introduce and test additional attributes rather than just
those specified in the mining query. Advanced descriptive data mining
tasks, such as analytical characterization (to be discussed in Section
5.4), require attribute relevance analysis for a large set of attributes.
Furthermore, a user with little knowledge of the truly relevant set of
data may simply specify \in relevance to "in the mining query”. In these
cases, the precomputation of aggregation values will speed up the
analysis of a large number of dimensions or attributes.
The data cube implementation of attribute-oriented induction can be
performed in two ways.
H?n n?a, nhi?m v? phân tích d? li?u nhi?u ng??i c?n ki?m tra m?t s? l?n
các kích th??c ho?c các thu?c tính. Ví d?, m?t h? th?ng khai thác t??ng
tác d? li?u t? ??ng có th? gi?i thi?u và th? nghi?m các thu?c tính b?
sung ch? không ph?i ch? nh?ng lý thuy?t trong truy v?n khai phá d? li?u.
Nâng cao d? li?u mô t? nhi?m v? khai phá d? li?u, ch?ng h?n nh? ??c tính
phân tích (s? ???c th?o lu?n trong ph?n 5.4), yêu c?u phân tích s? liên
quan thu?c tính cho m?t t?p h?p l?n các thu?c tính. H?n n?a, m?t ng??i s?
d?ng v?i ít ki?n th?c v? các thi?t l?p th?c s? liên quan c?a d? li?u ??n
gi?n có th? ??nh rõ\trong s? có liên quan “trong truy v?n khai phá d?
li?u”. Trong tr??ng h?p này, các ??nh tr??c t?p h?p các giá tr? s? t?ng
t?c ?? phân tích c?a m?t s? l??ng l?n các kích th??c ho?c các thu?c tính.
Các kh?i l?p ph??ng th?c hi?n quy n?p d? li?u thu?c tính ??nh h??ng có
th? ???c th?c hi?n theo hai cách.
Construct a data cube on-the-fly for the given data mining query: The
first method constructs a data cube dynamically based on the task-
relevant set of data. This is desirable if either the task-relevant data
set is too specific to match any predened data cube, or it is not very
large. Since such a data cube is computed only after the query is
submitted, the major motivation for constructing such a data cube is to
facilitate effcient drill-down analysis. With such a data cube, drilling-
down below the level of the prime relation will simply require retrieving
data from the cube, or performing minor generalization from some
intermediate level data stored in the cube instead of generalization from
the primitive level data. This will speed up the drill-down process.
Xây d?ng m?t kh?i d? li?u phù h?p v?i câu h?i ?ã h?i: Ph??ng pháp c?u
trúc m?t kh?i d? li?u phù h?p d?a trên thi?t l?p th?c hi?n có liên quan
??n d? li?u. ?ây là yêu c?u n?u m?t trong hai nhi?m v? d? li?u có liên
quan thi?t l?p là quá rõ ràng ?? phù h?p v?i b?t k? thi?t k? s? b? kh?i
d? li?u, ho?c nó không ph?i là r?t l?n. K? t? khi ?ó m?t kh?i d? li?u
???c tính toán ch? sau khi truy v?n ???c ch?p nh?n, ??ng l?c chính ?? xây
d?ng m?t kh?i d? li?u là ?? t?o ?i?u ki?n th?c hi?n phân tích khoan
xu?ng. V?i m?t kh?i d? li?u ?ó, khoan xu?ng d??i m?c c?a m?i quan h?
chính ch? ??n gi?n là s? yêu c?u l?y d? li?u t? các kh?i, hay t?ng quá
hóa th?c hi?n ph?n ít t? m?t s? d? li?u ???c l?u tr? trong kh?i thay vì
t?ng quát t? c?p d? li?u ban ??u. ?i?u này s? ??y nhanh quá trình khoan
xu?ng.
However, since the attribute-oriented data generalization involves the
computation of a query-related data cube, it may involve more processing
than simple computation of the prime relation and thus increase the
response time. A balance between the two may be struck by computing a
cube-structured “subprime" relation in which each dimension of the
generalized relation is a few levels deeper than the level of the prime
relation. This will facilitate drilling-down to these levels with a
reasonable storage and processing cost, although further drilling-down
beyond these levels will still require generalization from the primitive
level data. Notice that such further drilling-down is more likely to be
localized, rather than spread out over the full spectrum of the cube.

Tuy nhiên, vì các thu?c tính ??nh h??ng t?ng quát hóa d? li?u trong vi?c
tính toán c?a m?t kh?i d? li?u liên quan ??n truy v?n, nó có th? bao g?m
nhi?u b??c h?n tính toán ??n gi?n c?a các quan h? và do ?ó làm t?ng th?i
gian s? ?áp ?ng. M?t s? cân b?ng gi?a hai ?i?m có th? x?y ra b?i máy tính
m?t kh?i c?u trúc ph? m?i quan h? mà trong ?ó m?i chi?u h??ng c?a m?i
quan h? t?ng quát là m?t vài m?c ?? khó l??ng h?n m?c ?? quan h? chính.
?i?u này s? t?o ?i?u ki?n trên xu?ng ?? các c?p v?i m?t l?u tr? và chi
phí h?p lý, m?c dù ti?p t?c trên xu?ng v??t quá m?c này v?n s? ?òi h?i
t?ng quát hóa t? d? li?u. Chú ý r?ng m?c ?? ban ??u nh? v?y h?n n?a trên
xu?ng, là nhi?u kh? n?ng riêng l?, thay vì s? phân b? theo ?? l?n ??y ??
c?a kh?i.
Use a predened data cube: The second alternative is to construct a data
cube before a data mining query is posed to the system, and use this
predened cube for subsequent data mining. This is desirable if the
granularity of the task-relevant data can match that of the predened data
cube and the set of task-relevant data is quite large. Since such a data
cube is precomputed, it facilitates attribute relevance analysis,
attribute-oriented induction, dicing and slicing, roll-up, and drill-
down. The cost one must pay is the cost of cube computation and the
nontrivial storage overhead. A balance between the computation storage
overheads and the accessing speed may be attained by precomputing a
selected set of all of the possible materializable cuboids, as explored
in Chapter 2.
 S? d?ng m?t kh?i d? li?u ?ã s? d?ng: Th? hai là xây d?ng m?t kh?i d?
li?u tr??c khi m?t truy v?n khai phá d? li?u ???c ??t ra v?i h? th?ng, và
s? d?ng kh?i d? li?u ?ã s? d?ng cho khai phá d? li?u ti?p theo. ?ây là
yêu c?u n?u granularity c?a d? li?u có liên quan nhi?m v? có th? k?t h?p
c?a các kh?i d? li?u ?ã s? d?ng và thi?t l?p các nhi?m v? d? li?u có liên
quan là khá l?n. K? t? khi ?ó m?t kh?i d? li?u ???c ??nh tr??c, nó t?o
?i?u ki?n phân tích thu?c tính liên quan, c?m ?ng thu?c tính ??nh h??ng,
kh?i nh? và lát m?ng, cu?n-lên, và trên-xu?ng. Chi phí ph?i tr? là m?t
trong nh?ng chi phí c?a kh?i tính toán và l?u tr? các phí nontrivial. M?t
s? cân b?ng gi?a t?ng phí tính toán/l?u tr? và t?c ?? truy c?p có th?
???c ??t ???c b?i ??nh tr??c m?t s? l?a ch?n c?a t?t c? s? th?c hi?n có
th? t?a hình kh?i, nh? là khám phá t?i Ch??ng 2.
5.4.1 Th?c hi?n phân tích liên quan thu?c tính - Why perform attribute
relevance analysis?
The first limitation of class characterization for multidimensional data
analysis in data warehouses and OLAP tools is the handling of complex
objects. This was discussed in Section 5.2. The second limitation is the
lack of an automated generalization process: the user must explicitly
tell the system which dimensions should be included in the class
characterization and to how high a level each dimension should be
generalized. Actually, each step of generalization or specialization on
any dimension must be specied by the user.
Các gi?i h?n c?a ??c tính l?p ?? phân tích d? li?u ?a chi?u trong kho d?
li?u và các công c? OLAP là vi?c x? lý các ??i t??ng ph?c t?p. ?i?u này
?ã ???c th?o lu?n trong ph?n 5.2. Gi?i h?n th? hai là thi?u m?t quá trình
k? thu?t t?ng quát hóa: ng??i s? d?ng ph?i khai báo kích th??c m?t cách
rõ ràng cho h? th?ng nên ???c bao g?m trong ??c tính c?a l?p và m?c ??
cao nh? th? nào m?i m?t chi?u h??ng ph?i ???c t?ng quát hóa. Trên th?c
t?, t?ng b??c khái quát hóa ho?c chuyên môn v? kích th??c b?t k? ph?i
???c lo?i b? b?i ng??i dùng.
Usually, it is not dicult for a user to instruct a data mining system
regarding how high a level each dimension should be generalized. For
example, users can set attribute generalization thresholds for this, or
specify which level a given dimension should reach, such as with the
command \generalize dimension location to the country level. Even without
explicit user instruction, a default value such as 2 to 8 can be set by
the data mining system, which would allow each dimension to be
generalized to a level that contains only 2 to 8 distinct values. If the
user is not satised with the current level of generalization, she can
specify dimensions on which drill-down or roll-up operations should be
applied.
      Thông th??ng, nó không ph?i là chu k? cho ng??i dùng ?? h??ng d?n
m?t h? th?ng khai thác d? li?u liên quan ??n c?p cao nh? th? nào m?i m?t
chi?u h??ng ph?i ???c t?ng quát hóa. Ví d?, ng??i dùng có th? thi?t l?p
các ng??ng thu?c tính t?ng quát hóa cho ?i?u này, ho?c ch? ??nh c?p m?t
chi?u cho nên ??t ???c, ch?ng h?n nh? v?i l?nh \ khái quát v? trí kích
th??c ??n m?c ?? qu?c gia. Ngay c? ng??i s? d?ng mà không có h??ng d?n rõ
ràng, m?t giá tr? m?c ??nh nh? 2 ??n 8 có th? ???c thi?t l?p b?i h? th?ng
khai phá d? li?u, mà s? cho phép kích th??c t?ng ???c t?ng quát cho m?t
c?p ?? có ch?a ch? 2-8 giá tr? khác bi?t. N?u ng??i dùng không hài lòng
c?a ?áp ?ng v?i m?c ?? hi?n t?i c?a khái quát hóa, b?n có th? ch? ??nh
kích th??c mà nên áp d?ng ho?t ??ng trên ?ó drill-down ho?c roll-up.
However, it is nontrivial for users to determine which dimensions should
be included in the analysis of class characteristics. Data relations
often contain 50 to 100 attributes, and a user may have little knowledge
regarding which attributes or dimensions should be selected for effective
data mining. A user may include too few attributes in the analysis,
causing the resulting mined descriptions to be incomplete or
incomprehensive. On the other hand, a user may introduce too many
attributes for analysis (e.g., by indicating \in relevance to, which
includes all the attributes in the specied relations).
Tuy nhiên, nó không cho ng??i dùng xác ??nh kích th??c nên ???c bao g?m
trong vi?c phân tích các ??c ?i?m l?p. D? li?u quan h? th??ng ch?a 50-100
thu?c tính, và m?t ng??i s? d?ng có th? có ít ki?n th?c v? các thu?c tính
ho?c kích th??c nên ???c ch?n cho khai phá d? li?u v.v…. M?t ng??i s?
d?ng có th? bao g?m các thu?c tính quá ít trong phân tích, gây ra các k?t
qu? khai thác ???c mô t? không ??y ?? ho?c không toàn di?n. M?t khác, m?t
ng??i s? d?ng có th? gi?i thi?u quá nhi?u thu?c tính ?? phân tích (ví d?,
b?ng cách ch? ra\trong liên quan ??n, bao g?m t?t c? các thu?c tính trong
m?i quan h? hình thái).
Methods should be introduced to perform attribute (or dimension)
relevance analysis in order to lter out statisti-cally irrelevant or
weakly relevant attributes, and retain or even rank the most relevant
attributes for the descriptive mining task at hand. Class
characterization which includes the analysis of attribute dimension
relevance is called analytical characterization. Class comparison which
includes such analysis is called analytical comparison.
Nh?ng ph??ng pháp c?n ph?i ???c công b? ?? th?c hi?n thu?c tính (hay kích
th??c). S? phân tích thích h?p trong m?nh l?nh thông tin ???c bi?u hi?n
b?ng con s? không thích h?p hay nh?ng thu?c tính ít liên quan. Và v?n có
ho?c th?m chí x?p h?ng nh?ng thu?c tính liên quan nh?t miêu t? nhi?m v?
khai phá d? li?u. S? ??c tr?ng l?p mà bao g?m s? phân tích thích h?p
thu?c tính ???c g?i là s? ??c tr?ng phân tích. S? so sánh l?p mà bao g?m
s? phân tích nh? v?y ???c g?i là s? so sánh phân tích.
Intuitively, an attribute or dimension is considered highly relevant with
respect to a given class if it is likely that the values of the attribute
or dimension may be used to distinguish the class from others. For
example, it is unlikely that the color of an automobile can be used to
distinguish from cheap cars, but the model, make, style, and number of
cylinders are likely to be more relevant attributes.
B?ng tr?c giác, m?t thu?c tính hay kích th??c ???c xem xét liên quan cao
??i v?i m?t l?p ?ã cho n?u có th? x?y ra nh?ng giá tr? thu?c tính hay
kích th??c có th? th??ng phân bi?t l?p v?i nh?ng l?p khác. Ch?ng h?n,
không ch?c r?ng màu c?a m?t xe ô tô có th? ???c s? d?ng ?? phân bi?t ??t
giá t? nh?ng ô tô giá r?, nh?ng mô hình, c?u t?o, ki?u, và s? l??ng nh?ng
xylanh có kh? n?ng là nh?ng thu?c tính liên quan h?n.
 Moreover, even within the same dimension, differentlevels of concepts
may have dramatically different powers for distinguishing a class from
others. For example, in the birth date dimension, birth day and birth
month are unlikely relevant to the salary of employees. However, the
birth decade (i.e., age interval) may be highly relevant to the salary of
employees. This implies that the analysis of dimension relevance should
be performed at multilevels of abstraction, and only the most relevant
levels of a dimension should be included in the analysis.
H?n n?a, ngay c? trong cùng m?t kích th??c, các khái ni?m khác nhau có
th? có quy?n h?n ?áng k? khác h?n nhau ?? phân bi?t m?t l?p t? l?p khác.
Ví d?, trong kích th??c ngày sinh, ngày sinh và tháng sinh là không có
liên quan ??n ti?n l??ng c?a nhân viên. Tuy nhiên, trong th?p k? ra ??i
(t?c là, th?i gian gi?a hai th? k?) tu?i có th? ???c ?ánh giá cao có liên
quan ??n ti?n l??ng c?a nhân viên. ?i?u này ng? ý r?ng các phân tích v?
m?c ?? phù h?p kích th??c ph?i ???c th?c hi?n nhi?u m?c tr?u t??ng, và
ch? có nhi?u nh?t các c?p có liên quan c?a kích th??c có th? ???c bao g?m
trong phân tích.
Above we said that attribute/dimension relevance is evaluated based on
the ability of the attribute/dimension to distinguish objects of a class
from others. When mining a class comparison (or discrimination), the
target class and the contrasting classes are explicitly given in the
mining query. The relevance analysis should be performed by comparison of
these classes, as we shall see below.
? trên chúng tôi cho r?ng thu?c tính liên quan kích th??c/???c ?ánh giá
d?a vào kh? n?ng c?a thu?c tính/kích th??c ?? phân bi?t các ??i t??ng c?a
m?t l?p t? l?p khác. Khi khai phá m?t l?p so sánh (ho?c phân bi?t), l?p
m?c tiêu và các l?p t??ng ph?n là rõ ràng ???c ??a ra trong câu truy v?n
khai phá. Các phân tích liên quan ph?i ???c th?c hi?n b?ng cách so sánh
gi?a các l?p, nh? chúng ta s? th?y d??i ?ây.
 However, when mining class characteristics, there is only one class to
be characterized. That is, no contrasting class is specied. It is
therefore not obvious what the contrasting class to be used in the
relevance analysis should be. In this case, typically, the contrasting
class is taken to be the set of comparable data in the database which
excludes the set of the data to be characterized. For example, to
characterize graduate students, the contrasting class is composed of the
set of students who are registered but are not graduate students.
Tuy nhiên, khi khai phá ??c ?i?m l?p, ch? có m?t l?p ???c ??c tr?ng. ?ó
là, không có l?p t??ng ph?n là hình thái. Do ?ó, không rõ ràng nh?ng gì
các l?p t??ng ph?n s? ???c s? d?ng trong phân tích s? liên quan. Trong
tr??ng h?p này, thông th??ng, các l?p t??ng ph?n ???c l?y t? các t?p h?p
d? li?u so sánh trong c? s? d? li?u mà không bao g?m t?p h?p các d? li?u
???c ??c tr?ng. Ví d?, ?? ??c tr?ng cho sinh viên t?t nghi?p, các l?p
t??ng ph?n g?m t?p h?p các sinh viên ??ng ký, nh?ng không ph?i là sinh
viên t?t nghi?p.

5.4.2   Ph??ng pháp phân tích thu?c tính liên quan - Methods of attribute
relevance analysis.
There have been many studies in machine learning, statistics, fuzzy and
rough set theories, etc. on attribute relevance analysis. The general
idea behind attribute relevance analysis is to compute some measure which
is used to quantify the relevance of an attribute with respect to a given
class. Such measures include the information gain, Gini index,
uncertainty, and correlation coeffcients.
? ?ó có nhi?u s? nghiên c?u trong s? h?c b?ng máy, th?ng kê, nh?ng lý
thuy?t t?p h?p m? và thô v.v... trên s? phân tích thu?c tính thích h?p. Ý
t??ng chung ??ng sau s? phân tích thu?c tính thích h?p s? tính toán bi?n
pháp nào ?ó mà ???c dùng ?? xác ??nh s? l??ng s? thích h?p m?t thu?c tính
??i v?i m?t l?p ?ã cho. Nh?ng bi?n pháp nh? v?y bao g?m s? làm t?ng tin,
ch? s? Gini, s? không ch?c ch?n, và h? s? t??ng quan.
Here we introduce a method which integrates an information gain analysis
technique (such as that presented in the ID3 and C4.5 algorithms for
learning decision trees) with a dimension-based data analysis method. The
resulting method removes the less informative attributes, collecting the
more informative ones for use in class description analysis.
? ?ây chúng tôi gi?i thi?u m?t ph??ng pháp ???c tích h?p m?t k? thu?t
phân tích thông tin thu ???c (nh? trình bày trong thu?t toán ID3 và C4.5
cho vi?c h?c cây quy?t ??nh) v?i m?t ph??ng pháp phân tích d?a trên kích
th??c c?a d? li?u. Ph??ng pháp k?t qu? lo?i b? các thu?c tính ít thông
tin, thu th?p nh?ng thông tin m?i h?n ?? s? d?ng trong phân tích mô t?
l?p.

We first examine the information-theoretic approach applied to the
analysis of attribute relevance. Let's take ID3 as an example. ID3
constructs a decision tree based on a given set of data tuples, or
training objects, where the class label of each tuple is known. The
decision tree can then be used to classify objects for which the class
label is not known. To build the tree, ID3 uses a measure known as
information gain to rank each attribute.
Chúng tôi ki?m tra các ph??ng pháp ti?p c?n thông tin lý thuy?t áp d?ng
cho vi?c phân tích các thu?c tính liên quan. Chúng ta hãy l?y ID3 làm ví
d?. ID3 c?u trúc m?t cây quy?t ??nh d?a trên m?t t?p h?p các b? d? li?u
cho d? li?u, ho?c các ??i t??ng ?ào t?o, n?i mà các nhãn l?p b? d? li?u
t?ng ???c bi?t ??n. Các cây quy?t ??nh sau ?ó có th? ???c s? d?ng ?? phân
lo?i ??i t??ng mà các nhãn l?p không ???c bi?t. ?? xây d?ng cây, ID3 s?
d?ng m?t bi?n pháp ???c g?i là có ???c thông tin ?? x?p h?ng m?i thu?c
tính.
The attribute with the highest information gain is considered the most
discriminating attribute of the given set. A tree node is constructed to
represent a test on the attribute. Branches are grown from the test node
according to each of the possible values of the attribute, and the given
training objects are partitioned accordingly. In general, a node
containing objects which all belong to the same class becomes a leaf node
and is labeled with the class.
Các thu?c tính v?i thông tin t?ng cao nh?t ???c coi là thu?c tính sáng
su?t nh?t c?a t?p cho tr??c. M?t nút cây ???c xây d?ng ?? bi?u hi?n m?t
ki?m tra trên thu?c tính. Nhánh ???c xu?t phát t? nút ki?m tra theo t?ng
giá tr? c?a các thu?c tính, và các ??i t??ng kh? n?ng ???c phân chia cho
phù h?p. Nói chung, m?t nút có ch?a ??i t??ng ?ó ??u thu?c cùng l?p tr?
thành m?t nút lá và ???c dán nhãn v?i l?p.
The procedure is repeated recursively on each non-leaf partition of
objects, until no more leaves can be created. This attribute selection
process minimizes the expected number of tests to classify an object.
When performing descriptive mining, we can use the information gain
measure to perform relevance analysis, as we shall show below.
Th? t?c ?? quy là l?p ?i l?p l?i trên m?i phân chia vùng không lá c?a các
??i t??ng, cho ??n khi không có lá nhi?u h?n có th? ???c t?o ra. Quá
trình này l?a ch?n thu?c tính gi?m thi?u s? l??ng d? ki?n c?a các ki?m
tra ?? phân lo?i m?t ??i t??ng. Khi th?c hi?n mô t? khai phá, chúng tôi
có th? s? d?ng các bi?n pháp có ???c thông tin ?? th?c hi?n phân tích s?
liên quan, nh? chúng tôi s? hi?n th? d??i ?ây.
“How does the information gain calculation work?"
"Làm th? nào ?? ??t ???c công vi?c tính toán thông tin?".
 Let S be a set of training objects where the class label of each object
is known. (Each object is in fact a tuple. One attribute is used to
determine the class of the objects). Suppose that there are m classes.
Let S contain si objects of class Ci, for i = 1; : : :; m. An arbitrary
object belongs to class Ci with probability si/s, where s is the total
number of objects in set S. When a decision tree is used to classify an
object, it returns a class. A decision tree can thus be regarded as a
source of messages for Ci's with the expected information needed to
generate this message given
?? S là m?t t?p các ??i t??ng ?ào t?o, n?i nhãn l?p c?a t?ng ??i t??ng
???c bi?t ??n. (M?i ??i t??ng là m?t b? d? li?u trên th?c t?. M?t thu?c
tính ???c s? d?ng ?? xác ??nh l?p c?a các ??i t??ng). Gi? s? r?ng có
nh?ng l?p m. Hãy ?? S ch?a si ??i t??ng c?a l?p Ci, v?i i = 1, .. , m.
Trong tùy t?ng ??i t??ng thu?c l?p Ci v?i xác su?t si/s, trong ?ó s là
t?ng s? c?a các ??i t??ng trong t?p h?p S. Khi m?t cây quy?t ??nh ???c s?
d?ng ?? phân lo?i m?t ??i t??ng, nó s? tr? v? m?t l?p. M?t cây quy?t ??nh
nh? v?y có th? ???c coi nh? m?t ngu?n thông báo cho Ci v?i các thông tin
d? ki?n c?n thi?t ?? t?o ra thông báo này ???c ??a ra.
           I(s1, s2, …, sm ) =                (5.4)

If an attribute A with values fa1; a2; ; avg is used as the test at the
root of the decision tree, it will partition S into the subsets fS1; S2;
; Svg, where Sj contains those objects in S that have value aj of A. Let
Sj contain sij objects of class Ci. The expected information based on
this partitioning by A is known as the entropy of A. It is the
N?u m?t thu?c tính A v?i giá tr? {a1, a2, .. , av} ???c s? d?ng nh? các
bài ki?m tra ? g?c c?a cây quy?t ??nh, nó s? phân vùng S thành các t?p
con {S1 ,   s2, . . , Sv}, n?i Sj ch?a nh?ng ??i t??ng trong S có giá tr?
aj c?a A. ?? Sj ch?a các ??i t??ng bao g?m sij c?a l?p Ci. Các thông tin
d? ki?n s? d?a trên phân vùng này b?i A ???c g?i là thông tin c?a A. ?ây
là

A decision tree is a flow-chart-like tree structure, where each node
denotes a test on an attribute, each branch represents an outcome of the
test, and tree leaves represent classes or class distributions. Decision
trees are useful for classification, and can easily be converted to logic
rules. Decision tree induction is described in Chapter 7.
M?t cây quy?t ??nh là M?t c?u trúc cây gi?ng nh? bi?u ?? lu?ng. Cây quy?t
??nh là m?t kh?i-bi?u ?? gi?ng nh? c?u trúc cây, n?i mà m?i nút bi?u th?
m?t ki?m tra trên m?t thu?c tính, m?i nhánh ??i di?n cho m?t k?t qu? c?a
ki?m tra, và lá cây ??i di?n cho các l?p ho?c phân ph?i l?p. Cây quy?t
??nh có ích cho các s? phân lo?i, và có th? d? dàng ???c chuy?n ??i sang
các quy t?c logic. Cây quy?t ??nh quy n?p ???c mô t? trong Ch??ng 7.

           E(A) =

The information gained by branching on A is defined by:
Các thông tin thu ???c b?ng cách phân nhánh trên A là ??nh ngh?a b?i:

Gain(A)   =   I (s1, s2, .. , sm)    E(A)                (5.6)
ID3 computes the information gain for each of the attributes dening the
objects in S. The attribute which maximizes Gain(A) is selected, a tree
root node to test this attribute is created, and the objects in S are
distributed accordingly into the subsets S1; S2; ; Sm . ID3 uses this
process recursively on each subset in order to form a decision tree.
ID3 tính toán ???c thông tin cho t?ng thu?c tính kh? các ??i t??ng trong
S. Các thu?c tính trong ?ó t?i ?a hóa Gain (A) ???c ch?n, m?t nút g?c cây
?? ki?m tra thu?c tính ???c t?o ra, và các ??i t??ng trong S ???c phân
ph?i cho phù h?p vào t?p con S1, S2, .. , Sm. ID3 s? d?ng quá trình ??
quy này trên m?i t?p con ?? hình thành m?t cây quy?t ??nh.
Notice that class characterization is different from the decision tree-
based classification analysis. The former identifies a set of informative
attributes for class characterization, summarization and comparison,
whereas the latter constructs a model in the form of a decision tree for
classification of unknown data (i.e., data whose class label is not
known) in the future.
Chú ý r?ng l?p ??c tính là khác nhau t? phân tích quy?t ??nh d?a trên cây
phân lo?i. C?m này ?ã xác ??nh t?p các thu?c tính thông tin cho các ??c
tính c?a l?p, t?ng k?t và so sánh, trong khi sau này các c?u trúc m?t mô
hình trong các hình th?c c?a m?t cây quy?t ??nh ?? phân lo?i d? li?u
không rõ (ví d?, d? li?u có l?p nhãn là không bi?t) trong t??ng lai.
Therefore, for the purpose of class description, only the attribute
relevance analysis step of the decision tree construction process is
performed. That is, rather than constructing a decision tree, we will use
the information gain measure to rank and select the attributes to be used
in class description.
Vì v?y, v?i m?c ?ích mô t? l?p, ch? s? liên quan phân tích thu?c tính
b??c c?a quá trình xây d?ng cây quy?t ??nh ???c th?c hi?n. ?ó là, thay vì
xây d?ng m?t cây quy?t ??nh, chúng tôi s? s? d?ng các bi?n pháp có ???c
thông tin ?? x?p h?ng và ch?n các thu?c tính ???c s? d?ng trong mô t?
l?p.
Attribute relevance analysis for class description is performed as
follows.
Thu?c tính liên quan phân tích ?? mô t? l?p ???c th?c hi?n nh? sau.
Collect data for both the target class and the contrasting class by query
processing.
Notice that for class comparison, both the target class and the
contrasting class are provided by the user in the data mining query. For
class characterization, the target class is the class to be
characterized, whereas the contrasting class is the set of comparable
data which are not in the target class.
1. Thu th?p d? li?u cho các l?p c? hai l?p m?c tiêu và l?p t??ng ph?n
b?ng cách x? lý câu truy v?n.
Chú ý r?ng ?? so sánh l?p, c? l?p m?c tiêu và l?p t??ng ph?n ???c cung
c?p b?i ng??i s? d?ng trong truy v?n khai thác d? li?u. ??i v?i ??c tính
c?a l?p, các l?p m?c tiêu là các l?p ???c ??c tr?ng, trong khi các l?p
t??ng ph?n là t?p h?p các d? li?u so sánh mà không ph?i là trong l?p m?c
tiêu.
Identify a set of dimensions and attributes on which the relevance
analysis is to be performed.
Since different levels of a dimension may have dramatically different
relevance with respect to a given class, each attribute deffining the
conceptual levels of the dimension should be included in the relevance
analysis in prin-ciple. However, although attributes having a very large
number of distinct values (such as name and phone) may return nontrivial
relevance measure values, they are unlikely to be meaningful for concept
description. Thus, such attributes should first be removed or generalized
before attribute relevance analysis is performed. Therefore, only the
dimensions and attributes remaining after attribute removal and attribute
generalization should be included in the relevance analysis. The
thresholds used for attributes in this step are called the at-tribute
analytical thresholds. To be conservative in this step, note that the
attribute analytical threshold should be set reasonably large so as to
allow more attributes to be considered in the relevance analysis. The
relation obtained by such an attribute removal and attribute
generalization process is called the candidate relation of the mining
task.
2. Xác ??nh m?t t?p h?p các kích th??c và thu?c tính mà trên ?ó các phân
tích liên quan s? ???c th?c hi?n.
K? t? khi tách ra m?c ?? kích th??c có th? có liên quan ?áng k? tách ra
??i v?i m?t l?p nh?t ??nh, m?i thu?c tính h?n ch? m?c khái ni?m c?a chi?u
nên ???c bao g?m trong phân tích s? liên quan trong prin-ciple. Tuy
nhiên, m?c dù các thu?c tính có m?t s? l??ng r?t l?n c?a các giá tr? khác
nhau (ch?ng h?n nh? tên và ?i?n tho?i) có th? tr? v? ?o l??ng giá tr?
liên quan nontrivial, h? là khó có th? có ý ngh?a ??i v?i mô t? khái
ni?m. Vì v?y, các thu?c tính nh? v?y nên ???c g? b? ho?c t?ng quát tr??c
khi phân tích s? liên quan thu?c tính ???c th?c hi?n.
Vì v?y, ch? có kích th??c và các thu?c tính còn l?i sau khi g? b? thu?c
tính và thu?c tính t?ng quát nên bao g?m trong phân tích s? liên quan.
Các ng??ng ???c s? d?ng cho các thu?c tính trong b??c này ???c g?i là
t?i-ng??ng phân tích. ?? ???c h?n ch? trong b??c này, l?u ý r?ng các
thu?c tính ng??ng phân tích nên ???c thi?t l?p h?p lý ?? cho phép các
thu?c tính nhi?u h?n ???c xem xét trong vi?c phân tích s? liên quan. Các
m?i quan h? thu ???c b?ng cách lo?i b? m?t thu?c tính nh? v?y và quá
trình t?ng quát ???c g?i là thu?c tính quan h? thích h?p c?a nhi?m v?
khai phá d? li?u.
Perform relevance analysis for each attribute in the candidation
relation.
The relevance measure used in this step may be built into the data mining
system, or provided by the user (depending on whether the system is
fiexible enough to allow users to define their own relevance
measurements). For example, the information gain measure described above
may be used. The attributes are then sorted (i.e., ranked) according to
their computed relevance to the data mining task.
3. Th?c hi?n s? phân tích thích h?p m?i thu?c tính trong quan h? thích
h?p.
Các bi?n pháp liên quan ???c s? d?ng trong b??c này có th? ???c xây d?ng
thành h? th?ng khai phá d? li?u, hay cung c?p b?i ng??i s? d?ng (tu?
thu?c vào vi?c h? th?ng ???c fiexible ?? ?? cho phép ng??i dùng ??nh
ngh?a nh?ng phép ?o thích h?p c?a riêng mình). Ví d?, thông tin có ???c
?o mô t? ? trên có th? ???c s? d?ng. Các thu?c tính này sau ?ó ???c s?p
x?p (ví d?, x?p h?ng) theo tính toán c?a h? liên quan ??n nhi?m v? khai
phá d? li?u.
Remove from the candidate relation the attributes which are not relevant
or are weakly relevant to the class description task.
A threshold may be set to define\weakly relevant. This step results in an
initial target class working relation and an initial contrasting class
working relation. If the class description task is class
characterization, only the initial target class working relation will be
included in further analysis. If the class description task is class
comparison, both the initial target class working relation and the
initial contrasting class working relation will be included in further
analysis.
4. Lo?i b? t? quan h? candidate các thu?c tính mà không có liên quan ho?c
có liên quan y?u ?t ??n nhi?m v? mô t? l?p.
Ng??ng A có th? ???c thi?t l?p ?? ??nh ngh?a m?t cách liên quan y?u ?t.
B??c này k?t qu? trong m?t l?p m?c tiêu ban ??u làm vi?c và m?i quan h?
l?p t??ng ph?n ban ??u làm vi?c liên quan. N?u nhi?m v? mô t? l?p là s?
??c tr?ng l?p, m?i quan h? ch? có các l?p m?c tiêu ban ??u làm vi?c s?
???c bao g?m thêm trong phân tích. N?u nhi?m v? mô t? l?p l?p so sánh,
c? l?p m?c tiêu ban ??u m?i quan h? làm vi?c và t??ng ph?n ban ??u giai
c?p công nhân liên quan s? ???c bao g?m trong phân tích.
      The above discussion is summarized in the following algorithm for
analytical characterization in relational databases.
Các cu?c th?o lu?n ? trên ???c tóm t?t trong các thu?t toán sau ?ây s?
??c tr?ng phân tích trong c? s? d? li?u quan h?.
Algorithm 5.4.1 (Analytical characterization) Mining class characteristic
descriptions by performing both attribute relevance analysis and class
characterization.
Thu?t toán 5.4.1 (Phân tích ??c tính) Khai phá mô t? ??c tr?ng l?p b?ng
cách th?c hi?n c? hai thu?c tính liên quan phân tích và ??c tr?ng l?p.

Input.
1. A mining task for characterization of a specified set of data from a
relational database.
Gen(ai), a set of concept hierarchies or generalization operators on
attributes ai,
Ui , a set of attribute analytical thresholds for attributes ai ,
Ti, a set of attribute generalization thresholds for attributes ai, and
R, an attribute relevance threshold .
??u vào.
M?t nhi?m v? khai phá cho các ??c tính c?a m?t lý thuy?t t?p h?p d? li?u
t? m?t c? s? d? li?u quan h?.
T?ng quan (ai) m?t t?p h?p các khái ni?m phân c?p ho?c khai thác các
thu?c tính t?ng quát v? ai .
Ui , m?t t?p các thu?c tính ng??ng phân tích cho thu?c tính ai .
Ti , m?t t?p các thu?c tính cho các ng??ng khái quát các thu?c tính ai,
và
R, m?t s? liên quan thu?c tính ng??ng.
Output.
Class characterization presented in user-specified visualization formats.
??u ra.
Class ??c ?i?m trình bày trong các ??nh d?ng hình t??ng theo danh ngh?a
ng??i dùng.
Method.
1. Data collection: Collect data for both the target class and the
contrasting class by query processing, where the target class is the
class to be characterized, and the contrasting class is the set of
comparable data which are in the database but are not in the target
class.
Analytical generalization: Perform attribute removal and attribute
generalization based on the set of provided attribute analytical
thresholds, Ui . That is, if the attribute contains many distinct values,
it should be either removed or generalized to satisfy the thresholds.
This process identifies the set of attributes on which the relevance
analysis is to be performed. The resulting relation is the candidate
relation.
Relevance analysis: Perform relevance analysis for each attribute of the
candidate relation using the specified relevance measurement. The
attributes are ranked according to their computed relevance to the data
mining task.
Initial working relation derivation: Remove from the candidate relation
the attributes which are not relevant or are weakly relevant to the class
description task, based on the attribute relevance threshold, R. Then
remove the contrasting class. The result is called the initial (target
class) working relation.
Induction on the initial working relation: Perform attribute-oriented
induction according to Algorithm 5.3.1, using the attribute
generalization thresholds, Ti.
Since the algorithm is derived following the reasoning provided before
the algorithm, its correctness can be proved accordingly. The complexity
of the algorithm is similar to the attribute-oriented induction algorithm
since the induction process is performed twice in both analytical
generalization (Step 2) and induction on the initial working relation
(Step 5). Relevance analysis (Step 3) is performed by scanning through
the database once to derive the probability distribution for each
attribute.
Ph??ng pháp.
1. Thu th?p d? li?u: Thu th?p d? li?u cho c? hai m?c tiêu l?p và l?p
t??ng ph?n b?ng cách x? lý truy v?n, n?i mà các l?p m?c tiêu là các l?p
???c ??c tr?ng, và các l?p t??ng ph?n là t?p h?p các d? li?u so sánh ???c
trong c? s? d? li?u nh?ng không có trong m?c tiêu l?p.
2. Phân tích t?ng quát: Th?c hi?n lo?i b? thu?c tính và thu?c tính t?ng
quát d?a trên t?p các thu?c tính cung c?p các ng??ng phân tích, Ui. T?c
là, n?u thu?c tính ch?a nhi?u giá tr? khác bi?t, nó ph?i ???c, ho?c g? b?
ho?c t?ng quát ?? ?áp ?ng các ng??ng. Quá trình này ??nh ngh?a t?p các
thu?c tính mà trên ?ó các phân tích liên quan s? ???c th?c hi?n. Các m?i
quan h? k?t qu? thích h?p liên quan.
3. Phân tích liên quan: Th?c hi?n phân tích s? liên quan ??i v?i t?ng
thu?c tính c?a quan h? thích h?p b?ng cách s? d?ng lý thuy?t ?o l??ng m?c
?? phù h?p. Các thu?c tính ???c x?p h?ng theo tính toán c?a chúng liên
quan ??n nhi?m v? khai thác d? li?u.

4. B?t ngu?n liên quan khai thác ban ??u: H?y   b? t? quan h? thích h?p các
thu?c tính mà không có liên quan ho?c ít liên   quan ??n nhi?m v? mô t?
l?p, d?a trên ng??ng có liên quan thu?c tính,   R. Sau ?ó, lo?i b? các l?p
t??ng ph?n. K?t qu? ???c g?i là (m?c tiêu ban   ??u l?p) làm vi?c liên
quan.

Ph??ng pháp quy n?p v? m?i quan h? khai thác ban ??u: Th?c hi?n các thu?c
tính ??nh h??ng c?m ?ng theo, Thu?t toán 5.3.1 s? d?ng thu?c tính t?ng
quát ng??ng, Ti.
K? t? khi thu?t toán ???c ??a ra theo các lý do ???c thu?t toán cung c?p
tr??c, tính ?úng ??n c?a nó có th? ???c ch?ng minh là phù h?p. S? ph?c
t?p c?a thu?t toán t??ng t? nh? các thu?t toán quy n?p thu?c tính ??nh
h??ng t? quá trình ph??ng pháp quy n?p ???c th?c hi?n hai l?n trong c?
hai phân tích t?ng quát (B??c 2) và quy n?p v? m?i quan h? ban ??u (B??c
5). Phân tích liên quan (B??c 3) ???c th?c hi?n b?ng cách quét qua c? s?
d? li?u m?t l?n ?? l?y ???c phân b? xác su?t cho m?i thu?c tính.
5.4.3   ??c tính phân tích: Ví d? - Analytical characterization: An
example
If the mined class descriptions involve many attributes, analytical
characterization should be performed. This procedure first removes
irrelevant or weakly relevant attributes prior to performing
generalization. Let's examine an example of such an analytical mining
process.
Example 5.9 Suppose that we would like to mine the general
characteristics describing graduate students at Big-University using
analytical characterization. Given are the attributes name, gender,
major, birth place, birth date, phone, and gpa.
N?u các mô t? l?p liên quan ??n vi?c khai thác nhi?u thu?c tính, ??c tính
phân tích ph?i ???c th?c hi?n. ??u tiên th? t?c này lo?i b? ít liên quan
ho?c thu?c tính có liên quan tr??c khi th?c hi?n t?ng quát. Chúng ta hãy
xem xét m?t ví d? nh? m?t quá trình khai thác phân tích
Ví d? 5.9 Gi? s? chúng tamu?n tôi mô t? ??c ?i?m chung sinh viên t?t
nghi?p t?i tr??ng ??i h?c l?n b?ng cách s? d?ng ??c tính phân tích. Do là
nh?ng tên thu?c tính, gi?i tính, chuyên ngành, n?i sinh, ngày sinh, ?i?n
tho?i, và ?i?m trung bình.
“How is the analytical characterization performed?"
“Làm th? nào ??c tính phân tích ???c th?c hi?n?”

In Step 1, the target class data are collected, consisting of the set of
graduate students. Data for a contrasting class are also required in
order to perform relevance analysis. This is taken to be the set of
undergraduate students.
1. ? b??c 1, m?c tiêu l?p d? li?u ???c thu th?p, bao g?m các thi?t l?p
c?a sinh viên t?t nghi?p. D? li?u cho m?t l?p t??ng ph?n c?ng ???c yêu
c?u ?? th?c hi?n phân tích s? liên quan. ?i?u này ??a ??n là t?p c?a sinh
viên ??i h?c
In Step 2, analytical generalization is performed in the form of
attribute removal and attribute generalization. Similar to Example 5.3,
the attributes name and phone# are removed because their number of
distinct values exceeds their respective attribute analytical thresholds.
Also as in Example 5.3, concept hierarchies are used to generalize birth
place to birth country, and birth date to age range. The attributes major
and gpa are also generalized to higher abstraction levels using the
concept hierarchies described in Example 5.3. Hence, the attributes
remaining for the candidate relation are gender, major, birth country,
age range, and gpa. The resulting relation is shown in Table 5.5.
Table 5.5: Candidate relation obtained for analytical characterization:
the target class and the contrasting class.
2. Phân tích t?ng quát ???c th?c hi?n theo hình th?c lo?i b? thu?c tính
và thu?c tính t?ng quát. T??ng t? nh? ví d? 5.3, tên thu?c tính và ?i?n
tho?i ???c lo?i b? vì s? l??ng c?a h? v? các giá tr? thu?c tính khác bi?t
v??t quá ng??ng c?a mình phân tích. C?ng nh? trong ví d? 5.3, phân c?p
khái ni?m ???c s? d?ng ?? khái quát n?i sinh cho ??t n??c, n?m sinh, và
ngày sinh l?a tu?i. Các thu?c tính chính và ?i?m trung bình c?ng ???c
t?ng quát ??n m?c tr?u t??ng cao h?n b?ng cách s? d?ng khái ni?m phân c?p
???c mô t? trong ví d? 5.3. Do ?ó, các thu?c tính còn l?i cho các quan h?
thích h?p nh? gi?i tính, chuyên ngành, n??c khai sinh, l?a tu?i, và ?i?m
trung bình. Các m?i quan h? k?t qu? ???c hi?n th? trong b?ng 5.5.
In Step 3, relevance analysis is performed on the attributes in the
candidate relation. Let C1 correspond to the class graduate and class C2
correspond to undergraduate. There are 120 samples of class graduate and
130 samples of class undergraduate. To compute the information gain of
each attribute, we first use Equation (5.4) to compute the expected
information needed to classify a given sample. This is:
I(s1; s2) = I(120; 130) = , 120250 log2 120250 , 130250 log2 130250 =
0:9988
Next, we need to compute the entropy of each attribute. Let's try the
attribute major. We need to look at the distribution of graduate and
undergraduate students for each value of major. We compute the expected
information for each of these distributions.



for major = \Science": s11   = 84   s21    = 42   I(s11; s21 Ñ = 0.9183
for major = \Engineering":   s12    = 36   s22    = 46 I(s12; s22 Ñ = 0.9892

for major = \Business":      s13    = 0    s23    = 42   I(s13; s23 Ñ = 0


Using Equation (5.5), the expected information needed to classify a given
sample if the samples are partitioned according to major, is:

E(major) = 126250I(s11; s21) + 25082I(s12; s22) + 25042I(s13; s23) =
0:7873
Hence, the gain in information from such a partitioning would be:
Gain(age) = I(s1; s2) , E(major) = 0:2115
Similarly, we can compute the information gain for each of the remaining
attributes. The information gain for each attribute, sorted in increasing
order, is : 0.0003 for gender, 0.0407 for birth country, 0.2115 for
major, 0.4490 for gpa, and 0.5971 for age range.
? b??c 3, liên quan phân tích ???c th?c hi?n trên các thu?c tính trong
m?i quan h? thích h?p. Hãy C1 t??ng ?ng v?i các l?p sau ??i h?c và l?p
t??ng ?ng v?i C2. Có 120 m?u t?t nghi?p l?p và 130 m?u c?a l?p. ?? tính
toán ???c thông tin c?a m?i thu?c tính, chúng tôi s? d?ng ph??ng trình
công th?c(5.4) ?? tính toán các thông tin c?n thi?t ?? d? ki?n phân lo?i
m?t m?u nh?t ??nh. ?i?u này là:
I(s1; s2) = I(120; 130) = , 120250 log2 120250 , 130250 log2 130250 =
0:9988
Ti?p theo, chúng ta c?n ph?i tính toán l??ng thông tin-(entropy)c?a m?i
thu?c tính. Hãy th? các thu?c tính ch? y?u. Chúng ta c?n ph?i nhìn vào s?
phân b? c?a ??i h?c và sinh viên ??i h?c cho t?ng giá tr? chuyên ngành.
Chúng tôi tính toán các thông tin d? ki?n cho m?i b?n phân ph?i.

for major = “Science”: s11   = 84   s21    = 42   I(s11; s21 ) = 0.9183
for major = “Engineering”:   s12    = 36   s22    = 46 I(s12; s22 ) = 0.9892

for major = “Business”:      s13  = 0   s23   = 42 I(s13; s23 ) = 0
S? d?ng ph??ng trình (5.5), các thông tin c?n thi?t ?? d? ki?n phân lo?i
m?t m?u nh?t ??nh n?u các m?u ???c phân chia theo chuyên ngành, là:
E(major) = 126250I(s11; s21) + 25082I(s12; s22) + 25042I(s13; s23) =
0:7873
Do ?ó, có ???c thông tin t? phân vùng nh? v?y s? là:
Gain(age) = I(s1; s2) , E(major) = 0:2115
T??ng t? nh? v?y, chúng ta có th? tính toán ???c thông tin cho t?ng thu?c
tính còn l?i. Các thông tin thu ???c cho m?i thu?c tính, ???c s?p x?p
theo th? t? ngày càng t?ng, là: 0,0003 cho gi?i tính, 0,0407 sinh cho ??t
n??c, 0,2115 cho chuyên ngành, 0,4490 cho ?i?m trung bình, và 0,5971 cho
nhi?u l?a tu?i.
In Step 4, suppose that we use an attribute relevance threshold of 0.1 to
identify weakly relevant attributes. The information gain of the
attributes gender and birth country are below the threshold, and
therefore considered weakly relevant. Thus, they are removed. The
contrasting class is also removed, resulting in the initial target class
working relation.
4. ? b??c 4, gi? s? r?ng chúng ta s? d?ng m?t ng??ng liên quan thu?c tính
c?a 0.1 ?? xác ??nh các thu?c tính ít liên quan. Vi?c có ???c thông tin
c?a các gi?i tính và qu?c gia khai sinh là d??i ng??ng, và do ?ó ???c coi
là ít có liên quan. Do ?ó, chúng ???c lo?i b?. Các l?p t??ng ph?n c?ng
???c lo?i b?, k?t qu? là l?p m?c tiêu khai phá ban ??u liên quan.
In Step 5, attribute-oriented induction is applied to the initial target
class working relation, following Algorithm 5.3.1.
5. ? b??c 5, ph??ng pháp quy n?p thu?c tính ??nh h??ng là áp d?ng cho các
l?p khai phá m?c tiêu ban ??u liên quan, sau thu?t toán 5.3.1.
5.5    Khai phá l?p so sánh: Nh?n bi?t các l?p khác nhau - Mining class
comparisons: Discriminating between different classes
In many applications, one may not be interested in having a single class
(or concept) described or characterized, but rather would prefer to mine
a description which compares or distinguishes one class (or concept) from
other comparable classes (or concepts). Class discrimination or
comparison (hereafter referred to as class comparison) mines descriptions
which distinguish a target class from its contrasting classes. Notice
that the target and contrasting classes must be comparable in the sense
that they share similar dimensions and attributes. For example, the three
classes person, address, and item are not comparable. However, the sales
in the last three years are comparable classes, and so are computer
science students versus physics students.
Trong nhi?u ?ng d?ng, có th? không quan tâm ??n vi?c có m?t l?p duy nh?t
(ho?c khái ni?m) mô t? ho?c ??c tr?ng, mà là tôi mu?n mô t? mà so sánh
ho?c phân bi?t m?t l?p (ho?c khái ni?m) t? các l?p khác có th? so sánh
(ho?c các khái ni?m). L?p phân bi?t ho?c so sánh (sau ?ây g?i là so sánh
l?p) mô t? khai phá d? li?u mà phân bi?t m?t l?p m?c tiêu t? các l?p
t??ng ph?n c?a nó. Chú ý r?ng các m?c tiêu và các l?p ph?i ???c so sánh
t??ng ph?n trong ý ngh?a r?ng h? chia s? kích th??c t??ng t? và các thu?c
tính. Ví d?, ba l?p ng??i, ??a ch?, và kho?n m?c không th? so sánh. Tuy
nhiên, doanh s? bán hàng trong ba n?m qua ???c các l?p so sánh, và nh?
v?y là sinh viên khoa h?c máy tính so v?i sinh viên v?t lý.
Our discussions on class characterization in the previous several
sections handle multilevel data summarization and characterization in a
single class. The techniques developed should be able to be extended to
handle class comparison across several comparable classes. For example,
attribute generalization is an interesting method used in class
characterization. When handling multiple classes, attribute
generalization is still a valuable technique.

Các cu?c th?o lu?n c?a chúng tôi v? ??c tính c?a l?p trong các ph?n tr??c
?ó x? lý nhi?u hoài bão và ??c tính c?a d? li?u t?ng k?t trong m?t l?p
duy nh?t. Các k? thu?t phát tri?n s? có th? ???c m? r?ng ?? x? lý so sánh
m?t s? l?p trên l?p so sánh. Ví d?, thu?c tính t?ng quát là m?t ph??ng
pháp thú v? ???c s? d?ng trong ??c tính c?a l?p. Khi x? lý nhi?u l?p,
thu?c tính t?ng quát v?n là m?t k? thu?t có giá tr?.
However, for effective comparison, the generalization should be performed
synchronously among all the classes compared so that the attributes in
all of the classes can be generalized to the same levels of abstraction.
For example, suppose we are given the AllElectronics data for sales in
1999 and sales in 1998, and would like to compare these two classes.
Consider the dimension location with abstractions at the city, province
or state, and country levels.
Tuy nhiên, ?? so sánh có hi?u qu?, các t?ng quát ph?i ???c th?c hi?n ??ng
b? trong t?t c? các l?p so sánh ?? các thu?c tính trong t?t c? các l?p có
th? ???c t?ng quát cùng c?p tr?u t??ng. Ví d?, gi? s? chúng ta ???c ban
AllElectronics d? li?u cho doanh s? bán hàng n?m 1999 và doanh s? bán
hàng n?m 1998, và mu?n so sánh hai l?p. Hãy xem xét v? trí kích th??c v?i
tr?u t??ng ? thành ph?, ti?u bang hay t?nh, và c?p qu?c gia.
Each class of data should be generalized to the same location level. That
is, they are synchronously all generalized to either the city level, or
the province or state level, or the country level. Ideally, this is more
useful than comparing, say, the sales in Vancouver in 1998 with the sales
in U.S.A. in 1999 (i.e., where each set of sales data are generalized to
different levels). The users, however, should have the option to over-
write such an automated, synchronous comparison with their own choices,
when preferred.
M?i l?p d? li?u c?n ???c t?ng quát ?? c?p cùng m?t v? trí. Ngh?a là,
chúng ???c ??ng b? t?t c? các t?ng quát ??n m?c m?t trong hai thành ph?,
ho?c t?nh ho?c c?p nhà n??c, ho?c c?p qu?c gia. Lý t??ng nh?t, ?i?u này
là h?u ích h?n so sánh, nói r?ng, vi?c bán hàng t?i Vancouver vào n?m
1998 v?i doanh s? bán t?i M? vào n?m 1999 (t?c là n?i mà m?i t?p h?p d?
li?u bán hàng là t?ng quát ?? different c?p). Nh?ng ng??i s? d?ng, tuy
nhiên, nên có tùy ch?n ?? over-write nh? v?y so sánh, t? ??ng ??ng b? v?i
s? l?a ch?n riêng c?a chúng, khi ?a thích.

5.5.1     So sánh l?p ph??ng th?c và cài ??t - Class comparison methods
and implementations
“How is class comparison performed?"
In general, the procedure is as follows.
“S? so sánh l?p ???c th?c hi?n nh? th? nào”
Nói chung, th? t?c là nh? sau.
Data collection: The set of relevant data in the database is collected by
query processing and is partitioned respectively into a target class and
one or a set of contrasting class(es)
Dimension relevance analysis: If there are many dimensions and analytical
class comparison is desired, then dimension relevance analysis should be
performed on these classes as described in Section 5.4, and only the
highly relevant dimensions are included in the further analysis.
Synchronous generalization: Generalization is performed on the target
class to the level controlled by a user- or expert-specified dimension
threshold, which results in a prime target class relation/cuboid. The
concepts in the contrasting class(es) are generalized to the same level
as those in the prime target class relation/cuboid, forming the prime
contrasting class(es) relation/cuboid.
Drilling down, rolling up, and other OLAP adjustment: Synchronous or
asynchronous (when such an option is allowed) drill-down, roll-up, and
other OLAP operations, such as dicing, slicing, and pivoting, can be
performed on the target and contrasting classes based on the user's
instructions.
Presentation of the derived comparison: The resulting class comparison
description can be visualized in the form of tables, graphs, and rules.
This presentation usually includes a contrasting measure (such as count%)
which refiects the comparison between the target and contrasting classes.
1. Thu th?p d? li?u: Các t?p h?p d? li?u có liên quan trong c? s? d? li?u
???c thu th?p b?ng cách x? lý truy v?n và phân chia t??ng ?ng thành m?t
l?p m?c tiêu và m?t ho?c m?t b? t??ng ph?n l?p.
2. Kích th??c phù h?p phân tích: N?u có nhi?u kích th??c và so sánh l?p
phân tích là mong mu?n, sau ?ó phân tích kích th??c phù h?p nên ???c th?c
hi?n trên các l?p này nh? ???c mô t? trong ph?n 5.4, và ch? có kích th??c
r?t cao có liên quan bao g?m trong phân tích thêm.
3. T?ng quát hóa ??ng b?: Khái quát ???c th?c hi?n trên l?p m?c tiêu ??n
m?c ki?m soát b?i m?t ng??i dùng ho?c ng??ng kích th??c c?a các chuyên
gia, quy ??nh, mà k?t qu? trong m?t m?i quan h? m?c tiêu chính/kh?i. Các
khái ni?m trong l?p t??ng ph?n là t?ng quát ??n m?c gi?ng nh? nh?ng ng??i
trong m?i quan h? m? tiêu chính / kh?i, t?o thành l?p t??ng ph?n chính
m?i quan h?/ kh?i.
4. Khoan xu?ng, cu?n lên, và ?i?u ch?nh OLAP khác: ??ng b? hay không ??ng
b? (khi ?ó ???c cho phép m?t tùy ch?n) drill-down, roll-up, và OLAP ho?t
??ng khác, nh? kh?i, lát c?t, và tr?c ??ng, có th? ???c th?c hi?n trên
các l?p m?c tiêu và l?p t??ng ph?n d?a trên cách s? d?ng c?a ng??i dùng.
5. Trình bày c?a các ngu?n g?c so sánh : K?t qu? mô t? l?p so sánh có th?
???c hình dung ? d?ng b?ng bi?u, ?? th?, và quy t?c. Trình bày này th??ng
bao g?m m?t t??ng ph?n ?o (nh? ??m %) mà l?i thay th? so sánh gi?a m?c
tiêu và các l?p t??ng ph?n.
The above discussion outlines a general algorithm for mining analytical
class comparisons in databases. In com-parison with Algorithm 5.4.1 which
mines analytical class characterization, the above algorithm involves
synchronous generalization of the target class with the contrasting
classes so that classes are simultaneously compared at the same levels of
abstraction.
Các cu?c th?o lu?n trên v?ch ra m?t thu?t toán chung cho khai thác phân
tích so sánh l?p trong c? s? d? li?u. Trong parison-com v?i thu?t toán
phân tích khai phá 5.4.1 mà l?p ??c tính, các thu?t toán ? trên liên quan
??n s? t?ng quát ??ng b? c?a l?p m?c tiêu v?i các l?p t??ng ph?n ?? cho
các l?p ??ng th?i so sánh ? cùng m?t m?c tr?u t??ng.
“Can class comparison mining be implemented eficiently using data cube
techniques?" Yes - the procedure is similar to the implementation for
mining data characterizations discussed in Section 5.3.2. A flag can be
used to indicate whether or not a tuple represents a target or
contrasting class, where this flag is viewed as an additional dimension
in the data cube. Since all of the other dimensions of the target and
contrasting classes share the same portion of the cube, the synchronous
generalization and specialization are realized automatically by rolling
up and drilling down in the cube.
“Có th? so sánh l?p khai thác ???c th?c hi?n eficiently s? d?ng k? thu?t
kh?i d? li?u?” Yes - Th? t?c t??ng t? nh? vi?c th?c hi?n khai thác d?
li?u ??c ?i?m th?o lu?n t?i m?c 5.3.2. Thông tin có th? ???c dùng ?? ch?
có ho?c không b? d? li?u m?t ??i di?n cho m?t m?c tiêu ho?c t??ng ph?n
l?p, thông tin này ???c xem nh? là m?t chi?u h??ng b? sung trong các
kh?i d? li?u. K? t? khi t?t c? các kích th??c khác c?a m?c tiêu và t??ng
ph?n l?p chia s? cùng ph?n c?a kh?i, các t?ng quát hóa ??ng b? và chuyên
môn ???c th?c hi?n t? ??ng b?i cu?n lên và ?i sâu vào các kh?i.
Let's study an example of mining a class comparison describing the
graduate students and the undergraduate students at Big-University.
Hãy nghiên c?u m?t ví d? v? khai phá m?t l?p so sánh mô t? các sinh viên
t?t nghi?p và các sinh viên ch?a t?t nghi?p t?i tr??ng ??i h?c l?n.
Example 5.10 Mining a class comparison. Suppose that you would like to
compare the general properties between the graduate students and the
undergraduate students at Big-University , given the attributes name,
gender, major, birth place, birth date, residence, phone#, and gpa (grade
point average).
This data mining task can be expressed in DMQL as follows.
Ví d? 5.10 so sánh m?t l?p khai phá. Gi? s? r?ng b?n mu?n so sánh ??c
tính chung gi?a các sinh viên t?t nghi?p và các sinh viên ch?a t?t nghi?p
t?i tr??ng ??i h?c l?n, ???c ??t tên thu?c tính, gi?i tính, chuyên ngành,
n?i sinh, ngày sinh, n?i c? trú, s? ?i?n tho?i, và GPA (?i?m trung bình
l?p) .
Nhi?m v? này khai phá d? li?u có th? ???c th? hi?n trong DMQL ( Data
Mining Query Language) nh? sau
use Big_University_DB
mine comparison as    “grad_vs_undergrad_students”
in relevance to    name, gender, major, birth_place, birth_date,
residence, phone#, gpa
for    “graduate_students”

where status in   “graduate”
versus   “undergraduate students"
where status in   “undergraduate ‘

analyze    count%

from   student


Let's see how this typical example of a data mining query for mining
comparison descriptions can be processed.
Hãy xem cách này ví d? ?i?n hình c?a m?t truy v?n khai thác d? li?u ?? so
sánh các mô t? khai phá d? li?u có th? ???c x? lý.

name   gender       major birth place birth date residence   phone#    gpa

Jim Woodman M     CS    Vancouver, BC, Canada 8-12-76     3511 Main St.,
Richmond    687-4598    3.67
Scott Lachance    M     CS    Montreal, Que, Canada 28-7-75     345 1st
Ave., Vancouver 253-9106      3.70
Laura Lee F       Physics     Seattle, WA, USA 25-8-70    125 Austin Ave.,
Burnaby     420-5232    3.83


Target class: Graduate students

name   gender       major birth place birth date residence   phone#    gpa

Bob Schumann     M       Chemistry   Calgary, Alt, Canada    10-1-78   2642
Halifax St., Burnaby     294-4291    2.96
Amy Eau    F     Biology    Golden, BC, Canada     30-3-76    463 Sunset
Cres., Vancouver 681-5417   3.52


Contrasting class: Undergraduate students
Table 5.6: Initial working relations: the target class vs. the
contrasting class.
B?ng 5.6: Quan h? khai thác ban ??u: các l?p m?c tiêu so v?i các l?p
t??ng ph?n.
First, the query is transformed into two relational queries which collect
two sets of task-relevant data: one for the initial target class working
relation, and the other for the initial contrasting class working
relation, as shown in Table 5.6. This can also be viewed as the
construction of a data cube, where the status fgraduate, undergraduateg
serves as one dimension, and the other attributes form the remaining
dimensions.
1. ??u tiên, truy v?n ???c chuy?n thành hai câu truy v?n quan h? mà hai
b? thu th?p d? li?u có liên quan tác v?: m?t cho các t?ng l?p m?c tiêu
khai thác ban ??u liên quan, và m?t cho các l?p t??ng ph?n khai thác ban
??u liên quan, nh? th? hi?n trong b?ng 5.6. ?i?u này c?ng có th? ???c xem
nh? là vi?c xây d?ng m?t kh?i d? li?u, tình tr?ng t?t nghi?p, ch?a t?t
nghi?p ph?c v? nh? m?t chi?u, và các thu?c tính khác hình thành kích
th??c còn l?i.
Second, dimension relevance analysis is performed on the two classes of
data. After this analysis, irrelevant or weakly relevant dimensions, such
as name, gender, major, and phone# are removed from the resulting
classes. Only the highly relevant attributes are included in the
subsequent analysis.
2. Th? hai, kích th??c phân tích s? liên quan ???c th?c hi?n trên hai
lo?i d? li?u. Sau khi phân tích này, kích th??c không liên quan ho?c ít
có liên quan, ch?ng h?n nh? tên, gi?i tính, chuyên ngành, và s? ?i?n
tho?i ???c lo?i b? kh?i l?p k?t qu?. Ch? có các thu?c tính có liên quan
cao ???c xem xét trong các phân tích ti?p theo.
Third, synchronous generalization is performed: Generalization is
performed on the target class to the levels controlled by user- or
expert-specified dimension thresholds, forming the prime target class
relation/cuboid. The contrasting class is generalized to the same levels
as those in the prime target class relation/cuboid, forming the prime
contrasting class (es) relation/cuboid, as presented in Table 5.7. The
table shows that in comparison with undergraduate students, graduate
students tend to be older and have a higher GPA, in general.
Th? ba, khái quát ???c th?c hi?n ??ng b?: Khái quát ???c th?c hi?n trên
l?p m?c tiêu cho các c?p ki?m soát b?i ng??ng c?a kích th??c b?i ng??i
dùng ho?c chuyên gia-lý thuy?t, t?o thành l?p quan h? m?c tiêu chính /
kh?i. Các l?p t??ng ph?n là t?ng quát ??n m?c gi?ng nh? nh?ng ng??i trong
m?i quan h? m?c tiêu chính / hi?nh kh?i, t?o thành l?p t??ng ph?n m?i
quan h? / kh?i, nh? ???c trình bày trong b?ng 5.7. B?ng này cho th?y so
v?i sinh viên ch?a t?t nghi?p, sinh viên t?t nghi?p có xu h??ng lên và có
?i?m trung bình cao h?n, nói chung.
Fourth, drilling and other OLAP adjustment are performed on the target
and contrasting classes, based on the user's instructions to adjust the
levels of abstractions of the resulting description, as necessary.
4. Th? t?, s? khoan và s? ?i?u ch?nh OLAP khác ???c th?c hi?n trên các
m?c tiêu và các l?p t??ng ph?n, d?a trên h??ng d?n c?a ng??i dùng ?? ?i?u
ch?nh m?c ?? tr?u t??ng c?a s? mô t? k?t qu?, khi c?n thi?t.
Finally, the resulting class comparison is presented in the form of
tables, graphs, or rules. This visualization includes a contrasting
measure (such as count%) which compares between the target class and the
contrasting class. For example, only 2.32% of the graduate students were
born in Canada, are between 25-30 years of age, and have a good GPA,
while 5.02% of undergraduates have these same characteristics.
5. Cu?i cùng, so sánh k?t qu? l?p ???c trình bày d??i d?ng b?ng bi?u, ??
th?, ho?c các lu?t. S? hình dung này bao g?m m?t bi?n pháp t??ng ph?n
(nh? tính %) mà so sánh gi?a các l?p m?c tiêu và l?p t??ng ph?n. Ví d?,
ch? có 2.32% sinh viên t?t nghi?p ?ã ???c sinh ra ? Canada, ?ang gi?a
tu?i t? 25 ??n 30 tu?i, và có ?i?m trung bình t?t, trong khi 5.02% sinh
viên ch?a t?t nghi?p có nh?ng ??c ?i?m gi?ng nhau.

birth country     age range gpa   count%
Canada      20-25 good 5.53%
Canada      25-30 good 2.32%
Canada      over 30     very good 5.86%
other over 30     excellent 4.68%




Prime generalized relation for the target class: Graduate students

M?i quan h? t?ng quát chính cho l?p m?c tiêu: Sinh viên t?t nghi?p


birth country    age range gpa          count%
Canada     15-20 fair 5.53%
Canada     15-20 good 4.53%

Canada     25-30 good   5.02%

other over 30    excellent      0.68%

Prime generalized relation for the contrasting class: Undergraduate
students
M?i quan h? t?ng quát chính cho l?p t??ng ph?n: sinh viên ch?a t?t nghi?p
Table 5.7: Two generalized relations: the prime target class relation and
the prime contrasting class relation.
B?ng 5.7: Hai quan h? t?ng quát hóa: các l?p quan h? m?c tiêu chính c?a
và l?p quan h? t??ng ph?n chính.
5.5.2 Trình bày mô t? so sánh l?p - Presentation of class comparison
descriptions
“How can class comparison descriptions be visualized?"
"Làm th? nào so sánh các mô t? l?p có th? ???c hình t??ng?"
As with class characterizations, class comparisons can be presented to
the user in various kinds of forms, including generalized relations,
crosstabs, bar charts, pie charts, curves, and rules. With the exception
of logic rules, these forms are used in the same way for characterization
as for comparison. In this section, we discuss the visualization of class
comparisons in the form of discriminant rules.
Nh? v?i ??c ?i?m l?p, l?p có th? so sánh ???c trình bày cho ng??i s? d?ng
trong các lo?i hình th?c, bao g?m c? m?i quan h? t?ng quát, b?ng chéo,
bi?u ??, bi?u ?? pie, các ???ng cong, và quy t?c. Ngo?i tr? các quy t?c
logic, các m?u này ???c s? d?ng trong cùng m?t cách ?? mô t? nh? ?? so
sánh. Trong ph?n này, chúng tôi th?o lu?n v? nh?ng hình dung c?a l?p so
sánh ? d?ng quy t?c bi?t th?c.
As is similar with characterization descriptions, the discriminative
features of the target and contrasting classes of a comparison
description can be described quantitatively by a quantitative
discriminant rule, which associates a statistical interestingness
measure, d-weight, with each generalized tuple in the description.
Nh? là t??ng t? v?i các mô t? ??c tính, các tính n?ng phân biê?t c?a m?c
tiêu và các l?p t??ng ph?n c?a m?t mô t? có th? so sánh ???c mô t? ??nh
l??ng theo m?t quy t?c bi?t th?c ??nh l??ng, mà liên k?t m?t bi?n pháp
th?ng kê r?t nhi?u lý thú, d-tr?ng l??ng, v?i m?i b? d? li?u trong các mô
t? khái quát.
Let qa be a generalized tuple, and Cj be the target class, where qa
covers some tuples of the target class. Note that it is possible that qa
also covers some tuples of the contrasting classes, particularly since we
are dealing with a comparison description. The d-weight for qa is the
ratio of the number of tuples from the initial target class working
relation that are covered by qa to the total number of tuples in both the
initial target class and contrasting class working relations that are
covered by qa. Formally, the d-weight of qa for the class Cj is defined
as
?? qa là m?t b? d? li?u t?ng quát, và Cj ???c l?p m?c tiêu, trong ?ó bao
g?m m?t s? b? d? li?u qa c?a l?p m?c tiêu. L?u ý r?ng có th? là qa c?ng
bao g?m m?t s? b? d? li?u c?a các l?p t??ng ph?n, ??c bi?t k? t? khi
chúng ta ?ang ??i phó v?i m?t mô t? so sánh. d-tr?ng l??ng cho qa là t?
l? s? l??ng b? d? li?u t? l?p m?c tiêu ban ??u khai thác m?i quan h? ???c
bao ph? b?i qa cho t?ng s? b? d? li?u trong c? hai l?p m?c tiêu ban ??u
và ??i quan h? giai c?p công nhân ???c bao ph? b?i qa. Chính th?c, các d-
tr?ng l??ng c?a qa cho Cj l?p ???c ??nh ngh?a là
d_weight = count (qa Cj ) / count (qa Ci )       (5.7)
where m is the total number of the target and contrasting classes, Cj is
in {C1, .. , Cm}, and count(qa Ci ) is the number of tuples of class Ci
that are covered by qa. The range for the d-weight is [0, 1] (or [0%,
100%]).
A high d-weight in the target class indicates that the concept
represented by the generalized tuple is primarily derived from the target
class, whereas a low d-weight implies that the concept is primarily
derived from the contrasting classes.

n?i m là t?ng s? các m?c tiêu và các l?p t??ng ph?n, Cj là trong {C1 , .
. , Cm}, và ??m (qa   Ci) là s? b? d? li?u c?a l?p Ci ???c bao ph? b?i
qa. Ph?m vi cho d-tr?ng l??ng là [0, 1] (ho?c [% 0, 100%]).
M?t d-tr?ng l??ng cao trong l?p m?c tiêu ch? ra r?ng khái ni?m ??i di?n
là b? d? li?u t?ng quát là ch? y?u xu?t phát t? l?p m?c tiêu, trong khi
d-tr?ng l??ng th?p có ý r?ng khái ni?m này ch? y?u xu?t phát t? các l?p
t??ng ph?n.
Example 5.11 In Example 5.10, suppose that the count distribution for the
generalized tuple, “birth_country = “Canada” and age_range = “25-30” and
gpa = “good” ” from Table 5.7 is as shown in Table 5.8.
The d-weight for the given generalized tuple is 90/(90 + 210) = 30% with
respect to the target class, and 210/(90 + 210) = 70% with respect to the
contrasting class. That is, if a student was born in Canada, is in the
age range of [25, 30], and has a “good” gpa, then based on the data,
there is a 30% probability that she is a graduate student, versus a 70%
probability that she is an undergraduate student. Similarly, the d-
weights for the other generalized
Ví d? 5.11. Trong ví d? 5.10, gi? s? r?ng s? phân b? tính cho các b? d?
li?u t?ng quát, “qu?c gia = “Canada” và tu?i = “25-30” và gpa = “t?t” ”
t? b?ng 5.7 là nh? th? hi?n trong b?ng 5.8.
Các d-tr?ng l??ng cho các b? d? li?u t?ng quát là 90/(90 + 210) = 30% ??i
v?i các l?p m?c tiêu, và 210/(90 + 210) = 70% ??i v?i các l?p t??ng ph?n.
T?c là, n?u m?t h?c sinh ???c sinh ra ? Canada, ?ang ? trong ?? tu?i
kho?ng [25, 30], và có m?t GPA “t?t”, sau ?ó d?a trên d? li?u, có m?t xác
su?t 30% r?ng cô là m?t sinh viên t?t nghi?p, so v?i m?t xác su?t 70%
r?ng cô là m?t sinh viên ch?a t?t nghi?p. T??ng t? nh? v?y,các d-tr?ng
l??ng cho các t?ng quát khác.


      status     birth country     age range gpa   count
      graduate   Canada      25-30 good 90
      undergraduate    Canada      25-30 good 210
Table 5.8: Count distribution between graduate and undergraduate students
for a generalized tuple.

tuples in Table 5.7 can be derived.
A quantitative discriminant rule for the target class of a given
comparison description is written in the form
M?t quy t?c ??nh l??ng bi?t th?c cho l?p m?c tiêu c?a m?t mô t? so sánh
???c ???c vi?t trong nh?ng m?u
X, target_class (X) (condition(X)      [d: d_weight]     (5.8)
where the condition is formed by a generalized tuple of the description.
This is different from rules obtained in class characterization where the
arrow of implication is from left to right.
Example 5.12 Based on the generalized tuple and count distribution in
Example 5.11, a quantitative discriminant rule for the target class
graduate student can be written as follows:
n?i mà ?i?u ki?n là hình thành b?i m?t b? d? li?u t?ng quát c?a mô t?.
?ây là khác nhau t? quy t?c ??c tính thu ???c trong l?p, n?i m?i tên c?a
các h? qu? là t? trái sang ph?i.
Ví d? 5.12 d?a trên các b? d? li?u t?ng quát và tính phân ph?i trong ví
d? 5.11, m?t s? l??ng bi?t th?c quy t?c ?? h?c sinh t?t nghi?p l?p m?c
tiêu có th? ???c vi?t nh? sau:
X, graduate_student(X) birth_country(X) = “Canada" age_range = “25 30"
gpa = “good" [d : 30%]                        (5.9)
Notice that a discriminant rule provides a sufficient condition, but not
a necessary one, for an object (or tuple) to be in the target class. For
example, Rule (5.9) implies that if X satisfies the condition, then the
probability that X is a graduate student is 30%. However, it does not
imply the probability that X meets the condition, given that X is a
graduate student. This is because although the tuples which meet the
condition are in the target class, other tuples that do not necessarily
satisfy this condition may also be in the target class, since the rule
may not cover all of the examples of the target class in the database.
Therefore, the condition is sufficient, but not necessary.

Chú ý r?ng m?t quy t?c bi?t th?c cung c?p m?t ?i?u ki?n ??, nh?ng không
ph?i là c?n thi?t nh?t, cho m?t ??i t??ng (ho?c b? d? li?u) ?? có trong
l?p m?c tiêu. Ví d?, lu?t (5.9) ng? ý r?ng n?u X ?áp ?ng c?a các ?i?u
ki?n, sau ?ó xác su?t mà X là m?t sinh viên t?t nghi?p là 30%. Tuy nhiên,
nó không bao hàm s? xác su?t mà X ?áp ?ng các ?i?u ki?n, cho r?ng X là
m?t sinh viên t?t nghi?p. ?i?u này là b?i vì m?c dù các b? d? li?u mà ?áp
?ng ?i?u ki?n là trong l?p m?c tiêu, b? d? li?u khác mà không nh?t thi?t
ph?i ?áp ?ng ?i?u ki?n này c?ng có ???c trong l?p m?c tiêu, vì quy lu?t
không th? bao g?m t?t c? các ví d? c?a l?p m?c tiêu trong c? s? d? li?u .
Do ?ó, ?i?u ki?n là ??, nh?ng không c?n thi?t.

5.5.3    Mô t? l?p: Trình bày hai ??c tính và so sánh - Class
description: Presentation of both characterization and comparison
“Since class characterization and class comparison are two aspects
forming a class description, can we present both in the same table or in
the same rule?”
Actually, as long as we have a clear understanding of the meaning of the
t-weight and d-weight measures and can interpret them correctly, there is
no additional dificulty in presenting both aspects in the same table.
Let's examine an example of expressing both class characterization and
class discrimination in the same crosstab.
“Vì ??c tính c?a l?p và l?p so sánh là hai khía c?nh hình thành m?t mô t?
l?p, chúng tôi có th? hi?n c? trong cùng m?t b?ng ho?c trong cùng m?t quy
t?c?”
      Trên th?c t?, mi?n là chúng ta có m?t s? hi?u bi?t rõ ràng v? ý
ngh?a c?a các t-tr?ng l??ng và d-tr?ng l??ng các bi?n pháp và có th? gi?i
thích chúng m?t cách chính xác, không có khó kh?n thêm trong c? hai khía
c?nh trình bày trong b?ng t??ng t?. Chúng ta hãy xem xét m?t ví d? th?
hi?n c? hai ??c tính c?a l?p và l?p suy xét trong cùng m?t b?ng chéo.
Example 5.13 Let Table 5.9 be a crosstab showing the total number (in
thousands) of TVs and computers sold at AllElectronics in 1998.
Ví d? 5.13 ?? b?ng 5.9 là m?t b?ng chéo hi?n th? t?ng s? (trong hàng
ngàn) c?a TV và máy tính bán t?i AllElectronics vào n?m 1998.


location n \ item TV    computer     both   items
Europe     80     240   320
North_America     120   560   680
both _regions     200   800   1000

Table 5.9: A crosstab for the total number (count) of TVs and computers
sold in thousands in 1998.
B?ng 5.9: M?t b?ng chéo cho t?ng s? (count) c?a TV và máy tính ???c bán
trong n?m 1998.
Let Europe be the target class and North America be the contrasting
class. The t-weights and d-weights of the sales distribution between the
two classes are presented in Table 5.10. According to the table, the t-
weight of a generalized tuple or object (e.g., the tuple “item = “TV” “)
for a given class (e.g. the target class Europe) shows how typical the
tuple is of the given class (e.g., what proportion of these sales in
Europe are for TVs?). The d-weight of a tuple shows how distinctive the
tuple is in the given (target or contrasting) class in comparison with
its rival class (e.g., how do the TV sales in Europe compare with those
in North America?).
?? Châu Âu là l?p m?c tiêu và B?c M? là l?p t??ng ph?n. Các t-tr?ng l??ng
và d-tr?ng l??ng c?a phân ph?i bán hàng gi?a hai l?p ???c trình bày trong
B?ng 5.10. Theo b?ng, t-tr?ng l??ng c?a m?t b? d? li?u t?ng quát ho?c ??i
t??ng (ví d?, b? d? li?u “m?c = “Ti vi””) cho m?t l?p nh?t ??nh (ví d?
các l?p m?c tiêu châu Âu) cho th?y các b? d? li?u ?i?n hình là c?a l?p
nh?t ??nh (ví d?, nh?ng các t? l? bán hàng ? châu Âu dành cho TV)? Các d-
tr?ng l??ng m?t b? d? li?u cho th?y ?? phân bi?t là cho (m?c tiêu ho?c
t??ng ph?n) so sánh l?p v?i l?p c?nh tranh c?a nó (ví d?, làm th? nào ??
so sánh bán hàng TV ? châu Âu v?i nh?ng n?i khác nh? ? B?c M??).



location \ item                 TV                 computer                 both
items
           count   t-weight     d-weight           count t-weight    d-weight
           count   t-weight     d-weight
Europe             80    25%    40%          240   75%         30%          320
      100%         32%
North America            120    17.65%       60%         560   82.35%
      70%          680   100%         68%
both regions             200    20%   100%         800   80%         100%
      1000 100%          100%

Table 5.10: The same crosstab as in Table 4.8, but here the t-weight and
d-weight values associated with each class are shown.

B?ng 5.10: Các b?ng chéo gi?ng nh? trong b?ng 4.8, nh?ng ? ?ây các t-
tr?ng l??ng và giá tr? d-tr?ng l??ng liên k?t v?i m?i l?p ???c hi?n th?.
For example, the t-weight for (Europe, TV) is 25% because the number of
TVs sold in Europe (80 thousand) represents only 25% of the European
sales for both items (320 thousand). The d-weight for (Europe, TV) is 40%
because the number of TVs sold in Europe (80 thousand) represents 40% of
the number of TVs sold in both the target and the contrasting classes of
Europe and North America, respectively (which is 200 thousand).

Ví d?, t-tr?ng l??ng cho (Châu Âu, TV) là 25% vì s? l??ng TV ???c bán ?
châu Âu (80.000) ??i di?n ch? có 25% doanh s? bán hàng c?a châu Âu cho c?
hai m?c (320.000). Các d-tr?ng l??ng cho (Châu Âu, TV) là 40% vì s? l??ng
TV ???c bán ? châu Âu (80.000) ??i di?n cho 40% t?ng s? TV ???c bán trong
c? hai l?p m?c tiêu và các l?p t??ng ph?n c?a Châu Âu và B?c M?, t??ng
?ng (là 200.000).

Notice that the count measure in the crosstab of Table 5.10 obeys the
general property of a crosstab (i.e., the count values per row and per
column, when totaled, match the corresponding totals in the both items
and both regions slots, respectively, for count. However, this property
is not observed by the t-weight and d-weight measures. This is because
the semantic meaning of each of these measures is different from that of
count, as we explained in Example 5.13.
Chú ý r?ng bi?n pháp tính trong b?ng chéo c?a B?ng 5.10 tuân theo thu?c
tính chung c?a m?t b?ng chéo (t?c là, các giá tr? tính trên m?i dòng và
m?i c?t, khi ??t t?ng c?ng, phù h?p v?i t?ng s? t??ng ?ng trong các m?c
c? hai và c? hai v? trí vùng, t??ng ?ng, cho ??m. Tuy nhiên, thu?c tính
này là không ???c quan sát b?i các t-tr?ng l??ng và các bi?n pháp d-tr?ng
l??ng. ?i?u này là do ý ngh?a c?a t?ng ng? ngh?a c?a nh?ng bi?n pháp này
là khác nhau t? cách ??m, nh? chúng ta gi?i thích trong ví d? 5.13.
“Can a quantitative characteristic rule and a quantitative discriminant
rule be expressed together in the form of one rule?" The answer is yes –
a quantitative characteristic rule and a quantitative discriminant rule
for the same class can be combined to form a quantitative description
rule for the class, which displays the t-weights and d-weights associated
with the corresponding characteristic and discriminant rules. To see how
this is done, let's quickly review how quantitative characteristic and
discriminant rules are expressed.
“Có th? là m?t ??c tính ??nh l??ng quy t?c và m?t quy t?c ??nh l??ng bi?t
th?c ???c th? hi?n cùng nhau trong các hình th?c c?a m?t trong nh?ng quy
t?c?” Câu tr? l?i là có - m?t quy t?c ??c tính ??nh l??ng và m?t quy t?c
??nh l??ng bi?t th?c cho l?p t??ng t? có th? ???c k?t h?p ?? t?o thành
m?t quy t?c mô t? ??nh l??ng cho l?p, hi?n th? các t-tr?ng l??ng và d-
tr?ng l??ng liên k?t v?i các ??c tính t??ng ?ng và quy t?c bi?t th?c. ??
xem cách này ???c th?c hi?n, hãy nhanh chóng xem xét l?i cách ??nh l??ng
các quy t?c ??c tr?ng và bi?t th?c ???c th? hi?n nh? th? nào.
Asdiscussed in Section 5.2.3, a quantitative characteristic rule provides
a necessary condition for the given target class since it presents a
probability measurement for each property which can occur in the target
class. Such a rule is of the form where each condition represents a
property of the target class. The rule indicates that if X is in the
target class, the possibility that X satisfies conditioni is the value of
the t-weight, wi, where i is in f1; : : :; ng.
 Nh? ???c th?o lu?n trong ph?n 5.2.3, m?t ??c tính ??nh l??ng quy ??nh
cung c?p m?t ?i?u ki?n c?n thi?t cho l?p m?c tiêu ?ã cho m?t khi nó gi?i
thi?u m?t phép ?o xác su?t m?i thu?c tính mà có th? xu?t hi?n trong l?p
m?c tiêu. M?t quy t?c nh? v?y c?a m?u ? ?âu m?i ?i?u ki?n ??i di?n cho
m?t thu?c tính l?p m?c tiêu. Quy t?c ch? ra r?ng n?u X n?m trong l?p m?c
tiêu, kh? n?ng r?ng X th?a mãn ?i?u ki?n giá tr? c?a t-tr?ng l??ng, wi,
khi mà f1, . . , ng.

X, target_class(X)   condition1 (X) [t : w1] conditionn(X) [t : wn],
(5.10)


As previously discussed in Section 5.5.1, a quantitative discriminant
rule provides a suffcient condition for the target class since it
presents a quantitative measurement of the properties which occur in the
target class versus those that occur in the contrasting classes. Such a
rule is of the form
Nh? ?ã th?o lu?n trong ph?n 5.5.1, m?t s? l??ng bi?t th?c cung c?p m?t
?i?u ki?n có kh? n?ng cho l?p m?c tiêu k? t? khi nó gi?i thi?u m?t phép
?o ??nh l??ng nh?ng thu?c tính mà xu?t hi?n trong l?p m?c tiêu so v?i
nh?ng kh? n?ng mà x?y ra trong các l?p t??ng ph?n. Quy lu?t nh? v?y có
d?ng
X, target_class(X) (condition1(X)[d : w1 ] conditionn(X) [d : wn],
The rule indicates that if X satisfies conditioni, there is a possibility
of wi (the d-weight value) that x is in the target class, where i is in
f1; : : :; ng.
Quy t?c ch? ra r?ng n?u X th?a mãn ?i?u ki?n i , có m?t kh? n?ng wi (giá
tr? d-tr?ng l??ng) mà x là trong l?p m?c tiêu, khi mà f1, . . , ng.
A quantitative characteristic rule and a quantitative discriminant rule
for a given class can be combined as follows to form a quantitative
description rule: (1) For each condition, show both the associated t-
weight and d-weight; and (2) A bi-directional arrow should be used
between the given class and the conditions. That is, a quantitative
description rule is of the form
M?t quy t?c ??c tr?ng ??nh l??ng và M?t quy t?c bi?t s? ??nh l??ng m?t
l?p cho tr??c có th? ???c k?t h?p nh? sau ?? t?o thành m?t quy t?c mô t?
??nh l??ng: (1) ??i v?i t?ng ?i?u ki?n, cho th?y k?t h?p c? hai liên quan
t-tr?ng l??ng và d-tr?ng l??ng, và (2) M?t m?i tên có h??ng hai c?n ph?i
???c s? d?ng gi?a nh?ng l?p ?ã cho và ?i?u ki?n. ?ó là, m?t quy t?c mô t?
??nh l??ng c?a m?u
X, target_class(X) condition1(X ) [t : w1, d : w’1] conditionn(X) [t :
wn , d : w’n ], (5.11)
This form indicates that for i from 1 to n, if X is in the target class,
there is a possibility of wi that X satisfies conditioni; and if X
satisfies conditioni, there is a possibility of w’i   that X is in the
target_class.


Hình th?c này ch? ra r?ng ??i v?i i t? 1 ??n n, n?u X là trong l?p m?c
tiêu, có m?t kh? n?ng wi r?ng X th?a mãn ?i?u ki?n i (conditioni ), và
n?u X th?a mãn ?i?u ki?n i (conditioni), có m?t kh? n?ng wi’ ?ó X là
trong l?p m?c tiêu.

5.6. ?? ?o th?ng kê mô t? khai phá trong CSDL l?n - Mining descriptive
statistical measures in large databases
Tr??c ?ó trong ch??ng này ?ã th?o lu?n mô t? các l?p trong h?ng s?
(terms) c?a các ??n vi ?? ?o ph? bi?n nh? count, sum, average. Các h?
CSDL quan h? cung c?p 5 hàm t?p h?p (aggregate) d?ng s?n (built-in):
count(), sum(), avg(), max(), và min(). Các hàm này c?ng có th? ???c tính
toán hi?u qu? trong kh?i d? li?u. Vì th? không có v?n ?? gì trong các hàm
t?p h?p nh? ?? ?o c? b?n trong mô t? khai phá d? li?u nhi?u chi?u
(multidimensional).
Tuy nhiên v?i nhi?m v? c?a khai phá nhi?u d? li?u ng??i dùng mu?n tìm
hi?u thêm các ??c tính d? li?u liên quan ??n c? xu h??ng t?p trung và tán
x? d? li?u. ?? ?o v?i xu h??ng t?p trung g?m: mean, median, mode và
midrange, trong khi ?? ?o v?i d? li?u tán x? g?m: quartiles, outliers,
variance và m?t s? ?? ?o th?ng kê khác. Nh?ng th?ng kê mô t? r?t h?u ích
trong vi?c hi?u s? phân tán c?a d? li?u. Ch?ng h?n nh? ?? ?o ???c nghiên
c?u r?ng rãi trong v?n h?c th?ng kê. Tuy nhiên t? m?t ?i?m khai phá d?
li?u c?a view c?n ph?i xem xét làm th? nào chúng ???c tính toán hi?u qu?
trong CSDL l?n, nhi?u chi?u.
5.6.1. ?? ?o xu h??ng trung tâm (Measuring the central tendency)
?? ?o s? ph? bi?n và hi?u qu? nh?t c?a “center” c?a m?t t?p d? li?u là
(s? h?c - arithmetic) mean. Cho bi?t x1, x2, …, xn là t?p c?a n giá tr?
ho?c observations. Mean c?a các giá tr? là
?i?u này t??ng ?ng v?i hàm t?p h?p average (avg trong SQL) ???c cung c?p
b?i các h? CSDL quan h?. Trong h?u h?t các kh?i d? li?u sum và count ???c
l?u l?i trong precomputation (ti?n x? lý). Do ?ó ??o hàm (derivation) c?a
average là trung bình (straightforward) s? d?ng công th?c average =
sum/count.
?ôi khi m?i giá tr? xi trong m?t t?p h?p có th? liên k?t v?i m?t tr?ng s?
wi, cho i=1, … ,n. Các tr?ng s? ph?n ánh ý ngh?a, t?m quan tr?ng hay tu?n
t? xu?t hi?n g?n v?i các giá tr? t??ng ?ng. Trong tr??ng h?p này có th?
tính toán:

???c g?i là weighted arithmetic mean hay weighted average (trung bình
tr?ng s?)
Trong ch??ng 2 m?t ?? ?o ???c ??nh ngh?a nh? ??i s?(algebraic) n?u nó có
th? ???c tính toán t? các ?? ?o t?p h?p phân tán. T? hàm avg() có th?
???c tính b?i sum()/count(), n?i c? 2 hàm sum() và count() là các t?p h?p
?? ?o phân tán trong ý th?c (sense) r?ng chúng có th? ???c tính toán
trong m?t ki?u phân tán, hàm avg() là m?t ?? ?o ??i s?. M?t cách có th?
ki?m nghi?m r?ng trung bình tr?ng s? c?ng là ?? ?o ??i s?.
M?c dù mean là con s? ??n h?u ích nh?t mà s? d?ng ?? mô t? m?t t?p h?p
c?a d? li?u, nó không ch? ho?c th?m chí là t?t nh?t cách ?? ?o trung tâm
c?a m?t t?p h?p d? li?u. ??i v?i d? li?u sai l?ch m?t ?? ?o t?t h?n v?i
trung tâm c?a d? li?u là median M. Gi? s? r?ng các giá tr? ???c t?o thành
m?t t?p h?p các d? li?u theo th? t? (numerical order).
Median là giá tr? ? gi?a (middle) c?a t?p có th? t? n?u s? các giá tr? n
là m?t s? l? (odd), cách khác nó c?ng là trung bình c?a 2 giá tr? ? gi?a
(average of the middle two values).
D?a trên vi?c phân lo?i (Categorization) các ?? ?o trong ch??ng 2. Median
không ph?i là m?t ?? ?o phân b?(distributive) mà c?ng không ph?i là ?? ?o
??i s?. Nó là m?t ?? ?o holistic trong ý th?c (sense) r?ng không th? tính
toán b?ng cách phân chia m?t t?p h?p các giá tr? tùy ý (arbitrarily) vào
trong m?t t?p con nh? h?n, tính toán các median là ??c l?p và h?p nh?t
các giá tr? median c?a m?i t?p con. Ng??c l?i count(), sum(), max() và
min() có th? ???c tính theo cách này do ?ó d? dàng h?n ?? tính median.
M?c dù không ph?i d? ?? tính chính xác giá tr? median trong m?t CSDL l?n,
m?t median x?p x? có th? ???c tính hi?u qu?. Ví d? ??i v?i d? li?u ???c
nhóm median thu ???c b?ng cách n?i suy (interpolation) ???c cho b?i:

L1 là n?i lower và l?p biên c?a l?p ch?a median, n là s? các giá tr?
trong d? li?u, (f)l là t?ng c?a các t?n s? c?a t?t c? các l?p th?p h?n
l?p median, fmedian là t?n s? c?a l?p median, và c là kích c? kho?ng
không gian(interval) l?p median.
M?t ?? ?o khác c?a xu h??ng (tendency) trung tâm là mode. Mode v?i m?t
t?p h?p d? li?u là giá tr? mà t?n s? xu?t hi?n nhi?u nh?t trong t?p h?p.
Có th? l?n h?n t?n s? l?n nh?t t??ng ?ng v?i m?t s? các giá tr? khác
nhau, mà các k?t qu? trong h?n m?t mode. Các t?p d? li?u v?i môt, hai
ho?c ba mode tách bi?t ???c g?i là unimodal, bimodal và trimodal. N?u m?t
t?p d? li?u có nhi?u h?n 3 mode ???c g?i là multimodal. ? vô cùng
(extreme) n?u m?i giá tr? d? li?u xu?t hi?n ch? m?t l?n thì không có
mode.
V?i các ???ng cong t?n s? unimodal mà ?? l?ch v?a ph?i (không ??i x?ng)
có m?i quan h? th?c nghi?m sau:
mean mode = 3 x (mean median)                  (5.16)
midrange là trung bình c?a các giá tr? l?n nh?t và nh? nh?t trong m?t t?p
d? li?u, có th? ???c s? d?ng ?? ?o h??ng trung tâm (central tendency) c?a
t?p h?p d? li?u. Nó không ?áng k? ?? tính midrange s? d?ng các hàm t?p
h?p (aggregate) SQL max() và min().
5.6.2. ?o s? tán x? c?a d? li?u - Measuring the dispersion of data
M?c ?? mà d? li?u s?(numeric) có xu h??ng dàn tr?i ???c g?i là dispersion
hay variance c?a d? li?u. H?u h?t các ?? ?o ph? bi?n c?a d? li?u tán x?
là five-number summary (d?a trên quartiles) interquartile range, và
standard deviation. Bi?u ?? (plotting) c?a boxplots (th? hi?n các giá tr?
outlier) c?ng là m?t ph??ng pháp ?? h?a h?u ích.
Quartiles, outliers and boxplots
kth percentile c?a m?t t?p h?p d? li?u theo th? t? s? là giá tr? x có
thu?c tính mà k ph?n tr?m c?a d? li?u vào ? m?c x ho?c th?p h?n x. Giá
tr? ? t?i ho?c th?p h?n x g?i là median M t??ng ?ng v?i 50-th percentile.
Các percentiles th??ng ???c s? d?ng khác v?i trung tuy?n (median) là
quartiles. First quartiles bi?u th? b?i Q1 là 25-th percentile, và third
quartile bi?u th? b?i Q3 là 75-th percentile.
Các quartiles cùng v?i median cho bi?t ch? d?n c?a center, dàn
tr?i(spread), và hình d?ng (shape) c?a m?t phân tán (distribution).
Kho?ng cách gi?a quartile th? nh?t và th? ba là m?t ?? ?o ??n c?a dàn
tr?i ??a ra ph?m vi bao ph? c?a m?t n?a gi?a c?a d? li?u. Kho?ng cách này
???c g?i là interquartile range (IQR) ???c ??nh ngh?a nh? sau:
IQR = Q3 Q1
C?n nh?n th?c r?ng không có ?? ?o s? ??n c?a spread, ch?ng h?n nh? IQR,
r?t h?u ích cho vi?c mô t? phân b? l?ch. Lan r?ng 2 bên c?a phân b? l?ch
là khác nhau. Do ?ó nhi?u thông tin c?ng cung c?p 2 quartile Q1 và Q3,
cùng v?i median M.
Minimum; Q1; M; Q3; Maximum:
A popularly used visual representation of a distribution is the boxplot.
In a boxplot:
1. The ends of the box are at the quartiles, so that the box length is
the interquartile range, IQR.
2. The median is marked by a line within the box.
3. Two lines (called whiskers) outside the box extend to the smallest
(Minimum) and largest (Maximum) observations.
Trình bày tr?c quan th??ng xuyên ???c s? d?ng c?a phân tán là boxplot.
Trong m?t boxplot:
1. K?t thúc c?a h?p ???c t?i quartiles, do ?ó chi?u dài h?p là dãy
interquartile, IQR.
2. median ???c ?ánh d?u b?ng m?t dòng trong h?p.
3. Hai dòng (g?i là râu - whiskers) bên ngoài h?p m? r?ng ??n nh? nh?t
(Minimum) và l?n nh?t (Maximum) quan sát(observations).

M?t quy t?c chung c?a ngón tay cái (thumb) ?? nh?n bi?t outlier có th?
sai l?ch (suspected) ch?n ra các giá tr? xu?ng m?c ít nh?t là 1.5 IQR
trên quartile th? 3 ho?c th?p h?n quartile th? nh?t.
B?i Q1, M, Q3 không ch?a thông tin v? ?i?m cu?i (endpoints) c?a d? li?u,
m?t tóm t?t ??y ?? h?n v? hình d?ng c?a distribution có th? nh?n ???c
b?ng cách cung c?p các giá tr? d? li?u cao nh?t và th?p nh?t. ?i?u này
???c g?i là five-number summary. Five-number summary c?a m?t
distribution bao g?m median M, quartile Q1 và Q3


When dealing with a moderate numbers of observations, it is worthwhile to
plot potential outliers individually. To do this in a boxplot, the
whiskers are extended to the extreme high and low observations only if
these values are less than 1:5 IQR beyond the quartiles. Otherwise, the
whiskers terminate at the most extreme observations occurring within
1:5IQR of the quartiles. The remaining cases are plotted individually.
Figure 5.4 shows a boxplot for the set of price data in Table 5.11, where
we see that Q1 is $60, Q3 is $100, and the median is $80.
Khi giao d?ch v?i m?t s? v?a ph?i (moderate) c?a các quan sát, ?áng giá
kh? n?ng outliers riêng l?. ?? làm ?i?u này trong m?t boxplot, các râu
???c m? r?ng cho các quan sát c?c cao và th?p ch? khi các giá tr? này
th?p h?n 1.5xIQR ngoài quartiles. N?u không, râu ch?m d?t t?i quan sát
c?c ??(extreme observations) nh?t x?y ra trong vòng 1.5 x IQR c?a
quartiles. Các tr??ng h?p còn l?i ???c v? riêng. Hình 5,4 cho th?y m?t
boxplot cho các t?p h?p d? li?u giá trong b?ng 5.11, th?y r?ng Q1 là $60,
Q3 là $100, và trung bình là $80.
Based on similar reasoning as in our analysis of the median in Section
5.6.1, we can conclude that Q1 and Q3 are holistic measures, as is IQR.
The efficient computation of boxplots or even approximate boxplots is
interesting regarding the mining of large data sets.
D?a trên l?p lu?n t??ng t? nh? trong phân tích v? trung bình t?i m?c
5.6.1, có th? k?t lu?n r?ng Q1 và Q3 là ?? ?o toàn di?n(holistic), nh? là
IQR. Các tính toán hi?u qu? c?a boxplots ho?c th?m chí boxplots g?n ?úng
là v?n ?? quan tâm v? vi?c khai phá t?p d? li?u l?n.
Ph??ng sai và ?? l?ch chu?n - Variance and standard deviation
Ph??ng sai c?a các quan sát x, x2, …, xn là

The standard deviation s is the square root of the variance s2.
The basic properties of the standard deviation s as a measure of spread
are:
 s measures spread about the mean and should be used only when the mean
is chosen as the measure of center.
 s = 0 only when there is no spread, that is, when all observations have
the same value. Otherwise s > 0.

Các s ?? l?ch chu?n là c?n b?c hai c?a ph??ng sai   s2.
Các thu?c tính c? b?n c?a các ?? l?ch chu?n s nh?   là m?t ?? ?o tr?i là:
S dàn tr?i các ?? ?o v? giá tr? trung bình (mean)   và nên ???c s? d?ng ch?
khi mean là ???c ch?n là ?? ?o c?a trung tâm.
s = 0 ch? khi có s? dàn tr?i không có, ?ó là, khi   t?t c? các quan sát có
giá tr? nh? nhau. Tr??ng h?p khác s > 0.

5.6.3 Bi?u ?? hi?n th? mô t? l?p th?ng kê c? s? - Graph displays of basic
statistical class descriptions
Aside from the bar charts, pie charts, and line graphs discussed earlier
in this chapter, there are also a few additional popularly used graphs
for the display of data summaries and distributions. These include
histograms, quantile plots, Q-Q plots, scatter plots, and loess curves.
Ngoài các bi?u ?? thanh, bi?u ?? pie, và ?? th? dòng ???c th?o lu?n tr??c
?ó trong ch??ng này, c?ng có thêm m?t vài ?? th? ph? bi?n s? d?ng cho
vi?c hi?n th? tóm l??c d? li?u và phân tán. Chúng bao g?m bi?u ??, ?? th?
quantile, ?? th? Q-Q, ?? th? phân tán (scatter), và ???ng cong loess
(loess curves).
A histogram, or frequency histogram – ?? th? hay ?? th? tu?n xu?t
is a univariate graphical method. It denotes the frequencies of the
classes present in a given set of data. A histogram consists of a set of
rectangles where the area of each rectangle is proportional to the
relative frequency of the class it represents. The base of each rectangle
is on the horizontal axis, centered at a “class" mark, and the base
length is equal to the class width. Typically, the class width is
uniform, with classes being defined as the values of a categoric
attribute, or equi-width ranges of a discretized continuous attribute. In
these cases, the height of each rectangle is the relative frequency (or
frequency) of the class it represents, and the histogram is generally
referred to as a bar chart. Alternatively, classes for a continuous
attribute may be defined by ranges of non-uniform width. In this case,
for a given class, the class width is equal to the range width, and the
height of the rectangle is the class density (that is, the relative
frequency of the class, divided by the class width). Partitioning rules
for constructing histograms were discussed in Chapter 3.
là m?t ph??ng pháp ?? h?a univariate. Nó bi?u th? t?n s? c?a các l?p th?
hi?n trong m?t cho t?p d? li?u. M?t bi?u ?? bao g?m m?t t?p h?p các hình
ch? nh?t mà di?n tích c?a hình ch? nh?t là t? l? thu?n v?i t?n s? t??ng
??i c?a l?p nó ??i di?n. C? s? c?a m?i hình ch? nh?t là trên tr?c ngang,
trung tâm t?i m?t “l?p” ?ánh d?u, và chi?u dài c? s? là b?ng chi?u r?ng
l?p. Thông th??ng, b? r?ng l?p là th?ng nh?t, v?i các l?p nh? là b?t k?
các giá tr? c?a m?t thu?c tính categoric, ho?c ph?m vi equi-width c?a m?t
thu?c tính liên t?c discretized. Trong tr??ng h?p này, chi?u cao c?a m?i
hình ch? nh?t là t?n s? t??ng ??i (ho?c t?n s?) c?a l?p nó ??i di?n, và
bi?u ?? th??ng ???c g?i là m?t bi?u ?? thanh Ngoài ra, các l?p v?i m?t
thu?c tính liên t?c có th? ???c ??nh ngh?a b?i các dãy chi?u r?ng không
??ng ??u. Trong tr??ng h?p này, cho m?t l?p nh?t ??nh, l?p b? r?ng b?ng
chi?u r?ng ph?m vi, và chi?u cao c?a hình ch? nh?t là m?t ?? l?p (?ó là,
t?n s? t??ng ??i c?a l?p, chia cho chi?u r?ng l?p). Phân vùng quy t?c ??
xây d?ng histograms ?ã ???c th?o lu?n trong Ch??ng 3.

Figure 5.5 shows a histogram for the data set of Table 5.11, where
classes are defined by equi-width ranges representing $10 increments.
Histograms are at least a century old, and are a widely used univariate
graphical method. However, they may not be as effective as the quantile
plot, Q-Q plot and boxplot methods for comparing groups of univariate
observations.
Hình 5,5 hi?n th? m?t bi?u ?? cho các d? li?u t?p h?p c?a B?ng 5.11, n?i
mà các l?p ???c ??nh ngh?a b?i các dãy equi-width trình bày gia t?ng 10$.
Bi?u ?? ít nh?t m?t th? k? tr??c, và s? d?ng r?ng rãi ph??ng pháp ?? h?a
univariate. Tuy nhiên, chúng có th? không ???c hi?u qu? nh? các ?? th?
quantile, ?? th? QQ và ph??ng pháp boxplot so sánh ác nhóm quan sát
univariate.
?? th? quantile - A quantile plot
is a simple and effective way to have a first look at data distribution.
First, it displays all of the data (allowing the user to assess both the
overall behavior and unusual occurrences). Second, it plots quantile
information. The mechanism used in this step is slightly different from
the percentile computation. Let x(i), for i = 1 to n, be the data ordered
from the smallest to the largest; thus x(1) is the smallest observation
and x(n) is the largest. Each observation x(i) is paired with a
percentage, fi, which indicates that 100fi% of the data are below or
equal to the value x(i). Let
là m?t cách ??n gi?n và hi?u qu? ?? có m?t cái nhìn ??u tiên t?i phân tán
d? li?u. Tr??c tiên, nó s? hi?n th? t?t c? các d? li?u (cho phép ng??i s?
d?ng ?? ?ánh giá c? hành vi t?ng th? và các s? c? b?t th??ng). Th? hai,
nó th?a thông tin quantile. K? thu?t s? d?ng trong b??c này là h?i khác
nhau t? vi?c tính toán percentile. Cho x(i), for i = 1 to n, các d? li?u
có th? t? t? nh? nh?t ??n l?n nh?t, do ?ó x(1) là nh? nh?t và quan sát
x(n) là l?n nh?t. M?i quan sát x(i) ???c ghép n?i v?i m?t t? l? ph?n tr?m
(percentage) fi, cho bi?t r?ng 100fi% c?a d? li?u là th?p h?n ho?c b?ng
giá tr? x(i).




These numbers increase in equal steps of 1=n beginning with 1=2n, which
is slightly above zero, and ending with 1 ?? 1=2n, which is slightly
below one. On a quantile plot, x(i) is graphed against fi. This allows
visualization of the fi quantiles. Figure 5.6 shows a quantile plot for
the set of data in Table 5.11.
Nh?ng con s? t?ng trong các b??c b?ng nhau c?a 1/n b?t ??u v?i 1/2n, l?n
h?n 0 không ?áng k?, và k?t thúc v?i 1 1/2n là m?t m?c không ?áng k?
d??i ?ây. Trên m?t ?? th? quantile, x(i) ???c v? ?? th? ng??c (against)
??i v?i fi. ?i?u này cho phép hình dung c?a quantiles fi. Hình 5.6 cho
th?y m?t ?? th? quantile cho các t?p h?p d? li?u trong b?ng 5.11.



?? th? Q-Q hay quantile-quantile (A Q-Q plot, or quantile-quantile plot)
is a powerful visualization method for comparing the distributions of two
or more sets of univariate observations. When distributions are compared,
the goal is to understand how the distributions differ from one data set
to the next. The most effective way to investigate the shifts of
distributions is to compare corresponding quantiles.
là m?t ph??ng pháp tr?c quan m?nh m? ?? so sánh các phân tán c?a hai hay
nhi?u t?p h?p các quan sát univariate. Khi các phân tán ???c so sánh, m?c
tiêu là ?? hi?u phân tán khác nhau t? m?t t?p h?p d? li?u k? ti?p. Cách
hi?u qu? nh?t ?? ki?m tra các thay ??i c?a các phân b? là so sánh
quantiles t??ng ?ng.


A scatter plot – ?? th? r?i
is one of the most effective graphical methods for determining if there
appears to be a relationship, pattern, or trend between two quantitative
variables. To construct a scatter plot, each pair of values is treated as
a pair of coordinates in an algebraic sense, and plotted as points in the
plane. The scatter plot is a useful exploratory method for providing a
first look at bivariate data to see how they are distributed throughout
the plane, for example, and to see clusters of points, outliers, and so
forth. Figure 5.8 shows a scatter plot for the set of data in Table 5.11.
là m?t trong nh?ng ph??ng pháp ?? h?a hi?u qu? nh?t ?? xác ??nh n?u có
xu?t hi?n ?? ???c m?t m?i quan h?, m?u, ho?c xu h??ng gi?a hai bi?n ??nh
l??ng (quantitative). ?? d?ng m?t ?? th? r?i, m?i c?p c?a các giá tr?
???c coi là m?t c?p t?a ?? trong m?t ý th?c(sense) ??i s?, và các ?i?m
???c v? trong m?t ph?ng. Các ?? th? tán x? là m?t ph??ng pháp th?m dò h?u
ích cho vi?c cung c?p m?t cái nhìn ??u tiên v? d? li?u bivariate ?? xem
cách chúng ???c phân tán trên toàn m?t ph?ng, ví d? ?? xem các c?m ?i?m,
outliers, và nh?ng th? t??ng t?. Hình 5.8 cho th?y m?t ?? th? tán x? cho
t?p h?p d? li?u trong b?ng 5.11.
A loess curve – ???ng cong loess
is another important exploratory graphic aid which adds a smooth curve to
a scatter plot in order to provide better perception of the pattern of
dependence. The word loess is short for local regression. Figure 5.9
shows a loess curve for the set of data in Table 5.11.
là ?? h?a h? tr? th?m dò quan tr?ng khác ?ó cho bi?t thêm m?t ???ng cong
m?n ?? m?t ?? th? tán x? cung c?p nh?n th?c t?t h?n v? các m?u c?a s? ph?
thu?c. Các t? loess là vi?t t?t c?a h?i quy c?a ??a ph??ng. Hình 5.9 cho
th?y m?t ???ng cong loess cho t?p h?p d? li?u trong b?ng 5.11.

5.7 Th?o lu?n – Discussion
We have presented a set of scalable methods for mining concept or class
descriptions in large databases. In this section, we discuss related
issues regarding such descriptions. These include a comparison of the
cube-based and attribute-oriented induction approaches to data
generalization with typical machine learning methods, the implementation
of incremental and parallel mining of concept descriptions, and
interestingness measures for concept description.
Ph?n này ?ã trình bày m?t t?p h?p các ph??ng pháp scalable v? khái ni?m
khai phá hay mô t? l?p trong c? s? d? li?u l?n. Trong ph?n này, chúng tôi
th?o lu?n v? các v?n ?? liên quan v? các mô t? nh? v?y. Chúng bao g?m m?t
so sánh các ph??ng pháp ti?p c?n d?a trên c?m ?ng kh?i l?p ph??ng và
thu?c tính ??nh h??ng d? li?u v?i máy tính ?i?n hình khái quát ph??ng
pháp h?c t?p, th?c hi?n khai thác khoáng s?n gia t?ng và song song c?a
các mô t? khái ni?m, và r?t nhi?u lý thú cho các bi?n pháp mô t? khái
ni?m.
5.7.1 Mô t? khái ni?m: So sánh v?i ph??ng pháp h?c máy ?i?n hình (Concept
description: A comparison with typical machine learning methods)
In this chapter, we studied a set of database-oriented methods for mining
concept descriptions in large databases. These methods included a data
cube-based and an attribute-oriented induction approach to data
generalization for concept description. Other in uential concept
description methods have been proposed and studied in the machine
learning literature since the 1980s. Typical machine learning methods for
concept description follow a learning-from-examples paradigm. In general,
such methods work on sets of concept or class-labeled training examples
which are examined in order to derive or learn a hypothesis describing
the class under study.
"What are the major differences between methods of learning-from-examples
and the data mining methods pre-sented here?"
Trong ch??ng này, nghiên c?u m?t t?p h?p các ph??ng pháp h??ng c? s? d?
li?u cho các mô t? khái ni?m khai phá c? s? d? li?u l?n. Nh?ng ph??ng
pháp này bao g?m m?t d? li?u d?a trên kh?i(cube-based) và ti?p c?n quy
n?p h??ng thu?c tính t?i t?ng quát d? li?u cho mô t? khái ni?m. Các
ph??ng pháp mô t? khái ni?m uential ?ã ???c ?? xu?t và nghiên c?u trong
ngành v?n h?c h?c máy t? nh?ng n?m 1980. Máy ?i?n hình cho ph??ng pháp
h?c máy là mô t? khái ni?m theo m?t mô hình learning-from-examples. Nói
chung, ph??ng pháp ?ó làm vi?c trên t?p c?a khái ni?m ho?c ví d? training
l?p-nhãn (class-labeled ???c ki?m tra ?? nh?n ???c ho?c tìm hi?u m?t gi?
thuy?t mô t? l?p nghiên c?u.
S? khác bi?t chính gi?a ph??ng pháp h?c-t?-ví d? (learning-from-examples)
và các ph??ng pháp khai thác d? li?u tr??c sented là:
First, there are differences in the philosophies of the machine learning
and data mining approaches, and their basic assumptions regarding the
concept description problem.
Th? nh?t, có s? khác bi?t trong tri?t lý c?a ph??ng pháp ti?p c?n h?c máy
và khai phá d? li?u, và gi? ??nh c? b?n c?a liên quan ??n v?n ?? mô t?
khái ni?m.
Second, distinctions between the machine learning and database-oriented
approaches also exist regarding the methods of generalization used.
Th? hai, s? phân bi?t gi?a các h?c máy và ph??ng pháp ti?p c?n h??ng c?
s? d? li?u c?ng t?n t?i liên quan ??n ph??ng pháp t?ng quát ???c s? d?ng.
5.7.2 Mô t? khái ni?m s? gia t?ng và khai phá song song (Incremental and
parallel mining of concept description)
Given the huge amounts of data in a database, it is highly preferable to
update data mining results incrementally rather than mining from scratch
on each database update. Thus incremental data mining is an attractive
goal for many kinds of mining in large databases or data warehouses.
Fortunately, it is straightforward to extend the database-oriented
concept description mining algorithms for incremental data mining.
Do s? l??ng kh?ng l? c?a d? li?u trong c? s? d? li?u, thích h?p h?n ??
c?p nh?t k?t qu? t?ng b??c khai phá d? li?u h?n là khai phá t? h?n t?p
trên m?i l?n c?p nh?t c? s? d? li?u. Do ?ó khai phá d? li?u gia t?ng là
m?t m?c tiêu h?p d?n ??i v?i nhi?u lo?i khai phá trong c? s? d? li?u l?n
ho?c kho d? li?u (warehouses).
May m?n thay, nó là ??n gi?n ?? m? r?ng khái ni?m thu?t toán khai phá mô
t? h??ng c? s? d? li?u cho khai phá d? li?u gia t?ng.
5.7.3 Mô t? khái ni?m ?? ?o quan tâm (Interestingness measures for
concept description)
"When examining concept descriptions, how can the data mining system
objectively evaluate the interestingness of each description?"
Different users may have different preferences regarding what makes a
given description interesting or useful. Let's examine a few
interestingness measures for mining concept descriptions.
"Khi mô t? khái ni?m kh?o sát (examining), làm th? nào ?? h? th?ng khai
phá d? li?u ?ánh giá khách quan theo s? thích c?a t?ng mô t?"
Ng??i s? d?ng khác nhau có th? có s? thích khác nhau v? nh?ng gì làm cho
m?t mô t? thú v? ho?c h?u ích. Hãy xem xét m?t vài ?? ?o quan tâm cho
nh?ng mô t? khái ni?m khai phá.
Significance threshold – T?m quan tr?ng c?a ng??ng:
Users may like to examine what kind of objects contribute "significantly"
to the summary of the data. That is, given a concept description in the
form of a generalized relation, say, they may like to examine the
generalized tuples (acting as \object descriptions") which contribute a
nontrivial weight or portion to the summary, while ignoring those which
contribute only a negligible weight to the summary. In this context, one
may introduce a significance threshold to be used in the following
manner: if the weight of a generalized tuple/object is lower than the
threshold, it is considered to represent only a negligible portion of the
database and can therefore be ignored as uninteresting. Notice that
ignoring such negligible tuples does not mean that they should be removed
from the intermediate results (i.e., the prime generalized relation, or
the data cube, depending on the implementation) since they may contribute
to subsequent further exploration of the data by the user via interactive
rolling up or drilling down of other dimensions and levels of
abstraction. Such a threshold may also be called the support threshold,
adopting the term popularly used in association rule mining.
Ng??i dùng có th? mu?n xem xét lo?i ??i t??ng ?óng góp "?áng k?" ?? tóm
t?t các d? li?u. ?ó là, cho m?t mô t? khái ni?m trong các hình th?c c?a
m?t m?i quan h? t?ng quát, nói r?ng, chúng có th? mu?n ki?m tra tuples
t?ng quát góp ph?n tr?ng l??ng nontrivial hay m?t ph?n tóm t?t, trong khi
b? qua nh?ng th? mà ch? ?óng góp tr?ng l??ng không ?áng k? ?? tóm t?t.
Trong b?i c?nh này, có th? gi?i thi?u m?t ng??ng quan tr?ng ???c s? d?ng
trong các cách sau ?ây: n?u tr?ng l??ng c?a m?t tuple t?ng quát/??i t??ng
là th?p h?n ng??ng này, nó ???c coi là ??i di?n ch? là m?t ph?n không
?áng k? c?a các c? s? d? li?u do ?ó có th? ???c b? qua nh? là không quan
tâm (uninteresting). L?u ý r?ng b? qua tuples r?t nh? không có ngh?a là
ph?i lo?i b? kh?i các k?t qu? trung gian (t?c là, các nguyên t? t?ng
quát liên quan, ho?c kh?i d? li?u, tu? thu?c vào vi?c th?c hi?n) k? t?
khi chúng có th? góp ph?n ti?p t?c th?m dò ti?p theo c?a d? li?u c?a
ng??i dùng thông qua t??ng tác cu?n (rolling up) ho?c ?ào xâu (drill
down) c?a các kích th??c khác và m?c ?? tr?u t??ng nh? v?y m?t ng??ng
c?ng có th? ???c g?i là ng??ng h? tr?,. áp d?ng các thu?t ng? ph? bi?n
???c s? d?ng trong khai phá lu?t k?t h?p.
Deviation threshold – Ng??ng l?ch
Some users may already know the general behavior of the data and would
like to instead explore the objects which deviate from this general
behavior. Thus, it is interesting to examine how to identify the kind of
data values that are considered outliers, or deviations. Suppose the data
to be examined are numeric. As discussed in Section 5.6, a common rule of
thumb identifies suspected outliers as those values which fall at least
1:5 IQR above the third quartile or below the first quartile. Depending
on the application at hand, however, such a rule of thumb may not always
work well. It may therefore be desirable to provide a deviation threshold
as an adjustable threshold to enlarge or shrink the set of possible
outliers. This facilitates interactive analysis of the general behavior
of outliers. We leave the identification of outliers in time-series data
to Chapter 9, where time-series analysis will be discussed.
M?t s? ng??i dùng ?ã có th? bi?t ???c hành vi chung c?a d? li?u và mu?n
thay vì tìm hi?u các ??i t??ng ?ó ?i ch?ch kh?i hành vi chung. Vì v?y, nó
là thú v? ?? xem xét làm th? nào ?? xác ??nh các lo?i giá tr? d? li?u
???c coi là outliers, ho?c sai l?ch (deviations). Gi? s? d? li?u ???c
ki?m tra là s?. Nh? ???c th?o lu?n trong m?c 5.6, m?t quy t?c chung c?a
ngón tay cái xác ??nh outliers kh? nghi là nh?ng giá tr? r?i ít nh?t là
1.5 x IQR trên quartile th? ba ho?c d??i quartile ??u tiên. Tùy thu?c vào
?ng d?n, tuy nhiên, nh? m?t quy t?c ngón tay cái có th? không ph?i luôn
luôn làm vi?c t?t. Nó do ?ó có th? mong mu?n cung c?p m?t ?? l?ch ng??ng
nh? là m?t ng??ng có th? ?i?u ch?nh ?? phóng to ho?c thu nh? các t?p
outliers có th?. ?i?u này t?o ?i?u ki?n phân tích t??ng tác c?a các hành
vi chung c?a outliers.
5.8 Tóm t?t
Data mining can be classified into descriptive data mining and predictive
data mining. Concept description is the most basic form of descriptive
data mining. It describes a given set of task-relevant data in a concise
and summarative manner, presenting interesting general properties of the
data.
Khai thác d? li?u có th? ???c phân lo?i vào khai thác d? li?u mô t? và
khai thác d? li?u d? báo. Khái ni?m mô t? là hình th?c c? b?n nh?t c?a
khai thác d? li?u mô t?. Nó mô t? m?t t?p h?p d? li?u cho tác v? có liên
quan m?t cách súc tích và summarative, trình bày các thu?c tính t?ng quát
quan tâm c?a d? li?u.
Concept (or class) description consists of characterization and
comparison (or discrimination). The former summarizes and describes a
collection of data, called the target class; whereas the latter
summarizes and distinguishes one collection of data, called the target
class, from other collection(s) of data, collectively called the
contrasting class(es).
Mô t? khái ni?m (ho?c l?p) bao g?m các ??c tính và so sánh (ho?c phân
bi?t - discrimination). Các tóm t?t và mô t? m?t t?p h?p d? li?u, ???c
g?i là các l?p m?c tiêu, trong khi tóm t?t sau và làm n?i b?t m?t t?p h?p
d? li?u, ???c g?i là các l?p m?c tiêu, t? t?p h?p khác c?a d? li?u, g?i
chung là các l?p t??ng ph?n.
There are two general approaches to concept characterization: the data
cube OLAP-based approach and the induction approach. Both are attribute-
or dimension-based generalization approaches. The attribute-oriented
induction approach can be implemented using either relational or data
cube structures.
Có hai cách ti?p c?n chung ?? mô t? ??c tính khái ni?m: ph??ng pháp ti?p
c?n d?a trên kh?i d? li?u OLAP và ph??ng pháp ti?p c?n gi?i
thi?u(induction – quy n?p) các h??ng thu?c tính(attribute-oriented). C?
ph??ng pháp t?ng quát hóa d?a trên thu?c tính và chi?u (dimension). Ti?p
c?n quy n?p h??ng thu?c tính có th? ???c cài ??t b?ng cách s? d?ng m?t
trong hai c?u d? li?u trúc hình kh?i ho?c d? li?u quan h?.
The attribute-oriented induction approach consists of the following
techniques: data focusing, generalization by attribute removal or
attribute generalization, count and aggregate value accumulation,
attribute generalization control, and generalization data visualization
Ph??ng pháp quy n?p h??ng thu?c tính bao g?m các k? thu?t sau: d? li?u
t?p trung, khái quát b?ng cách lo?i b? thu?c tính ho?c t?ng quát hóa
thu?c tính, ??m và t?p h?p ch?t ??ng giá tr?, ki?m soát t?ng quát thu?c
tính, và hình dung d? li?u t?ng quát
Generalized data can be visualized in multiple forms, including
generalized relations, crosstabs, bar charts, pie charts, cube views,
curves, and rules. Drill-down and roll-up operations can be performed on
the generalized data interactively
D? li?u t?ng quát có th? ???c hình t??ng trong nhi?u hình d?ng, bao g?m
c? m?i quan h? t?ng quát, crosstabs, bi?u ??, bi?u ?? pie, quan ?i?m
kh?i, ???ng cong, và các quy t?c. Các ho?t ??ng Drill-down và roll-up có
th? ???c th?c hi?n trên t??ng tác d? li?u t?ng quát.
Analytical data characterization/comparison performs attribute and
dimension relevance analysis in order to filter out irrelevant or weakly
relevant attributes prior to the induction process.
Phân tích ??c tính/so sánh d? li?u th?c hi?n phân tích thu?c tính và
chi?u liên quan theo th? t? ?? l?c ra các thu?c tính không liên quan ho?c
liên quan y?u tr??c khi x? lý quy n?p.
Concept comparison can be performed by the attribute-oriented induction
or data cube approach in a manner similar to concept characterization.
Generalized tuples from the target and contrasting classes can be
quantitatively compared and contrasted.
Khái ni?m so sánh có th? ???c th?c hi?n b?i ho?c ph??ng pháp ti?p c?n
kh?i d? li?u ho?c quy n?p h??ng thu?c tính m?t cách t??ng t? nh? ??c tính
khái ni?m. T?ng quát tuples t? m?c tiêu và các l?p t??ng ph?n có th? ???c
??nh l??ng so sánh và t??ng ph?n.
Characterization and comparison descriptions (which form a concept
description) can both be visualized in the same generalized relation,
crosstab, or quantitative rule form, although they are displayed with
diffirent interestingness measures. These measures include the t-weight
(for tuple typicality) and d-weight (for tuple discriminability).
Mô t? ??c tính và so sánh (mà hình thành m?t mô t? khái ni?m) c? hai có
th? ???c hình dung nh? trong quan h? t?ng quát, Crosstab, ho?c hình thái
quy t?c ??nh l??ng, m?c dù chúng ???c hi?n th? v?i các ?? ?o quan
tâm(interestingness) khác nhau. Các ?? ?o này bao g?m các t-weight (??i
v?i tuple ?i?n hình) và d-weight (??i v?i discriminability tuple).
From the descriptive statistics point of view, additional statistical
measures should be introduced in describing central tendency and data
dispersion. Quantiles, variations, and outliers are useful additional
information which can be mined in databases. Boxplots, quantile plots,
scattered plots, and quantile-quantile plots are useful visualization
tools in descriptive data mining.
T? quan ?i?m th?ng kê mô t? c?a khung nhìn, các ?? ?o th?ng kê b? sung
nên ???c gi?i thi?u trong vi?c mô t? xu h??ng trung tâm và tán x? d?
li?u. Quantiles, bi?n thiên (variations), và outliers là nh?ng thông tin
h?u ích b? sung có th? ???c khai phá trong c? s? d? li?u. ?? th?
Boxplots, quantile, ?? th? r?i (scattered), và ?? th? quantile-quantile
là các công c? tr?c quan h?u ích trong khai phá d? li?u mô t?.
In comparison with machine learning algorithms, database-oriented concept
description leads to efficiency and scalability in large databases and
data warehouses.
So v?i các thu?t toán h?c máy, mô t? khái ni?m h??ng c? s? d? d?n ??n
hi?u qu? và kh? n?ng m? r?ng trong c? s? d? li?u l?n và kho d? li?u (data
warehouses).
Concept description mining can be performed incrementally, in parallel,
or in a distributed manner, by making minor extensions to the basic
methods involved.
Khái ni?m mô t? có th? khai phá ???c th?c hi?n t?ng b??c, song song, ho?c
phân tán, b?ng cách làm cho s? m? r?ng nh? h?n các ph??ng pháp c? b?n
liên quan.
Additional interestingness measures, such as the significiance threshold
or deviation threshold, can be included and dynamically adjusted by users
for mining interesting class descriptions
Các ?? ?o b? sung ?áng quan tâm (interestingness), ch?ng h?n nh? ng??ng
significiance ho?c ng??ng l?ch, có th? ???c bao g?m và t? ??ng ?i?u ch?nh
b?i ng??i dùng khai phá các mô t? l?p quan tâm.
Khai phá lu?t k?t h?p (Association rule mining)
Khai phá lu?t k?t h?p tìm ra s? k?t h?p mà ta quan tâm ho?c m?i quan h?
gi?a m?t l??ng l?n d? li?u t?p m?c. V?i d? li?u ?ã ???c thu th?p và l?u
tr? là r?t l?n trong c? s? d? li?u, hi?n nay nhi?u ngành công nghi?p ?ang
quan tâm khai phá lu?t k?t h?p t? c? s? d? li?u c?a h?.
Ví d?: Vi?c phát hi?n ra m?i quan h? gi?a s? l??ng r?t l?n các giao d?ch
kinh doanh có th? giúp thi?t k? các lo?i s?n ph?m, qua ti?p th?, phân
tích m?t hàng thua l? ?? kéo khách hàng, và các quá trình ra quy?t ??nh
kinh doanh khác.

Association rule mining finds interesting association or correlation
relationships among a large set of data items. With massive amounts of
data continuously being collected and stored in databases, many
industries are becoming interested in mining association rules from their
databases. For example, the discovery of interesting association
relationships among huge amounts of business transaction records can help
catalog design, cross-marketing, lossleader analysis, and other business
decision making processes.

M?t trong nh?ng ví d? ?i?n hình c?a khai khá lu?t k?t h?p là quá trình
phân tích gi? hàng c?a khách hàng, qúa trình phân tích nh?ng thói quen
mua bán c?a khách hàng b?ng vi?c k?t h?p tìm ki?m gi?a các món hàng khác
nhau mà khách hàng mua trong gi? hàng c?a mình(hinh 6.1). vi?c phát hi?n
ra s? liên quan gi?a các s?n ph?m mà khách hàng mua cung nhau có th? giúp
các nhà bán l? phát tri?n các chi?n l??c marketing, ví d? n?u khách hàng
mua s?a, câu h?i ??t ra là li?u khách hàng ?ó có mua bánh mì (ho?c các
lo?i bánh mì) trong cùng m?t l?n ?i siêu th?, các thông tin có th? giúp
t?ng doanh s? bán hàng b?ng cách giúp các nhà bán l? l?a ch?n cách
marketing và cách bày các s?n ph?m trên k?, ví d? v?i vi?c ??t s?a và
bánh mì g?n nhau s? giúp t?ng vi?c bán các s?n ph?m này và tr? giúp khách
hàng có th? mua hàng trong m?t l?n mua hàng.

A typical example of association rule mining is "market basket analysis".
This process analyzes customer buying habits by finding associations
between the dierent items that customers place in their shopping baskets"
(Figure6.1). The discovery of such associations can help retailers
develop marketing strategies by gaining insight into which items are
frequently purchased together by customers. For instance, if customers
are buying milk, how likely are they to also buy bread (and what kind of
bread) on the same trip to the supermarket? Such information can lead to
increased sales by helping retailers to do selective marketing and plan
their shelf space. For instance, placing milk and bread within close
proximity may further encourage the sale of these items together within
single visits to the store

6. Khai phá lu?t k?t h?p(Association rule mining)
Nghiên c?u khai phá lu?t k?t h?p ?? tìm ki?m m?i liên h? gi?a các t?p m?c
trong d? li?u t?p m?c, trong ph?n này gi?i thi?u khai phá lu?t k?t h?p.
b?t ??u trong m?c 6.1.1 b?ng vi?c trình bày ví d? b?ng vi?c phân tích gi?
hàng c?a khách hàng trong siêu th?, ?ó là khái ni?m ??u tiên ?? khai phá
lu?t k?t h?p.
6.1.2 ??a ra các khái niêm c? b?n c?a khái phá lu?t k?t h?p
6.1.3 Ph?n trình bày m?t b?n ?? ???ng cho các lo?i lu?t k?t h?p khác nhau
có th? ???c khai thác.
Association rule mining searches for interesting relationships among
items in a given data set. This section provides an introduction to
association rule mining. We begin in Section 6.1.1 by presenting an
example of market basket analysis,the earliest form of association rule
mining. The basic concepts of mining associations are given in Section
6.1.2. Section 6.1.3 presents a road map to the diferent kinds of
association rules that can be mined.

Phân tích gi? bán hàng: m?t ví d? khai thác lu?t k?t h?p (Market basket
analysis: A motivating example for association rule mining)

Gi? s?, là m?t ng??i qu?n lý c?a m?t chi nhánh AllElectronics, b?n mu?n
tìm hi?u v? các thói quen mua s?m c?a khách hàng. C? th?, b?n t? h?i nào
nhóm ho?c t?p các m?t hàng nào mà khách hàng có kh? n?ng mua hàng trong
m?t m?t l?n ?i mua hàng?
?? tr? l?i câu h?i, vi?c phân t?c gi? bán hàng có th? th?c hi?n trên d?
li?u bán l? các giao d?ch c?a khách hàng trong c?a hàng. K?t qu? có th?
s? d?ng ?? lên k? ho?ch marketing ho?c qu?ng cáo c?ng nh? vi?c thi?t k?
l?i danh m?c s?n ph?m.

Suppose, as manager of an AllElectronics branch, you would like to learn
more about the buying habits of your customers. Specifically, you wonder
Which groups or sets of items are customers likely to purchase on a given
trip to the store?".
To answer your question, market basket analysis may be performed on the
retail data of customer transactions at your store. The results may be
used to plan marketing or advertising strategies, as well as catalog
design

Ví d?, phân tích th? tr??ng trong gi? hàng có th? giúp các nhà qu?n lý
thi?t k? b? trí c?a hàng khác nhau. Trong m?t chi?n l??c, các m?c th??ng
???c mua v?i nhau có th? ???c ??t ? g?n ?? ti?p t?c khuy?n khích vi?c bán
nh?ng m?t hàng ?ó v?i nhau. N?u khách hàng mua máy tính c?ng có xu h??ng
?? mua ph?n m?m qu?n lý tài chính t?i cùng m?t th?i gian, sau ?ó ??t các
thi?t b? hi?n th? g?n các ph?n m?m liên quan có th? giúp t?ng doanh s?
bán hàng c?a c? hai c?a các m?t hàng này.

For instance, market basket analysis may help managers design different
store layouts. In one strategy, items that are frequently purchased
together can be placed in close proximity in order to further encourage
the sale of such items together. If customers who purchase computers also
tend to buy financial management software at the same time, then placing
the hardware display close to the software display may help to increase
the sales of both of these items.

Trong m?t chi?n l??c thay th?, ??t ph?n c?ng và ph?n m?m ? cu?i c?a các
c?a hàng ??i di?n có th? lôi kéo khách hàng mua nh?ng m?t hàng ?ó ?? nh?n
m?t hàng khác trên ???ng ?i. Ví d?, sau khi quy?t ??nh trên m?t máy tính
??t ti?n, khách hàng có th? quan sát h? th?ng an ninh ?? bán trong khi
nhóm ??i v?i màn hình hi?n th? ph?n m?m ?? mua tài chính ph?n m?m qu?n
lý, và có th? quy?t ??nh mua m?t h? th?ng an ninh nhà là t?t. Phân tích
gi? bán hàng c?ng có th? giúp các nhà bán l? ?? lên k? ho?ch mà các m?c
?? ??a vào bán v?i giá gi?m. N?u khách hàng có xu h??ng mua máy tính cùng
v?i máy in thì vi?c bán ???c nhi?u máy tính se kéo theo bán ???c nhi?u
máy in kem theo.

N?u ??t các s?n ph?m có s?n trong kho hàng, m?i s?n ph?m ???c mô t? b?ng
bi?n Boolean bi?u th? là có hàng hay h?t hàng, m?i gi? hàng ???c mô t?
b?ng vecto Boolean các giá tr? ???c gán cho bi?n này. Các vect? Boolean
có th? ???c phân tích ?? mua các m?u ph?n ánh ???c các m?c mua cùng v?i
nhau. Nh?ng m?u có th? ???c bi?u hi?n b?ng lu?t liên kêt. Ví d?, các
thông tin mà khách hàng mua máy tính c?ng có xu h??ng ?? mua ph?n m?m
qu?n lý tài chính ??ng th?i là ??i di?n trong h?i Rule (6,1) bên d??i:

computer   => Financial management software [support = 2%; confidence =
60%]

Hai lu?t support (?? h? tr?) và confidence (?? tin c?y) ???c mi?u t? ?
công th?c (6,1).

Có ngh?a là lu?t có A thì kéo theo B v?i c? s? support và confidence,
trong ?ó:
sup= support: (?? h? tr?) là t? l? giao d?ch ch?a c? hai m?t hàng A và B.
con= confidence: (?? tin c?y) là t? l? giao d?ch ch?a m?t hàng B trong
các giao d?ch ch?a m?t hàng A.
? công th?c trên ta th?y:
 - support = 2% có ngh?a là có 2% khách hàng mua c? hai m?t hàng cùng
nhau
 - confidence = 60% có ngh?a là 60% khách hàng mua máy tính thì mua kèm
ph?n m? qu?n lý tài chính.

Thông th??ng, lu?t kêt h?p ???c chú n?u ?áp ?ng c? hai m?t ng??ng h? tr?
t?i thi?u và ?? tin c?y ng??ng t?i thi?u. Ng??ng này có th? ???c thi?t
l?p b?i ng??i s? d?ng ho?c thiêt l?p trên h? th?ng.
Khái ni?m c? b?n (Basic concepts)
G?i I = {I1, I2,..., Im} là t?p m thu?c tính riêng bi?t, m?i thu?c tính
g?i là m?t m?c. G?i D là m?t c? s? d? li?u, trong ?ó m?i b?n ghi T là m?t
giao d?ch và ch?a các t?p m?c, T I. v?i m?i giao d?ch k?t h?p v?i m?t
??nh danh g?i là TID, A là m?t t?p m?c, m?t giao dich T ???c g?i là ch?a
A n?u và ch? n?u A € T. m?t lu?t k?t h?p ???c th? hi?n b?i công th?c
A=>B, v?i A € I, B € I và A B = 0,
Lu?t A=> B trong giao d?ch D v?i ?? h? tr? là s, trong ?ó s là t? l? ph?n
tr?m trong giao d?ch D mà có c? hai giao d?ch A và B.
Lu?t A=>B trong giao d?ch D v?i ?? tin c?y c, trong ?ó c là t? l? ph?n
tr?m giao d?ch A khi có giao dich B

support(A =>B)          =      Probf(A B) (6.2)
confidence(A => B)           =       Probf(B|A) (6.3)
khi hai giá tr? v??t ng??ng ?? h? tr? t?i thi?u(Min-sup) và ?? tin c?y
t?i thi?u thì cho tr??c thì ???c g?i là strong.
M?t t?p các m?c ???c g?i là m?t t?p m?c, m?t t?p m?c ch?a k m?c g?i là k-
itemset, ví d? t?p : (computer,financial management softwareg ) là t?p
m?c 2-itemset. T?n s? xu?t hi?n c?a t?p m?c là s? l?n xu?t hi?n các giao
d?ch ch?a trong t?p m?c ?ó.
M?t Itemset có ?? h? tr? t?i thi?u n?u t?n s? xu?t hi?n c?a itemset l?n
h?n ho?c b?ng ?? h? tr? min-sup và t?ng s? các giao d?ch trong D. n?u
m?t t?p m?c có ng??ng h? tr? t?i thi?u thì ???c g?i là t?p m?c d? li?u
th??ng xuyên (frequent itemset):
Khai phá lu?t k?t h?p v?i c? s? d? li?u l?n g?m hai b??c:
B??c 1: Tìm t?t c? các t?p m?c th??ng xuyên
B??c 2: T?o ra các lu?t k?t h?p m?nh t? các t?p m?c th??ng xuyên

Khai phá lu?t k?t h?p: m?t b?n ?? ???ng   (Association rule mining: A road
map)

Phân tích gi? hàng ch? là m?t hình th?c trong khai phá lu?t k?t h?p.
Trong th?c t?, có r?t lu?t k?t h?p. Lu?t k?t h?p có th? ???c phân lo?i
trong nhi?u cách khác nhau, d?a trên các tiêu chu?n sau:
Th? nh?t: d?a vào ki?u giá tr? có trong lu?t , n?u m?t m?t lu?t ch?a quy
t?c có hay không có m?t m?c thì lu?t k?t h?p Boolean (Boolean association
rule). ? ví d? (6.1) trên là là lu?t k?t h?p Boolean
N?u m?t lu?t d?a vào ??nh l??ng hay thu?c tính c?a các m?c ???c g?i là
lu?t k?t h?p ??nh l??ng (quantitative association rule)
Ví d?:
   age(X, “30 – 34”) ^ income(X,(42K - 48K") => buys(X, “high resolution
TV") (6.4)
 th? hai: d?a vào chi?u c?a d? li?u: n?u m?t t?p m?c ho?c thu?c tính
trong khai phá lu?t k?t h?p có m?t thu?c tính thì ???c g?i là: single-
dimensional association rule.
 Ví d?
buys(X, “computer") ) buys(X, “financial management software") (6.5)
n?u công th?c (6.1) có thêm m?t s? s? chi?u n?a ví d? nh? th?i gian mua…
thì lu?t này ???c g?i là multidimensional association rule
th? ba: d?a vào m?c ?? tr?u t??ng m?t vài ph??ng th?c c?a khai phá lu?t
k?t h?p d?a vào nh?ng m?c ?? tr?u t??ng khác nhau, ví d? trong công th?c
(6.6) và (6.7)

age(X, “30 - 34")) buys(X, “laptop computer") (6.6)
age(X, “30 - 34") ) buys(X, “computer") (6.7)
Lu?t (6.7) có m?c ?? tr?u t??ng cao h?n công th?c (6.6)
Th? ba: d?a vào b?n ch?t c?a lu?t k?t h?p, khai phá lu?t k?t h?p có th?
m? r?ng phân tích s? t??ng quan, trong ?ó có ho?c không có s? t??ng quan
gi?a các t?p m?c

Khai phá lu?t k?t h?p m?t chi?u t? c? s? d? li?u giao d?ch
(Mining single-dimensional Boolean association rules from transactional
databases)
Trong ch??ng này chúng ta s? nghiên c?u ph??ng pháp khai phá ??n gi?n
nh?t d?a vào lu?t k?t h?p: single-dimensional, single-level, Boolean
association rules mà chúng ta ?ã th?o lu?n trong ph?n 6.1.1 v? phân tích
gi? bán hàng. Dùng thu?t toán Apriori, thu?t toán này ???c trình bày
trong ph?n 6.2.1.
6.2.1 Thu?t toán Apriori : Tìm ki?m t?p m?c th??ng xuyên (The Apriori
algorithm: Finding frequent itemsets)
Thu?t toán Apriori có ?nh h??ng r?t l?n cho vi?c khai phá t?p m?c th??ng
xuyên trong lu?t khai phá Boolean. Tên c?a thu?t toán d?a vào th?c t? là
thu?t toán s? d?ng các tri th?c có tr??c c?a các thu?c tính t?p m?c
th??ng xuyên.
      Apriori s? d?ng m?t cách ti?p c?n l?p ?i l?p l?i ???c g?i là m?t
c?p tìm ki?m khôn ngoan, mà k-itemsets t?p ???c s? d?ng ?? khám phá (K
+1)-Itemsets. Tr??c tiên t?o m?t t?p m?c th??ng xuyên 1-itemsets là L1,
L1 ???c s? d?ng ?? tìm L2, L2 tìm t?p L3 và ti?p t?c ??n khi không tìm
th?y m?t t?p m?c th??ng xuyên nào n?a, vì th? ?? tìm m?t t?p Lk ph?i tìm
ki?m toàn b? CSDL.
 ?? nâng cao m?c thông minh c?a th? h? ti?p theo trong t?p m?c th??ng
xuyên, m?t thu?c tính quan tr?ng g?i là thu?c tính Apriori ???c trình bày
bên d??i nh?m gi?m không gian tìm ki?m.
Apriori is an influential algorithm for mining frequent itemsets for
Boolean association rules. The name of the algorithm is based on the fact
that the algorithm uses prior knowledge of frequent itemset properties,
as we shall see below. Apriori employs an iterative approach known as a
level-wise search, where k-itemsets are used to explore (k+1)-itemsets.
First, the set of frequent 1-itemsets is found.
This set is denoted L1. L1 is used to find L2, the frequent 2-itemsets,
which is used to find L3, and so on, until no more frequent k-itemsets
can be found. The finding of each Lk requires one full scan of the
database. To improve the eciency of the level-wise generation of frequent
itemsets, an important property called the Apriori property, presented
below, is used to reduce the search space.
Thu?c tính Aprior: t?t c? các t?p con không r?ng c?a t?p m?c th??ng xuyên
thì c?ng th??ng xuyên
Thu?c tính này d?a vào các quan sát d??i ?ây, n?u m?t t?p m?c I không ?áp
?ng   ng??ng h? tr? t?i thi?u s thì nó không th??ng xuyên, ví d?
Prob(I)<s. n?u m?t m?c A ???c thêm vào t?p m?c I thì k?t qu? t?p m?c (I U
A) s? không th??ng xuyên h?n I, Prob(I U A) <s.
Thu?c tính này là m?t lo?i ??c bi?t c?a thu?c tính g?i là anti-monotone ,
làm th? nào ?? s? dung thu?c tính trong thu?t toán, ?? hi?u chúng ta nhìn
vào vi?c tìm ki?m Lk d?a vào Lk-1 nh? th? nào: 2 b??c trong quá trình x?
lý g?m 2 b??c n?i (join) và c?t t?a (prune)
- B??c n?i (join step):B??c này n?i Lk-1 v?i Lk-1. Trong b??c này, cho
r?ng các item c?a các itemset ?ã ???c s?p x?p theo th? t? t? ?i?n. N?u có
k-2 item ??u tiên (g?i là phân ti?n t?) c?a hai(k-1)-itemset i1và i2(i1
i2) nào ?ó mà gi?ng nhau thì ta kh?i t?o m?t candidate k-itemset cho Ck
b?ng cách l?y ph?n ti?n t? này h?p v?i 2 item th? k-1 c?a i1 và i2 (có
th? ph?i s?p l?i th? t? cho các item này). ?i?u ki?n p.itemk-1 <q.itemk-
1 ??n gi?n ch? là vi?c tránh k-itemset trùng l?p ???c ??a vào Ck.
-B??c c?t t?a (prune step): ?ây là b??c ti?p theo sau b??c join. Trong
b??c này, ta c?n lo?i b? t?t c? các k-itemset cCk mà chúng t?n t?i m?t(k-
1)-subset không có m?t trong Lk-1. Gi?i thích ?i?u này nh? sau: gi? s? s
là m?t(k-1)-subset c?a c mà không có m?t trong Lk-1. Khi ?ó, support
(s)<minsup. M?t khác, theo tính ch?t p1.1, vì cs nên support(s)<minsup.
V?y c không th? là m?t large-itemset, nó c?n ph?i lo?i b? kh?i Ck.
 Thu?t toán Apriori
Các kí hi?u:
Lk: T?p các k-m?c ph? bi?n (large k-itemset) (t?c t?p các itemset có
support t?i thi?u và có l?c l??ng b?ng k).
M?i ph?n t? c?a t?p này có 2 tr??ng: itemset và support-count.
Ck: T?p các candidate k-itemset (t?p các t?p k-m?c ?ng c? viên). M?i ph?n
t? trong t?p này c?ng có 2 tr??ng itemset và support-count.
N?i dung thu?t toán Apriori ???c trình bày nh? sau:
Input: CSDL, T?p các giao d?ch D, ng??ng support t?i thi?u minsup
Output: L- t?p m?c ph? bi?n trong D
Method:
L1={large 1-itemset} //tìm t?t c? các t?p m?c ph? bi?n: nh?n ???c L1
for (k=2; Lk-1 ; k++) do
begin
Ck=apriori-gen(Lk-1); //sinh ra t?p ?ng c? viên t? Lk-1
for (m?i m?t giao d?ch TD) do
begin
CT = subset(Ck, T); //l?y t?p con c?a T là ?ng c? viên trong Ck
for (m?i m?t ?ng c? viên c CT) do
c.count++; //t?ng b? ??m t?n xu?t 1 ??n v?
end;
Lk = {c Ck| c.count minsup}
end;

return kLk
Trong thu?t toán này, giai ?o?n ??u ??n gi?n ch? là vi?c ??m support cho
các item. ?? xác ??nh t?p 1-m?c ph? bi?n (L1), ng??i ta ch? gi? l?i các
item mà support c?a nó l?n h?n ho?c b?ng minsup.
      Trong các giai ?o?n th? k sau ?ó (k>1), m?i giai ?o?n g?m có 2 pha.
Tr??c h?t các large(k-1)-itemset trong t?p Lk-1???c s? d?ng ?? sinh ra
các candidate itemset Ck, b?ng cách th?c hi?n hàm Apriori_gen. Ti?p theo
CSDL D s? ???c quét ?? tính support cho m?i ?ng viên trong Ck. ?? vi?c
??m ???c nhanh, c?n ph?i có m?t gi?i pháp hi?u qu? ?? xác ??nh các ?ng
viên trong Ck là có m?t trong m?t giao d?ch T cho tr??c.
V?n ?? sinh t?p candidate c?a Apriori – Hàm Apriori_gen:
Hàm Apriori_gen v?i ??i s? là Lk-1(t?p các large(k-1)-itemset) s? cho l?i
k?t qu? là m?t superset, t?p c?a t?t c? các large k – itemset. S? ?? sau
là thu?t toán cho hàm này.
Input: t?p m?c ph? bi?n Lk-1 có kích th??c k-1
Output: t?p ?ng c? viên Ck
Method:
function apriori-gen(Lk-1: t?p m?c ph? bi?n có kích th??c k-1)
Begin
For (m?i L1 Lk-1) do
For (m?i L2 Lk-1) do
begin
If ((L1[1]=L2[1]) (L1[2]=L2[2]) ... (L1[k-2]=L2[k-2]) (L1[k-1]=L2[k-
1])) then
c = L1 L2; // k?t n?i L1 v?i L2 sinh ra ?ng c? viên c
If has_infrequent_subset(c, Lk-1) then
remove (c) // b??c t?a (xoá ?ng c? viên c)
else Ck = Ck {c}; k?t t?p c vào Ck
end;
Return Ck;
End;
Hàm ki?m tra t?p con k-1 m?c c?a ?ng c? viên k-m?c không là t?p ph? bi?n:
function has_infrequent_subset(c: ?ng c? viên k-m?c; Lk-1 t?p ph? bi?n k-
1 m?c)
Begin
//s? d?ng t?p m?c ph? bi?n tr??c
For (m?i t?p con k-1 m?c s c?a c) do
If s Lk-1 then return TRUE;
End;
Có th? mô t? hàm Apriori_gen trên theo l??c ?? sau:
Input: t?p các large(k-1)- itemset Lk-1
Output: t?p candidate k-itemset Ck
Method:
Hàm Apriori-gen() //b??c n?i
1. insert into Ck
2. select p.item1, p.item2,..., p.itemk-1, q.itemk-1
3. from Lk-1p , Lk-1q
4. where p.item1=q.item1 , …, p.itemk-2=q.itemk-2, p.itemk-1<q.itemk-1
//b??c c?t t?a:
5. for (m?i t?p m?c c Ck) do
6. for (m?i (k-1) t?p con s c?a c( do
7. if (s   Lk-1) then
8. delete c kh?i Ck;
6.3. Khai phá các lu?t k?t h?p ?a c?p t? c? s? d? li?u giao d?ch
(Mining multilevel association rules from transaction databases)
Trong nhi?u ?ng d?ng khó có th? tìm ???c lu?t k?t h?p m?nh gi?a d? li?u
t?p m?c ? m?c th?p ho?c m?c ?? tr?u t??ng nguyên th?y c?a DL không gian
?a chi?u. lu?t k?t h?p m?nh ???c phát hi?n ? m?c khái ni?m cao có th?
???c di?n t? b?ng nh?ng ki?n th?c ph? thông.
Ví d? 6.3 gi? s? chúng ta có d? li?u giao d?ch trong b?ng 6.1. bán l? các
s?n ph?m máy tính t?i chi nhánh AllElectronics, ch? ra m?i s?n ph?n ???c
mua cho m?i giao dich TID
M?t h? th?ng c?p b?c khái ni?m ?? m?t chu?i các ánh x? t? m?t t?p h?p các
khái ni?m c?p th?p ??n c?p cao h?n, khái ni?m t?ng quát h?n. D? li?u có
th? ???c khái quát hóa b?ng cách thay th? các khái ni?m m?c th?p trong d?
li?u c?a các khái ni?m m?c ?? cao h?n c?a h?, ho?c t? tiên, t? m?t h?
th?ng khái ni?m 4.
For many applications, it is di_cult to _nd strong associations among
data items at low or primitive levels of abstraction due to the sparsity
of data in multidimensional space. Strong associations discovered at very
high concept levels may represent common sense knowledge. However, what
may represent common sense to one user, may seem novel to another.
Therefore, data mining systems should provide capabilities to mine
association rules at multiple levels of abstraction and traverse easily
among di_erent abstraction spaces.
Let's examine the following example. Example 6.3 Suppose we are given the
task-relevant set of transactional data in Table 6.1 for sales at the
computer department of an AllElectronics branch, showing the items
purchased for each transaction TID. The concept hierarchy for the items
is shown in Figure 6.8. A concept hierarchy de_nes a sequence of mappings
from a set of low level concepts to higher level, more general concepts.
Data can be generalized by replacing low level concepts within the data
by their higher level concepts, or ancestors, from a concept hierarchy 4.
The concept hierarchy of Figure 6.8 has



Trên cây phân c?p trên có 4 m?c t? m?c 0 ,1,2 ??n m?c 3.
M?c 0 là m?c g?c c?a cây
M?c m?c 1 g?m: computer, software, printer and computer accessory
M?c 2 g?m: home computer, laptop computer, education software, financial
management software, ..
M?c 3 g?m: IBM home computer, .., Microsoft educational
Software.
M?c 3 là m?c tr?u t??ng nh?t trong cây phân c?p trên,
TID    Items Purchased
1
2
3
4
5
…..    IBM home computer, Sony b/w printer
Microsoft educational software, Microsoft _nancial management software
Logitech mouse computer-accessory, Ergo-way wrist pad computer-accessory
IBM home computer, Microsoft _nancial management software
  IBM home computer
. . . . . .

B?ng 6.1 là m?c th?p nh?t c?a cây phân c?p, chúng ta th?y khó tìm ra ???c
m?u t? các m?u d? li?u ? m?c thô ho?c m?c nguyên th?y. ví d? “IBM home
computer” ho?c “Sony b/w printer” xu?t hi?n r?t ít trong các giao d?ch
thì khó tìm ???c m?t lu?t k?t h?p m?nh liên quan ??n các m?t hàng ?ó.
Khách hàng có th? mua các m?t hàng cùng nhau, ?i?u ?ó có th? không x?y ra
giao d?ch “IBM home computer, Sony b/w printer” v?i ?? h? tr? t?i thi?u
Tuy nhiên các giao d?ch “IBM home computer, b/w printer” s? có ?? h? tr?
m?nh h?n


The items in Table 6.1 are at the lowest level of the concept hierarchy
of Figure 6.8. It is di_cult to _nd interesting purchase patterns at such
raw or primitive level data. For instance, if \IBM home computer" or
\Sony b/w (black and white) printer" each occurs in a very small fraction
of the transactions, then it may be di_cult to _nd strong associations
involving such items. Few people may buy such items together, making it
is unlikely that the itemset \fIBM home computer, Sony b/w printerg" will
satisfy minimum support. However, consider the generalization of \Sony
b/w printer" to \b/w printer". One would expect that it is easier to _nd
strong associations between \IBM home computer" and \b/w printer" rather
than between \IBM home computer" and \Sony b/w printer".
Similarly, many people may purchase \computer" and \printer" together,
rather than speci_cally purchasing \IBM home computer" and \Sony b/w
printer" together. In other words, itemsets containing generalized items,
such as \fIBM home computers, b/w printerg" and \fcomputer, printerg" are
more likely to have minimum support than itemsets containing only
primitive level data, such as \fIBM home computers, Sony b/w printerg".
Hence, it is
easier to _nd interesting associations among items at multiple concept
levels, rather than only among low level data.
3.3.2 Ph??ng pháp ti?p c?n các quy t?c khai phá lu?t d? li?u ?a c?p
Làm th? nào có th? chúng ta ti?p c?n các quy t?c khai phá lu?t d? li?u ?a
c?p
Hãy xem xét m?t s? ph??ng pháp ti?p c?n d?a trên m?t khuôn kh? ?? h?
tr?. Nói chung, m?t chi?n l??c t? trên xu?ng là làm vi?c, n?i mà tính
???c tích l?y ?? tính toán các t?p ph? bi?n ? m?i c?p ?? khái ni?m, b?t
??u ? m?c ?? khái ni?m 1 và làm vi?c theo h??ng th?p h?n, nhi?u h?n m?c
khái ni?m, cho ??n khi không có m?t t?p th? th??ng xuyên h?n ???c tìm
th?y. ?ó là, m?t khi t?t c? các t?p ph? bi?n ? m?c 1 khái ni?m ???c tìm
th?y, sau ?ó các t?p ph? bi?n ? m?c 2 ???c tìm th?y, và nh? v?y. ??i v?i
m?i c?p, b?t k? thu?t toán ?? phát hi?n các t?p ph? bi?n có th? ???c s?
d?ng, ch?ng h?n nh? Apriori ho?c các bi?n th? c?a nó. M?t s? bi?n th? c?a
ph??ng pháp này ???c mô t? d??i ?ây, và minh h?a trong hình 6,9-6,13, n?i
mà hình ch? nh?t cho bi?t m?t m?c ho?c itemset ?ã ???c ki?m tra, và hình
ch? nh?t v?i biên gi?i dày ch? ra r?ng m?t m?c ki?m tra ho?c t?p m?c
th??ng xuyên.
How can we mine multilevel association rules eciently using concept
hierarchies?"
Let's look at some approaches based on a support-con dence framework. In
general, a top-down strategy is employed, where counts are accumulated
for the calculation of frequent itemsets at each concept level, starting
at the concept level 1 and working towards the lower, more specic concept
levels, until no more frequent itemsets canbe found. That is, once all
frequent itemsets at concept level 1 are found, then the frequent
itemsets at level 2 are found, and so on. For each level, any algorithm
for discovering frequent itemsets may be used, such as Apriori or its
variations. A number of variations to this approach are described below,
and illustrated in Figures 6.9 to 6.13, where rectangles indicate an item
or itemset that has been examined, and rectangles with thick borders
indicate that an examined item or itemset is frequent.
S? d?ng th?ng nh?t h? tr? t?i thi?u cho t?t c? các c?p (g?i t?t là h? tr?
th?ng nh?t nh?): Cùng m?t ng??ng h? tr? t?i thi?u ???c s? d?ng khi khai
lu?t k?t h?p t?i m?i c?p tr?u t??ng. Ví d?, trong 6,9 hình, m?t ng??ng h?
tr? t?i thi?u là 5% ???c s? d?ng trên toàn (ví d?, khai thác t? máy tính
\ "xu?ng \ máy tính xách tay").
C? hai máy tính \ "và máy tính xách tay \" ???c tìm th?y s? ???c th??ng
xuyên, trong khi \ nhà máy tính "không. Khi m?t ng??ng t?i thi?u th?ng
nh?t h? tr? ???c s? d?ng, các th? t?c tìm ki?m là simpli ed. Ph??ng pháp
này c?ng ??n gi?n trong ?ó ng??i dùng ???c yêu c?u xác ??nh ch? có m?t
ng??ng h? tr? t?i thi?u. M?t k? thu?t t?i ?u có th? ???c thông qua, d?a
trên s? hi?u bi?t r?ng t? tiên m?t là m?t siêu c?a con cháu c?a mình: tìm
ki?m tránh ki?m tra có ch?a m?t t?p m?c b?t k? mà t? tiên không có h? tr?
t?i thi?u.
Các ph??ng pháp ti?p c?n h? tr? th?ng nh?t, tuy nhiên, có m?t s? culties
di. D??ng nh? các m?c ? các c?p th?p h?n tr?u t??ng s? x?y ra nh? th??ng
xuyên nh? nh?ng ng??i ? các c?p ?? tr?u t??ng cao h?n. N?u ng??ng
minimumsupport ???c ??t quá cao, nó có th? b? l? m?t s? hi?p h?i có ý
ngh?a tr?u t??ng x?y ra ? các c?p ?? th?p. N?u ng??ng ???c thi?t l?p quá
th?p, nó có th? t?o ra nhi?u uninteresting hi?p h?i x?y ra ? các c?p ??
tr?u t??ng cao. Này cung c?p ??ng l?c cho các ph??ng pháp sau ?ây.

1. Using uniform minimum support for all levels (referred to as uniform
support): The same minimum support threshold is used when mining at each
level of abstraction. For example, in Figure 6.9, a minimum support
threshold of 5% is used throughout (e.g., for mining from \computer" down
to \laptop computer").
Both \computer" and \laptop computer" are found to be frequent, while
\home computer" is not. When a uniform minimum support threshold is used,
the search procedure is simplied. The method is also simple in that users
are required to specify only one minimum support threshold. An
optimization technique can be adopted, based on the knowledge that an
ancestor is a superset of its descendents: the search avoids examining
itemsets containing any item whose ancestors do not have minimum support.
The uniform support approach, however, has some dificulties. It is
unlikely that items at lower levels of abstraction will occur as
frequently as those at higher levels of abstraction. If the
minimumsupport threshold is set too high, it could miss several
meaningful associations occurring at low abstraction levels. If the
threshold is

6.4 Khai phá lu?t k?t h?p ?a chi?u t? m?i quan h? gi?a c? s? d? li?u và
kho d? li?u
6.4.1 Các lu?t k?t h?p ?a chi?u
Nhìn l?i ch??ng tr??c, chúng ta ?ã nghiên c?u các lu?t k?t h?p ??n thu?c
tính, thu?c tính Buys. Ví d? trong khám phá c? s? d? li?u
AllElectronics, chúng ta có th? khai phá lu?t k?t h?p logic “ IBM home
conputer => Sony b/w printer” có th? ???c vi?t nh? sau:
   (6.11)
Trong ?ó x là m?t bi?n bi?u di?n nh?ng khách hàng ?ã mua hàng trong các
giao d?ch c?a AllElectronics. T??ng t? n?u “printer” là s? t?ng quát hóa
c?a “Sony b/w printer” thì lu?t k?t h?p ?a m?c gi?ng nh? “ IBM home
Conputer => printer” có th? ???c trình bày nh? sau:
 (6.12)
Theo thu?t ng? dùng trong c? s? d? li?u ?a chi?u, chúng tôi ?? c?p ??n
m?i thu?c tính riêng trong m?i lu?t nh? là m?t chi?u (dimension). Do ?ó
chúng ra s? ?? c?p ??n các lu?t 6.11 và 6.12 nh? là lu?t k?t h?p kích m?t
chi?u ho?c lu?t k?t h?p chi?u bên trong, m?i lu?t ch?a m?t thu?c tính
riêng (ví d?: buys) v?i nhi?u s? ki?n (m?i v? ng? s?y ra v?i nhi?u lu?t).
Nh? chúng ta ?ã th?y trong ph?n tr??c c?a ch??ng này, các lu?t ???c khai
phá r?t ??n gi?n t? d? li?u giao d?ch.
      Tuy nhiên v?i vi?c s? d?ng m?t c? s? d? li?u giao d?ch, các thông
tin liên quan ???c l?u tr? trong m?t c? s? d? li?u liên quan ho?c kho d?
li?u nh? là s? l?u tr? d? li?u ?a chi?u. Ví d? ?? l?u tr? l?i m?t phiên
giao d?ch bán hàng, c? s? d? li?u liên quan có th? ???c l?u trên các
thu?c tính có liên quan c?a nh?ng th?c th? khác nhau ví d? nh?: s?
l??ng, giá, chi nhánh bán hàng, ngoài ra còn l?u tr? nh?ng thông tin liên
quan ??n khách hàng nh? là tu?i, ngh? nghi?p, lo?i th?, thu nh?p, ??a
ch?. S? tin c?y trong m?i thu?c tính c?a d? li?u ho?c kích c? c?a kho d?
li?u nh? là m?t thu?c tính, nó có th? h?u ích ?? khai thác lu?t k?t h?p
ch?a nhi?u thu?c tính, ví d? nh?

      Lu?t k?t h?p liên quan ??n hai ho?c nhi?u chi?u ho?c các thu?c tính
có th? ???c ?? c?p ??n nh? là các lu?t k?t h?p ?a chi?u. Lu?t 6.13 ch?a 3
thu?c tính (age, occupation, buys), m?i thu?c tính ?? c?p ??n m?t lu?t
duy nh?t. do ?ó chúng ta nói r?ng nó không có thu?c tính l?p l?i, lu?t
k?t h?p ?a chi?u v?i nh?ng thu?c tính không l?p l?i ???c g?i là lu?t k?t
h?p trong kích c? (inter-dimention). Chúng tôi c?ng quan tâm ??n vi?c
khai phá nh?ng lu?t k? h?p ?a chi?u v?i s? l?p l?i các thu?c tính. Các
lu?t này ???c g?i là lu?t k?t h?p ?a chi?u lai ghép (Hybrid-dimention).
Trong ví du 6.14 sau ?ây, thu?c tính buys là thu?c tính ???c l?p l?i

      Chú ý r?ng các thu?c tính c?a d? li?u có th? là tuy?t ??i
(categorical) ho?c s? l??ng, thu?c tính Categorical có m?t s? l??ng h?u
h?n các giá tr? có th? ch?p nh?n ???c, v?i nh?ng giá tr? gi?a không ???c
quan tâm ( opcupation, brand, color). Thu?c tính tuy?t ??i c?ng có th?
???c g?i là thu?c tính danh ngh?a (nominal). Thu?c tính s? l??ng
(quantitative) mang tính ch?t s? l??ng và có th? ?n trong các giá tr? (
tu?i, thu nh?p, giá). Công ngh? khai phá lu?t k?t h?p có th? là tuy?t ??i
d?a theo 3 cách ti?p c?p c? b?n liên quan ??n cách s? lý thu?c tính s?
l??ng (giá tr? liên t?c)

S? ?? hình kh?i ? trên minh h?a cho kh?i d? li?u 3 chi?u. M?i ?i?m mô t?
m?t nhóm khác nhau. Hình kh?i d?a trên 3 thu?c tính: age, income, buys.
? cách ti?p c?n ??u tiên, các thu?c tính s? l??ng r?i r?c ???c ??nh ngh?a
b?ng vi?c s? d?ng các khái ni?m th? b?c. S? r?i r?c này xu?t hi?n tr??c
khi khám phá. Ví d?, m?t khái ni?m th? b?c (phân c?p) cho thu?c tính
income có th? ???c dùng ?? thay th? cho giá tr? s? c?a thu?c tính nh? là:
“0-20K”, “21-30K”, “31=40K”…V?i ví d? này s? r?i r?c là t?nh và ???c quy
??nh tr??c. Thu?c tính s? r?i r?c, v?i các giá tr? theo vùng c?a chúng,
có th? ???c ??i x? nh? là các thu?c tính tuy?t ??i (categorical) Chúng
tôi ?? c?p ??n ?i?u này nh? là vi?c khai phá lu?t k?t h?p ?a chi?u s?
d?ng các thu?c tính s? l??ng r?i r?c t?nh.
Trong cách ti?p c?n th? hai, các thu?c tính sô l??ng là r?i r?c vào trong
“bins” d?a trên s? phân tán c?a d? li?u. Nh?ng thùng (bin) này có th?
???c k?t h?p trong su?t ti?n trình khám phá. Các ti?n trình r?i r?c là
??ng và ?ã xác minh vì v?y nó an toàn v? m?t s? ?i?u ki?n khai phá, ví d?
nh? ?? tin c?y l?n nh?t c?a s? khai phá các lu?t. b?i vì chi?n l??c ??i
v?i các thu?c tính có giá tr? s? nh? là s? l??ng h?n là ??nh ngh?a l?i
các vùng c?a d? li?u liên t?c, lu?t k?t h?p khai phá t? cách ti?p c?n này
c?ng ???c ?? c?p t?i nh? là lu?t k?t h?p s? l??ng ( quantitative
association rules)
Trong cách ti?p c?n th? ba, thu?c tính s? l??ng r?i r?c nh? là n?m l?y ý
ngh?a chính c?a kho?ng th?i gian s?y ra d? li?u. Th? t?c r?i r?c ??ng
yêu c?u kho?ng cách gi?a các ?i?m d? li?u. Vì th? lu?t k?t h?p s? l??ng
???c ?? c?p ??n nh? là lu?t k?t h?p d?a trên kho?ng cách. (distance-based
association rules)
Chúng ta cùng nghiên c?u v? nh?ng cách ti?p c?n khai phá lu?t k?t h?p ?a
chi?u. ?? ??n gi?n, chúng ta ti?p c?n v?i các th?o lu?n v? lu?t k?t h?p
chi?u bên trong (inter-dimention). Chú ý r?ng ngoài vi?c tìm ki?m t?p m?c
th??ng xuyên (làm gi?ng nh? v?i lu?t k?t h?p m?t chi?u), trong khai phá
lu?t k?t h?p ?a chi?u chúng ta tìm ki?m t?p thu?c tính th??ng xuyên. M?t
tâp k-predicate là t?p ch?a k thu?c tính liên ti?p. Ví d?, t?p thu?c tính
trong lu?t 6,13 là m?t t?p 3-thu?c tính. T??ng t? nh? các ký hi?u ???c s?
d?ng cho m?t t?p, chúng tôi s? d?ng Lk ký hi?u ?? ch? t?p g?m k thu?c
tính.
6.4.2 lu?t k?t h?p ?a chi?u s? d?ng s? phân ?o?n t?nh c?a thu?c tính ??nh
l??ng
Trong tr??ng h?p này thu?c tính ??nh l??ng ???c phân ?o?n, tr??c khi khai
thác s? d?ng khái ni?m phân c?p ???c xác ??nh tr??c, n?i mà giá tr? s?
???c thay th? b?i m?t kho?ng. thu?c tính c? th? c?ng có th? ???c t?ng
quát v? khái ni?m cao h?n n?u mu?n.
      N?u k?t qu? công vi?c có liên quan ??n d? li?u ???c l?u tr? trong
m?t b?ng quan h?, sau ?ó các thu?t toán yêu c?u s?a ??i ch? là m?t chút
?? tìm th?y t?t c? các t?n xu?t thu?c tính h?n là các t?n xu?t c?a t?p
m?c . Tìm t?t c? t?n xu?t k-thu?c tính s? yêu c?u k ho?c k + 1 l?n quét
b?ng. Các chi?n l??c khác, ch?ng h?n nh? dùng hàm b?m, phân vùng, và l?y
m?u có th? ???c s? d?ng ?? c?i thi?n hi?u su?t.
      Ngoài ra, vi?c chuy?n ??i d? li?u có liên quan ??n nhi?m v?, có th?
???c l?u tr? trong m?t kh?i d? li?u. Kh?i d? li?u là r?t phù h?p cho vi?c
khai phá lu?t k?t h?p ?a chi?u, vì chúng là ?a chi?u theo ??nh ngh?a.
Kh?i d? li?u, và tính toán c?a nó, ???c th?o lu?n chi ti?t trong ch??ng
2. ?? xem l?i, m?t kh?i d? li?u bao g?m m?t m?ng tinh th? c?a cuboids
???c c?u trúc d? li?u ?a chi?u. Nh?ng c?u trúc có th? gi? cho d? li?u có
liên quan tác v?, c?ng nh? t?ng h?p, nhóm c?a thông tin. Hình 6.14 cho
th?y l??i c?a cuboids xác ??nh m?t kh?i d? li?u cho các kích th??c tu?i
tác, thu nh?p, và mua s?m. Các ô c?a m?t hi?nh lâ?p ph??ng n-chi?ul ???c
s? d?ng ?? l?u tr? các s? l?n, ho?c h? tr?, c?a n-thu?c tính t??ng ?ng.
C? s? xây d?ng hi?nh lâ?p ph??ng là nh?ng nhi?m v?-d? li?u có liên quan
theo ?? tu?i, thu nh?p, và mua; các hi?nh lâ?p ph??ng 2-D (tu?i tác, thu
nh?p), t?p h?p theo ?? tu?i và thu nh?p; các 0-D (??nh) hi?nh lâ?p ph??ng
có t?ng s? các giao d?ch trong nhi?m v? d? li?u có liên quan và vv.
      Do vi?c s? d?ng ngày càng t?ng c?a kho d? li?u và công ngh? OLAP,
m?t kh?i d? li?u có th? ch?a các chi?u c?a lãi su?t cho ng??i s? d?ng có
th? ?ã ???c xu?t c?nh, ??y ?? v?t hoá. "Trong tr??ng h?p này, làm th? nào
chúng tôi có th? ?i v? vi?c tìm ki?m t?n xu?t c?a thu?c tính?" Astrategy
t??ng t? nh? làm vi?c tr??c khi có th? ???c s? d?ng ?? gi?m s? l??ng các
?ng c? viên là thu?c tính.
      Trong tr??ng h?p không có kh?i d? li?u có liên quan t?n t?i ??i v?i
nhi?m v? khai phá, ng??i ta ph?i t?o ra nó. Ch??ng 2 mô t? thu?t toán
nhanh, tính toán hi?u qu? c?a kh?i d? li?u. ?ây có th? ???c s?a ??i ??
tìm ki?m các t?p ph? bi?n trong xây d?ng kh?i l?p ph??ng. Các nghiên c?u
?ã ch? ra r?ng ngay c? khi m?t kh?i l?p ph??ng ph?i xây d?ng trên các
fly, khai thác t? các kh?i d? li?u có th? nhanh h?n là khai thác tr?c
ti?p t? m?t b?ng quan h?.
6.4.3 Khai phá lu?t k?t h?p ??nh l??ng
      Lu?t k?t h?p ??nh l??ng là lu?t k?t h?p ?a chi?u trong ?ó các thu?c
tính s? là ???c phân ?o?n ??ng trong quá trình khai phá ?? ?áp ?ng m?t s?
tiêu chu?n khai phá, nh? t?i ?a hóa s? t? tin c?y ho?c ch?t ch? trong các
quy t?c khai phá. Trong ph?n này, chúng tôi s? t?p trung ??c bi?t vào làm
th? nào ?? tôi liên k?t các quy t?c ??nh l??ng có hai thu?c tính ??nh
l??ng ? phía bên tay trái lu?t, và m?t thu?c tính phân lo?i ? phía bên
ph?i c?a lu?t, ví d?:

Trong ?ó   và   là ?? ki?m tra trên ph?m vi thu?c tính ??nh l??ng, bài
ki?m tra m?t thu?c tính phân lo?i t? nh?ng d? li?u tác v? có liên quan.
Quy t?c nh? v?y ?ã ???c g?i là lu?t k?t h?p ??nh l??ng hai chi?u, vì
chúng có ch?a hai thu?c tính ??nh l??ng, nh? tu?i tác c?a khách hàng và
thu nh?p, và lo?i tivi khách hàng mu?n mua h?n. M?t ví d? v? lu?t k?t h?p
??nh l??ng 2-D :

"Làm th? nào chúng ta có ???c lu?t nh? v?y" Hãy cùng xem m?t cách ti?p
c?n s? d?ng l?i g?i h? th?ng ARCS (Association Rule Clustering System),
m??n ý t??ng t? x? lý hình ?nh. V? c? b?n, ph??ng pháp này là cách ti?p
c?n các c?p b?n ?? c?a các thu?c tính ??nh l??ng và m?t l??i 2-D cho b?
?áp ?ng m?t ?i?u ki?n thu?c tính ???c phân hóa. L??i sau ?ó ???c tìm ra
cho các c?m ?i?m, t? ?ó các lu?t k?t h?p ???c t?o ra. Các b??c ti?p theo
???c tham gia vào ARCS:
Binning. ??nh l??ng thu?c tính có th? có m?t ph?m vi r?t r?ng c?a các giá
tr? xác ??nh tên mi?n c?a nó. Ch? c?n ngh? v? cách l?n, 2-D l??i ?i?n s?
???c n?u chúng ta quan tâm t?i tu?i và thu nh?p, n?i m?i giá tr? có th?
có c?a tu?i ???c ch? ??nh m?t v? trí duy nh?t trên m?t tr?c, và t??ng t?,
m?i giá tr? có th? thu nh?p ???c ch? ??nh m?t v? trí trên tr?c khác. ??
gi? cho l??i xu?ng ??n m?t kích th??c có th? qu?n lý, thay vì phân vùng
các ph?m vi c?a thu?c tính ??nh l??ng vào kho?ng. Nh?ng kho?ng là ??ng
sau ?ó chúng có th? ???c ti?p t?c k?t h?p trong quá trình khai phá. Quá
trình phân vùng ???c g?i là Bining, ngh?a là n?i kho?ng ???c coi là
"thùng". Ba chi?n l??c binning ph? bi?n là:
equi-width binning, các kích th??c kho?ng th?i gian c?a m?i bin là nh?
nhau
equi-depth, m?i bin có t?ng kho?ng cùng m?t s? b? ???c gán
tính ??ng nh?t d?a trên binning, bin ???c xác ??nh kích th??c ?? các b?
vào m?i thùng phân b? ??ng ??u.
Trong ARCS, binning equi-width ???c s? d?ng, n?i mà các kích th??c bin
cho t?ng thu?c tính ??nh l??ng là ??u vào c?a ng??i dùng. M?t m?ng 2-D
cho m?i thùng có th? liên quan ??n s? k?t h?p c? hai ??nh l??ng ???c t?o
ra. M?i t? bào gi? m?ng phân ph?i s? t??ng ?ng cho t?ng l?p có th? có c?a
các thu?c tính phân minh c?a phía bên ph?i cai tr?. B?ng cách t?o c?u
trúc d? li?u này, d? li?u có liên quan nhi?m v?, ch? c?n ???c quét m?t
l?n. M?ng 2-D cùng có th? ???c s? d?ng ?? t?o ra các quy t?c ??i v?i b?t
k? giá tr? c?a thu?c tính phân minh, d?a trên cùng m?t thu?c tính ??nh
l??ng hai. Binning c?ng ???c th?o lu?n trong Ch??ng 3.

Tìm t?n su?t c?a thu?c tính. M?t khi các m?ng 2-D có ch?a các phân ph?i
tính cho m?i th? lo?i ???c thi?t l?p, ?i?u này không ch? ???c dùng ?? tìm
t?n su?t c?a thu?c tính mà còn ?áp ?ng s? tin c?y t?i thi?u. Lu?t k?t h?p
m?nh m? sau ?ó có th? ???c t?o ra t? nh?ng t?p thu?c tính, s? d?ng m?t
thu?t toán ???c mô t? trong ph?n 6.2.2
Phân nhóm các lu?t k?t h?p. Các nguyên t?c liên k?t m?nh m? ??t ???c
trong b??c tr??c sau ?ó ???c ánh x? vào l??i 2-D. Hình 6.15 cho th?y m?t
lu?t k?t h?p ??nh l??ng 2 chi?u d? ?oán ?i?u ki?n mua (X, "?? phân gi?i
cao TV") ? phía bên ph?i lu?t, cho tu?i thu?c tính ??nh l??ng và thu
nh?p. B?n "X" t??ng ?ng v?i các lu?t:

"Chúng ta có th? tìm th?y m?t lu?t ??n gi?n ?? thay th? b?n lu?t trên?"
Chú ý r?ng các lu?t là khá g?n nhau, t?o thành m?t c?m lu?t trên l??i.
Th?t v?y, b?n quy t?c có th? ???c k?t h?p ho?c "c?m" v?i nhau ?? t?o quy
t?c 6,20 d??i ?ây, m?t quy t?c ??n gi?n mà subsumes và thay th? b?n lu?t
trên.

ARCS s? d?ng thu?t toán phân c?m cho m?c ?ích này. Thu?t toán quét l??i,
tìm ki?m cho c?m hình ch? nh?t các lu?t. B?ng cách này, bin c?a thu?c
tính ??nh l??ng x?y ra trong vòng m?t nhóm các lu?t có th? ???c ti?p t?c
k?t h?p, do ?ó n?a phân ho?ch ??ng c?a các thu?c tính ??nh l??ng x?y ra.
K? thu?t d?a trên l??i mô t? ? ?ây gi? ??nh r?ng các nguyên t?c liên k?t
ban ??u có th? ???c nhóm l?i thành các vùng hình ch? nh?t. Tr??c khi th?c
hi?n phân nhóm, các k? thu?t làm m?n có th? ???c s? d?ng ?? giúp lo?i b?
nhi?u và d? li?u ko liên quan. C?m ch? nh?t có th? ??n gi?n h?n d? li?u.
Ph??ng pháp ti?p c?n khác ?ã ???c ?? xu?t, d?a trên hình d?ng khác c?a
khu v?c ?ó có xu h??ng t?t h?n phù h?p v?i nh?ng d? li?u, nh?ng v?n ?òi
h?i n? l?c tính toán l?n h?n.
M?t k? thu?t không d?a trên l??i ?ã ???c ?? xu?t ?? tìm nguyên t?c liên
k?t t?ng quát h?n v? s? l??ng, n?i b?t k? s? l??ng thu?c tính ??nh l??ng
và phân hóa ???c t? ??ng phân vùng s? d?ng Bining equi-depth, và các phân
vùng ???c k?t h?p d?a trên m?t th??c ?o c?a s? hoàn ch?nh m?t ph?n trong
?ó l??ng hóa thông tin b? m?t do phân vùng. ??i v?i các tài li?u tham
kh?o v? các l?a ch?n thay th? cho các ARCS, xem ghi chú th? m?c.

6.4.4 Khai phá lu?t k?t h?p d?a trên kho?ng cách
      Các mô t? v? lu?t k?t h?p ??nh l??ng ? trên n?i mà các thu?c tính
??nh l??ng ???c phân hóa ban ??u b?i ph??ng pháp binning , và k?t qu? là
t?ng h?p l?i. ?ó là m?t cách ti?p c?n, tuy nhiên, có th? s?y ra vi?c
không n?m b?t ???c ng? ngh?a c?a d? li?u kho?ng th?i gian k? t? khi h?
không xem xét các kho?ng cách t??ng ??i gi?a các d? li?u ?i?m ho?c gi?a
hai l?n.
      Xem xét, ví d?, hình 6,16 trong ?ó cho th?y d? li?u thu?c tính giá
, phân chia theo phân vùng equi-depth và equi-width, so v?i m?t phân vùng
equi trên kho?ng cách. Các phân vùng d?a trên kho?ng cách có v? nh? các
tr?c quan nh?t, vì nó nhóm ???c các giá tr? g?n nhau trong cùng m?t
kho?ng th?i gian (ví d?: 20,22). Ng??c l?i, phân vùng equi-depth nhóm các
giá tr? kho?ng cách v?i nhau (ví d?: 22,50). Equi-width có th? chia các
giá tr? g?n nhau và t?o ra nh?ng kho?ng mà không có d? li?u. Rõ ràng, m?t
kho?ng cách d?a trên phân vùng ?? xét m?t ?? ho?c s? ?i?m trong kho?ng
m?t, c?ng nh? s? g?n g?i c?a các ?i?m trong m?t kho?ng th?i giúp t?o ra
m?t phân rã có ý ngh?a h?n. Các kho?ng cho t?ng thu?c tính ??nh l??ng có
th? ???c thành l?p theo nhóm các giá tr? cho thu?c tính.
      M?t b?t l?i c?a lu?t k?t h?p là chúng không cho phép x?p x? các giá
tr? thu?c tính. Xem xét lu?t k?t h?p (6,21)

      Trong th?c t?, nhi?u kh? n?ng giá c? c?a m?t hàng ?i?n t? n??c
ngoài là kho?ng 200 $, h?n là chính xác 200 $. S? là h?u ích n?u có lu?t
k?t h?p có th? di?n t? nh? m?t khái ni?m v? s? g?n g?i. L?u ý r?ng ?? h?
tr? và ?? tin c?y không xem xét các s? x?p x? c?a các giá tr? c?a m?t
thu?c tính nh?t ??nh. ?i?u này thúc ??y vi?c khai phá các lu?t k?t h?p
d?a trên kho?ng cách, trên c? s? ?ó n?m b?t ???c ng? ngh?a c?a d? li?u
trong khi cho phép cho kho?ng x?p x? giá tr? d? li?u. Lu?t k?t h?p d?a
trên kh?ng cách, ??u tiên có th? ???c khai thác b?ng cách s? d?ng các k?
thu?t phân nhóm ?? tìm ra các kho?ng ho?c c?m, và sau ?ó tìm ki?m các c?m
nhóm x?y ra th??ng xuyên v?i nhau.

Nhóm và kho?ng cách ?o l??ng (Clusters and distance measurements)
      ""Cái gì ??nh ngh?a m?t c?m?"
Gi? s? S [X] là m?t t?p h?p các N b? t1, t2 ... tn d? án, thi?t l?p trên
thu?c tính X. ???ng kính d c?a S [X] là kho?ng cách trung bình gi?a các
c?p d? án trên các b? X. ?ó là

Tr??ng h?p distX là m?t th??c ?o kho?ng cách trên các giá tr? cho các
thu?c tính thi?t l?p X, ch?ng h?n nh? kho?ng cách Euclide hay Manhattan.
Ví d?, gi? s? r?ng X có ch?a thu?c tính m. Kho?ng cách Euclide gi?a hai
b?   và   là:

Kho?ng cách   Manhattan gi?a t1 và t2 là:

      Các s? li?u ???ng kính ?ánh giá ?? g?n g?i c?a các b?. Các nh? h?n
???ng kính c?a S [X] thì g?n g?i h?n v?i các b? c?a nó h?n là khi chi?u
lên X. Do ?ó, các s? li?u ???ng kính ?ánh giá m?t ?? c?a m?t nhóm. M?t
nh?m CX là m?t t?p h?p các b? ??nh ngh?a trên m?t thu?c tính thi?t l?p X,
n?i các b? ?áp ?ng m?t d0X ng??ng m?t ?? và ng??ng m?t t?n s?, S0 nh?
sau:

C?m có th? k?t h?p ?? t?o thành lu?t k?t h?p d?a trên kho?ng cách. Hãy
xem xét m?t quy t?c liên k?t t? xa d?a trên ??n gi?n có d?ng CX=>CY . Gi?
s? X là thu?c tính t?p {tu?i} và Y là {thu nh?p}. Chúng tôi mu?n ??m b?o
r?ng các ý ngh?a gi?a nhóm CX cho ?? tu?i và CY cho thu nh?p là m?nh.
?i?u này có ngh?a r?ng khi b? nhóm tu?i CX là d? án vào thu nh?p thu?c
tính, t??ng ?ng giá tr? thu nh?p c?a h? n?m trong CY, ho?c g?n v?i nó.
M?t d? án c?m CX vào thu?c tính thi?t l?p ???c ký hi?u là CX[Y]. Do ?ó
kho?ng cách gi?a CX[Y] và CY[Y] ph?i ??c nh?. kho?ng cách này ?o m?c ??
liên k?t gi?a CX và CY. Các kho?ng cách gi?a CX [Y] và CY [Y] càng nh?
thì m?c ?? liên k?t gi?a CX và CY càng m?nh. M?c ?? liên k?t có th? ???c
??nh ngh?a b?ng cách s? d?ng ??n v? th?ng kê tiêu chu?n , ch?ng h?n nh?
kho?ng cách liên nhóm trung bình, ho?c kho?ng cách Manhattan centroid n?i
centroid c?a nhóm m?t ??i di?n cho các b? trung bình c?a nhóm.
Finding cluster and distance-based rules (tìm ki?m nhóm và lu?t d?a trên
kho?ng cách)
      M?t thu?t toán hai pha thích h?p có th? ???c s? d?ng ?? tìm lu?t
k?t h?p d?a trên kho?ng cách, n?i mà các c?m ???c xác ??nh trong giai
?o?n ??u, và k?t h?p trong giai ?o?n th? hai ?? hình thành các lu?t.
M?t phiên b?n s?a ??i c?a các thu?t toán BIRCH clustering ???c s? d?ng
trong giai ?o?n ??u tiên (BIRCH clustering là thu?t toán ???c mô t? chi
ti?t trong ch??ng 8 v? clustering), thu?t toán duy trì m?t c?u trúc d?
li?u ???c g?i là m?t liên k?t c?m tính n?ng cho t?ng c?m mà duy trì thông
tin v? các c?m và chi?u c?a nó lên b? thu?c tính khác. Các thu?t toán c?m
thích nghi v?i s? l??ng b? nh? có s?n.
Trong giai ?o?n 2 c?m ???c k?t h?p ?? tìm lu?t k?t k?t h?p d?a trên
kho?ng cách : trong ?ó Xi và Yi ???c phân chia c?p b? thu?c tính, D là
th??c ?o c?a m?c ?? liên k?t gi?a các c?m nh? mô t? ? trên, và các ?i?u
ki?n sau ?ây:
Các c?m trong lu?t tr??c ???c k?t h?p m?nh m? v?i m?i c?m trong k?t qu?.
?ó là   trong ?ó D0 là m?c ?? ng??ng k?t h?p.
C?m trong kì tr??c các chung x?y ra v?i nhau. ?ó là:   trong ?ó doYi là
ng??ng m?t ?? trên thu?c tính thi?t l?p Yi.
M?c ?? liên k?t thay th? khuôn kh? ni?m tin vào nguyên t?c liên k?t không
d?a trên kho?ng cách, trong khi m?t ?? ng??ng thay th? các khái ni?m h?
tr?.
Quy t?c ???c tìm th?y v?i s? giúp ?? c?a liên k?t phân nhóm ?? th?, n?i
m?? nút trong ?? th? ??i di?n cho m?t nhóm. M?i c?nh ???c trích ra t? m?t
nút c?m t? nCX, t?i nCY

M?t nhóm trong ?? th? liên k?t nh? là t?p h?p con c?a các nút, m?i c?p
trong ?ó ???c k?t n?i b?i m?t c?nh. Các thu?t toán tìm ki?m cho t?t c?
cliques t?i ?a. Nh?ng t??ng ?ng v?i t?p ph? bi?n mà t? ?ó các nguyên t?c
liên k?t d?a trên kho?ng cách có th? ???c t?o ra.
6.5 T? khai phá k?t h?p ??n phân tích t??ng quan (From association mining
to correlation analysis)
Khi khai phá lu?t k?t h?p, làm th? nào có th? h? th?ng khai thác d? li?u
cho bi?t các lu?t nào có kh? n?ng ???c ng??i s? d?ng ?a thích?"
      H?u h?t các lu?t k?t h?p s? d?ng thu?t toán v?i s? liên quan gi?a
?? ?o và ?? tin c?y. M?c dù s? d?ng các ng??ng h? tr? t?i thi?u và s? t?
tin ?? lo?i tr? ho?c lo?i tr? các th?m dò c?a nh?ng lu?t không ???c ?a
thích, nhi?u lu?t không ???c ng??i dùng ?a thich v?n có th? ???c s?n
xu?t. Trong ph?n này tr??c tiên chúng ta tìm hi?u làm th? nào có lu?t k?t
h?p m?nh, ngay c? nguyên t?c liên k?t m?nh m? có th? ???c không ???c ?a
thích và gây hi?u nh?m, sau ?ó th?o lu?n v? m?t bi?n pháp b? sung d?a
trên n?n ??c l?p th?ng kê và phân tích t??ng quan.
6.5.1 Các lu?t m?nh không nh?t thi?t ph?i ???c ?a thich: m?t ví d?
(Strong rules are not necessarily intersting: an example)
      "Trong khai phá d? li?u, t?t c? các lu?t k?t h?p m?nh m? phát hi?n
?? ?a thích ?? trình bày cho ng??i dùng" Cho dù lu?t k?t h?p là
interesting nh?ng không th? ch? quan. Cu?i cùng, ch? có ng??i s? d?ng có
th? ?ánh giá lu?t k?t h?p ??a ra là interesting hay không, và b?n án này,
???c ch? quan, có th? khác nhau t? m?t trong nh?ng ng??i dùng khác. ??ng
sau nh?ng d? li?u có th? ???c s? d?ng nh? là m?t b??c h??ng t?i m?c tiêu
c?a weeding ra unintersting quy t?c t? trình bày cho ng??i dùng. "Vì v?y,
làm th? nào chúng tôi có th? nói ?ó là nguyên t?c liên k?t m?nh m? th?c
s? intersting?". Hãy xem xét ví d? sau
      Ví d? 6,4 Gi? s? chúng ta quan tâm ??n phân tích các giao d?ch
thu?c tính AllElectronics v?i s? tôn tr?ng vi?c mua các trò ch?i máy tính
và video. Các s? ki?n game ?? c?p ??n các giao d?ch có ch?a các trò ch?i
máy tính, trong khi video ?? c?p ??n nh?ng giao d?ch có ch?a video .
Trong s? 10,000 giao d?ch ???c phân tích, các s? li?u cho th?y 6.000 các
giao d?ch khách hàng bao g?m các trò ch?i máy tính, trong khi video bao
g?m 7.500, và 4.000 bao g?m c? các trò ch?i máy tính và video. Gi? s?
r?ng hi?p h?i khai thác d? li?u ch??ng trình ?ã phát hi?n nguyên t?c liên
k?t trong ch?y trên Dara, s? d?ng liên k?t h? tr? t?i thi?u, nói 30% và
s? t? tin t?i thi?u là 60%. Các lu?t k?t h?p sau ?ây ???c phát hi?n

Lu?t 6,27 là m?t lu?t k?t h?p m?nh và do ?ó s? ???c báo cáo, k? t? khi
giá tr? ?? h? tr? là   và ?? tin c?y là ?áp ?ng các ng??ng h? tr? t?i
thi?u và s? t? tin t?i thi?u, t??ng ?ng. Tuy nhiên, nguyên t?c là gây
hi?u nh?m 6,27 m??t khác xác su?t mua video 75%, trong ?ó th?m chí còn
l?n h?n 66%. Th?c t?, trò ch?i máy tính và video ???c tiêu c?c liên quan
b?i vì vi?c mua m?t trong nh?ng m?c này th?c s? làm gi?m kh? n?ng mua các
khác. N?u không có ??y ?? hi?u bi?t v? hi?n t??ng này, ta có th? ??a ra
quy?t ??nh kinh doanh khôn ngoan d?a trên các quy t?c xu?t phát.
      Ví d? trên c?ng minh h?a r?ng ?? tin c?y c?a m?t lu?t A => B có th?
???c l?a d?i trong ?ó nó ch? là m?t ??c tính c?a xác su?t có ?i?u ki?n
c?a B cho A. Nó không ?o l??ng s?c m?nh th?t s? c?a ý ngh?a gi?a A và B.
Do ?ó , l?a ch?n thay th? ?? ?? h? tr? - ?? tin c?y có th? h?u ích trong
các m?i quan h? interesting khai thác d? li?u.
      Hai s? ki?n A và B là ??c l?p khi   n?u không thì A và B là ph?
thu?c và t??ng quan. ??nh ngh?a này có th? d? dàng ???c m? r?ng ??n h?n
hai bi?n. M?i t??ng quan gi?a A và B có th? ???c ?o b?ng máy tính


N?u giá tr? k?t qu? c?a ph??ng trình 6,28 là ít h?n 1 thì A và B là t??ng
quan tiêu c?c, ngh?a là m?i s? ki?n khuy?n khích s? xu?t hi?n c?a nhau.
N?u k?t qu? là giá tr? l?n h?n 1 sau ?ó A và B là t??ng quan tích c?c,
ngh?a là m?i s? ki?n ng? ý gi?a chúng.
Tr? v? trò ch?i máy tính và d? li?u video c?a Ví d? 6,4
Ví d? 6,5 ?? giúp l?c ra các sai l?ch các lu?t k?t h?p mining?nh A => B,
chúng ta c?n ph?i nghiên c?u cách th?c các s? ki?n hai, A và B là t??ng
quan. Coi là các giao d?ch c?a Ví d? 6,4 mà không ch?a các trò ch?i máy
tính, và   là nh?ng giao d?ch không có video. Các giao d?ch có th? ???c
tóm t?t trong m?t b?ng d? phòng. M?t b?ng contigency cho d? li?u c?a 6,4
Ví d? ???c hi?n th? trong b?ng 6.2. T? b?ng, có th? se r?ng xác su?t c?a
vi?c mua m?t trò ch?i máy tính là P (trò ch?i) = 0,6, xác su?t mua m?t
video là P (video) = 0,75, và xác su?t c?a c? hai là mua   theo ph??ng
trình 6,28
      K? t? khi giá tr? này là ?áng k? ít h?n 1, có m?t s? t??ng quan
tiêu c?c gi?a các trò ch?i máy tính và video. nominator là kh? n?ng c?a
khách hàng mua c? hai, trong khi m?u s? là nh?ng gì likelihoof s? có ???c
n?u hai mua ???c hoàn toàn ??c l?p. Nh? m?t s? t??ng quan tiêu c?c có th?
không ???c indentified b?i m?t h? tr? - khuôn kh? s? t? tin.
      ?i?u này thúc ??y vi?c khai thác các quy t?c mà xác ??nh m?i t??ng
quan ho?c các quy ??nh t??ng quan. M?t nguyên t?c t??ng quan là hình th?c
{e1,e2,…,em} n?i xu?t hi?n c?a các s? ki?n {e1,e2,…,em} là t??ng quan.
Cho m?t giá tr? t??ng quan ???c xác ??nh b?i ph??ng trình 6,28 các s?
li?u th?ng kê có th? ???c dùng ?? xác ??nh xem s? t??ng quan có ý ngh?a
th?ng kê. S? li?u th?ng kê   c?ng có th? xác ??nh ý ngh?a tiêu c?c.
M?t l?i th? c?a s? t??ng quan là nó tr? lên ?óng c?a. ?i?u này có ngh?a
là n?u m?t t?p S các h?ng m?c có liên quan, sau ?ó m?i siêu c?a S c?ng
t??ng quan. Nói cách khác, thêm các m?c vào m?t t?p h?p các m?c t??ng
quan không lo?i b? ???c các m?i t??ng quan hi?n t?i. S? li?u th?ng kê
c?ng tr? lên ?óng c?a trong m?i c?p có ý ngh?a.
Khi tìm ki?m các b? t??ng quan ?? hình thành các quy t?c t??ng quan, các
tài s?n ?óng c?a tr? lên và t??ng quan   có th? ???c s? d?ng. B?t ??u v?i
t?p r?ng, chúng tôi có th? khám phá nh?ng không gian itemset, thêm m?t
m?c thu?c tính trong m?t th?i gian, tìm ki?m m?t t?p t?i thi?u t??ng quan
- m?t t?p ???c t??ng quan m?c dù không có t?p con c?a h? là t??ng quan.
Vì t?t c? các supersets c?a m?t itemset t??ng quan t?i thi?u là t??ng
quan, chúng ta có th? ng?ng tìm ki?m tr? lên. M?t thu?t toán mà th?c hi?n
m?t lo?t các ví d? "?i" không gian itemset qua ???c g?i là thu?t toán
ng?u nhiên ?i b?. M?t thu?t toán nh? v?y có th? k?t h?p v?i các bài ki?m
tra v? h? tr? ?? th?c hi?n c?t t?a thêm. Các thu?t toán ng?u nhiên ?i b?
có th? d? dàng ???c th?c hi?n b?ng cách s? d?ng kh?i d? li?u. ?ây là m?t
v?n ?? m? ?? thích ?ng v?i các th? t?c ?? c? s? d? li?u mô t? ? ?ây r?t
Lary. h?n ch? khác là th?ng kê ???c ít chính xác h?n khi b?ng d? li?u d?
phòng là th?a th?t. nghiên c?u thêm là c?n thi?t trong vi?c x? lý tr??ng
h?p nh? v?y.
6.6 Khai phá k?t h?p d?a trên ràng bu?c - Constrait-based association
mining
      ??i v?i m?t t?p h?p d? li?u cho tác v? có liên quan, quá trình khai
thác d? li?u có th? phát hi?n ra hàng ngàn quy t?c, trong ?ó có nhi?u
unintersting cho ng??i dùng. Trong khai thác h?n ch? trên, khai thác ???c
th?c hi?n theo gidance các lo?i h?n ch? cung c?p b?i ng??i s? d?ng. Nh?ng
khó kh?n này bao g?m:
1. ràng bu?c v? lo?i ki?n th?c : c?n ??nh rõ lo?i c?a ki?n th?c ???c khai
thác.
2. D? li?u h?n ch?: các ch? ??nh nhi?m v? t?p h?p d? li?u-có liên quan.
3. ràng bu?c v? Kích th??c / m?c ?? : Các ch? ??nh kích th??c c?a d? li?u
c?a các c?p c?a khái ni?m phân c?p s? ???c s? d?ng
4. ràng bu?c v? Interestingness : Các ch? ??nh ng??ng v? các bi?n pháp
th?ng kê c?a interstingness quy ??nh, h? tr? các hi?p h?i nh? v?y và t?
tin.
5. ràng bu?c v? lu?t. Nh?ng hình th?c ch? ??nh các nguyên t?c ???c khai
thác. khó kh?n nh? v?y có th? ???c th? hi?n metarules hi?p h?i, ho?c b?ng
cách xác ??nh s? l??ng t?i ?a ho?c t?i thi?u là predicates trong kì tr??c
nguyên t?c hay h?u qu?, ho?c s? hài lòng c?a v? ng? c? th? v? giá tr?
thu?c tính, ho?c t?p h?p c?a h?.
Các h?n ch? trên có th? ???c quy ??nh b?ng cách s? d?ng m?t trình ?? cao
khai thác d? li?u khai báo truy v?n ngôn ng?, ch?ng h?n nh? ?ã mô t?
trong ch??ng 4.
Vi?c ??u tiên b?n trong s? các lo?i trên các ràng bu?c ?ã ???c ?? c?p
trong ph?n tr??c c?a cu?n sách này và ch??ng. Trong ph?n này, chúng tôi
th?o lu?n v? vi?c s? d?ng các quy t?c ràng bu?c ?? t?p trung vào nhi?m v?
khai phá d?lieeuj. ?i?u này làm phong phú thêm hình th?c khai thác ch?
d?a trên s? liên quan c?a các quy t?c khai thác c?a h? th?ng, ?? ý ??nh
c?a ng??i s? d?ng, do ?ó làm cho quá trình khai thác d? li?u hi?u qu?
h?n. Ngoài ra, m?t khai thác t?i ?u truy v?n có th? ???c s? d?ng ?? khai
thác các khó kh?n theo quy ??nh c?a ng??i s? d?ng, do ?ó làm cho quá
trình khai thác hi?u qu? h?n.
H?n ch? khai thác d?a trên khuy?n khích t??ng tác khai thác th?m dò và
phân tích. Trong ph?n 6.6.1, b?n s? nghiên c?u khai thác d? li?u theo
metarule d?n ???ng, n?i khó kh?n quy t?c cú pháp ???c quy ??nh trong các
hình th?c cai tr? m?u. Ph?n 6.6.2 th?o lu?n v? vi?c s? d?ng các h?n ch?
b? sung quy t?c, quy ??nh c? th? thi?t l?p / t?p con m?i quan h?, liên
t?c kh?i ??u c?a các bi?n, và ch?c n?ng t?ng h?p. Các ví d? minh h?a
trong các ph?n khác nhau khai thác d? li?u nguyên th?y ngôn ng? truy v?n
cho các lu?t khai phá d? li?u.
6.6.1 Metarule - h??ng d?n khai phá lu?t k?t h?p (Metarule-guided mining
of association rules)
      Metarules cho phép ng??i dùng ?? xác ??nh hình th?c cú pháp c?a các
quy t?c mà h? ?ang intersted trong khai thác m?. Các hình th?c cai tr? có
th? ???c s? d?ng nh? là khó kh?n ?? giúp nâng cao hi?u qu? c?a quá trình
khai thác m?. Metarules có th? d?a trên kinh nghi?m h? tr? các nhà phân
tích, k? v?ng, ho?c tr?c giác v? d? li?u, ho?c t? ??ng t?o ra d?a trên
l??c ?? c? s? d? li?u.
      Ví d? 6,6 Gi? s? nh? là m?t nhà phân tích th? tr??ng cho
AllElectronics, b?n ph?i truy c?p vào các d? li?u mô t? khách hàng c?ng
nh? danh sách các giao d?ch c?a khách hàng. B?n ?ang intersting trong
nh?ng ??c ?i?m liên k?t gi?a khách hàng và các m?c mà khách hàng mua. Tuy
nhiên, thay vì tìm ki?m t?t c? các nguyên t?c liên k?t reflectiong các
m?i quan h?, b?n là ??c bi?t intersting ch? trong vi?c xác ??nh nh?ng ??c
?i?m mà c?p khách hàng thúc ??y vi?c bán ph?n m?m giáo d?c. metarule A có
th? ???c dùng ?? xác ??nh thông tin này mô t? các hình th?c quy t?c b?n
?ang intersted trong vi?c tìm ki?m. M?t ví d? v? metarule nh? sau

      Trong ?ó P1 và P2 là các bi?n thu?c tính ch?a các thu?c tính l?y t?
c? s? d? li?u trong quá trình x? lý khai thác. X là bi?n th? hiên m?t
khách hàng, Y và W là các giá tr? c?a thu?c tính ???c gán cho P1 và P2.
Thông th??ng khách hàng s? li?t kê các thu?c tính ???c yêu c?u v?i P1 và
P2. Ngoài ra có th? m?c ??nh giá tr? cho chúng.
      M?t metarule hình th?c m?t gi? thuy?t v? m?i quan h? mà ng??i dùng
quan tâm ??n vi?c th?m dò ho?c xác nh?n. h? th?ng khai thác d? li?u sau
?ó có th? tìm ki?m các quy t?c phù h?p v?i metarule nh?t ??nh. Ví d? quy
t?c 6,30 phù h?p ho?c tuân th? các metarule 6,29

6.6.2 H??ng d?n Khai phá b?i nh?ng ràng bu?c lu?t b? sung(Mining guide by
additional rule constraints)
      Quy t?c h?n ch? quy ??nh c? th? thi?t l?p / các m?i quan h? t?p
h?p, liên t?c kh?i ??u c?a các bi?n, và ch?c n?ng t?ng h?p có th? ???c
nghiên c?u m?t ví d?, n?i khó kh?n quy t?c ???c s? d?ng ?? quy t?c c?a
tôi H?i lai-chi?u.
Ví d? 6,7 AllElectronics Gi? s? có m?t c? s? d? li?u bán hàng ?a chi?u
v?i nh?ng ?i?u sau ?ây liên quan ??n nhau c?a ng??i dùng. ?ây có th? ???c
s? d?ng cùng v?i, ho?c nh? là m?t thay th? cho, metarule-h??ng d?n khai
thác m?. Trong này quan h?: ph?n, chúng tôi ki?m tra quy t?c ràng bu?c
nh? th? nào h? có th? ???c s? d?ng ?? làm cho quá trình khai phá d? li?u
hi?u qu? h?n. Hãy cho chúng tôi

lives, item, và transaction là ba b?ng kích th??c, liên k?t v?i doanh thu
th?c t? thông qua ba bàn phím, customer_name, item_name, và
transaction_id, t??ng ?ng. lu?t k?t h?p c?a chúng tôi là danh sách m?t
hàng bán giá r? t? nh?ng m?c (n?i mà t?ng c?a các giá th?p h?n
$ 100) mà có th? thúc ??y doanh s? bán hàng c?a nh?ng gì ??t hàng (n?i
giá t?i thi?u là $ 500) trong cùng th? lo?i cho khách hàng Vancouver
trong n?m 1998 ". ?i?u này có th? ???c th? hi?n trong ngôn ng? truy v?n
d? li?u DMQL khai thác d? li?u nh? sau, trong ?ó m?i dòng c?a truy v?n ?ã
???c li?t kê ?? h? tr? trong cu?c th?o lu?n c?a chúng tôi.


Tr??c khi chúng tôi bàn lu?n nh?ng s? ràng bu?c quy t?c, ?? cho chúng ta
có m?t cái nhìn ng??i ?óng T?i ? trên câu h?i. K? 1 Là m?t ki?u ki?n
th?c. s? ràng bu?c, n?i nh?ng m?u hi?p h?i s? ???c khám phá. K? 2 là M?t
siêu th? lu?t. ?i?u này M?t Tóm t?t. m?u (d?ng) (cho) siêu th? lu?t sau
?ây (cho) nh?ng quy t?c hi?p h?i kích th??c- lai ( nh?ng quy t?c hi?p h?i
nhi?u chi?u ? ?âu. l?p l?i v? t? ? ?ây là nh?ng hàng bán):
8.7. Ph??ng pháp phân c?m d?a trên h? th?ng l??i (Grid-based clustering
methods)
M?t các ti?p c?n trên n?n l??i s? d?ng c?u trúc d? li?u l??i ?a ?? phân
gi?i. ??u tiên nó l??ng t? hóa không gian thành m?t s? h?u h?n các ô mà
t?o thành m?t c?u trúc l??i và sau ?ó th?c hi?n m?i thao tác h?u h?n
trong c?u trúc l??i nh? v?y. ?u ?i?m c?a ph??ng pháp này là th?i gian x?
lý nhanh mà th??ng là ??c l?p v?i s? l??ng các ??i t??ng d? li?u, ch? ph?
thu?c vào s? l??ng ô ? m?i chi?u trong không gian l??ng t?.




M?t s? ví d? ?i?n hình c?a ph??ng pháp ti?p c?n trên n?n l??i bao g?m
Sting, tìm hi?u thông tin th?ng kê ???c l?u tr? trong các t? bào l??i;
WaveCluster, trong ?ó c?m các ??i t??ng s? d?ng ph??ng pháp bi?n ??i
wavelet; và CLIQUE, ??i di?n cho l??i và ph??ng pháp ti?p c?n d? trên m?t
?? cho s? phân c?m trong không gian d? li?u kích th??c cao.
8.7.1. Sting: M?t ph??ng pháp ti?p c?n l??i thông tin th?ng kê
STING (Statistical Information Grid) là m?t ph??ng pháp ti?p c?n d?a trên
l??i ?a ?? phân gi?i ???c phát tri?n b?i Wang, Yang và Muntz 1997. Trong
ph??ng pháp này di?n tích không gian ???c chia thành các ô hình ch? nh?t.
Thông th??ng có nhi?u m?c nh? các ô hình ch? nh?t t??ng ?ng v?i các m?c
phân gi?i khác nhau nh?ng ô này t?o thành c?u trúc th? b?c: m?i ô ? m?c
cao ???c phân vùng ?? hình thành m?t s? ô ti?p theo ? m?c th?p h?n. H?n
n?a, nh?ng ph?n thông tin th?ng kê quan tr?ng, ch?ng h?n nh? giá tr?
trung bình, l?n nh?t, nh? nh?t, ??m, ?? l?ch chu?n, v.v k?t h?p v?i các
giá tr? thu?c tính trong m?i ô l??i ?ã ???c tính toán và ???c l?u tr?
tr??c khi m?t truy v?n ???c g?i t?i h? th?ng.
Hình 8.12. M?t c?u trúc th? b?c cho ph??ng pháp phân c?m STING

T?p h?p các s? li?u th?ng kê bao g?m các thông s? sau ?ây: các tham s?
thu?c tính ??c l?p, n (count), và các tham s? thu?c tính ph? thu?c, m
(mean), s (?? l?ch chu?n), min, ma (max) và ki?u phân b? mà giá tr? thu?c
tính trong các ô theo sau, nh? normal, uniform, exponential ho?c none
(n?u phân b? không rõ). Khi d? li?u ???c t?i vào trong c? s? d? li?u, t?p
h?p các thông s? n, m, s, min, ma.: c?a các ô t?ng d??i cùng ?ã ???c tính
toán tr?c ti?p t? d? li?u. Giá tr? c?a phân b? có th? ???c gán b?i ng??i
s? d?ng n?u ki?u phân b? ???c bi?t tr??c hay thu ???c b?i các th? nghi?m
gi? thuy?t nh? th? nghi?m X2. Các thông s? c?a các ô ? m?c cao h?n có th?
d? dàng tính ???c t? các thông s? c?a các ô ? m?c th?p h?n. Các ki?u phân
b? c?a m?t ô ? m?c cao có th? tính ???c d?a trên ph?n l?n ki?u phân b?
c?a các ô ? m?c th?p h?n t??ng ?ng v?i nó c?ng v?i gi?i h?n c?a ti?n
trình l?c. N?u phân b? c?a ô ? m?c th?p h?n khác nhau và không ki?m tra
gi?i h?n, ki?u phân b? c?a ô ? m?c cao h?n ???c gán là “none”.
Thông tin th?ng kê thu th?p ???c s? r?t h?u ích trong vi?c tr? l?i các
câu h?i. T? trên xu?ng, ph??ng pháp tr? l?i câu h?i th?ng kê thông tin
d?a trên l??i có th? ???c phác th?o nh? sau: Tr??c tiên, có th? xác ??nh
m?t l?p ?? b?t ??u, mà thông th??ng ch?a m?t s? ít các ô. ??i v?i m?i ô
trong l?p hi?n t?i, chúng ta tính toán các kho?ng tin c?y (hay ??c tính
ph?m vi) c?a xác su?t mà ô này có liên quan t?i câu h?i. Các ô không liên
quan s? ???c lo?i ra kh?i vi?c xem xét thêm và vi?c x? lý các l?p sâu h?n
s? kh?o sát ch? các ô có liên quan. Ti?n trình này s? l?p ?i l?p l?i cho
tói khi nó ??t ??n l?p cu?i cùng. Vào lúc này, n?u g?p ph?i các câu h?i
v? k? thu?t, tr? l?i nh?ng vùng c?a các ô liên quan ?áp ?ng yêu c?u câu
h?i, n?u không thì l?y d? li?u mà thu?c vào các ô liên quan, th?c hi?n
ti?n trình thêm n?a; và tr? l?i k?t qu? mà ?áp ?ng yêu c?u câu h?i.
Cách ti?p c?n này cung c?p nhi?u l?i th? h?n m?t s? ph??ng pháp phân nhóm
khác: (1) vi?c tính toán l??i c? s? là câu h?i ??c l?p k? t? khi thông
tin th?ng kê ???c l?u d? trên m?i ô ??i di?n cho thông tin tóm l??c c?a
d? li?u trong ô l??i, ??c l?p v?i truy v?n (2) c?u trúc l??i t?o ?i?u
ki?n thu?n l?i cho x? lý song song và s? c?p nh?t gia t?ng và (3) m?t l?i
th? l?n c?a ph??ng pháp này là hi?u qu? c?a ph??ng pháp: STING ?i xuyên
qua c? s? d? li?u m?t l?n ?? tính toán các tham s? th?ng kê c?a các ô, và
do ?ó th?i gian ph?c t?p c?a t?o c?m trong O(N), trong ?ó N là t?ng s?
các ??i t??ng. Sau khi t?o c?u trúc th? b?c, th?i gian x? lý câu h?i là
O(G), trong ?ó G là t?ng s? các ô l??i ? m?c th?p nh?t, mà th??ng nh? h?n
nhi?u so v?i N, t?ng s? ??i t??ng.
Tuy nhiên, t? khi STING s? d?ng các ti?p c?n ?a ?? phân gi?i ?? th?c hi?n
phân tích c?m, ch?t l??ng c?a c?m STING s? ph? thu?c vào ?? h?t c?a m?c
th?p nh?t c?a c?u trúc l??i. N?u ?? h?t r?t t?t thì chi phí c?a quá trình
s? t?ng lên ?áng k?; tuy nhiên, n?u t?ng d??i cùng c?a c?u trúc l??i là
quá thô, nó có th? gi?m ch?t l??ng c?a phân tích c?m. H?n n?a, STING
không xem xét các m?i quan h? không gian gi?a ô con và các các ô lân c?n
c?a nó ?? xây d?ng các ô m?. K?t qu? là, các hình d?ng c?a các c?m k?t
qu? là isothetic, ?ó là, t?t c? các ranh gi?i c?m ho?c là n?m ngang ho?c
là th?ng ??ng, và không có ranh gi?i ???ng chéo. ?i?u này có th? ch?t
l??ng và tính chính xác c?a các c?m th?p l?n, m?c dù th?i gian c?a ph??ng
pháp nhanh h?n.
8.7.2. WaveCluster: S? phân c?m b?ng cách s? d?ng bi?n ??i sóng
WaveCluster: ???c phát tri?n b?i (Sheikholmlami, Chatterjee và Zhang
1998), là ph??ng pháp phân c?m ?a ?? phân gi?i mà l?n ??u tiên t?ng k?t
d? li?u b?ng vi?c áp ??t m?t c?u trúc l??i ?a chi?u trên không gian d?
li?u và sau ?ó chuy?n không gian ??c tr?ng ban ??u b?i s? chuy?n sóng và
tìm th?y nh?ng vùng dày ??c trong không gian chuy?n ??i.
Trong ph??ng pháp này, m?i ô l??i tóm t?t các thông tin c? m?t nhóm các
?i?m mà ánh x? vào trong ô, và thông tin tóm t?t này th??ng phù h?p v?i
b? nh? chính cho s? bi?n ??i wavelet và s? phân tích c?m ti?p theo. Trong
c?u trúc l??i, các thu?c tính c?a m?t ??i t??ng trung gian có th? ???c
??i di?n b?i m?t vecto tính n?ng mà m?i ph?n t? c?a vector t??ng ?ng v?i
m?t thu?c tính s? hay ??c tính. ??i v?i m?t ??i t??ng v?i n s? thu?c
tính, các vecto ??c tr?ng s? ???c m?t ?i?m trong không gian ??c tr?ng n
chi?u.
Bi?n ??i sóng là m?t x? lý tín hi?u k? thu?t mà phân h?y m?t tín hi?u vào
trong nh?ng d?i t?n s? khác. Mô hình Wavelet c?ng ho?t ??ng trên các tín
hi?u n chi?u b?ng các áp d?ng bi?n ??i m?t chi?u n l?n.
Trong bi?n ??i Wavelet, không gian d? li?u ???c chuy?n ??i thành mi?n t?n
s?. Cu?n v?i m?t k?t qu? ch?c n?ng h?t nhân thích h?p trong m?t không
gian chuy?n ??i, n?i các c?m t? nhiên trong các d? li?u tr? nên khác bi?t
rõ r?t. C?m có th? ???c xác ??nh b?ng cách tìm các khu v?c dày ??c trong
mi?n chuy?n ??i.
Bi?n ??i Wavelet cung c?p các tính n?ng thú v?. ??u tiên, nó cung c?p s?
phân c?m không ???c giám sát. Các b? l?c hình d?ng m? nh?n m?nh các khu
v?c, n?i mà các ?i?m c?m, nh?ng ??ng th?i ng?n ch?n thông tin có xu h??ng
y?u ?i trong ranh gi?i c?a chúng. Nh? v?y, khu v?c dày ??c trong không
gian ??c tr?ng ban ??u hành ??ng nh? m?t ?i?m h?p d?n g?n ?ó và nh? b?
ch?n các ?i?m mà không ?? g?n. ?i?u này ngh?a là các c?m trong các d?
li?u t? ??ng n?i b?t lên, và rõ ràng trong các vùng xung quang chúng. Th?
hai, các b? l?c low-pass ???c s? d?ng trong bi?n ??i wavelet s? t? ??ng
lo?i b? ph?n bên ngoài. H?n n?a thu?c tính ?a ?? phân gi?i c?a bi?n ??i
wavelet có th? giúp phát hi?n các c?m ? các c?p ?? khác nhau c?a ?? chính
xác. Cu?i cùng, nó nhanh chóng áp d?ng s? bi?n ??i wavelet và m?t quy
trình nh? v?y có th? th?c hi?n song song.




Hình 8.13. M?t m?u c?a không gian ??c tr?ng 2 chi?u. (hình c?a
Skeikholeslami và Zhang 1998)
Hình 8.14. ?? phân gi?i cao c?a không gian ??c tr?ng trong hình 8.13 t?i
a) tr?ng thái 1; b) Tr?ng thái 2; c) Tr?ng thái 3 (hình c?a
Skeikholeslami và Zhang 1998)
Các thu?t toán phân c?m d?a trên wavelet có th? ???c phác th?o nh? sau:
Thu?t toán 8.7.1. Thu?t toán ph?n c?m d?a trên wavelet ?? phân c?m ?a ??
phân gi?i b?ng chuy?n ??i wavelet
Input: Các vector ??c tr?ng c?a nh?ng ??i t??ng nhi?u chi?u
Output: Các ??i t??ng ?ã ???c phân c?m
Method: Thu?t toán phân c?m d?a trên wavelet ???c th?c hi?n nh? sau:
L??ng t? hóa không gian ??c tr?ng và sau ?ó gán các ??i t??ng cho các ??n
v?.
Áp d?ng bi?n ??i wavelet trên không gian ??c tr?ng;
Tìm các thành ph?n k?t n?i (c?m) trong gi?i con c?a không gian ??c tr?ng
chuy?n ??i, t?i các m?c khác nhau;
Gán nhãn cho các ??n v?;
Hãy tìm ki?m các b?ng và ánh x? các ??i t??ng ??n các c?m
Các tính toán ph?c t?p c?a thu?t toán là O(N), trong ?ó N là s? các ??i
t??ng trong c? s? d? li?u.
Ví d?, trong hình 8.13 cho th?y m?t m?u c?a không gian ??c tr?ng 2 chi?u,
n?i m?i ?i?m trong hình ?nh ??i di?n cho các giá tr? ??c tr?ng c?a m?t
??i t??ng trong t?p h?p d? li?u không gian. Hình 8.14 cho th?y k?t qu?
c?a bi?n ??i wavelet ? các m?c khác nhau t? fine (m?c 1) ??n coarse (m?c
3). ? m?i c?p ??, gi?i con LL (Trung bình) ???c hi?n th? ? góc t?a ??
phía trên bên trái, gi?i con LH (nh?ng c?nh ngang) ???c hi?n th? ? t?a ??
phía trên bên ph?i, gi?i con HL (nh?ng c?nh ??ng) ???c hi?n th? ? phía
d??i trái và gi?i con HH (góc) ???c hi?n th? ? góc ph?n t? d??i ph?i.
WaveCluster là m?t thu?t toán d?a trên l??i và d?a trên m?t ??.
WaveCluster phù h?p v?i t?t c? các yêu c?u c?a thu?t toán phân c?m t?t:
nó x? lý hi?u qu? t?p h?p d? li?u l?n, phát hi?n ra các c?m d??i các hình
d?ng b?t k?, x? lý thành công ph?n tách ngoài và không ph? thu?c vào th?
t? ??u vào. Nghiên c?u này c?ng so sánh WaveCluster v?i BIRCH, CLARANS và
DBSCAN và ch? ra r?ng WaveCluster làm t?t h?n các ph??ng pháp trên trong
c? kh? n?ng và phân nhóm có ch?t l??ng
8.7.3. CLIQUE: Clustering high-dimensional space
M?t thu?t toán phân c?m khác, CLIQUE, phát tri?n b?i Agrawal 1998, là m?t
ph??ng pháp phân nhóm t?ng h?p d?a trên l??i, d?a trên m?t ?? khác. Nó
r?t t?t cho phân c?m d? li?u chi?u cao trong c? s? d? li?u l?n.
Cho m?t t?p h?p l?n các ?i?m d? li?u ?a chi?u, không gian d? li?u th??ng
không th?ng nh?t s? d?ng b?i các ?i?m d? li?u. Phân c?m d? li?u xác ??nh
ch? thì th?a th?t và ch? thì ?ông ?úc, và t? ?ó phát hi?n ra mô hình phân
ph?i t?ng th? c?a t?p d? li?u.
M?t ??n v? là dày ??c n?u ph?n n? c?a t?ng các ?i?m d? li?u ???c ch?a
trong ??n v? v??t quá m?t mô hình tham s? ??u vào. M?t c?m là t?p h?p t?i
?a c?a các ??n v? k?t n?i dày ??c.
CLIQUE phân vùng không gian d? li?u m chi?u vào các ??n v? hình ch? nh?t
không ch?ng chéo, xác ??nh các ??n v? dày ??c và tìm th?y các c?m trong
t?t c? các không gian nh? c?a không gian d? li?u ban ??u, s? d?ng m?t
ph??ng pháp sinh ra ?ng c? viên t??ng t? thu?t toán Apriori cho qui t?c
hi?p h?i khai thác m?.
CLIQUE th?c hi?n phân c?m ?a chi?u theo 2 b??c:
??u tiên CLIQUE xác ??nh c?m b?ng cách xác ??nh các ??n v? dày ??c trong
t?t c? các không gian con và sau ?ó xác ??nh rõ các ??n v? dày k?t n?i
dày ??c trong t?t c? các không gian con c?a không gian d? li?u
M?t khám phá quan tr?ng là CLIQUE ch?p nh?n nguyên t?c Apriori trong phân
c?m chi?u cao : n?u m?t ??n k – chi?u là dày ??c thì d? án c?a nó trong
không gian (k-1) chi?u c?ng dày ??c. ?ó là n?u b?t k? ??n v? th? (k-1)
không dày ??c, thì t??ng ?ng v?i ??n v? th? k chi?u c?a nó có th? không
là ??n v? ?ng c? viên dày d?c. Vì v?y, t?t c? các ??n v? ?ng c? viên k
chi?u dày ??c có th? ???c t?o b?i ??n v? (k-1) chi?u dày ??c.
Th? hai, CLIQUE t?o ra mô t? nh? nh?t cho các c?m nh? sau. ??u tiên nó
xác ??nh vùng t?i ?a mà che ph? m?t c?m c?a nh?ng ??n v? k?t n?i dày ??c
cho m?i c?m và sau ?ó xác ??nh vùng t?i thi?u cho m?i c?m.
 CLIQUE t? ??ng tìm các không gian con c?a chi?u cao nh?t nh? v?y c?m m?t
?? cao t?n t?i trong không gian con này. Nó không quan tâm t?i th? t? c?a
??a vào các b?n ghi. Nó chia các ???ng th?ng b?i các kích th??c c?a ??u
vào và có kh? n?ng m? r?ng t?t nh? s? l??ng các h??ng c?a d? li?u ???c
t?ng lên. Tuy nhiên, tính chính xác c?a k?t qu? phân c?m có th? b? gi?m
t?i các chi phí c?a s? ??n gi?n c?a ph??ng pháp.
8.8. Model-based clustering methods Ph??ng pháp phân c?m d?a trên mô hình
Ph??ng pháp phân c?m d?a trên mô hình s? d?ng các mô hình nh?t ??nh cho
các c?m và c? g?n t?i ?u hóa phù h?p gi?a d? li?u và mô hình. Nó th??ng
d?a vào gi? thi?t d? li?u ?ó ???c sinh b?i m?t s? pha tr?n c?a phân b?
xác su?t c? b?n.
Nh?ng ph??ng pháp phân c?m d?a trên mô hình có hai ph??ng pháp chính:
ph??ng pháp ti?p c?n th?ng kê và ti?p c?n m?ng l??i th?n kinh.
Ph??ng pháp ti?p c?n th?ng kê
Phân c?m trong vi?c h?c máy th??ng ???c g?i là vi?c h?c không giám sát
hay khái ni?m (phân c?m) hình thành. H?u h?t các công vi?c trong hình
thành khái ni?m thông qua m?t ph??ng pháp ti?p c?n d?a trên xác su?t,
trong ?ó s? d?ng các phép ?o xác su?t, ch?ng h?n nh? th? lo?i ti?n ích
???c s? d?ng trong Fisher 1987 và Gennari, Langley và Fisher 1989, cho
phân c?m và ??i di?n cho các khái ni?m ho?c các c?m v?i các mô t? xác
su?t.
Ví d?, Cobweb (Fisher 1987) th?c hi?n t? trên xu?ng, không có giám sát,
phân lo?i gia t?ng c?a các khái ni?m trên d? li?u tuy?t ??i. Nó s? d?ng
m?t trong các bi?n pháp ???c g?i là th? lo?i ti?n ích, ?? ghi m?i ?i?m
m?i ?i?m nút m?i ???c chèn vào và xác ??nh n?i ??t trong h? th?ng. Ph??ng
pháp này có m?t vài h?n ch?. Tr??c tiên nó d?a trên gi? ??nh r?ng phân b?
xác su?t trên các thu?c tính riêng bi?t là th?ng kê ??c l?p v?i nhau. Gi?
??nh này, tuy nhiên, không ph?i luôn luôn ?úng k? t? khi m?i t??ng quan
gi?a các thu?c tính th??ng t?n t?i. H?n n?a, các ??i di?n phân b? xác
su?t c?a các c?m là cho nó khá t?n kém ?? c?p nh?t và l?u tr? các c?m.
?i?u này là ??c bi?t nên khi các thu?c tính có m?t s? l??ng l?n các giá
tr? k? t? th?i gian và không gian ph?c t?p c?a chúng ph? thu?c không ch?
vào s? l??ng thu?c tính mà còn v? s? l??ng các giá tr? cho m?i thu?c
tính. H?n n?a, cây d?a trên xác su?t (nh? Fisher 1987) ???c xây d?ng ??
xác ??nh các c?m không có chi?u cao cân b?ng cho d? li?u ??u vào l?ch, có
th? làm cho s? ph?c t?p v? th?i gian và không gian gi?m ?áng k?.
M?t h? th?ng g?i là CLASSIT (Gennari, Langley và Fisher 1989) ?? gia t?ng
phân c?m c?a d? li?u liên t?c (ho?c th?c s? có giá tr?). Nó l?u tr? m?t
phân b? liên t?c (t?c là trung bình và ?? l?ch chu?n) cho t?ng thu?c tính
trong m?i nút và s? d?ng m?t s?a ??i bi?n pháp ti?n ích th? lo?i mà là
m?t tích h?p trên các thu?c tính liên t?c thay vì t?ng h?p trên các thu?c
tính r?i rác nh? trong Cobweb. Tuy nhiên, nó b? các v?n ?? t??ng t? nh?
Cobweb và do ?ó nó không thích h?p v?i phân c?m d? li?u trong c? s? d?
li?u l?n.
AutoClam (Cheeseman và Stutz 1996) th?c hi?n m?t ph??ng pháp phân c?m
Bayer d?a trên mô hình h?n h?p. Nó s? d?ng các phân tích th?ng kê Bayer
?? ??c tính s? l??ng các c?m.
Ph??ng pháp ti?p c?n m?ng l??i th?n kinh
Các ph??ng pháp ti?p c?n m?ng l??i th?n kinh t?t nh?t ???c bi?t ??n trong
phân c?m là SOM (t? t? ch?c các tính n?ng ánh x?) ???c ?? xu?t b?i
Kohonen n?m 1981. Nó có th? ???c xem nh? là m?t phép chi?u phi tuy?n t?
m?t không gian ??u vào m chi?u lên m?t th? t? th?p h?n (th??ng là 2
chi?u) l??i c?a các ô ??u ??n. M?t ánh x? nh? v?y ???c dùng ?? xác ??nh
nh?ng c?m c?a nh?ng ph?n t? t??ng t? trong không gian ban ??u.
8.9. S? phân tích ngoài (Outlier Analysis)
Thông th??ng, t?n t?i các ??i t??ng d? li?u mà không tuân theo các hành
vi ho?c các mô hình d? li?u nói chung. T?p h?p các ??i t??ng d? li?u nh?
v?y ???c g?i là bên ngoài c?a các t?p h?p d? li?u.
Outlier có th? gây ra b?i ?o l??ng ho?c th?c hi?n l?i ho?c do bi?n ??i d?
li?u v?n có. Ví d?, màn hình hi?n th? tu?i c?a m?t ng??i nh? -999 có th?
do nguyên nhân b?i m?t ch??ng trình thi?t l?p m?c ??nh c?a m?t tu?i không
???c ghi. Tuy nhiên, m?c l??ng giám ??c ?i?u hành c?a m?t công ty có th?
t? nhiên ??ng ? ngoài nh? m?t outlier trong s? các ti?n l??ng c?a nhân
viên trong công ty.
M?t s? thu?t toán ?ang c? g?ng ?? lo?i tr? hay gi?m thi?u nh?ng ?nh h??ng
c?a outlier. Tuy nhiên “ti?ng ?n c?a m?t ng??i có th? ???c chuy?n tín
hi?u cho ng??i khác”. Trong r?t nhi?u tr??ng h?p, các t? b?n thân các
outlier có th? ???c quan tâm ??c bi?t cho m?t ng??i dùng. Nh? v?y, phát
tri?n và phân tích outlier là m?t nhi?m v? khai thác d? li?u thú v?.
Khai m? ngoài ?ã ?ng d?ng r?ng rãi. Nó có th? ???c s? d?ng trong vi?c
phát hi?n gian l?n trong vi?c tìm ki?m s? d?ng th? tín d?ng hay d?ch v?
truy?n thông m?t cách không bình th??ng, tìm ki?m hành vi chi tiêu c?a
ng??i giàu hay nghèo trong ti?p th? khách hàng , ho?c tìm ki?m ph?n ?ng
b?t th??ng c?a thu?c hay ?i?u tr? nào ?ó trong phân tích y t?, v.v..
Khai m? ngoài ???c mô t? nh?: cho m?t t?p h?p n ?i?m d? li?u và lc là s?
l??ng các outlier, tìm các ?i?m outlier lc cao nh?t là ?ang k? và khác
các d? li?u còn l?i. V?n ?? khai m? ngoài có th? ???c xem nh? là 2 v?n ??
ph?: (1) xác ??nh nh?ng d? li?u có th? ???c coi là không phù h?p ho?c ??c
bi?t trong t?p d? li?u ???c thi?t l?p; và (2) tìm m?t ph??ng pháp hi?u
qu? ?? khai m? ngòai ???c xác ??nh.
V?n ?? xác ??nh outlier là không t?m th??ng. N?u m?t mô hình h?i qui
????c s? d?ng ?? mô hình hóa d? li?u, các phân tích th?ng d? có th? cho
??c tính t?t cho d? li?u “c?c ?oan”. Nhi?m v? tr? nên khó ho?n khi tìm
outlier trong chu?i th?i gian, vì chúng có th? ???c ?n trong xu h??ng,
theo mùa ho?c thay ??i theo chu k? khác. Khi d? li?u ?a chi?u ???c phân
tích, không ph?i b?t kì m?t ??c bi?t ngo?i l? nh?ng s? k?t h?p c?a các
giá tr? kích th??c có th? r?t xa. Ngòai ra, ??nh ngh?a outlier trong d?
li?u phân mình ?òi h?i ph?i xem xét riêng bi?t.
Chúng ta s? xem xét c? th? các v?n ?? ?? xác ??nh và khai thác m? ngòai
Cách rõ ràng nh?t và th??ng khá hi?u qu? ?? phát hi?n Outlier là ph??ng
pháp d? li?u tr?c quan. ?ôi m?t con ng??i là r?t nhanh và hi?u qu? trong
vi?c nh?n th?y d? li?u không nh?t quán. Tuy nhiên ?i?u này không áp d?ng
cho các d? li?u ch?a trong s? ?? tu?n hoàn, n?i d??ng nh? các giá tr?
ngòai có th? ???c là nh?ng giá tr? hòan toàn h?p l? trên th?c t?. Nó c?ng
s? g?p khó kh?n ?? phát hi?n outlier v?i nhi?u thu?c tính phân mình hoay
d? li?u ?a chi?u cao k? t? khi ?ôi m?t ng??i là r?t t?t t?i vi?c làm cho
tr?c quan d? li?u s? t? 2 ??n 3 chi?u.
Các ph??ng pháp phát hi?n Outlier d?a trên máy tính có th? ???c phân lo?i
thành 3 ph??ng pháp: Ph??ng pháp ti?p c?n th?ng kê, ph??ng pháp ti?p c?n
d?a trên kho?ng cách và ti?p c?n phân tích ?? l?ch chu?n. C?ng thông báo
r?ng nhi?u thu?t tóan phân c?m lo?i b? outlier nh? t?p nhi?u, tuy nhiên,
chúng có th? ???c s?a d?i ?? phát hi?n outlier nh? m?t s?n ph?n c?a s?
th?c hi?n chúng.
8.9.1. Ph??ng pháp th?ng kê ?? phát hi?n Outlier
Ph??ng pháp th?ng kê cho r?ng mô hình c? b?n phân ph?i mà t?o ra t?p h?p
d? li?u (ví d? phân ph?i bình th??ng) và sau ?ó xác ??nh outlier b?ng
cách s? d?ng m?t th? nghi?m ???c g?i là discordancy test (ki?m tra m?i
b?t hòa). Vi?c xây d?ng th? nghi?m ?òi h?i s? hi?u bi?t v? các tham s?
c?a t?p h?p d? li?u, ví d? nh? phân ph?i d? li?u và ki?n th?c c?a các
thông s? phân ph?i ví d? nh? trung bình, s? khác nhau, và s? l??ng
outlier có th? x?y ra.
M?t th? nghi?m th?ng kê m?i b?t hòa xem xét hai gi? thuy?t: Gi? thuy?t
làm vi?c và gi? thuy?t thay th?.
Gi? thuy?t làm vi?c ???c gi? n?u không có ch?ng c? bi?u th? b?ng thông kê
h? tr? t? ch?i c?a nó. Gi? thuy?t làm vi?c H là m?t s? phát bi?u r?ng
tòan b? các d? li?u ??n t? m?t mô hình xác su?t ban ??u F, ví d?:

Ki?m tra th?ng kê ???c th?c hi?n ?? xem li?u m?t ??i t??ng là có ý ngh?a
l?n (hay nh?) liên quan ??n vi?c phân ph?i phù h?p v?i mô hình F. N?u s?
th? hi?n không cân ??i ? m?c ?? th? nghi?m, thì nó s? không h?p lý ?? tin
r?ng 0, ??n t? F và m?t mô hình thay th? mà ??n t? m?t mô hình G khác là
ch?p nh?n. K?t qu? ph? thu?c r?t nhi?u vào mô hình F ???c ch?n vì có th?
là m?t outlier d??i m?t mô hình và m?t giá tr? hòan tòan h?p l? khác.
Hình th?c phân ph?i thay th? c?ng r?t quan tr?ng trong vi?c xác ??nh s?c
m?nh c?a th? nghi?m, t?c là xác su?t c?a gi? thuy?t làm vi?c b? t? ch?i
khi nó th?c s? là outlier. Có m?t vài d?ng gi? thuy?t thay th?.
Thay th? v?n có (Inherent alternative): trong tr??ng h?p này, gi? thi?t
r?ng t?t c? các y?u t? làm vi?c ??n t? phân ph?i F là b? t? ch?i ?ng h?
m?t gi? thi?t thay th? mà t?t c? các quan sát phát sinh t? phân ph?i G

F và G có th? phân ph?i khác nhau ho?c ch? khác nhau ? các tham s? c?a
cùng m?t phân ph?i. Nh?ng có nh?ng ràng bu?c v? hình th?c phân ph?i G ?
ch? nó ph?i có ti?m n?ng ?? cung c?p cho Outlier. Ví d?, nó có th? có giá
tr? trung bình khác nhau, ho?c phân tán ho?c ?o?n cu?i dài h?n.
Thay th? h?n h?p (Mixture alternative): Tình tr?ng thay th? h?n h?p mà
các giá tr? không cân ??i là không outliers trong m?u F nh?ng nh?ng ch?t
gây ô nhi?m t? m?t m?u khác. Trong tr??ng h?p này gi? thuy?t thay th? là:

Thay th? gi?m giá (Slippage alternative): Các tr?ng thái thay th? này là
t?t c? các quan soát ngòai vi?c qui ??nh m?t s? l??ng nh? phát sinh ??c
l?p t? mô hình F ban ??u v?i các tham s? p và trong khi các y?u t? còn
l?i là các quan sát ??c l?p t? m?t phiên b?n s?a d? F trong ?ó các thông
s? ?ã ???c thay ??i.
Nh?ng thông kê ki?m ??nh khác ?ã ???c ?? xu?t mà cho phép ?? ch?p nh?n
ho?c t? ch?i m?t gi? thuy?t làm vi?c. S? l?a ch?n là ?? th?c hi?n ???c
liên quan ??n th? nghi?m trong m?t tình hu?ng thích h?p. Gi? s? r?ng m?t
vài s? li?u th?ng kê T ?ã ???c ch?n trong quá trình th? nghi?m m?i b?t
hòa và giá tr? c?a s? l?u th?ng kê cho các ph?n t? 0 là v, phân ph?i T
???c xây d?ng ?? tìm xem giá v có là không cân ??i không. Xác su?t quan
tr?ng SP(v): Prob(T>v) ???c ?ánh giá. N?u SP(v) là ?? nh?, thì nó là m?i
b?t hòa và gi? thuy?t làm vi?c b? t? ch?i.
Trong tr??ng h?p có nhi?u outlier có hai lo?i th? t?c c? b?n ?? phát hi?n
Outlier
- Th? t?c ch?n. Trong c? hai tr??ng h?p này t?t c? các thành ph?n ?áng
ng? ???c coi là outlier ho?c t?t c? các ch?p nh?n là phù h?p.
- Các th? t?c liên t?c (ho?c tu?n t?): Mot? th? t?c, ???c g?i inside-out,
là ???c ch?p nh?n nhi?u h?n. Ý t??ng chính c?a nó là Outlier nh? nh?t s?
???c th? nghi?m ??u tiên. N?u nó là outlier, sau ?ó t?t c? các giá tr?
l?n h?n c?ng là nh?ng outlier; n?u không, các ph?n t? ti?p theo s? ???c
ki?m tra ...
M?t nh??c ?i?m chính c?a ph??ng pháp th?ng kê là h?u h?t các th? nghi?m
??u dành cho các thu?c tính ??n, nh?ng nhi?u v?n ?? khai thác d? li?u yêu
c?u tìm các outlier trong không gian ?a chi?u. H?n n?a, ph??ng pháp th?ng
kê ?òi h?i ph?i có ki?n th?c v? tham s? c?a t?p h?p d? li?u, ch?ng h?n
nh? s? phân b? d? li?u. Tuy nhiên, trong nhi?u tr??ng h?p, phân ph?i d?
li?u có th? không ???c bi?t ??n. Ph??ng pháp th?ng kê không ??m b?o r?ng
t?t c? các outlier s? ???c tìm th?y trong các tr??ng h?p không ki?m tra
c? th? ?ã ???c phát tri?n ho?c quan sát phân b? không th? mô hình ??y ??
v?i b?t k? phân ph?i tiêu chu?n nào.

								
To top