Thứ Tư, 12 tháng 2, 2014

Xây dựng hệ thống quét thư rác trên môi trường phân tán

Page  5

Các đặc tính của thư rác:

Thư rác mang tính tương đối.

Tính bất biến trong một thư rác.
Tổng quan về thư rác
Page  6

Blacklisting: danh sách địa chỉ không tin cậy.

Whitelisting: danh sách địa chỉ tin cậy.

Heuristic filtering: dựa vào tập luật.

Challenge/ Response: xác thực người dùng.

Throttling: khống chế số lượng email được gửi.

Address obfuscation: thay đổi định dạng chống thu thập
email.

Collaborative filtering: nhóm người dùng tin cậy.
Các kỹ thuật lọc thư rác
Page  7

Kỹ thuật thống kê

Kỹ thuật so khớp
Các kỹ thuật quét thư rác sử dụng trong hệ thống
xây dựng
Page  8

Kỹ thuật thống kê
Các kỹ thuật quét thư rác sử dụng trong hệ thống
xây dựng
Thư điện tử
Tập dữ liệu
lịch sử
Là spam ?
Gửi tới người dùng
Máy phân tích
Bộ tách từ
Huấn luyện
Đánh dấu
Người dùng
phản hồi
Bộ lọc xác
định đúng?
Sai
Không
PHÂN LOẠI HUẤN LUYỆN
Đúng
Page  9

Kỹ thuật thống kê
Các kỹ thuật quét thư rác sử dụng trong hệ thống
xây dựng
BỘ TÁCH TỪ MÁY PHÂN TÍCH HUẤN LUYỆN
Chức
năng
-Tách thông điệp thành các từ
dựa trên vnTokenizer.
-Tính giá trị cho các từ
- Tính xác xuất
chung của thông
điệp để xác định
thông điệp đó có
phải là spam hay
không.
- Học lại các
thông điệp mà
người dùng báo
đã phân loại sai
Cải tiến
- Bỏ các tag HTML, các dấu
chấm câu, các ký hiệu không
có nghĩa.
- Đối với tiếng Việt nên bỏ các
hư từ (thì, là, mà ).
- Quét các tập tin đính kèm để
trích văn bản nội dung cho bộ
tách từ (word, excel, power
point và pdf).
Page  10
Kiểm tra độ chính xác của bộ lọc thư rác
Page  11

Kỹ thuật so khớp

Điều kiện
»
Tỉ số độ dài nội dung hai thư (đã tách từ) cần so khớp xấp xỉ 1,1.
»
Ngưỡng độ tương tự khi phân loại là thư rác là 0,7.
Các kỹ thuật quét thư rác sử dụng trong hệ thống
xây dựng
Nội dung thư rác đã lưu
Nội dung thư cần phân loại
độ tương tự
Page  12

Mô hình hệ thống
Hệ thống thử nghiệm
Page  13

Mô hình xử lý trên dữ liệu riêng của mỗi người dùng
Hệ thống thử nghiệm
Page  14

Quá trình quét thư rác
Hệ thống thử nghiệm
Là Spam ?
Kỹ thuật
thống kê
Kỹ thuật
so khớp
Người dùng
Sai
Đúng

Không có nhận xét nào:

Đăng nhận xét