Team analytics

Team analytics
Analytics
Tính tiền
Kinghub
web analytics(tudv, cuongnm)
video analytics(longnc, hieuvm)
app analytics(tudv, longnc)
cms api(tudv, kiennk)
pr api(kiennk)
item optimize api( thangtm)
user info
token
gen token
transfer token
report for sale
Problem
user report
data phân mảnh phục vụ riêng từng service
multi dimension
storage trên cloud => chập chờn
setup hdfs, hbase, druid trên 2 DC,
1 vật lý và 1 cloud backup cho nhau
gom nhóm theo chức năng để tổ chức theo các khối dữ liệu realtime và batch
để các service query
tìm hiểu giải pháp và database phù hợp bài toán
hbase không phù hợp => chuyển lên DRUID
pre analytics theo tổng quan, để phục vụ khi có yêu cầu nhanh nhất
realtime dashboard
hiện tại trên aerospike, chưa ha được vs 2 DC, metrics khó mở rộng và k dùng được nhiều mục dích khác => chuyển sang druid
streaming data
lưu tmp data trên aerospike và tính toán trên các server khác
=> using flink để tối ưu
sử dụng api không đúng mục đích => cấp api phù hợp vs nhu cầu mỗi bên
log bị lặp, thiếu, và tự bị bỏ đi sau mỗi lần upcode
bổ sung thêm các mertrics
bổ sung thêm các mertrics
đo kiểm giữa 2 hệ thống logging và backend service không đồng nhất(kinghub event)
update batch(Spark)
Kiểm soát việc update batch với mỗi version data, để tránh việc update dữ liệu không đồng nhất giữa các report => sai lệch số liệu giữa các report
job nhiều, đang quản lý bằng file docs
=> dựng tool quản lý crontab trên cụm, để có thể tiến hành bật tắt và thêm HA
Sub Topic
d
AI
inventory forecasting
(thieunv)
dữ liệu thiếu ổn định, phụ thuộc sự kiện
video content id
(daipt)
ocr
(ducnt)
model vẫn có thể tối ưu, thay thế
tình trạng nhận nhầm video
cần tối ưu độ lớn index
detect word
=> điều chỉnh dữ liệu dự báo theo ngày
=> tìm hiểu và thử nghiệm các model mới
=> nghiên cứu chống nhận nhầm bằng thống kê
=> benchmark hiệu năng, thử nghiệm index với các độ lớn khác nhau
không có dữ liệu huấn luyện tiếng Việt
recognition
không có dữ liệu đánh giá
nsfw image classifier
(ducnt)
không có dữ liệu đánh giá
=> tự sinh
thiếu tài nguyên(server) để triển khai
=> xin thêm khi cần
=> crawl và đánh nhãn
=> dùng dữ liệu tiếng Anh thay thế
28