Skip to content
  • Tiếng Việt
  • English

Phòng thí nghiệm MMLab có bài báo chấp nhận đăng tại bài báo được chấp nhận tại Tạp chí Multimedia Tools and Applications là một tạp chí quốc tế, thuộc danh mục ISI uy tín (xếp hạng Q1)

Bài báo: “Sy-Tuyen Ho, Manh-Khanh Ngo Huu Thanh-Danh Nguyen, NguyenPhan, Vinh-Tiep Nguyen, Tam V. Nguyen, Thanh Duc Ngo, Duy-Dinh Le. APGAN: Abstraction-Perception Preserving Cartoon Face Synthesis. Multimedia Tools Application (2023)

Sinh viên thực hiện 

Hồ Sỹ Tuyến (Sinh viên khóa 2017, SUTD, Singapore)

Ngô Hữu Mạnh Khanh (Sinh viên khóa 2019, MMLab) 

Nguyễn Thành Danh (Sinh viên khóa 2017, MMLab)

Phan Nguyên (Sinh viên khóa 2017, VnBrain)

Tóm tắt bài báo:Phim hoạt hình là một trong những loại hình giải trí phổ biến, đặc biệt là với giới trẻ. Bài toán chuyển đổi ảnh đời thực thành ảnh hoạt hình có ứng dụng rất cao trong đời sống hiện tại. Có thể kể đến như ứng dụng để hỗ trợ sản xuất phim hoạt hình, tạo ảnh chân dung phong cách hoạt hình để “sống ảo” trên mạng xã hội,… 

Đối với nghiên cứu, đây là một bài toán vô cùng thú vị trong cộng đồng khoa học máy tính nói chung và trí tuệ nhân tạo nói riêng. Trước đây, việc hoạt hình hóa khuôn mặt thường được thực hiện bằng tay và sử dụng các công cụ chỉnh sửa ảnh. Tuy nhiên, phương pháp này mất rất nhiều thời gian để hoàn thành và không phải ai cũng có thể thực hiện được.

Vì vậy, nhóm nghiên cứu có ý tưởng xây dựng một mô hình máy học để có thể chuyển đổi phong cách hoạt hình một cách tự động. Mặc dù gần đây, một số ứng dụng mạng xã hội như TikTok hay Snapchat đã có một số tính năng tương tự, các thuật toán này vẫn còn nhiều hạn chế và cần được cải tiến để đáp ứng các yêu cầu của người dùng.

Sau quá trình nghiên cứu, nhóm đã chỉ ra rằng để hoạt hình hóa khuôn mặt, cần đảm bảo 2 yếu tố (1) đơn giản hóa những chi tiết khuôn mặt và (2) sinh ra các bộ phận của mặt với các đặc trưng rất hoạt hình như mũi nhỏ, mắt to,… Nhóm đã đề xuất một thuật toán huấn luyện 2-bước dựa trên GAN (Generative Adversarial Network) để giải quyết những yêu cầu nêu trên:

- Abstractive Stage, bước này tổng quát hóa được quá trình huấn luyện với hàm mất mát tổng quát để đơn giản hóa chi tiết khuôn mặt.

- Perception Stage sử dụng kết hợp hàm độ lỗi về nhận thức và hàm độ lỗi đối kháng để huấn luyện cho mô hình có khả năng sinh ra các bộ phận của khuôn mặt mang phong cách hoạt hình.

Để đánh giá một cách toàn diện phương pháp đề xuất với các phương pháp khác, nhóm đã xây dựng bột dữ liệu có quy mô lớn hơn và thách thức hơn cho bài toán hoạt hình hóa khuôn mặt, được gọi là CartoonFace10K. Một đóng góp lớn khác của nhóm nghiên cứu chính là việc phát hiện độ đo đánh giá FID chỉ tập trung vào đánh giá phong cách của ảnh sinh ra mà bỏ qua vấn đề đảm bảo nội dung giữa ảnh đầu vào và ảnh đầu ra. Do đó, nhóm đã đề xuất một độ đo đánh giá mới là FISI, là sự kết hợp giữa FID và SSIM – một thang đo đánh giá về việc đảm bảo nội dung ảnh. Độ đo FISI cho phép đánh giá tổng quan về phong cách và nội dung của ảnh sinh ra.

Kết quả của bài báo khoa học này là những ngày tháng học tập và làm việc tại Phòng thí nghiệm Truyền thông đa phương tiện (MMLab), khoa KHMT và hợp tác nghiên cứu với trường Đại học Dayton (USA).

Tạp chí Multimedia Tools and Applications là một tạp chí quốc tế, thuộc danh mục ISI uy tín (xếp hạng Q1), chuyên công bố các nghiên cứu mới nhất trong lĩnh vực đa phương tiện. Các nghiên cứu được đăng trên tạp chí này phải trải qua rất nhiều vòng xem xét, đánh giá khách quan (vòng review) bởi các chuyên gia hàng đầu trong lĩnh vực đa phương tiện trên thế giới. Sau đó tác giả phải chỉnh sửa theo các góp ý khoa học trước khi công bố online.

Mọi thông tin chi tiết xem tại: https://www.facebook.com/TuyenSinh.UIT/posts/pfbid02UkE3wqNzgwrKJDhYvbyrwF3rACEiomcQkzTSSkuH3vNUA4z6EtyTUTbDjD6r1ZHvl

Hạ Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin