Google ra mắt Vlogger AI đa phương thức

XEM NHANH

Trong lĩnh vực AI, Google một lần nữa đã có bước nhảy vọt đáng kể khi giới thiệu cải tiến mới nhất của mình, Vlogger AI. Công nghệ đột phá này là một phần trong mô hình Gemini mới của Google, được thiết lập để cách mạng hóa cách chúng ta tương tác với hình đại diện và nội dung đa phương tiện. Google gần đây đã xuất bản một bài đăng blog trên trang GitHub của mình và giới thiệu mô hình Vlogger AI. Người dùng chỉ cần nhập nội dung ảnh chân dung và âm thanh. Công cụ AI có thể làm cho những nhân vật này di chuyển và có những biểu cảm đa dạng. Hình ảnh cũng có thể đọc to nội dung âm thanh.

Sự ra đời của Vlogger AI

Vlogger AI của Google là công cụ tiên phong cho phép người dùng chuyển đổi hình ảnh tĩnh thành hình sống động như thật và có thể điều khiển được. Mô hình đổi mới này được xây dựng trên kiến ​​trúc khuếch tán và được biết đến với khả năng chuyển văn bản thành hình ảnh, video và mô hình 3D. Bằng cách kết hợp các cơ chế kiểm soát bổ sung, Vlogger đưa khái niệm tạo hình đại diện lên một tầm cao mới.

Tìm hiểu chức năng của Vlogger

Về cốt lõi, Vlogger hoạt động bằng cách xử lý tệp âm thanh và hình ảnh tĩnh thông qua một loạt các bước phức tạp. Nó sử dụng quy trình tạo chuyển động 3D, sau đó là mô hình khuếch tán theo thời gian để xác định thời gian và chuyển động. Tiếp đến, mô hình sẽ tinh chỉnh đầu ra, nâng cấp nó để tạo ra hình đại diện thực tế cuối cùng. Bằng cách dự đoán chuyển động của nét mặt, cử chỉ cơ thể,…Vlogger mang hình đại diện trở nên sống động với độ chính xác vượt trội.

vlogger-ai-1
Tìm hiểu chức năng của Vlogger

Vlogger AI là mô hình khuếch tán đa phương thức phù hợp cho chụp chân dung ảo. Nó được đào tạo bằng cơ sở dữ liệu MENTOR, chứa hơn 800.000 bức chân dung và hơn 2.200 giờ video. Điều này cho phép công cụ tạo ra hình ảnh nhiều chủng tộc và lứa tuổi khác nhau. Nó cũng có thể tạo video chân dung trong các trang phục và tư thế khác nhau.

Google đã cho biết rằng: “So với các mô hình đa phương thức trước đây, ưu điểm của công cụ mới chính là không cần đào tạo từng người, không cần dựa vào nhận diện và cắt xén khuôn mặt. Dù không có các yếu tố trên, nó vẫn có thể tạo ra hình ảnh hoàn chỉnh và sử dụng trong một loạt các tình huống khác nhau. Điều này rất quan trọng cho sự giao tiếp của con người và nó cũng mang đến tính chính xác cao.”

Những hạn chế trên Vlogger AI

Mặc dù Vlogger thể hiện sự tiến bộ vượt bậc trong công nghệ AI nhưng cũng cần phải thừa nhận rằng bản thân nó còn có những hạn chế. Là bản xem trước của nghiên cứu, Vlogger không phải lúc nào cũng có thể tái tạo hoàn hảo các chuyển động tự nhiên của các cá nhân.

vlogger-ai-2
Những hạn chế trên Vlogger AI

Mô hình này mặc dù phức tạp nhưng nó vẫn chưa được hoàn thiện, vì thế, có thể gặp phải những thách thức với chuyển động lớn, môi trường đa dạng và khi phải xử lý các video dài hơn. Những hạn chế này nêu bật sự phát triển và cải tiến liên tục cần có trong lĩnh vực AI.

Những trường hợp có thể sử dụng Vlogger AI

Các nhà nghiên cứu của Google đã hình dung ra vô số ứng dụng dành cho Vlogger AI. Một trong những trường hợp sử dụng phù hợp nhất với tiềm năng cách mạng hóa giao tiếp chính là trên các nền tảng như Teams hoặc Slack. Bằng cách cho phép người dùng tạo hình đại diện động từ hình ảnh tĩnh, công cụ mới của Google mở ra những con đường mới cho các tương tác hấp dẫn và được cá nhân hóa trong không gian ảo.

vlogger-ai-3
Những trường hợp có thể sử dụng Vlogger AI

Google coi Vlogger là một bước tiến tới chatbot phổ quát, nơi AI có thể tương tác một cách tự nhiên với con người thông qua giọng nói, cử chỉ và giao tiếp bằng mắt. Các ứng dụng của công cụ AI mới cũng bao gồm báo cáo, lĩnh vực giáo dục và tường thuật. Nó cũng có thể chỉnh sửa các video hiện có. Nếu bạn không hài lòng với cách diễn đạt trong video, bạn có thể tự điều chỉnh.

Tạm kết

Việc Google ra mắt Vlogger AI đa phương thức trong mô hình Gemini thể hiện một bước tiến đáng kể trong công nghệ AI. Sự đổi mới này sẽ tạo tiền đề cho một kỷ nguyên mới do AI điều khiển. Hy vọng rằng Google sẽ sớm ra mắt phiên bản cuối cùng.

Xem thêm Google Classroom – Quản lý lớp học

Đừng quên theo dõi video review tại Hoàng Hà Channel nhé:

Tin mới nhất
Galaxy-Z-Flip-FE
Galaxy Z Flip FE dự kiến ​​ra mắt vào năm 2025, dùng lại chip cũ
Tham gia khảo sát ưu đãi Samsung Galaxy S Series mới 2025 nhận ngay quà tặng hấp dẫn!
Chương trình Black Friday: Săn Sale quên lối – Ưu đãi giá sốc chỉ từ 6K tại Hoàng Hà Mobile
Dự án phim vũ trụ Liên Minh Huyền Thoại chuẩn bị ra mắt phần phim nối tiếp – Acrane 2