Google Veo 3.1 – Biến hàng loạt hình ảnh tĩnh thành video AI liền mạch

By Thao Bui

Mới đây, Google đã giới thiệu phiên bản Veo 3.1, một bước tiến trong công nghệ chuyển đổi hình ảnh thành video bằng trí tuệ nhân tạo, với khả năng ghép nối các bức ảnh khác nhau để tạo ra một cảnh quay đồng nhất, sống động và có âm thanh đồng bộ.

Một trong những điểm mạnh mà Google nhấn mạnh là độ trung thành với prompt (mô tả đầu vào) được cải thiện. Nghĩa là video đầu ra sẽ phản ánh sát hơn nội dung hình ảnh và các chỉ dẫn người dùng cung cấp. Bên cạnh đó, Veo 3.1 còn tăng cường khả năng chuyển đổi hình ảnh thành video (“Frame to Video”), cho phép người dùng tải lên một khung hình bắt đầu và một khung hình kết thúc, rồi để hệ thống “vẽ” ra chuyển động mượt mà giữa hai hình đó.

Về mặt âm thanh, Veo 3.1 đã bắt đầu hỗ trợ thêm phần âm thanh đồng bộ với hình ảnh, giúp video trở nên hoàn chỉnh hơn, không chỉ đẹp mắt mà còn có thính giác đi kèm. Mô hình mới cũng hỗ trợ cả định dạng video ngang và dọc, mở đường cho các ứng dụng như YouTube Shorts và video ngắn trên mạng xã hội.

Một tính năng thú vị khác là khả năng chèn đối tượng mới vào cảnh quay sao cho phù hợp với phong cách hình ảnh hiện có. Google cũng cho biết rằng tính năng loại bỏ đối tượng (object removal) sẽ sớm được thêm vào.

Ảnh: Supermarker.ai

Hiện Veo 3.1 đã được tích hợp vào ứng dụng Gemini, Vertex AI, và cung cấp qua Gemini API cho các nhà phát triển. Công cụ chỉnh sửa video “Flow” của Google cũng được hưởng lợi từ các nâng cấp mới này – các tính năng như “Frame to Video”, “Ingredients to Video” và “Extend” giờ đây đều có thể kết hợp âm thanh do AI tạo ra.  Google cũng cho biết phiên bản Veo 3.1 Fast – một phiên bản tối ưu hơn về tốc độ và chi phí – sẽ được triển khai rộng rãi trong hệ sinh thái AI của hãng.

Từ khi ra mắt vào tháng 5 trước đó, công cụ Flow đã giúp người dùng tạo ra hơn 275 triệu video, cho thấy mức độ tiếp cận và ứng dụng của công nghệ video AI mà Google phát triển. Việc Google đưa ra Veo 3.1 đánh dấu một bước tiến quan trọng trong xu hướng sáng tạo nội dung AI: Từ hình ảnh tĩnh truyền thống, giờ đây người dùng có thể biến chúng thành video sống động mà không cần máy quay chuyên dụng. Khả năng chèn – loại bỏ đối tượng, tạo chuyển động từ các khung hình và đồng bộ âm thanh mở ra vô vàn cơ hội mới cho sáng tạo nội dung, quảng cáo, kể chuyện (storytelling) và truyền thông.

Dĩ nhiên, vẫn cần những đánh giá thực tế từ người dùng và các chuyên gia để xác định mức độ ổn định, chất lượng ở các cảnh phức tạp, xử lý chi tiết chuyển động, và hiệu quả khi áp dụng vào các dự án nghệ thuật hoặc thương mại. Nhưng rõ ràng Veo 3.1 đã cho thấy Google đang nghiêm túc đặt cược vào việc hợp nhất hình ảnh và video thông qua AI.

Tags:

Veo 3.1