Ứng dụng có khả năng tối ưu nhận dạng vùng miền với khả năng hoạt động hiệu quả trong môi trường nhiễu, khoảng cách xa và hiển thị thời gian thực, đạt độ chính xác 95%.
Tự động bóc băng ghi âm
Ngày 13/7, Sở Khoa học Công nghệ TPHCM tổ chức hội thảo “Giải pháp chuyển đổi giọng nói thành văn bản Memobot”. Đây là một trong những hoạt động của Sàn Giao dịch Công nghệ TPHCM năm 2023, do Trung tâm Thông tin và Thống kê Khoa học và Công nghệ (CESTI) triển khai thực hiện.
Ông Phạm Tấn Anh Vũ (Công ty Cổ phần Giải pháp Trí thông minh nhân tạo Việt Nam) chia sẻ với nguồn dữ liệu gần 7.000 từ vựng tiếng Việt, Memobot là phương án hiệu quả giúp cá nhân và doanh nghiệp tiết kiệm thời gian, công sức, thúc đẩy tiến độ công việc, giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu.
Ứng dụng có khả năng tối ưu nhận dạng vùng miền với khả năng hoạt động hiệu quả trong môi trường nhiễu, khoảng cách xa và hiển thị thời gian thực, đạt độ chính xác 95%. Một giờ ghi âm có thể xử lý thành văn bản trong 6 phút.
Xả băng ghi âm truyền thống là việc nghe và đánh máy, ghi chép thủ công lại tập tin ghi âm. Công việc ngồi nghe băng ghi âm hàng giờ và viết lại thành văn bản phức tạp và có nhiều điểm hạn chế: Tốn nhiều thời gian, thời lượng ghi âm dài gây khó khăn trong việc nghe lại các đoạn âm thanh từng phần của biên bản.
Trong các doanh nghiệp, công việc xả băng ghi âm ở các cuộc họp sẽ được nhóm thư ký xử lý. Khi đó, với tốc độ nói 100 – 250 từ/phút và tốc độ gõ 50 – 70 từ/phút sẽ tốn nhiều thời gian để ghi chép, chuyển đổi thành văn bản.
Sau đó là công đoạn rà soát lại nội dung, thư ký sẽ nghe toàn bộ file ghi âm kết hợp với dò văn bản một lần nữa để đảm bảo tính chính xác của văn bản chuyển đổi. Do mất nhiều thời gian và công đoạn, biên bản sẽ ra chậm, đôi khi cuộc họp chỉ 1 giờ nhưng 2 ngày sau mới có biên bản hoàn chỉnh.
Khi sử dụng Memobot, mọi thông tin file ghi âm và văn bản đều được lưu trữ trên phần mềm. Giải pháp chuyển đổi giọng nói thành văn bản, hỗ trợ việc xả băng ghi âm, ứng dụng trong nhiều lĩnh vực như: Họp hành (lãnh đạo, thư ký ghi âm lại các buổi họp), phỏng vấn (nhà báo, luật sư, nhà tuyển dụng ghi âm lại các sự kiện, cuộc phỏng vấn), học tập (học sinh, sinh viên ghi âm lời thầy cô giảng bài), sáng tạo nội dung (người làm truyền thông YouTube/Podcasts ghi âm làm phụ đề video), sáng tác (nhà văn, nhà nghiên cứu ghi âm ngay khi vừa nảy ra ý tưởng).
Tự ngắt phân đoạn, loại bỏ tạp âm
Theo nhóm phát triển nghiên cứu, điểm nổi bật của hệ thống là hỗ trợ tự động tạo phụ đề và ngắt đoạn từng lời của nhiều người khác nhau trong thời gian thực, giúp tiết kiệm tối đa thời gian xử lý băng ghi âm, trong khi xả băng ghi âm truyền thống phải nghe và viết lại thủ công, tự ngắt phân đoạn thời gian và phân biệt từng người nói. Văn bản đầu ra được chuẩn hóa viết tắt, số, ngày tháng, từ nước ngoài, email và tự động viết hoa và chèn dấu chấm câu.
Memobot cũng hỗ trợ đăng tải và xuất văn bản chuyển đổi ra các loại tệp có định dạng khác nhau, xử lý toàn bộ các công đoạn trên trong thời gian thực, chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, từ nào sai thì chỉ cần gõ lại từ đó chứ không cần gõ lại toàn bộ nội dung.
Người dùng giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu. Hơn thế, giải pháp chuyển đổi giọng nói thành văn bản Memobot có thể được triển khai ngay, thích nghi nhiều ngôn ngữ lập trình và nhiều loại thiết bị (máy tính, điện thoại di động, micro) trong điều kiện ngoại tuyến, sử dụng dịch vụ cloud và máy chủ riêng để đảm bảo bảo mật thông tin trong đơn vị, doanh nghiệp.
TS Đỗ Quốc Trường, CEO của công ty VAIS, đơn vị phát triển ứng dụng Memobot cho biết, Memobot là tâm huyết của tập thể cố gắng đạt được trong suốt 4 năm qua. Mục tiêu là tạo ra một sản phẩm có thể giúp đỡ cho những người dùng có nhu cầu thực sự. Nhóm tác giả hy vọng mọi người sẽ yêu thích và có những trải nghiệm thú vị với Memobot.
Ứng dụng memobot đang được phát hành miễn phí trên hai nền tảng Android và iOS. Ngoài phiên bản phổ thông cung cấp thời lượng ghi âm 600 phút/tháng, ứng dụng ghi âm này còn có thêm phiên bản Plus cho thời gian ghi âm 6.000 phút/tháng, hỗ trợ ghi âm trực tuyến khi tương thích với các ứng dụng Zoom, Meets và Team cũng như hỗ trợ lưu trữ đám mây (Cloud).
Phiên bản Pro có thời gian ghi âm lên đến 12.000 phút/tháng, có các tính năng tương tự phiên bản Plus nhưng hỗ trợ thêm trình soạn thảo nâng cao và không giới hạn dung lượng lưu trữ đám mây.
Hiện tại sàn Giao dịch Công nghệ TPHCM tiếp tục hỗ trợ kết nối, chuyển giao công nghệ giải pháp chuyển đổi giọng nói thành văn bản cho đơn vị, tổ chức, cá nhân có nhu cầu.
Khi sử dụng Memobot, người dùng có thể ghi âm mọi lúc, mọi nơi bằng smartphone, kể cả việc ghi âm cuộc họp trên Zoom, Teams hay Meet. Mọi thông tin file ghi âm và văn bản đều được lưu trữ trên phần mềm. Sau đó, người dùng dễ dàng nắm bắt và chia sẻ cho người khác, do đó các cá nhân và doanh nghiệp khác cũng có thể tiếp nhận thông tin từ dữ liệu đã được lưu trữ lại.
Theo Chi Nhật (Giáo dục & Thời đại)