ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN HIỂN
XÂY DỰNG ỨNG DỤNG BIẾN ĐỔI GIỌNG NÓI TRÊN
NỀN TẢ NG DI ĐỘNG – IPHONE Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10
TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2012
3
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
MỤC LỤC
LỜI CAM ĐOAN 1!
3.1. Mô tả bài toán 26!
3.2. Biến đổi giọng nói 27!
3.2.1. Biến đổi sang giọng khác 27!
3.2.2. Biến đổi giọng nói sang môi trường khác 31!
Chương 4 – CÀI ĐẶT VÀ THỰC NGHIỆM 36!
4.1. iPhone 36!
4.1.1. Môi trường 36!
4.1.2. Cài đặt 36!
4.1.2.1. Mô tả giọng nói, lưu trữ trong chương trình 36!
4.1.2.2. Cấu trúc chương trình trên iPhone 38!
4.1.3. Kết quả 40!
4.1.3.1. Âm thanh sau khi biến đổi 40!
4.1.3.2. Đánh giá hiệu năng 41!
4.1.3.3. Đánh giá của người dùng 43!
4.1.3.4. Hình ảnh chương trình 46!
4.2. Skype trên Windows 48!
4.2.1. Môi trường 48!
4.2.2. Cài đặt 48!
4.2.3. Kết quả 49!
4.3. Đánh giá ứng dụng 51!
4.3.1. Ưu điểm 51!
4.3.2. Nhược điểm 51!
KẾT LUẬN 52!
TÀI LIỆU THAM KHẢO 54!
5
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
DANH MỤC HÌNH VẼ!
Hình 2.1: Biểu diễn tín hiệu tiếng nói 13!
Hình 2.2: Các layer trong iOS (1) 20!
người. Chiếc máy vi tính ngày càng có nhiều những chức năng mạnh mẽ giúp ích con
người thực thi các công việc trong rất nhiều lĩnh vực như khoa học, sản xuất công nghiệp
hay các lĩnh vực xã hội khác như kinh tế, chính trị, văn hóa
Không chỉ máy tính, sự phát triển chóng mặt của các thiết bị di động cầm tay cũng
tác động không nhỏ đến đời sống của con ngư ời. Những chiếc smartphone nhỏ gọn, thông
minh không chỉ giúp mọi người liên lạc với nhau dễ dàng hơn, mà nó còn cung cấ p rất
nhiều những tính năng hữu ích khác như các ứng dụng văn phòng, giải trí, khả năng kết
nối mạng để tìm hiểu thông tin. Với những tính năng mạnh mẽ ấy cộng với giá thành vừa
phải đ ã khiến các thiết bị này trở nên rất phổ biến và như vật bất ly thân của rất nhiều
người.
Theo báo cáo của Nielsen [9] – công ty nghiên cứu thị trường hàng đầ u thế giới – số
lượng smartphone trong quý 4 năm 2011 là 472 triệu, tương đương 46% tổng số điện
thoại trên toàn thế giới.
Cũng theo tổng hợp trên App Store [8], có khoảng 5 ứng dụng, đạt khoảng 3 triệu
lượt tải, phục vụ cho việc biến đổi giọng nói. Tuy nhiên, những ứng dụng này chỉ cung
cấp cho ngư ời dùng mộ t số lượng rất ít những hiệu ứng để biến đổi giọ ng nói và tương
đối khó dùng khi yêu cầu người sử dụng phải tinh chỉnh những tham số ít thân thiện.
Chính vì vậy, ý tưởng luận văn “Xây dựng hệ thống biến đổi giọng nói trên nền tảng
di động – iPhone” ra đời với những lý do:
- Đưa ra cách tiếp cận chung cho bài toán biến đổi giọng nói.
- Đưa ra nhiều tham số tương ứng với nhiều hiệu ứng khác nhau nhằm biến đổi
giọng nói sang nhiều môi trường khác nhau. Đây là bài toán được nhiều
người quan tâm, song chưa có báo cáo nào đưa ra những tham số cụ thể với
từng hiệu ứng nên nhữ ng ứng dụng hiện tại thường cài đặt rất ít hiệu ứng và
7
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
đòi hỏ i người sử dụng phải hiểu biết sâu sắc về âm thanh. Đề tài đưa ra cách
tiếp cận hợp lý để biến đổi giọng nói sang nhiều hiệu ứng khác nhau.
- Xây dựng một ứng dụng cho phép biến đổi giọng nói trên nền tảng di đ ộng,
gian thực hiện ngắn, đề tài chỉ tập trung vào những vấn đề trong phạm vi sau:
- Tìm hiểu bài toán biến đổi giọng nói, tìm hiểu một số cách tiếp cận để giải
quyết bài toán, từ đó đưa ra cách tiếp cận hợp lý nhất.
- Đề xuất các biến đổi dựa trên cách tiếp cận đã tìm hiểu, đưa ra các tham số
phù hợp để biến đổi sang khoảng 20 giọng nói và 5 hiệu ứng môi trường.
- Cài đặt một ứng dụng trên iPhone theo cách tiếp cận đề ra.
- Cài đặt plugin Skype để biến đổi giọng nói theo cách tiếp cận đề ra.
1.5. Nội dung và cấu trúc luận văn
Với nội dung chính là trình bày những lý thuyết về bài toán xử lý giọng nói, xây
dựng ứng dụng trên nền tảng di động và cách giải quyết bài toán khi xây dựng một ứng
dụng cụ thể trên nền tảng iPhone, luận văn được trình bày theo cấu trúc sau:
Chương Một trình bày lý do chọn đề tài. Qua đó trình bày nhu cầu thực tiễn cần một
sản phẩm biến đổi giọng nói trên nền tảng di động – iPhone.
Chương Hai trình bày những hệ thống lý thuyế t và công nghệ liên quan, được sử
dụng trong việc Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động – iPhone.
Những cơ sở lý thuyết và công nghệ được trình bày gồm có:
- Bài toán biến đổi giọng nói
- Biểu diễn tín hiệu tiếng nói
- Những phương pháp biến đổi giọng nói
- Nền tảng di động iPhone
- Nền tảng Skype
9
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
Trên cơ sở lý thuyết và công nghệ được trình bày trong chương Hai, chương Ba
trình bày quá trình áp dụng những cơ sở lý thuyết và công nghệ nhằm xây ứng dụng biến
đổi giọng nói trên nền tảng di động – iPhone. Nội dung củ a chương tập trung vào:
- Những yêu cầu kỹ thuật, khó khăn khi xây dựng hệ thống
- Những giải pháp đề xuất và áp dụng
- Đánh giá ưu, nhược điểm của hệ thống
dễ dàng. Ngược lại, việc sinh ra tín hiệu không được lưu trong mẫ u khiến thời gian xử lý
rất lâu. Vì tiếng nói trong tự nhiên rất đa dạng, với vài trăm ngàn từ có thể tạo thành hàng
trăm triệu câu nói với những ngữ điệu khác nhau nên cách tiếp cận này bộc lộ nhược điểm
11
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
là luôn phải đ ánh đổi giữa thời gian xử lý và kích thước lưu trữ. Chính vì vậy cách tiếp
cận này chỉ được sử dụng trong một số ít những bài toán biến đổi giọng nói nhất định.
Cách tiếp cận thứ hai, dựa trên việc biến đổi (transformation based) [6] thường cho
chất lượng kém hơn nhưng rất dễ thực hiện trong thời gian thực. Cách tiếp cận này dựa
trên các xử lý sau:
- Tìm kiếm đặc trưng của các giọng nói, từ đó đưa ra cách thức biến đổi từ
giọng nói này sang giọng nói khác.
- Tín hiệu tiếng nói A, dựa trên cách thức biến đổ i xác định, được biế n đổi sang
tín hiệu tiếng nói B.
Cách tiếp cận này thường cho phép biến đổi nhanh trong thời gian thực với kết quả
chấp nhận được. Đây cũng chính là cách tiếp cận trong luậ n văn này. Để làm được như
vậy, hệ thống cần phải thực hiện theo quy trình sau:
- Tìm kiếm đặc trưng của mỗi giọng nói
- Chuyển đổi giọng nói từ tín hiệu tương tự sang tín hiệu số
- Xử lý số, thay đổi những đặ c trư ng của giọng nói
- Chuyển đổi ngược tín hiệu số sang tín hiệu tương tự
2.1.1. Giới thiệu tiếng nói
Tiếng nói là một loại sóng âm. Khi ta nói, tiếng nói được truyền đi mang thông tin
dưới dạng các dao động cùng phương truyền đến tai người nhận. Mức độ truyền tin của
giọng nói được xem là nhanh nhất trong các khả năng tự nhiên của con người.
Khác với sách, báo, thư tín… chỉ truyền tin một chiều, tiếng nói giúp chúng ta truyền
tin cả hai chiều. Sách báo giúp chúng ta ghi lại thông tin để sau này đọc lại, nhưng tiếng
nói giúp chúng ta thể hiện bản thân hơn. Thông qua cách nói chuyện, khả năng ứng xử, ta
có thể đánh giá được trình độ và nhân cách của mỗi người.
Việc xem xét các vấn đề xử lý tín hiệu tiế ng nói trong các hệ thống này dựa trên ba
vấn đề chính:
- Biểu diễn tín hiệu tiếng nói dạng số
- Cài đặt các kỹ thuật xử lý
- Các lớp ứng dụng dựa trên kỹ thuật xử lý tín hiệu số
13
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
Phần này trình bày vấn đề biểu diễn tiếng nói dưới dạng số. Mô hình tổng quát các
phương pháp biểu diễn tín hiệu tiếng nói được trình bày trên hình.
Hình 2.1: Biểu diễn tín hiệu tiếng nói
Biểu diễn tín hiệu tiếng nói theo dạng số chịu ảnh hưởng quan trọng của lý thuyết
lấy mẫu, theo đó các trạng thái của tín hiệu có dải tần giới hạ n có thể được biểu diễn dưới
dạng các mẫu lấy tuần hoàn theo mộ t chu kỳ cố định gọi là chu kỳ lấy mẫu. Việ c lấy mẫu
này sẽ cung cấp cho hệ thống những mẫu tín hiệu với tỷ lệ đủ lớ n để xử lý. Tất cả các quá
trình xử lý lấy mẫu được chỉ rõ trong các tài liệu về xử lý tín hiệu số. Có nhiều phương
pháp biểu diễn rời rạc tín hiệu tiếng nói nói. Các khả năng biểu diễn như thế được phân
thành hai nhóm chính: nhóm biểu diễn tín hiệu dạng sóng (waveform) và nhóm biểu diễn
tín hiệu theo tham số (parametric).
Biểu diễn tín hiệu tiếng nói
Biểu diễn dạng sóng
Biểu diễn dạng tham số
Các tham số kích
thích
Các tham số của bộ
máy phát âm
14
0
là: f
0
≥ f
MAX
với f
MAX
là tần số lớn
nhất của tín hiệu tương tự.
Phổ của tín hiệu tiếng nói trải rộng trong khoảng 12 kHz, do đó theo định lý
Shannon thì tần số lấy mẫu tối thiểu là 24 kHz. Với tần số lấy mẫu lớn như thế thì khối
15
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
lượng bộ nhớ dành cho việc ghi âm sẽ rất lớn và làm tăng sự phức tạp trong tính toán.
Nhưng chi phí cho việc xử lý tín hiệu số, bộ lọc, sự truyền và ghi âm có thể giảm đi nếu
chấp nhận giới hạn phổ bằng cách cho tín hiệu qua một bộ lọc tần số thích hợp. Đối với
tín hiệu tiếng nói cho điện thoại, người ta thấy rằng tín hiệu tiếng nói đạt chất lượng cần
thiết để mức độ ngữ nghĩa của thông tin vẫn bảo đảm khi phổ được giới hạn ở 3400 Hz.
Khi đó tần số lấy mẫu sẽ là 8000 Hz. Trong kỹ thuật phân tích, tổng hợp hay nhận dạng
tiếng nói, tần số lấy mẫu có thể dao động trong khoảng 6.000 – 16.000 Hz. Đ ối với tín
hiệu âm thanh (bao gồm cả tiếng nói và âm nhạc) tần số lấy mẫu cần thiết là 48 kHz.
2.1.2.2. Lượng tử hoá
Việc biểu diễn số tín hiệu đòi hỏi việc lượng tử hoá mỗi mẫu tín hiệu với một giá trị
rời rạc hữu hạn. Mục tiêu của công việc này hoặc là để truyền tải hoặc xử lý có hiệu quả.
Trong trường hợp thứ nhất, mỗi mẫu tín hiệu được lượng tử hoá, mã hoá rồi truyền đ i.
Bên thu nhận tín hiệu giả i mã và thu được tín hiệu tương tự. Tính thống kê của tín hiệu
được bảo toàn sẽ ảnh hưởng quan trọng đến thuật toán lư ợng tử hoá. Trong trường hợp xử
lý tín hiệu, luật lượng tử hoá đượ c quy định bởi hệ thống xử lý, nó có thể được biểu diễn
bằng dấu phẩy tĩnh hay dấu phẩy động. Việc xử lý bằng dấu phẩy động cho phép thao tác
a. Mã hoá trực tiếp tín hiệu
Phương pháp mã hoá trực tiếp hay phổ tín hiệ u cho phép biểu diễn một cách trung
thực nhất tín hiệu. Mã hoá trực tiếp thực chất là biểu diễn mỗi mẫu tín hiệu hay phổ tín
hiệu độc lập khác với các mẫu khác. Một hệ thống mã hoá tín hiệu khá phổ biến hiện nay
theo phương pháp này thực hiện trong miền thời gian là mã hoá xung PCM (Pulse Code
Mudulation).
Để bảo đảm biểu diễn tín hiệu đạt chất lượ ng cao phải bảm bảo được thông lượng
cần thiết. Do tần số lấy mẫu đã được cố định, muốn giảm được thông lượng này phải
giảm số bit dùng biểu diễn một mẫu. Muốn vậy phải áp dụ ng luật lượng tử phù hợp với
thống kê bậc một của tín hiệu, nghĩa là phù hợp với mật độ phân bố và sự thay đổi của tín
hiệu. Hệ thống PCM có thể giảm thông lượng xuống còn 64 kb/s.
17
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
Cũng theo hướng này người ta dùng hàm tự hồi quy để thực hiện nén tín hiệu. Khi
đó mỗi mẫu mới của tín hiệu tiếng nói lạ i không chứa các đặc điểm hoàn toàn mới, nó
chắc chắn có liên quan đến các mẫu trước đó.
Như vậy mỗi mẫu tín hiệu tiếng nói, bằng nhiều phương pháp có thể tiên đoán nhờ
một số mẫu trước đó, khi đó chỉ cần tính toán sai số dự đoán và biến đổi. Tại nơi nhận tín
hiệu, mộ t phép biến đổi ngư ợ c lại được thực hiện và người ta thấy rằng hệ số khuếch đại
của hệ thống đối với thông lượng là hàm chất lượng của phép tiên đoán. Các hệ thống
hoạt động theo nguyên tắc này có:
- DPCM (Differential PCM): Hệ thống PCM dùng phép tiên đoán cố định.
Thay vì truyền mẫu tín hiệu, phương pháp này truyền đi các hệ số tiên đoán
và sai số dự đoán.
- ADPCM (Adaptive DPCM): Hệ thống PCM dùng phép tiên đoán thích nghi.
Hệ thống này là hệ thống cải tiến của hệ thống DPCM, người ta sẽ dùng hàm
tự hồi quy trong thời gian ngắn để tính toán các hệ số tiên đoán với một đ oạn
mẫu tín hiệu khoảng 20ms. Những tính toán này thực hiện trong thời gian
thực.
những tham số sau:
- Độ cao: Là mức độ cao thấp của âm, phụ thuộc vào sự chấn độ ng nhanh hay
chậm của không khí trong một khoảng thời gian nhất định, được gọi là tần số
dao động. Tần số dao động càng lớn thì âm thanh càng cao. Tham số này
thường được gọi là pitch.
- Độ mạnh: Thường được gọi là cường độ, do biên độ dao động quyết định.
Trong ngôn ngữ, phụ âm thường mạnh hơn nguyên âm, đây chính là một
trong những đặc điểm góp phần nhận diện sự khác biệt giữa phụ âm và
nguyên âm trong tiếng nói. Tham số này thường được gọi là amplitude.
2.2. Tổng quan về nền tảng công nghệ
Phần này trình bày những nền tảng công nghệ được sử dụng cho việc cài đặt ứng
dụng trong luận văn. iOS là nền tảng công nghệ chính được sử dụng. Tuy nhiên, do nền
19
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
tảng iOS chưa hỗ trợ việc can thiệp vào những cuộc gọi, người viết đã tìm hiểu và cài đặt
hệ thống trên nền tảng Skype nhằm thể hiện việc biến đổi giọng nói trong những cuộc gọi.
2.2.1. Nền tảng iOS
2.2.1.1. Tổng quan về nền tảng iOS
iOS là hệ điều hành trên các thiết bị di động của Apple [12]-[1]. Ban đầu hệ điều
hành này chỉ được phát triển để chạy trên iPhone, nhưng sau đó nó đã được mở rộng để
chạy trên các thiết bị của Apple như iPod touch, iPad và Apple TV. Ngày 31 tháng 5,
2011, App Store của Apple chứa khoảng 500 000 ứng dụng iOS, và được tải về tổng cộng
khoảng 15 tỷ lần.[9] Trong quý 4 năm 2011, có khoảng 30% điện thoại thông minh chạy
hệ điều hành iOS, sau hệ điều hành Android của Google.
Giao diện người dùng của iOS dựa trên cơ sở thao tác bằng tay. Người dùng có thể
tương tác với hệ điều hành này thông qua rất nhiều động tác bằng tay trên màn hình cảm
ứng của các thiết bị của Apple.
2.2.1.2. Kiến trúc hệ thống iOS
iOS là hệ điều hành chạy trên các thiết bị iPhone, iPod touch, và iPad [12]-[2]. Hệ
21
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
Công nghệ iOS thực hiện thông qua một loạt nhữ ng layer, được thể hiện trong Hình
2.3. Các layer thấp hơn của hệ thống cung cấp các dịch vụ cơ bản để các layer cao hơn có
thể sử dụng được. Hình 2.3: Các layer trong iOS (2)[8]
Khi viết mã ứng dụng, lập trình viên nên sử dụng các layer cao nhất có thể. Các
layer cao hơ n thường cung cấp mức độ trừu tượng cao hơn và ít phụ thuộc vào phần cứng
hơn. Điều này khiến việc viết ứng dụng dễ dàng hơn, giảm số lư ợ ng mã phải viết và đóng
gói. Mặc dù vậy, những layer thấp hơn vẫn tồn tại trong bộ SKD và lập trình viên vẫn có
thể sử dụng khi cần thiết.
b. SDK iOS
SDK iOS đi kèm với tất cả các giao diện, các công cụ và tài nguyên cần thiết đ ể phát
triển các ứng dụ ng iOS từ máy tính Macintosh trên nền Intel. Apple cung cấp hầu hết các
giao diện hệ thống của nó trong các gói đặc biệt gọi là framework. Framework là một thư
mục chứa một thư viện chia sẻ và tài nguyên (như các tập tin tiêu đề, hình ảnh, ứng dụng
trợ giúp, …) cần thiết cho thư viện. Để sử dụng các framework, lập trình viên cần liên kết
chúng vào ứng dụng, giống như bất kỳ thư viện chia sẻ nào khác.
Một số thành phần quan trọng khác của SDK bao gồm:
- Xcode: Công cụ hỗ trợ phát triển ứng dụng iOS, bao gồm cả các ứng dụng
quan trọng:
22
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
• Xcode là một môi trường phát triển tích hợp, quản lý các dự án ứng
dụng của lập trình viên và cho phép những lập trình viên chỉnh sửa,
đặt trực tiếp trên thiết bị và có thể chạy mà không có kết nối mạng.
Thư việ n phát triển của iOS chứa các tài liệu, hướng dẫn, và các thông tin khác mà
lập trình viên cần để viết các ứng dụng iOS.
Khi cài đặt iOS SDK, Xcode tự động liên kết với thư viện phát triển iOS để sử
dụng. (Xcode cũng tự động tải về bản cập nhật) Thư viện phát triển iOS chứ a rất nhiều
thông tin, Hình 2.4 cho thấy các trang chính của thư viện phát triển trong cửa sổ tài liệu
Xcode. Hình 2.4: Thư viện phát triển iOS[8]
24
Xây dựng hệ thống biến đổi giọng nói trên nền tảng di động iPhone Nguyễn Văn Hiển – 2012
2.2.2. Ứng dụng Skype
2.2.2.1. Tổng quan ứng dụng Skype
Skype là một mạng điện thoại Internet ngang hàng được thành lập bở i Niklas
Zennström và Janus Friis, cũng là những người thành lập ra ứ ng dụng chia sẻ tập
tin Kazaa và ứng dụng truyền hình ngang hàng Joost. Skype cạnh tranh với những giao
thức VoIP mở hiện nay như SIP, IAX, và H.323. Skype Group, được mua lại với giá 2,6
tỉ USD bởi eBay vào tháng 9 2005, có trụ sở đặt tạ i Luxembourg, với các văn phòng đại
diện ở London, Tallinn, Praha và San Jose, California.
Skype đã phát triển nhanh chóng về cả lượng người dùng và phát triển phần mềm từ
khi ra mắt, cả dịch vụ miễn phí và dịch vụ trả tiền. Hệ thống liên lạc Skype nổi bật nhờ
các tính năng thuộ c nhiều lĩnh vực, bao gồm hội nghị thoại và hình ảnh miễn phí, khả
năng sử dụng công nghệ (phân bố) ngang hàng để vượt qua vấn đề về tường lử a và NAT,
sử dụng kỹ thuật mã hóa mạnh và trong suốt và khả nă ng cực mạnh chống lại việc biên
dịch ngược phần mềm hay giao thức.
Ngày 10 tháng 5 năm 2011, tâp đoàn Microsoft đã mua lại Skype với giá 8,5 tỷ
USD.
2.2.2.2. Skype Plugin
Chương 3 – XÂY DỰNG HỆ THỐNG BIẾN ĐỔI GIỌNG NÓI
3.1. Mô tả bài toán
Trên cơ sở lý thuyết và công nghệ đã mô tả trong chương hai, luận văn tập trung vào
xây dựng các ứng dụng:
• Ứng dụng trên iPhone: Cho phép người dùng:
o Ghi âm giọng nói của mình
o Biến đổi giọng nói:
Sang một giọng nói khác (17 giọng nói):
• Giọng nam giới
• Giọng nữ giới
• Giọng trẻ em mới tập nói
• Giọng trẻ nhi đồng
• Giọng phát thanh viên qua loa
• Giọng vang trong núi
• …
Trong một môi trường khác (6 môi trường):
• Mưa rơi
• Đương phố
• Nơi đông người
• Tiếng vỗ tay
• Âm thanh trên biển
• Nơi có còi báo động
Tuỳ chỉnh các hiệu ứng
o Lưu giọng nói đã biến đổi
• Plugin cho Skype: Cho phép người dùng:
o Cài đặt plugin cho Skype
o Biến đổi giọng nói trong cuộc gọi: