Klonowanie głosu i deepfake. „Metoda na wnuczka” wchodzi w nową erę
Telefon przychodzi nagle. W słuchawce słychać zdenerwowany głos dziecka, wnuka albo szefa. Jest wypadek, areszt, pilny przelew, nie ma czasu na pytania. Jeszcze niedawno takim oszustwom często przeszkadzał jeden szczegół: głos nie brzmiał przekonująco. Teraz ten szczegół da się podrobić.
Klonowanie głosu nie wymyśliło oszustw „na wnuczka”, „na policjanta” czy „na prezesa”. Ono tylko dokłada do nich warstwę, która uderza prosto w zaufanie. Bo jeśli ktoś brzmi jak bliska osoba, mózg ma mniej powodów, żeby nacisnąć hamulec.
To nie znaczy, że każdy dziwny telefon jest już deepfake’em. Wiele historii krążących w sieci jest przesadzonych albo słabo udokumentowanych. Ale potwierdzone ostrzeżenia CERT, NASK, FTC, FBI i regulatorów pokazują jedno: oszustwa z użyciem syntetycznego głosu są realnym ryzykiem, a najlepsza obrona zaczyna się od prostej zasady — nie ufaj samemu głosowi.
Najkrócej
- Klonowanie głosu AI pozwala stworzyć syntetyczny głos podobny do konkretnej osoby na podstawie nagrań dostępnych np. w social mediach, filmach, wywiadach albo wiadomościach głosowych.
- Oszuści wykorzystują tę technologię do ulepszania starych schematów: „na wnuczka”, „na policjanta”, „na pracownika banku” i „na prezesa”.
- Potwierdzony jest sam mechanizm i rosnące ryzyko. Nie zawsze da się natomiast potwierdzić, że konkretna opisywana w mediach rozmowa faktycznie używała AI.
- Najważniejsza metoda obrony to przerwanie rozmowy i oddzwonienie do rzekomego rozmówcy na znany, zapisany wcześniej numer.
- W rodzinach i firmach warto ustalić hasło bezpieczeństwa oraz zasadę: żadnych przelewów, kodów BLIK i danych pod presją telefonu.
- W Polsce publiczne dane lepiej dokumentują phishing, fałszywe inwestycje i deepfake’i reklamowe niż skalę samych oszustw głosowych AI.
- Materiały audio i wideo tworzone przez AI będą coraz lepsze, więc ciężar obrony przesuwa się z „rozpoznawania fałszu” na procedury weryfikacji.
Stare oszustwo, nowy głos
Oszustwo „na wnuczka” nigdy nie było szczególnie wyrafinowane technicznie. Jego siła brała się z czegoś prostszego: z emocji. Ktoś dzwonił do starszej osoby, podszywał się pod krewnego, mówił o wypadku, problemie z policją, nagłej potrzebie pieniędzy. Potem pojawiał się „kolega”, „adwokat”, „policjant” albo „kurier”, który miał odebrać gotówkę.
Ten schemat działał, bo uderzał w relację. W troskę o dziecko, wnuka, siostrzenicę. W lęk, że jeśli teraz nie pomożemy, stanie się coś nieodwracalnego. Policja od lat ostrzega, że przestępcy podszywający się pod członków rodziny lub funkcjonariuszy wyłudzają pieniądze głównie od osób starszych, często całe ich oszczędności. W klasycznych poradach powtarza się ten sam zestaw zasad: prawdziwy policjant nie zadzwoni z informacją o tajnej akcji i nie poprosi o przekazanie pieniędzy, a każdą dramatyczną prośbę trzeba zweryfikować poza rozmową z osobą dzwoniącą.
Klonowanie głosu nie zmienia więc podstawowego scenariusza. Zmienia jego wiarygodność.
Dawniej ofiara mogła pomyśleć: „To chyba nie jest mój wnuk, głos się nie zgadza”. Dziś przestępca może spróbować sprawić, żeby głos właśnie się zgadzał. Albo przynajmniej zgadzał się na tyle, by w stresie, w płaczu, w hałasie i pod presją czasu zadziałał automatyzm: „To naprawdę on”.
To jest najważniejsza zmiana. Deepfake głosowy nie musi być perfekcyjny w warunkach laboratoryjnych. Wystarczy, że jest wystarczająco dobry w warunkach oszustwa: krótkiego telefonu, paniki, słabej jakości połączenia, opowieści o wypadku albo areszcie.
W Stanach Zjednoczonych Federal Trade Commission już w marcu 2023 roku ostrzegała przed scenariuszem, w którym oszust klonuje głos bliskiej osoby na podstawie krótkiego nagrania znalezionego online, a potem dzwoni z historią o nagłym kryzysie rodzinnym. FTC podkreślała wtedy prostą zasadę: nie ufać samemu głosowi, tylko rozłączyć się i oddzwonić na znany numer.
Podobny język pojawia się w ostrzeżeniach FBI. Biuro wskazywało, że cyberprzestępcy wykorzystują AI do phishingu, socjotechniki oraz klonowania głosu i wideo, podszywając się pod członków rodziny, współpracowników lub partnerów biznesowych. Cel pozostaje klasyczny: wyłudzenie informacji, danych logowania albo autoryzacja fałszywej transakcji.
Jak działa klonowanie głosu
W najprostszym ujęciu klonowanie głosu polega na stworzeniu cyfrowej imitacji czyjejś mowy. Narzędzie analizuje próbkę głosu: barwę, tempo, akcent, sposób wypowiadania samogłosek, pauzy, czasem też emocje. Potem może wygenerować nową wypowiedź brzmiącą podobnie do osoby, której głos wykorzystano.
W praktyce są różne poziomy takiego fałszerstwa. Jeden to text-to-speech, czyli wpisanie tekstu, który syntetyczny głos ma przeczytać. Drugi to speech-to-speech, gdzie narzędzie przetwarza wypowiedź jednej osoby tak, by brzmiała jak ktoś inny, zachowując więcej intonacji, rytmu i emocji. Ten drugi wariant bywa bardziej przekonujący, ale zwykle wymaga lepszego materiału i więcej pracy.
Dlatego trzeba uważać na popularne zdanie: „wystarczą trzy sekundy głosu”. Czasem w określonych narzędziach i prostych zastosowaniach bardzo krótka próbka może dać rozpoznawalny efekt. Ale nie jest to uniwersalna zasada. NASK w materiale o deepfake’ach wskazywał, że w przypadku technologii text-to-speech przestępcom może wystarczyć zaledwie kilka sekund nagranego głosu, natomiast przy bardziej złożonym speech-to-speech potrzebny może być dłuższy fragment, około jednej minuty oryginalnego materiału.
To rozróżnienie jest ważne, bo wokół AI łatwo o sensację. Nie każdy filmik z TikToka automatycznie pozwala stworzyć idealną kopię głosu. Ale im więcej ktoś publikuje nagrań, relacji, podcastów, webinarów, wywiadów, rolek i transmisji na żywo, tym więcej materiału można zebrać. Dla osób publicznych, przedsiębiorców, twórców internetowych i menedżerów to realny problem. Dla zwykłych użytkowników również, choć ryzyko zależy od tego, ile materiałów głosowych udostępniają i czy mogą być atrakcyjnym celem.
Warto też pamiętać, że oszustwo rzadko opiera się wyłącznie na głosie. Przestępcy składają całą scenę. Numer może wyglądać znajomo, bo caller ID da się sfałszować. Wiadomość może przyjść z konta przejętego w mediach społecznościowych. Rozmowa może być poprzedzona SMS-em: „Mamo, telefon mi się zepsuł, piszę z nowego numeru”. CERT Polska w przeglądzie kampanii phishingowych z 2024 roku opisywał scenariusz, w którym oszust podawał się za dziecko adresata, tłumaczył kontakt z nowego numeru zniszczonym telefonem i próbował przenieść rozmowę na WhatsAppa, by wyłudzić pieniądze od rodziców.
To pokazuje, że AI nie zastępuje socjotechniki. Ono ją wzmacnia.
Dlaczego ten atak jest tak skuteczny
Przez lata uczono nas, żeby patrzeć na literówki w mailach, dziwne linki i podejrzane adresy stron. W oszustwie głosowym problem jest trudniejszy, bo włącza się zupełnie inny mechanizm zaufania. Głos jest intymny. Rozpoznajemy ludzi po barwie, oddechu, przyzwyczajeniach językowych, nawet po tym, jak milczą.
Dlatego telefon z „głosem wnuka” działa inaczej niż mail z błędem ortograficznym. Jeśli ktoś brzmi jak bliska osoba i mówi, że jest w niebezpieczeństwie, człowiek nie analizuje całej sytuacji jak audytor. Raczej próbuje pomóc.
Przestępcy to wiedzą. Dlatego dokładają presję czasu. „Nie rozłączaj się”. „Nie mów nikomu”. „Policja słucha”. „To tajna akcja”. „Przelew musi wyjść teraz”. „Za godzinę będzie za późno”. W policyjnych ostrzeżeniach ten element wraca stale: oszuści celowo nie pozwalają ofiarom ochłonąć, zadzwonić do rodziny, sprawdzić informacji.
Deepfake głosowy dokłada do tego fałszywy dowód. Nie tylko ktoś mówi, że jest wnukiem. On brzmi jak wnuk. Nie tylko ktoś pisze, że jest prezesem. On dzwoni głosem prezesa.
To samo dotyczy firm. W przedsiębiorstwach od lat znane są ataki BEC, czyli Business Email Compromise: oszustwo polegające na podszyciu się pod przełożonego, kontrahenta albo dział finansowy, by wymusić przelew, zmianę numeru rachunku lub ujawnienie danych. W wersji głosowej taki atak może wyglądać jak krótki telefon od prezesa: „Jestem na spotkaniu, nie mogę pisać, zaraz wyślę fakturę, zatwierdź to pilnie”.
I tu wchodzimy w sedno: ofiary nie dają się nabrać dlatego, że są „naiwne”. Dają się nabrać, bo atak jest projektowany tak, by ominąć racjonalną ocenę. Ma być nagły, emocjonalny, autorytatywny i trudny do sprawdzenia w tej samej chwili.
Od „wnuczka” do „prezesa”
Najbardziej obrazowy jest scenariusz rodzinny. Dzwoni „córka”. Płacze. Mówi, że spowodowała wypadek. Obok pojawia się „policjant” albo „adwokat”. Trzeba szybko zapłacić. Nie można rozmawiać z nikim innym. To klasyczna metoda „na wnuczka” i „na policjanta”, tylko z technologicznym ulepszeniem.
Ale lista możliwych zastosowań jest dłuższa.
W firmach deepfake głosowy może wspierać oszustwo „na prezesa”. Przestępca potrzebuje trzech rzeczy: próbki głosu osoby decyzyjnej, wiedzy o firmie i dobrego momentu. Próbki mogą pochodzić z wystąpień publicznych, podcastów, konferencji, nagrań na LinkedInie, webinarów. Wiedzę o firmie można zebrać z KRS, strony internetowej, postów pracowników, komunikatów prasowych i wycieków danych. Dobry moment to piątkowe popołudnie, wyjazd prezesa, zamknięcie kwartału, pilna transakcja.
Podany przez użytkownika materiał Zaufanej Trzeciej Strony opisuje właśnie ten kierunek: praktyczne użycie AI do podrabiania głosów w kontekście oszustwa na osobę decyzyjną w firmie. Ponieważ automatyczny dostęp do pełnej treści był ograniczony, szczegóły konkretnego case’u warto przed publikacją dodatkowo zweryfikować ręcznie. Sam mechanizm jest jednak potwierdzony przez inne źródła branżowe i instytucjonalne: FBI ostrzega przed podszywaniem się pod współpracowników i partnerów biznesowych przy użyciu głosu oraz wideo, a FTC wskazuje na ryzyka dla rodzin i małych firm.
Jest też trzeci obszar: fałszywe inwestycje. Tutaj deepfake nie musi dzwonić. Może występować w reklamie, filmie, pseudo-wiadomościach telewizyjnych albo na stronie podszywającej się pod portal informacyjny. Widzimy znanego przedsiębiorcę, polityka, sportowca albo influencera, który rzekomo zachwala platformę inwestycyjną. Usta się ruszają, głos brzmi znajomo, pasek informacyjny wygląda jak z telewizji. Wszystko prowadzi do formularza, telefonu od „opiekuna inwestycyjnego” i utraty pieniędzy.
NASK w maju 2024 roku ostrzegał przed rosnącą liczbą oszustw deepfake wykorzystujących wizerunki znanych osób. Wskazywał m.in. na nagrania, w których wykorzystano wizerunek i głos polityków, przedsiębiorców, sportowców i influencerów do promowania rzekomo wyjątkowo korzystnych inwestycji.
CSIRT KNF w raporcie za 2024 rok opisał skalę fałszywych inwestycji w Polsce. Zespół zgłosił do CERT Polska 51 241 niebezpiecznych domen, z czego 45 985 dotyczyło fałszywych inwestycji. To 89,4 proc. głównych kategorii ataków odnotowanych w raporcie. CSIRT KNF podkreślał także, że przestępcy chętnie wykorzystywali deepfake do tworzenia oszukańczych materiałów wideo ze znanymi osobami.
To nie jest więc jeden nowy przekręt. To raczej nowa warstwa nakładana na stare przekręty: rodzinne, bankowe, firmowe, inwestycyjne i polityczne.
Co wiemy na pewno, a czego nie da się jeszcze potwierdzić
W tym temacie łatwo przesadzić. Dlatego trzeba oddzielić kilka poziomów pewności.
Po pierwsze, sama technologia jest realna. Narzędzia do syntezy i klonowania głosu istnieją, są coraz łatwiej dostępne i mogą tworzyć nagrania trudne do rozpoznania wyłącznie „na ucho”. FTC pisała, że wiele systemów jest komercyjnie dostępnych albo open source, co ułatwia dostęp do technologii pozwalającej replikować ludzkie głosy w sposób trudny do wykrycia przez słuchacza.
Po drugie, potwierdzony jest przestępczy potencjał tej technologii. FBI ostrzega przed głosowym i wideo-klonowaniem w phishingu i socjotechnice, FTC przed rodzinnymi oszustwami kryzysowymi, NASK przed deepfake’ami w reklamach inwestycyjnych, a CSIRT KNF pokazuje, że fałszywe inwestycje i wykorzystanie wizerunków znanych osób są jednym z kluczowych problemów na polskim rynku finansowym.
Po trzecie, nie każda historia o „głosie AI” jest automatycznie potwierdzona. Jeśli ofiara mówi, że głos brzmiał jak córka, to może oznaczać kilka rzeczy: rzeczywiste klonowanie głosu, dobrego aktora, zniekształcenie przez płacz i panikę, słabą jakość połączenia, autosugestię albo klasyczne podszycie się bez technologii AI. Bez analizy nagrania, danych telekomunikacyjnych i śledztwa nie da się tego przesądzić.
Po czwarte, nie mamy publicznych danych, które precyzyjnie pokazywałyby skalę oszustw telefonicznych z użyciem klonowania głosu w Polsce. Mamy ostrzeżenia, przykłady, raporty o deepfake’ach i phishingu, dane o fałszywych domenach oraz kampaniach reklamowych. To wystarcza, by traktować problem poważnie, ale nie wystarcza, by odpowiedzialnie pisać, że „Polskę zalała fala oszustw głosowych AI”, jeśli nie mamy twardych statystyk.
To ważne, bo panika pomaga oszustom prawie tak samo jak technologia. Jeśli ludzie uwierzą, że „niczego nie da się już sprawdzić”, mogą uznać, że są bezradni. A to nieprawda. Wciąż da się bronić — tylko trzeba zmienić zasadę z „poznam po głosie” na „potwierdzę innym kanałem”.
Jak się bronić w domu, rodzinie i firmie
Najważniejsza zasada brzmi brutalnie prosto: głos nie jest już dowodem tożsamości.
Jeśli dzwoni ktoś, kto brzmi jak bliska osoba i prosi o pieniądze, trzeba przerwać rozmowę. Nie dyskutować, nie tłumaczyć się, nie odpowiadać na serię pytań. Rozłączyć się. Potem zadzwonić do tej osoby na numer zapisany wcześniej w kontaktach. Jeśli nie odbiera, zadzwonić do kogoś z rodziny, znajomego, współlokatora, partnera, rodzica. FTC rekomenduje dokładnie taki schemat: nie ufać głosowi, zadzwonić do osoby, która rzekomo się kontaktowała, używając znanego numeru, a jeśli się nie uda — sprawdzić historię przez innych bliskich.
W rodzinach warto ustalić hasło bezpieczeństwa. Nie musi być skomplikowane. Ważne, żeby nie było oczywiste i żeby nie pojawiało się w mediach społecznościowych. Nie „imię psa”, jeśli pies ma własny Instagram. Raczej zdanie albo pytanie, które brzmi naturalnie, ale zna je tylko rodzina. Policja w aktualnych ostrzeżeniach również wskazuje rodzinne hasło jako dobry sposób upewnienia się, że po drugiej stronie słuchawki naprawdę jest bliska osoba.
Druga zasada: żadnych pieniędzy pod presją telefonu. Ani przelewu, ani BLIK-a, ani kryptowalut, ani gotówki przekazywanej obcej osobie. Jeśli historia jest prawdziwa, przetrwa pięć minut weryfikacji. Jeśli nie może poczekać pięciu minut, to najpewniej właśnie dlatego jest oszustwem.
Trzecia zasada: nie dawać rozmówcy dodatkowych danych. W klasycznych oszustwach przestępcy często zaczynają od ogólników: „Babciu, to ja”. Ofiara sama odpowiada: „Kuba?”. W ten sposób oszust dostaje imię i prowadzi dalej. W wersji AI dane też są paliwem. Nie potwierdzajmy adresu, nazwisk, planów wyjazdowych, informacji o koncie, nazw banków i członków rodziny.
W firmach potrzebne są procedury, a nie tylko „czujność”. Każda nietypowa płatność powinna mieć drugi kanał potwierdzenia. Jeśli polecenie przyszło telefonicznie, potwierdzenie musi przyjść inną drogą — najlepiej przez znany numer, firmowy komunikator lub podpisany proces akceptacji. Zmiana numeru rachunku kontrahenta powinna wymagać niezależnego potwierdzenia u osoby wskazanej w dotychczasowej dokumentacji, nie w mailu z prośbą o zmianę.
Warto też ograniczyć publiczne nagrania osób decyzyjnych, o ile nie są potrzebne. Nie chodzi o zniknięcie z internetu, tylko o świadomość, że długie, czyste nagrania głosu prezesa, dyrektora finansowego, rzecznika czy założyciela mogą być wykorzystane także przeciwko organizacji.
I jeszcze jedna rzecz: techniczne detektory deepfake’ów mogą pomagać, ale nie powinny być jedyną linią obrony. To wyścig. Modele generujące stają się lepsze, detektory próbują nadążyć, potem generatory uczą się omijać detektory. W codziennym bezpieczeństwie najpewniejsza jest procedura: rozłącz, oddzwoń, potwierdź, nie działaj pod presją.
Prawo, platformy i wyścig z technologią
Regulatorzy zaczynają reagować, ale prawo porusza się wolniej niż narzędzia.
W USA Federal Communications Commission w lutym 2024 roku uznała, że połączenia wykorzystujące głosy generowane przez AI mieszczą się w regulacjach dotyczących „sztucznego lub nagranego głosu” w ramach Telephone Consumer Protection Act. W praktyce oznacza to, że takie robocalls wymagają uprzedniej zgody odbiorcy, o ile nie zachodzi wyjątek. FCC wprost wskazała, że technologie takie jak voice cloning podpadają pod istniejące ograniczenia, bo sztucznie symulują ludzki głos.
W Unii Europejskiej ważnym punktem odniesienia jest AI Act. Artykuł 50 przewiduje obowiązki przejrzystości: treści audio, obraz, wideo lub tekst generowane albo manipulowane przez AI mają być oznaczane i możliwe do wykrycia jako sztucznie wygenerowane, a podmioty wykorzystujące systemy tworzące deepfake’i mają ujawniać, że dana treść została sztucznie wygenerowana lub zmanipulowana. Są wyjątki, m.in. dla określonych działań organów ścigania oraz dla części twórczości artystycznej czy satyrycznej, ale kierunek regulacji jest jasny: odbiorca ma wiedzieć, że nie patrzy lub nie słucha autentycznego materiału.
Problem polega na tym, że przestępcy nie będą oznaczać oszukańczych deepfake’ów. Dlatego znaczenie mają też platformy społecznościowe, systemy reklamowe i operatorzy usług. NASK zwracał uwagę, że fałszywe nagrania inwestycyjne często są osadzane w formacie przypominającym przekaz telewizyjny, co dodatkowo podnosi ich wiarygodność. CSIRT KNF raportował z kolei tysiące fałszywych reklam zgłaszanych do blokady w mediach społecznościowych.
To oznacza, że walka z deepfake’ami nie rozstrzygnie się wyłącznie po stronie użytkownika. Potrzebne są skuteczniejsze blokady reklam, szybsze reakcje platform, lepsza współpraca z bankami i operatorami, edukacja oraz jasne procedury zgłaszania incydentów.
Ale na końcu i tak zostaje moment telefonu.
Ktoś dzwoni. Brzmi znajomo. Mówi, że potrzebuje pomocy. Prosi, żeby działać natychmiast.
W świecie klonowania głosu właściwa reakcja nie brzmi: „Rozpoznam, czy to prawdziwy głos”. Brzmi: „Sprawdzę to inaczej”.
I to jest nowa, najważniejsza zasada bezpieczeństwa. Nie dlatego, że każda rozmowa jest deepfake’em. Dlatego, że jedna może nim być.
Źródła
- CERT Polska — „Uwaga na oszustwa telefoniczne z wykorzystaniem AI”, listopad 2023
- https://cert.pl/posts/2023/11/uwaga-na-oszustwa-telefoniczne-z-wykorzystaniem-ai/
- Zaufana Trzecia Strona — „Jak oszuści używają AI do podrabiania głosów w praktyce”
- https://zaufanatrzeciastrona.pl/post/jak-oszusci-uzywaja-ai-do-podrabiania-glosow-w-praktyce/
- FTC — „Scammers use AI to enhance their family emergency schemes”, 20 marca 2023
- https://consumer.ftc.gov/consumer-alerts/2023/03/scammers-use-ai-enhance-their-family-emergency-schemes
- FTC — „Preventing the Harms of AI-enabled Voice Cloning”, 16 listopada 2023
- https://www.ftc.gov/policy/advocacy-research/tech-at-ftc/2023/11/preventing-harms-ai-enabled-voice-cloning
- FBI — „FBI Warns of Increasing Threat of Cyber Criminals Utilizing Artificial Intelligence”, 8 maja 2024
- https://www.fbi.gov/contact-us/field-offices/sanfrancisco/news/fbi-warns-of-increasing-threat-of-cyber-criminals-utilizing-artificial-intelligence
- NASK — „NASK ostrzega: rośnie liczba oszustw deepfake wykorzystujących wizerunki znanych osób”, 17 maja 2024
- https://www.nask.pl/magazyn/NASK-ostrzega-rosnie-liczba-oszustw-deepfake-wykorzystujacych-wizerunki-znanych-osob
- CERT Polska — „Raport roczny z działalności CERT Polska w 2024 roku”, 3 kwietnia 2025
- https://cert.pl/posts/2025/04/raport-roczny-2024/
- CERT Polska — „Raport roczny z działalności CERT Polska w 2023 roku”, 17 kwietnia 2024
- https://cert.pl/posts/2024/04/raport-roczny-2023/
- CSIRT KNF — „Raport Roczny CSIRT KNF 2024”
- https://www.knf.gov.pl/knf/pl/komponenty/img/Raport_Roczny_CSIRT_KNF_2024_93226.pdf
- Policja.pl — „Nie daj się nabrać! Oszustwa ‘na wnuczka’ i ‘na policjanta’”, 14 marca 2017
- https://www.policja.pl/pol/aktualnosci/140178%2CNie-daj-sie-nabrac-Oszustwa-quotna-wnuczkaquot-i-quotna-policjantaquot.html
- Komenda Miejska Policji w Ostrołęce — „Nie pozwólmy się oszukać. Metody, m.in. ‘na wnuczka’, ‘na policjanta’ wciąż są praktykowane przez przestępców”, 8 maja 2025
- https://mazowiecka.policja.gov.pl/wos/aktualnosci/115820%2CNie-pozwolmy-sie-oszukac-Metody-min-na-wnuczka-na-policjanta-wciaz-sa-praktykowa.html
- FCC — „Declaratory Ruling FCC 24-17”, 8 lutego 2024
- https://docs.fcc.gov/public/attachments/FCC-24-17A1.txt
- Komisja Europejska / AI Act Service Desk — „Article 50: Transparency obligations for providers and deployers of certain AI systems”
- https://ai-act-service-desk.ec.europa.eu/en/ai-act/article-50
