딥 페이크 란 무엇입니까? 속이는 AI

딥 페이크는 일부 시청자 또는 청취자를 속여 거짓 이벤트 또는 거짓 메시지를 믿도록 속이기 위해 딥 러닝의 도움으로 생성, 변경 또는 합성 된 미디어 (종종 비디오이지만 때로는 오디오)입니다.

deepfake의 원래 예 (reddit 사용자 / u / deepfake)는 동영상에서 여배우의 얼굴을 포르노 연기자의 몸으로 바꿨습니다. 물론 처음에는 불법은 아니지만 완전히 비 윤리적이었습니다. 다른 딥 페이크는 유명한 사람들의 말이나 그들이 말하는 언어를 변경했습니다.

Deepfakes는 수십 년 동안해온 비디오 (또는 영화) 합성의 아이디어를 확장합니다. 상당한 비디오 기술, 시간 및 장비가 비디오 합성에 사용됩니다. 비디오 딥 페이크는주의 깊은 관찰자에게는 종종 설득력이 없지만 기술, 시간 (GPU가 있다고 가정) 및 장비가 훨씬 적게 필요합니다.

딥 페이크를 만드는 방법

원래 딥 페이크는 비지도 신경망 유형 인 오토 인코더에 의존했으며 많은 사람들이 여전히 사용하고 있습니다. 어떤 사람들은 GAN (generative adversarial networks)을 사용하여이 기술을 개선했습니다. 다른 기계 학습 방법도 딥 페이크에 사용되었으며 때로는 비 기계 학습 방법과 함께 다양한 결과를 제공합니다.

오토 인코더

기본적으로 이미지의 딥 페이크 얼굴 용 오토 인코더는 2 단계 프로세스를 실행합니다. 첫 번째 단계는 신경망을 사용하여 소스 이미지에서 얼굴을 추출하고 일반적으로 여러 2D 컨볼 루션 레이어, 두 개의 조밀 한 레이어 및 소프트 맥스 레이어를 사용하여 일련의 특징과 가능한 마스크로 인코딩합니다. 2 단계는 또 다른 신경망을 사용하여 특징을 디코딩하고, 생성 된 얼굴을 업 스케일링하고, 필요에 따라 얼굴을 회전 및 크기 조정하고, 업 스케일 된 얼굴을 다른 이미지에 적용하는 것입니다.

딥 페이크 얼굴 생성을 위해 오토 인코더를 훈련하려면 여러 관점과 다양한 조명 조건에서 소스 및 대상 얼굴의 많은 이미지가 필요합니다. GPU가 없으면 훈련에 몇 주가 걸릴 수 있습니다. GPU를 사용하면 훨씬 빨라집니다.

GAN

생성 적 적대 네트워크는 예를 들어 두 개의 신경망을 서로 맞 물리는 방식으로 오토 인코더의 결과를 개선 할 수 있습니다. 생성 적 네트워크는 원본과 동일한 통계를 가진 예제를 생성하려고 시도하는 반면, 차별적 네트워크는 원본 데이터 분포에서 편차를 감지하려고합니다.

GAN 훈련은 시간이 많이 걸리는 반복 기술로, 오토 인코더에 비해 컴퓨팅 시간 비용을 크게 증가시킵니다. 현재 GAN은 딥 페이크 동영상을 만드는 것보다 가상 인물의 사실적인 단일 이미지 프레임 (예 : StyleGAN)을 생성하는 데 더 적합합니다. 딥 러닝 하드웨어가 빨라짐에 따라 변경 될 수 있습니다.

딥 페이크 감지 방법

2020 년 초, AWS, Facebook, Microsoft, AI의 미디어 무결성 운영위원회 파트너쉽 및 학계의 컨소시엄이 Kaggle에서 4 개월 동안 실행 된 Deepfake Detection Challenge (DFDC)를 구축했습니다.

콘테스트에는 잘 문서화 된 두 가지 프로토 타입 솔루션 인 소개 및 스타터 키트가 포함되었습니다. Selim Seferbekov의 우승 솔루션도 상당히 좋은 글이 있습니다.

심층 신경망 및 이미지 처리에 관심이 없다면 솔루션의 세부 사항은 눈을 교차시킬 것입니다. 기본적으로 우승 솔루션은 프레임 별 얼굴 감지를 수행하고 SSIM (Structural Similarity) 인덱스 마스크를 추출했습니다. 소프트웨어는 감지 된 얼굴과 30 % 마진을 추출하고 인코딩 (분류)을 위해 ImageNet에서 사전 훈련 된 EfficientNet B7을 사용했습니다. 이제 솔루션은 오픈 소스입니다.

안타깝게도 우승 한 솔루션조차도 DFDC 테스트 데이터베이스에서 딥 페이크의 약 2/3 만 포착 할 수있었습니다.

Deepfake 생성 및 탐지 애플리케이션

최고의 오픈 소스 비디오 딥 페이크 생성 애플리케이션 중 하나는 현재 원래 딥 페이크 알고리즘을 기반으로하는 Faceswap입니다. Ars Technica의 작가 Tim Lee는 Faceswap을 사용하여 Star Trek : The Next Generation의 데이터 중위 (Brent Spiner)의 얼굴을 의회에서 증언하는 Mark Zuckerberg의 비디오로 바꾸는 딥 페이크를 제작했습니다  . 딥 페이크의 일반적인 경우와 같이 결과는 그래픽 정교함을 가진 사람을위한 스 니프 테스트를 통과하지 못합니다. 따라서 딥 페이크에 대한 최신 기술은 여전히별로 좋지 않으며, 기술보다 "아티스트"의 기술에 더 많이 의존하는 드문 예외가 있습니다.

우승 한 DFDC 감지 솔루션이 그다지 좋지 않다는 점을 감안할 때 다소 위안이됩니다. 한편, Microsoft는이 문서를 작성하는 시점에서 Microsoft Video Authenticator를 발표했지만 아직 출시하지 않았습니다. Microsoft는 Video Authenticator가 정지 사진이나 비디오를 분석하여 미디어가 인위적으로 조작 될 가능성 또는 신뢰도 점수를 제공 할 수 있다고 말합니다.

Video Authenticator는 DFDC 데이터 세트에 대해 테스트되었습니다. 마이크로 소프트는 아직 Seferbekov가 우승 한 Kaggle 솔루션보다 얼마나 나은지보고하지 않았습니다. AI 콘테스트 스폰서가 콘테스트에서 우승 한 솔루션을 구축하고 개선하는 것은 일반적입니다.

페이스 북은 또한 딥 페이크 탐지기를 약속하고 있지만 소스 코드를 닫아 둘 계획입니다. Seferbekov와 같은 오픈 소싱 딥 페이크 감지기의 한 가지 문제는 딥 페이크 생성 개발자가 탐지기를 GAN의 판별 자로 사용하여 가짜가 탐지기를 통과하도록 보장하여 결국 딥 페이크 생성기와 딥 페이크 탐지기 사이의 AI 군비 경쟁을 유발할 수 있다는 것입니다.

오디오면에서 Descript Overdub과 Adobe의 시연을 받았지만 아직 출시되지 않은 VoCo는 텍스트 음성 변환을 현실에 가깝게 만들 수 있습니다. 자신의 목소리의 합성 버전을 만들기 위해 약 10 분 동안 Overdub을 훈련합니다. 훈련을 마치면 음성 해설을 텍스트로 편집 할 수 있습니다.

관련 기술은 Google WaveNet입니다. Google의 자체 테스트에 따르면 WaveNet 합성 음성은 자연스러운 음성 수준은 아니지만 표준 텍스트 음성 변환 음성보다 더 현실적입니다. 최근에 Google Assistant, Google 검색 또는 Google 번역에서 음성 출력을 사용한 적이 있다면 WaveNet 음성을 들었습니다.

딥 페이크 및 동의하지 않은 포르노

앞서 언급했듯이 원본 딥 페이크는 비디오에서 여배우의 얼굴을 포르노 연기자의 몸으로 바꿨습니다. Reddit은 대부분의 콘텐츠가 동의하지 않은 포르노 그라피 였기 때문에 적어도 일부 관할권에서는 현재 불법 인 / r / deepfake 하위 Reddit을 금지했습니다.

포르노 가 아닌 딥 페이크에 대한 또 다른 하위 Reddit은 여전히 / r / SFWdeepfakes에 있습니다. 하위 Reddit의 주민들은 자신이 잘하고 있다고 주장하지만, Joe Biden의 얼굴이 Rod Serling의 몸에 심하게 위조되는 것을 보는 것이 가치가 있는지, 그리고 거기에있는 딥 페이크가 통과하는지 여부를 스스로 판단해야합니다. 신뢰성에 대한 냄새 테스트. 제 생각에는 어떤 사람들은 자신을 진짜처럼 팔려고합니다. 대부분은 자선 적으로 조잡하다고 설명 할 수 있습니다.

물론 / r / deepfake를 금지한다고해서 미국에서 범죄인 복수 포르노를 포함하여 여러 가지 동기를 가질 수있는 합의되지 않은 포르노가 제거되지는 않습니다. 비 합의적인 딥 페이크를 금지 한 다른 사이트로는 Gfycat, Twitter, Discord, Google 및 Pornhub가 있으며, 마지막으로 (많은 발을 끌고 나서) Facebook 및 Instagram이 있습니다.

캘리포니아에서 동의없이 만들어진 성적으로 노골적인 딥 페이크 콘텐츠의 대상이되는 개인은 콘텐츠 제작자에 대한 조치의 원인이 있습니다. 또한 캘리포니아에서는 선거 후 60 일 이내에 공직에 출마하는 후보를 대상으로하는 악성 딥 페이크 오디오 또는 비주얼 미디어의 배포가 금지됩니다. 중국은 딥 페이크를 명확하게 표시 할 것을 요구합니다.

정치의 딥 페이크

다른 많은 관할권 에는 정치적 딥 페이크에 대한 법률이 없습니다. 특히 정치인의 고품질 딥 페이크가 널리 배포 될 때 문제가 될 수 있습니다. 낸시 펠로시의 딥 페이크가 펠로시가 자신의 말을 비방하는 것처럼 들리도록 조작 한 기존의 느려진 동영상보다 더 나쁠까요? 잘 생산된다면 그럴 수도 있습니다. 예를 들어 2020 년 대선 캠페인과 관련된 딥 페이크에 중점을 둔 CNN의이 비디오를 참조하십시오.

변명으로 딥 페이크

"심각한 가짜 야"는 실제 당황스러운 동영상이 유출 된 정치인에게도 가능한 변명입니다. 최근 말레이시아에서 게이 섹스 테이프가 경제부 장관에 의해 딥 페이크로 기각되었을 때 (또는 일어난 것으로 추정 됨) 테이프에 표시된 다른 남자가 그것이 진짜라고 맹세했지만.

한편, 병든 가봉의 알리 봉고 대통령에 대한 아마추어 딥 페이크의 분포는 봉고에 대한 후속 군사 쿠데타의 원인이되었습니다. 딥 페이크 영상은 봉고가 미디어에서 오랫동안 부재 한 것보다 더 이상 무언가 잘못되었다는 것을 군대에 알 렸습니다.

더 딥 페이크 예제

의 최근 deepfake 비디오 올스타는 클래식 1999 스매쉬 입, 비디오 조작의 예입니다 (이 경우, 인기 영화에서 매시업) 가짜 입술 맞추지합니다. 제작자 인 YouTube 사용자 인 ontyj는 "wav2lip 테스트를 수행했고 지금은 존재합니다 ..."라고 말합니다. 설득력은 없지만 재미 있습니다. 그럼에도 불구하고, 그것은 얼마나 더 나은 가짜 입술 움직임을 얻었는지 보여줍니다. 몇 년 전만해도 부 자연스러운 입술 움직임은 보통 가짜 동영상의 죽음을 선물로 삼았습니다.

더 나쁠 수 있습니다. 오바마 대통령이 표적이되고 조던 필이 운전자가되는이 딥 페이크 비디오를보십시오. 이제 그것이 가짜로 드러나는 어떤 맥락도 포함하지 않았고 행동을 유도하는 소동을 포함했다고 상상해보십시오.

아직 무서워?

기계 학습 및 딥 러닝에 대해 자세히 알아보십시오.

  • 딥 러닝 vs. 머신 러닝 : 차이점 이해
  • 기계 학습이란 무엇입니까? 데이터에서 파생 된 지능
  • 딥 러닝이란 무엇입니까? 인간의 뇌를 모방 한 알고리즘
  • 기계 학습 알고리즘 설명
  • 자동화 된 머신 러닝 또는 AutoML 설명
  • 지도 학습 설명
  • 준지도 학습 설명
  • 비지도 학습 설명
  • 강화 학습 설명
  • 컴퓨터 비전이란 무엇입니까? 이미지 및 비디오 용 AI
  • 얼굴 인식이란? Big Brother를위한 AI
  • 자연어 처리 란 무엇입니까? 음성 및 텍스트 용 AI
  • Kaggle : 데이터 과학자가 배우고 경쟁하는 곳
  • CUDA는 무엇입니까? GPU를위한 병렬 처리