Project Oxford : Microsoft는 지능형 앱용 API를 제공합니다.

Microsoft는 지난 봄에 개발자가 기계 학습을 배우지 않고도 "지능형"애플리케이션을 구축 할 수있는 SDK 및 API 세트 인 Project Oxford를 발표했습니다. Oxford의 얼굴, 음성 및 시각 API를 사용하여 개발자는 얼굴 특징을 인식하고 이미지를 분석하거나 음성에서 텍스트로 또는 텍스트에서 음성으로 번역하는 애플리케이션을 만들 수 있습니다.

Large Paul Krill의 편집자와의 인터뷰에서 Project Oxford 플랫폼 및 기술을 담당하는 Microsoft의 Ryan Galgon 수석 프로그램 관리자는 사물 인터넷에서의 잠재력을 강조하면서 Oxford의 목표에 대해 이야기했습니다.

: 누가 옥스포드 애플리케이션을 구축하고 있습니까? 옥스포드는 누구를위한 것입니까?

갈곤 : 많은 사람들이 와서 API 서비스에 가입했습니다. 정확한 숫자는 제가 알아낼 수있는 것이 아닙니다.하지만 Microsoft Azure Marketplace를 통해 많은 Azure 계정을 만들고 등록을 많이했습니다. 사람들은 서비스를 위해 타이어를 걷어차 고 서비스를 더 많이 사용하기 위해 손을 뻗고 있습니다. 지금은 모두 매월 제한된 무료 계층으로 제공되며 개발자가 API 및 모델에 대해 어떤 변경 사항이 적용되었는지에 대한 피드백을 받았기 때문에이를 공개하기 위해 노력하고 있습니다.

주로 REST API 인터페이스를 통해 액세스되는 웹 서비스 집합이라는 점에서 모두 크로스 플랫폼입니다. 웹 사이트에 연결할 수있는 모든 것이 이러한 백엔드 서비스를 호출 할 수 있습니다. 이러한 REST 호출을 래핑하고 Android, Windows 및 iOS와 같은 클라이언트에서 더 쉽게 사용할 수 있도록 SDK 세트를 제공합니다. HTTP 웹 호출을 할 수있는 모든 것이 서비스를 호출 할 수 있습니다.

: 옥스포드가 주로 모바일 장치 또는 Windows 데스크톱에서 사용되는 것으로 예상하십니까?

Galgon :  주로 모바일 장치와 IoT 장치가 혼합되어있을 것입니다. 사람들이 데스크탑을 사용할 때 대부분의 용도로 사용한다는 점에서 여러분은 거기에 앉아 있고 키보드와 마우스와 그 유형의 입력이 있습니다. 그러나 휴대폰이 있으면 사진과 비디오 및 오디오를 캡처하는 것입니다. 작은 장치로 캡처하는 것이 훨씬 쉽고 자연 스럽습니다. [프로젝트 옥스포드 기술이 사용될 것입니다] 지배적 인 입력 사례는 숫자뿐만 아니라 일종의 시각적 또는 오디오 데이터 유형이 될 자연스러운 데이터가 될 것입니다.

: 이러한 API에 대해 자세히 알려주십시오. 개발자가 할 수있는 일은 무엇입니까?

Galgon : 가능한 한 많은 개발자에게 다가 가고 싶기 때문에 얼굴 인식이나 컴퓨터 비전, 이미지 분류와 같은 [용으로] 사용하기 쉽게 만드는 데 많은 노력을 기울였습니다. 그런 것들은 훈련되고 모델링되고, 그곳에서 수년간의 깊은 연구 경험을 가진 사람들에 의해 구축되었으며, 우리는 개발자들이 컴퓨터 비전의 전문가가되는 것을 원하지 않습니다. 우리는 정말로 "우리가 구축 할 수있는 최고의 모델을 구축하여 여러분이 사용할 수 있도록하고 여러분을 위해 세 줄의 코드 내에서 액세스 할 수 있도록 할 것입니다."라고 말하려고 노력했습니다.

외부 파트너가 Oxford API를 어떻게 사용하고 있는지에 대해서는 말할 수 없지만 Microsoft가 작업 한 주요 작업은 아마 보셨을 것입니다. 첫 번째는 연령 예측을위한 How-old.net 사이트였습니다. 및 성별. 그런 다음 TwinsorNot.net이 있었고 두 장의 사진이 주어졌습니다.이 사람들은 얼마나 비슷합니까? 둘 다 Face API의 좋은 예였습니다. Face API와 일부 Speech API를 사용한 마지막 프로젝트는 Windows 10 IoT 프로젝트로, 얼굴로 문을 열고 문 또는 자물쇠로 대화 할 수있는 위치에 대한 몇 개의 블로그 게시물이 작성되었습니다. 그 경우. Microsoft가 여기에 구축하고 다른 사람들과 공유 할 수있는 애플리케이션 유형을 보여주기 위해 작업 한 세 가지 예라고 생각합니다.

: 이러한 REST API에서 옥스포드가 틱하게 만드는 이유는 무엇입니까?

Galgon : 핵심은 음성-텍스트와 같은 것을 위해 구축 한 기계 학습 모델입니다. REST API를 통해 액세스하든 음성-텍스트로 액세스하든 웹 소켓 연결을 통해 액세스 할 수도 있습니다. 마법 또는 강력한 기능은 누군가 말하는 사람과 언어를 사용할 수있는이 모델이 있습니다. 그것을 텍스트 형식으로 번역합니다. 이것이 옥스포드를 전체적으로 틱하게 만드는 주요 요인입니다.

: Project Oxford가 Azure Machine Learning 프로젝트와 분리 된 이유는 무엇입니까?

Galgon :  Azure Machine Learning에서 주요 구성 요소 중 하나는 Azure Machine Learning Studio입니다. 여기서 사람들은 데이터를 가져 와서 실험을 구축하고 자신의 모델을 학습 한 다음 해당 모델을 호스팅 할 수 있습니다. Oxford와 함께 이것은 마이크로 소프트가 가지고있는 미리 빌드 된 모델이고, 우리가 앞으로 계속 개선 할 모델이며 사람들이 이러한 REST 인터페이스를 통해 그 모델을 사용할 수 있도록합니다.

: 프로젝트 옥스포드에 대해 어떤 유형의 엔터프라이즈 비즈니스 용도가 보입니까? Oxford 애플리케이션의 비즈니스 사례는 무엇입니까?

갈곤 :현재 제가 정말로 이야기 할 수있는 특정 파트너는 없지만, 제가 개인적으로 많은 사용 사례를 보는 많은 관심을 보인 사례 중 하나는 사물 인터넷에 관한 것입니다. 연결된 장치. 사람들이 IoT 장치를 구축하는 방식을 살펴보면 키보드와 마우스가 없으며 이러한 모든 장치와 관련된 실제 모니터도 있지만 마이크를 부착하기 쉽고 매우 쉽습니다. 거기에 카메라를 붙일 수도 있습니다. 음성 API와 LUIS (Language Understanding Intelligent Service)와 같은 것을 결합하면 마이크 만 있고 다른 입력 방법이없는 장치를 사용할 수 있습니다. 이제 마이크와 대화하고 원하는 작업을 말하고 다음으로 번역 할 수 있습니다. 일련의 구조화 된 작업을 백엔드에서 활용합니다.여기에서 Oxford API에 대한 많은 사용 사례를 보게 될 것입니다.

: iOS와 Android를 언급하셨습니다. 그 플랫폼에 대한 이해는 무엇입니까?

Galgon : API를 RESTful로 만들고 이러한 래퍼를 제공함으로써 사람들이 해당 래퍼를 다운로드하여 사용하는 것을 확실히 보았습니다. 그러나 결국에는 "여기에 웹 호출자에 대한 Java 언어 래퍼가 있습니다." "여기에 웹 호출에 대한 Objective-C 래퍼가 있습니다."가됩니다. 우리는 전화를 거는 정확한 장치가 무엇인지에 대한 많은 통찰력을 가지고 있지 않습니다.

: 옥스포드는 오픈 소스가 될까요?

Galgon : 우리는 핵심 모델을 오픈-소싱 할 계획이 없으며, 시간이 지남에 따라 모델을 계속 업데이트하기 때문에 그것에 대해 공유 할 것이 없습니다. 우리가 제공하는 SDK는 REST 호출에 대한 래퍼이기 때문에 소스 코드가 거기에 있으며 웹 사이트에서 누구나 다운로드 할 수 있습니다. 그러나 다시 말하지만, 이것은 사물에 대한 숨겨진 래퍼이며 실제로 MSDN 포럼에서 다양한 언어로 코드 조각을 제공하는 사람들을 보았습니다.

: Microsoft는 옥스포드에서 수익을 창출 할 계획이 있습니까?

Galgon : Marketplace의 API는 현재 제한된 사용량으로 모두 무료이므로 한 달에 5,000 개의 API 트랜잭션을받습니다. 이것이 우리가 현재 이용할 수있는 유일한 계획입니다. 앞으로 API 사용량에 따라 유료 요금제를 출시 할 예정입니다.

: 옥스포드의 다음 단계는 무엇입니까?

갈곤 : 여기서 우리가가는 곳은 세 가지 영역입니다. 첫 번째 영역은 기존 모델을 업데이트하고 개선하는 것입니다. 개발자로부터 API 중 하나가 특정 유형의 이미지에서 제대로 작동하지 않을 수있는 방법에 대한 피드백을 받았습니다. 여기서 핵심 모델을 개선 할 것입니다.

우리가 할 다른 일 중 하나는 모델에서 반환되는 기능의 수를 계속 확장하는 것입니다. 오늘날 Face API는 예상 연령과 예상 성별을 제공합니다. 이미지 내에서 다른 콘텐츠를 인식 할 수 있도록 요청하는 경우가 많습니다.

세 번째 영역은 보유한 API 포트폴리오를 확장 할 것입니다. 오늘은 4 명이 있지만 아직 끝나지 않았습니다. 우리가 제공하고 싶은 전체 공간이나 우리가 제공하고 싶은 도구가 아직 완전하다고 생각하지 않습니다. 우리는 다양한 데이터 유형을 처리 할 수 ​​있거나 현재 제공하는 것과는 매우 다른 유형의 자연스러운 데이터 이해를 제공 할 수있는 새로운 API를 계속 추가 할 것입니다.