下記動画をVideo Inteligence APIでLabel認識してみた。
主なシーンの解析結果は以下になりました。
認識された動画の中の開始点、終了点、認識文字、認識精度がJSON形式で返ってきます。
startTimeOffset、endTimeOffsetは、ミリ秒の数値になります。
"description":"Bus", "locations":[ { "confidence":0.5243035, "segment":{ "endTimeOffset":"-1", "startTimeOffset":"-1" }, level: "VIDEO_LEVEL" }, { "confidence":0.5243035, "segment":{ "endTimeOffset":"38757893" }, level: "SHOT_LEVEL" } ]
2,3のシーンの解析結果
上記のシーンの認識結果は、
- Mountain (0.50)
- Mountain range (0.55)
認識度も50%
上記のシーンの認識結果は、
- Android (0.51)
- Mobile phone (0.98)
- iPhone (0.81)
- Portable communications device (0.91)
- Samsung (0.5)
- Smartphome (0.99)
- Apple (0.63)
Smartphoneである可能性高いよ、なぜかiPhoneの判定も。
ただ、他のDetectionより解析時間がかかるように見られます。