近年、画像生成AIが話題となっていますが、生成AIは分析AIの逆をおこなっているということは、忘れられがちです。精密な生成ができるということは、精密な分析ができるということです。では実際どのような分析ができるのかということを示してくれるサイトが「They see your photos.」です。この記事では「They see your photos.」の簡単な使い方と、逆に生成AIに利用してみた例をご紹介します。
They see your photos.の基本
They see your photos.とGoogle Cloud Vision AIの概要、使い方をご紹介します。
概要
「They see your photos.」とは、画像をアップロードすると、GoogleのAIがどのように解釈したかを教えてくれるサイトです。
Google Cloud Vision AIを利用しています。
エンドツーエンドで暗号化して、画像をクラウド保存できる「ente」によって公開されました。
一枚の画像にどれだけ多くの個人情報が含まれているのかという、注意喚起を目的にしていると思われます。
X(Twitter)等で画像を公開するだけでなく、クラウドストレージにアップした時点で、AI分析が行われていると考えるべきでしょう。そのために、エンドツーエンドの暗号化が推奨されています。
Google Cloud Vision AIとは
「Google Cloud Vision AI」は、Googleが提供している有料APIサービスで、以下のような機能を持っています。
ラベル検出
画像内に含まれる、「山」「犬」「車」などのオブジェクトを検出し、ラベルを割り当てます。
テキスト検出(OCR)
画像内のテキストを検出し、抽出します。
顔検出
人物の顔を検出し、人種、性別、年齢、感情などを推定します。
ロゴ検出
企業のブランドロゴを認識します。
ランドマーク検出
有名な建物や地理的特徴を特定し、位置情報を提供します。
セーフサーチ検出
暴力的、成人向けなど、不適切なコンテンツを含んでいるかを評価します。
使用例
今回は、Wikipediaに掲載されている「新宿御苑」の写真を使って、テストさせていただきました。
「Pick a photo」をクリックし、画像をアップロードします。
以下のような結果となりました。
The image shows a picturesque scene of Shinjuku Gyoen National Garden in Tokyo, Japan. In the foreground, a tranquil pond reflects the blossoming cherry trees and the clear blue sky. The background features a tall, modern skyscraper, which contrasts with the serene natural beauty of the park. There are various types of trees, some in full bloom, others still budding, adding to the vibrant color palette of the scene. The reflection in the water is particularly striking, almost mirroring the scene above. The overall composition suggests a peaceful and harmonious co-existence between urban architecture and natural landscape.
Several people are visible in the background, casually enjoying the spring scenery. They appear to be a diverse group, possibly tourists and locals alike, with a mix of ages and clothing styles that suggest a range of economic statuses. Their expressions seem relaxed and content, indicating a mood of leisure and enjoyment. The photograph was likely taken on a sunny day in spring during the cherry blossom season. Judging by the clarity and vibrancy of the image, a high-quality DSLR or mirrorless camera was used.
A closer examination reveals subtle details. The subtle variations in the color and density of the cherry blossoms suggest different stages of bloom. The water shows delicate ripples and a scattering of fallen petals, illustrating the gentle movement of the wind. There are slight differences in shades of green amongst the trees showing the different types of trees and also differences in the leaf-bud stages.
https://theyseeyourphotos.com/
Google翻訳にかけると、以下のようになります。
この写真は、東京の新宿御苑の絵のように美しい風景を写しています。手前の静かな池には、満開の桜と澄んだ青い空が映っています。背景には背の高い近代的な高層ビルがそびえ立ち、公園の穏やかな自然の美しさと対照的です。さまざまな種類の木があり、満開のものもあれば、まだつぼみが残っているものもあり、風景の鮮やかな色彩に彩りを添えています。水面に映る木々は特に印象的で、上の風景をほぼ反映しています。全体的な構成は、都市の建築と自然の風景が平和で調和のとれた共存を示唆しています。
背景には、春の景色を気軽に楽しんでいる数人の人々が見えます。彼らは多様なグループのようで、観光客と地元の人々の両方が混在しており、さまざまな年齢層と服装のスタイルから、さまざまな経済的地位がうかがえます。彼らの表情はリラックスして満足そうで、のんびりと楽しんでいる雰囲気が伝わってきます。この写真は、桜の季節の春の晴れた日に撮影されたと思われます。画像の鮮明さと鮮やかさから判断すると、高品質の DSLR またはミラーレス カメラが使用されました。
よく見ると、微妙なディテールが明らかになります。桜の色と密度の微妙な変化は、開花のさまざまな段階を示しています。水面には繊細な波紋と散った花びらが見られ、風の穏やかな動きが表現されています。木々の緑の色合いにはわずかな違いがあり、木の種類の違いと、葉芽の段階の違いを示しています。
Google 翻訳
しっかりと、新宿御苑であると認識しています。
また、小さく写っている人物についても、年齢、服装、経済状況、表情まで分析しています。(さすがに表情までは見えないと思うのですが、どうなんでしょうか)
さらに、使用しているカメラや、撮影環境についてまで分析しています。
They see your photos.から逆に画像生成してみる
They see your photos.の画像解釈を用いて、ChatGPTで画像生成してみた例をご紹介します。
新宿御苑を生成してみる
これだけ細かく分析できるということは、生成AIのプロンプトになるのではと思い、何も編集することなく、そのままChatGPTに突っ込んでみました。
すると、いかにもAIではありますが、構図はかなり近いものが生成されました。
ChatGPTの解釈
ちなみに、ChatGPTに画像解釈を依頼すると、以下の様になりました。
この画像は、新宿御苑(Shinjuku Gyoen National Garden)を撮影したものです。春の桜が満開の季節を映しており、庭園の中央にある池や周囲の自然が美しく調和しています。背景には、新宿に位置する高層ビル群の一部が見え、特に特徴的なデザインのNTTドコモ代々木ビル(通称:ドコモタワー)がそびえています。
この構図では、日本の伝統的な庭園美と現代的な都市景観が融合していることが特徴です。鮮やかな青空が広がり、桜のピンクや若葉の緑、池の反射が穏やかな雰囲気を作り出しています。このような風景は、日本の春の象徴ともいえる風物詩です。
ChatGPT
この解釈から、画像を生成すると、以下のようになりました。
似たような画像ですが、人物など、細かな点はGoogleのVision AIの解釈の方が上回っているようです。
ただし、これはプロンプト次第かもしれません。今回は雑に依頼しただけなので。
人物で試してみる
「They see your photos.」がサンプルとして用意している画像で試してみます。
The photo appears to have been taken in a residential area of San Francisco, California. The foreground features a man with two young children, one on each shoulder. The background is blurred but shows lush green trees, a white picket fence, and parts of houses suggesting a suburban setting. The overall lighting suggests it might be late afternoon or early evening, with sunlight filtering through the trees.
The man appears to be of Asian or Latino descent, with dark hair and a beard, wearing glasses and a denim jacket. He looks happy and content, interacting lovingly with his children. The children seem to be around toddler and preschool age. One child is wearing a light beige hoodie and the other is wearing a gray shirt and red-striped bottoms. The photo was taken with a Nikon D850 camera, capturing a candid and heartwarming moment. It feels like a spontaneous snapshot of a typical family day.
The man has a small tattoo on his left arm which appears to be the letter 'G'. There is also a small, almost invisible, green smudge on the smaller child's arm, possibly dirt or paint. The photo's depth of field is shallow which makes the background slightly out of focus, drawing attention towards the family in the foreground. The photographer skillfully captured an unposed moment filled with love and joy which makes the image feel authentic.
https://theyseeyourphotos.com/
この写真はカリフォルニア州サンフランシスコの住宅街で撮影されたようだ。手前には、両肩に1人ずつ幼い子供を乗せた男性が写っている。背景はぼやけているが、緑豊かな木々、白いピケットフェンス、郊外を思わせる家屋の一部が写っている。全体的な照明から、木々の間から差し込む日差しが差し込む午後遅くか夕方頃と思われる。
男性はアジア系またはラテン系のようで、黒髪であごひげを生やし、眼鏡をかけ、デニムジャケットを着ている。幸せそうで満足そうに見え、子供たちと愛情深く交流している。子供たちは幼児から未就学児くらいのようだ。1人の子供はライトベージュのパーカーを着ており、もう1人の子供はグレーのシャツと赤いストライプのボトムスを着ている。写真はNikon D850カメラで撮影されたもので、率直で心温まる瞬間を捉えている。典型的な家族の1日の自然なスナップショットのようだ。
男性の左腕には「G」の文字と思われる小さなタトゥーがある。小さい方の子供の腕には、ほとんど目に見えない小さな緑色の汚れもあります。おそらく土かペンキでしょう。写真の被写界深度が浅いため、背景は少しぼやけており、手前の家族に注目が集まっています。写真家は、愛と喜びに満ちたポーズのない瞬間を巧みに捉えており、写真に本物らしさを感じさせます。
Google翻訳
ぼやけた背景からカリフォルニアであることを特定し、小さく入ったタトゥーまでも認識しています。
こちらも、ChatGPTにそのまま生成依頼してみます。
背景は異なりますが、コンセンプトはよく似ていると思います。