ほぼテク7月5日BingのGPTの画像認識を解剖?ChatGPTとの違いと画像解析の可能性を探る!

ほぼテク読者の皆様、いつも大変ありがとうございます!
我妻裕太です。

本日もよろしくお願いいたします。
GPTに関する連続投稿約70日目です!

週の真ん中水曜日、土日はこちらGJTのサイトから情報発信いたします。
本日はBingに搭載されているGPTの画像認識技術について実験してみたいと思います。

そもそもBingのGPTとは?

Bing GPT

BingのGPTとは、Microsoft社様が開発した大規模な言語モデルです。

テキストの生成、言語の翻訳、さまざまな種類のクリエイティブ コンテンツの作成、有益な方法での質問への回答など、さまざまな目的に使用できます。
BingのGPTは、Microsoft社様の検索エンジンBingと統合されており、ユーザーは質問に対するより正確で最新の情報を得ることができます。

BingのGPTはまだ開発中ですが、さまざまな分野ですでに使用されています。
たとえば、BingのGPTは、ニュース記事の作成、翻訳、および書類の作成に使用されています。

ChatGPTとの違いは?

ChatGPTとの違いは?

BingのGPTとOpenAI社様のChatGPTは、どちらも大規模言語モデル(LLM)であり、テキストの生成、言語の翻訳、さまざまな種類のクリエイティブ コンテンツの作成、有益な方法での質問への回答など、さまざまな目的に使用できます。

しかし、両者にはいくつかの重要な違いがあります。

1.データセット
BingのGPTは、Microsoftの検索エンジンBingから収集されたデータセットでトレーニングされています。
一方、ChatGPTは、テキストとコードの膨大なデータセットでトレーニングされています。

2.機能
BingのGPTは、テキストの生成、言語の翻訳、さまざまな種類のクリエイティブ コンテンツの作成、有益な方法での質問への回答など、さまざまな機能を備えています。
一方、ChatGPTは、テキストの生成と質問への回答に重点を置いています。

3.可用性
BingのGPTは、現在、Microsoftのパートナーにのみ提供されています。
一方、ChatGPTは、誰でも無料で使用できます。

全体として、BingのGPTとChatGPTはどちらも大規模言語モデルですが、データセット、機能、可用性などのいくつかの重要な違いがあります。

BingのGPTは画像認識技術との連携が可能!

OpenAI社のChatGPTは標準機能ではテキストのみ対応可能でしたが、こちらのGPTは画像認識との連携も可能です。
イメージは画像をアップロードすると、GTPがそれを解析して、その画像に関する情報を提供することができます。
例えば、その画像に何が写っているか、その画像がどこで撮影されたか、その画像に関する詳細な情報などを提供してくれます。

どんな使い方ができるかな?

画像解析の使い方は多岐にわたります。

例えば、ある画像に関する情報を知りたい場合、その画像がどこで撮影されたか、その画像に何が写っているか、その画像に関する詳細な情報などを提供することができます。
また、ある画像に関連する商品やサービスを探したい場合、その画像を解析して、その商品やサービスに関する情報を提供することもできます。

GPTに確認したところ、画像解析には、機械学習アルゴリズムを使用しているとのことです。
アルゴリズムは、画像の特徴を認識し、その画像に関する情報を提供するために使用されます。
最新の技術を使用して、画像解析の精度を高めるように努めているそうです!

頼もしいです。

ではもう少し聞いてみましょう!

Q:あなたはどのように画像を解析しますか?
A:画像解析には、機械学習アルゴリズムを使用しています。
アルゴリズムは、画像の特徴を認識し、その画像に関する情報を提供するために使用されます。
私たちは、最新の技術を使用して、画像解析の精度を高めるように努めています。

Q:どんなアルゴリズムですか?
A:私たちは、画像解析に畳み込みニューラルネットワーク(CNN)を使用しています。
CNNは、画像の特徴を認識するために使用される深層学習アルゴリズムの一種です。
CNNは、画像の中にあるパターンを認識し、そのパターンに基づいて画像を分類することができます。
私たちは、最新のCNNアルゴリズムを使用して、画像解析の精度を高めるように努めています。

Q:OCR機能はありますか?
A:はい、OCR機能を提供しています。
OCRは、光学式文字認識の略で、画像中の文字を認識し、テキストに変換する技術です。
OCRを使用すると、スキャンされた文書や写真などの画像からテキストを抽出することができます。
私たちは、最新のOCR技術を使用して、高精度なテキスト変換を提供しています。

らしいです!

何に使えるか?

アイディア次第だと思いますが、例えば以下のような使い方はできるのではないでしょうか。

1.画像の詳細情報取得
ある画像に関する情報を知りたい場合、その画像がどこで撮影されたか、その画像に何が写っているか、その画像に関する詳細な情報などを提供することができます。

2.商品やサービスの情報検索
ある画像に関連する商品やサービスを探したい場合、その画像を解析して、その商品やサービスに関する情報を提供することができます。

3.OCRでテキスト抽出
OCR機能を使用して、スキャンされた文書や写真などの画像からテキストを抽出することができます。

4.人物や場所に関する情報の取得
ある画像に関連する人物や場所を特定したい場合、その画像を解析して、その人物や場所に関する情報を提供することができます。

などでしょうか。

それでは上記を踏まえて、本日もさっそく試してみましょう。

今回の実験ルールは以下の通りです。
前述した「何に使えるか?」で記載した内容をもとに以下のような画像を試してみたいと思います。

1.画像の詳細情報取得に関する画像


2.OCRでテキスト抽出


3.人物や場所に関する情報の取得

詳細情報取得、OCR、場所の特定になりそうな画像を用意しました。
商品やサービスは他社様の情報になるので、今回は割愛いたします。

プロンプトはそれぞれ後述します。それではさっそく行ってみよう!

実験①:本は認識できるのか?

【プロンプト】
画像内にある本は何冊ですか?

【回答】
この画像には、4冊の本があります。本のタイトルは、「Martin’s Annual Criminal Code 1935」、「Science and Socialism 1913」、「Bonfield’s Ashton」、「Smith’s Appeal 1917」です。

——————————————————————————————————————————————————

おぉ、すごい?ような、ちょっと違うような?本は5冊なので、4冊と言っているので、ちょっと惜しいです。
本のタイトルも読み込んでくれていますが、あっているところ、抜き出せていないところがあります。

最初の感動は凄かったのですが、結果がもう少し精度高いとさらに感動する感じですかね。
いやーでも面白いですね。

では続いて

実験②:食べ物は認識できるのか?

【プロンプト】
この画像から連想されるレシピを生成してくれるかな?

【回答とやりとり】
この画像から連想されるレシピを生成することはできませんが、この画像にある食材を使ったサラダのレシピを提供することはできます。
この画像にある食材を使ったサラダのレシピをお探しでしたら、お手伝いできますか?

はい、教えてください。

キャベツとトマトのマリネ風サラダ1 は、キャベツとトマトを使ったサラダで、ドレッシングには、オリーブオイル、レモン汁、塩、こしょうを使います。
このレシピには、キャッシューは含まれていませんが、ブルーベリーやラズベリーなどのフルーツを加えることもできます。
また、イチゴや桃などのフルーツを加えることもできます。キノコを加えることもできますが、このレシピには含まれていません。

このレシピは、キャベツとトマトの爽やかな味わいが特徴で、夏にぴったりです。ぜひお試しください!

——————————————————————————————————————————————————

おぉ、いいですね。連想してくれはプロンプトとしては惜しい感じなんですね。
「画像内にある食材を使ったレシピをください」の方がよかったのかもしれません。

ただ、そのあとのやりとりで画像内にある食材を認識してくれて、その食材をもとに検索をしてくれているようです。
夏にぴったりのキャベツとトマトのマリネ風サラダいいですね~。

実験③:文字は認識できるか?

【プロンプト】
この画像はなんですか?

【回答】
この画像は、ポーランド語の新聞記事で、GPT-3チャットボットとその機能についての記事です。
記事のタイトルは「Eksperymenty z GPT-3」です。
画像には、日本語で「ChatGPT-3 は本当に人のように会話ができる? テキスト生成の精度は?」と書かれた黒い四角形があります。

——————————————————————————————————————————————————

ポーランド語?本当だ!ポーランド語みたいです。すごいな。
この新聞はポーランド語の新聞みたいです。おそらく・・・

それとGPTをちゃんとテキストとして認識しているようです。
面白いのは新聞記事のテキストと右側のGPTのテキストをミックスして解釈を生成してくれました!

これが生成AIの神髄?素晴らしいですね。
内容はちょっと違うんですけどね(笑)

小さい文字の日本語も認識していますね。日本語、英語、ポーランド語が一瞬で認識できた!すご。
できれば「ほぼテク」認識してほしかった・・・

実験④:Webサイトのスクリーンショットから文字は認識できるか?

【プロンプト】
ウェブページのスクリーンショットです。
スクリーンショットの中に書かれている日本語のテキスト情報を抽出してください

【回答】
以下は、あなたが送信した前のメッセージに含まれる画像の説明です。

これは、日本語のウェブページのスクリーンショットです。

ウェブページのタイトルは「GoogleBardとは?」です。

ウェブページには、白い背景に黒いテキストが表示される黒いヘッダーがあり、「GoogleBardとは?」と白いテキストで書かれています。

ウェブページには、「AIとは?」というセクションがあります。

ウェブページには、「GoogleBardの使い方」というセクションがあります。

ウェブページには、「GoogleBardの特徴」というセクションがあります。

以上です。ご質問があれば、お答えします。🙂

 ——————————————————————————————————————————————————

ん~~~、おぉ。

テキストは抽出してくれているようです。ただ、もう少し全文を抽出してくれると嬉しいです。
プロンプトの改良の余地がありそうですね。 

白背景に黒いテキストなどは抽象的なことを認識してくれているので、面白いですね。

ではラストです。ラストは、時代は宇宙!

実験⑤:宇宙はどんな回答になるか?

【プロンプト】
この画像に関する最新ニュースを教えてください。

【回答】
申し訳ありませんが、私は最新のニュースを検索することはできません。
ただ、あなたが送信した画像に関する情報を提供することができます。
この画像は、宇宙服を着た宇宙飛行士が黒い背景に立っているグラフィック画像です。
宇宙服は白色で、オレンジ色と青色のアクセントがあります。
ヘルメットは白色で、黒いバイザーが付いています。
バックパックは白色で、青いストライプがあります。宇宙飛行士は白い円の上に立っています。

——————————————————————————————————————————————————

おぉーそうですか!でも、ちょっと思ってたのとちがう(笑)
宇宙関係のニュース記事が欲しかったのですが・・・プロンプトの改良の余地はありそうですね。

ただ、画像の中身を詳細に説明しているのは秀逸ですね。
詳細に宇宙服を着た人を丁寧に説明してくれています。

これは何かに使えそう!

まとめ

っということでいかがでしたでしょうか。
まとめるとこんな感じでしょうか。

実験①:本は認識できるのか?(△)
冊数は1冊足りませんでした。テキストは部分的に精度高く認識しました。

実験②:食べ物は認識できるのか?(○)
食材を認識してくれてレシピを検索してくれて提案してくれました。

実験③:文字は認識できるか?(◎)
日本語、英語、ポーランド語が一瞬で認識!被写体のそれぞれのテキストをミックスして解釈を生成。すごい。

実験④:Webサイトのスクリーンショットから文字は認識できるか?(△)
部分的に抽出してくれました。

実験⑤:宇宙はどんな回答になるか?(○)
欲しい情報は出なかったが、宇宙服を着た人を丁寧に説明してくれる様子は素晴らしい。

純粋なテキストの抽出はちょっと今回は苦手な印象でしたが、被写体を認識して、新しい解釈を生成してくれたのは生成AIらしく、まだ見ぬ世界を見た感じでした!
画像から新しい気づきや解釈が欲しい場合はもってこいな機能な気がします!

今回も最後までお読みいただきありがとうございました。

また次回お会いしましょう。
弊社はChatGPTに関しての開発ノウハウがあるので、ぜひ、お気軽にお問い合わせください。

原稿執筆
株式会社GROWTH JAPAN TECHNOLOGIES  我妻裕太

バックナンバー

ほぼテク7月2日ChatGPT・GoogleBardを活用したコンテンツモデレーション(投稿監視)!コミュニティの健全性と品質をChatGPT、GoogleBardで保てるか?

ほぼテク7月1日ChatGPTを活用してオンラインショッピングサイトのカスタマーサポートを効率化しよう?

ほぼテク6月28日AIと一緒にダイエット?ChatGPT、GoogleBardに体重データを分析してもらった!なかなか面白いよ(笑)

ほぼテク6月25日GPTの最新機能!「Azure OpenAI Service on your data」を試してみました!

ほぼテク6月24日GPTの活用事例!チャットボット用のQAデータをGPTで作成してみた!

ほぼテク6月21日GPT4の活用事例!生成AI達でAIの教師データを生成してみよう。

ほぼテク6月17日ChatGPTの活用ガイド!AIをあなたのプロジェクトに取り入れる方法徹底解説?

ほぼテク6月14日!ChatGPTを活用するために重要な留意事項13選! AIとのスムーズな対話を実現!

ほぼテク6月11日!ChatGPTでSNSマーケティングを攻略しよう!

ほぼテク6月10日!ChatGPTで情報の抽出をマスターしよう!

ほぼテク6月7日!ChatGPTを使って業務効率化! - データ解析とレポート作成の新たな方法?

ほぼテク6月4日!ChatGPTでマスタ情報を活用した間違い探し!

ほぼテク6月3日!ChatGPTで文法・スペルチェック!

ほぼテク5月31日!ChatGPTでファンタジーは創造できるか?

ほぼテク5月28日!ChatGPTで地元仙台市を分析してみました!

ほぼテク5月27日!ChatGPTでWebサイトから重要な情報を取得できるか試してみました!

ほぼテク5月24日!ChatGPTプラグイン実践編!画像生成のためのプロンプト生成プラグイン!

ほぼテク5月21日!ChatGPTプラグイン実践編!食べログプラグイン!

ほぼテク5月20日!とても面白いChatGPTのプラグイン使ってみました!

ほぼテク5月17日!GPTとの冒険!ファインチューニングで試行錯誤、そして成功へ!

ほぼテク5月14日!ChatGPT Webブラウジング機能がリリースされました!

ほぼテク5月13日!ChatGPTを活用した創作活動の一例!物語のプロットを創ってみた。

ほぼテク5月12日!Bard – Googleの新しい会話型AIが世界デビュー!

ほぼテク5月10日!今、私たちは新たなフロンティア、つまり宇宙へと視野を広げています!

ほぼテク5月7日!Chat GPTの正しい使い方基本プロンプトで会話してみました④

ほぼテク5月6日!Chat GPTの正しい使い方基本プロンプトで会話してみました

ほぼテク5月5日!Chat GPTの正しい使い方基本プロンプトで会話してみました②

ほぼテク5月4日!Chat GPTの正しい使い方基本プロンプトで会話してみました①

ほぼテク5月3日ImageCreatorで生成した画像で展示会?

今更聞ける!ほぼ毎日テック日報(おとなの週末) 4月30日(マイクロソフト画像生成AI「Bing Image Crator」とは?) – テクノロジーが日常にもたらすイノベーション?

今更聞ける!ほぼ毎日テック日報(おとなの週末) 4月29日(完全自動実行AI AutoGPTとは?) – テクノロジーが日常にもたらすイノベーション?

新企画!?「今更聞ける!ほぼ毎日テック日報 - テクノロジーが日常にもたらすイノベーション?」

前へ
前へ

ほぼテク7月7日SaaSサービスの利用規約のひな型をGPT、Bardで作ってみました!

次へ
次へ

ほぼテク7月2日ChatGPT・GoogleBardを活用したコンテンツモデレーション(投稿監視)!コミュニティの健全性と品質をChatGPT、GoogleBardで保てるか?