ほぼテク読者の皆様、いつも大変ありがとうございます！
我妻裕太です。

本日もよろしくお願いいたします。
GPTに関する連続投稿約70日目です！

週の真ん中水曜日、土日はこちらGJTのサイトから情報発信いたします。
本日はBingに搭載されているGPTの画像認識技術について実験してみたいと思います。

そもそもBingのGPTとは？

BingのGPTとは、Microsoft社様が開発した大規模な言語モデルです。

テキストの生成、言語の翻訳、さまざまな種類のクリエイティブコンテンツの作成、有益な方法での質問への回答など、さまざまな目的に使用できます。
BingのGPTは、Microsoft社様の検索エンジンBingと統合されており、ユーザーは質問に対するより正確で最新の情報を得ることができます。

BingのGPTはまだ開発中ですが、さまざまな分野ですでに使用されています。
たとえば、BingのGPTは、ニュース記事の作成、翻訳、および書類の作成に使用されています。

ChatGPTとの違いは？

BingのGPTとOpenAI社様のChatGPTは、どちらも大規模言語モデル（LLM）であり、テキストの生成、言語の翻訳、さまざまな種類のクリエイティブコンテンツの作成、有益な方法での質問への回答など、さまざまな目的に使用できます。

しかし、両者にはいくつかの重要な違いがあります。

1.データセット
BingのGPTは、Microsoftの検索エンジンBingから収集されたデータセットでトレーニングされています。
一方、ChatGPTは、テキストとコードの膨大なデータセットでトレーニングされています。

2.機能
BingのGPTは、テキストの生成、言語の翻訳、さまざまな種類のクリエイティブコンテンツの作成、有益な方法での質問への回答など、さまざまな機能を備えています。
一方、ChatGPTは、テキストの生成と質問への回答に重点を置いています。

3.可用性
BingのGPTは、現在、Microsoftのパートナーにのみ提供されています。
一方、ChatGPTは、誰でも無料で使用できます。

全体として、BingのGPTとChatGPTはどちらも大規模言語モデルですが、データセット、機能、可用性などのいくつかの重要な違いがあります。

BingのGPTは画像認識技術との連携が可能！

OpenAI社のChatGPTは標準機能ではテキストのみ対応可能でしたが、こちらのGPTは画像認識との連携も可能です。
イメージは画像をアップロードすると、GTPがそれを解析して、その画像に関する情報を提供することができます。
例えば、その画像に何が写っているか、その画像がどこで撮影されたか、その画像に関する詳細な情報などを提供してくれます。

どんな使い方ができるかな？

画像解析の使い方は多岐にわたります。

例えば、ある画像に関する情報を知りたい場合、その画像がどこで撮影されたか、その画像に何が写っているか、その画像に関する詳細な情報などを提供することができます。
また、ある画像に関連する商品やサービスを探したい場合、その画像を解析して、その商品やサービスに関する情報を提供することもできます。

GPTに確認したところ、画像解析には、機械学習アルゴリズムを使用しているとのことです。
アルゴリズムは、画像の特徴を認識し、その画像に関する情報を提供するために使用されます。
最新の技術を使用して、画像解析の精度を高めるように努めているそうです！

頼もしいです。

ではもう少し聞いてみましょう！

Q：あなたはどのように画像を解析しますか？
A：画像解析には、機械学習アルゴリズムを使用しています。
アルゴリズムは、画像の特徴を認識し、その画像に関する情報を提供するために使用されます。
私たちは、最新の技術を使用して、画像解析の精度を高めるように努めています。

Q：どんなアルゴリズムですか？
A：私たちは、画像解析に畳み込みニューラルネットワーク（CNN）を使用しています。
CNNは、画像の特徴を認識するために使用される深層学習アルゴリズムの一種です。
CNNは、画像の中にあるパターンを認識し、そのパターンに基づいて画像を分類することができます。
私たちは、最新のCNNアルゴリズムを使用して、画像解析の精度を高めるように努めています。

Q：OCR機能はありますか？
A：はい、OCR機能を提供しています。
OCRは、光学式文字認識の略で、画像中の文字を認識し、テキストに変換する技術です。
OCRを使用すると、スキャンされた文書や写真などの画像からテキストを抽出することができます。
私たちは、最新のOCR技術を使用して、高精度なテキスト変換を提供しています。

らしいです！

何に使えるか？

アイディア次第だと思いますが、例えば以下のような使い方はできるのではないでしょうか。

1.画像の詳細情報取得
ある画像に関する情報を知りたい場合、その画像がどこで撮影されたか、その画像に何が写っているか、その画像に関する詳細な情報などを提供することができます。

2.商品やサービスの情報検索
ある画像に関連する商品やサービスを探したい場合、その画像を解析して、その商品やサービスに関する情報を提供することができます。

3.OCRでテキスト抽出
OCR機能を使用して、スキャンされた文書や写真などの画像からテキストを抽出することができます。

4.人物や場所に関する情報の取得
ある画像に関連する人物や場所を特定したい場合、その画像を解析して、その人物や場所に関する情報を提供することができます。

などでしょうか。

それでは上記を踏まえて、本日もさっそく試してみましょう。

今回の実験ルールは以下の通りです。
前述した「何に使えるか？」で記載した内容をもとに以下のような画像を試してみたいと思います。

1.画像の詳細情報取得に関する画像

2.OCRでテキスト抽出

3.人物や場所に関する情報の取得

詳細情報取得、OCR、場所の特定になりそうな画像を用意しました。
商品やサービスは他社様の情報になるので、今回は割愛いたします。

プロンプトはそれぞれ後述します。それではさっそく行ってみよう！

実験①：本は認識できるのか？

【プロンプト】
画像内にある本は何冊ですか？

【回答】
この画像には、4冊の本があります。本のタイトルは、「Martin’s Annual Criminal Code 1935」、「Science and Socialism 1913」、「Bonfield’s Ashton」、「Smith’s Appeal 1917」です。

——————————————————————————————————————————————————

おぉ、すごい？ような、ちょっと違うような？本は５冊なので、４冊と言っているので、ちょっと惜しいです。
本のタイトルも読み込んでくれていますが、あっているところ、抜き出せていないところがあります。

最初の感動は凄かったのですが、結果がもう少し精度高いとさらに感動する感じですかね。
いやーでも面白いですね。

では続いて

実験②：食べ物は認識できるのか？

【プロンプト】
この画像から連想されるレシピを生成してくれるかな？

【回答とやりとり】
この画像から連想されるレシピを生成することはできませんが、この画像にある食材を使ったサラダのレシピを提供することはできます。
この画像にある食材を使ったサラダのレシピをお探しでしたら、お手伝いできますか？

はい、教えてください。

キャベツとトマトのマリネ風サラダ1 は、キャベツとトマトを使ったサラダで、ドレッシングには、オリーブオイル、レモン汁、塩、こしょうを使います。
このレシピには、キャッシューは含まれていませんが、ブルーベリーやラズベリーなどのフルーツを加えることもできます。
また、イチゴや桃などのフルーツを加えることもできます。キノコを加えることもできますが、このレシピには含まれていません。

このレシピは、キャベツとトマトの爽やかな味わいが特徴で、夏にぴったりです。ぜひお試しください！

——————————————————————————————————————————————————

おぉ、いいですね。連想してくれはプロンプトとしては惜しい感じなんですね。
「画像内にある食材を使ったレシピをください」の方がよかったのかもしれません。

ただ、そのあとのやりとりで画像内にある食材を認識してくれて、その食材をもとに検索をしてくれているようです。
夏にぴったりのキャベツとトマトのマリネ風サラダいいですね～。

実験③：文字は認識できるか？

【プロンプト】
この画像はなんですか？

【回答】
この画像は、ポーランド語の新聞記事で、GPT-3チャットボットとその機能についての記事です。
記事のタイトルは「Eksperymenty z GPT-3」です。
画像には、日本語で「ChatGPT-3 は本当に人のように会話ができる？テキスト生成の精度は？」と書かれた黒い四角形があります。

——————————————————————————————————————————————————

ポーランド語？本当だ！ポーランド語みたいです。すごいな。
この新聞はポーランド語の新聞みたいです。おそらく・・・

それとGPTをちゃんとテキストとして認識しているようです。
面白いのは新聞記事のテキストと右側のGPTのテキストをミックスして解釈を生成してくれました！

これが生成AIの神髄？素晴らしいですね。
内容はちょっと違うんですけどね(笑)

小さい文字の日本語も認識していますね。日本語、英語、ポーランド語が一瞬で認識できた！すご。
できれば「ほぼテク」認識してほしかった・・・

実験④：Webサイトのスクリーンショットから文字は認識できるか？

【プロンプト】
ウェブページのスクリーンショットです。
スクリーンショットの中に書かれている日本語のテキスト情報を抽出してください

【回答】
以下は、あなたが送信した前のメッセージに含まれる画像の説明です。

これは、日本語のウェブページのスクリーンショットです。

ウェブページのタイトルは「GoogleBardとは？」です。

ウェブページには、白い背景に黒いテキストが表示される黒いヘッダーがあり、「GoogleBardとは？」と白いテキストで書かれています。

ウェブページには、「AIとは？」というセクションがあります。

ウェブページには、「GoogleBardの使い方」というセクションがあります。

ウェブページには、「GoogleBardの特徴」というセクションがあります。

以上です。ご質問があれば、お答えします。🙂

——————————————————————————————————————————————————

ん～～～、おぉ。

テキストは抽出してくれているようです。ただ、もう少し全文を抽出してくれると嬉しいです。
プロンプトの改良の余地がありそうですね。

白背景に黒いテキストなどは抽象的なことを認識してくれているので、面白いですね。

ではラストです。ラストは、時代は宇宙！

実験⑤：宇宙はどんな回答になるか？

【プロンプト】
この画像に関する最新ニュースを教えてください。

【回答】
申し訳ありませんが、私は最新のニュースを検索することはできません。
ただ、あなたが送信した画像に関する情報を提供することができます。
この画像は、宇宙服を着た宇宙飛行士が黒い背景に立っているグラフィック画像です。
宇宙服は白色で、オレンジ色と青色のアクセントがあります。
ヘルメットは白色で、黒いバイザーが付いています。
バックパックは白色で、青いストライプがあります。宇宙飛行士は白い円の上に立っています。

——————————————————————————————————————————————————

おぉーそうですか！でも、ちょっと思ってたのとちがう(笑)
宇宙関係のニュース記事が欲しかったのですが・・・プロンプトの改良の余地はありそうですね。

ただ、画像の中身を詳細に説明しているのは秀逸ですね。
詳細に宇宙服を着た人を丁寧に説明してくれています。

これは何かに使えそう！