ChatGPT は見たり、聞いたり、話したりできるようになりました

ChatGPT は見たり、聞いたり、話したりできるようになりました
とにかくすごいです。ついて行くのが大変です。以下は、説明のポイントを和訳したものです。

ChatGPT では、新しい音声および画像機能の展開を開始しています。これらは、音声会話をしたり、話している内容を ChatGPT に表示したりできる、新しい、より直感的なタイプのインターフェイスを提供します。

音声と画像により、生活の中で ChatGPT を使用する方法がさらに増えます。旅行中にランドマークの写真を撮り、その興味深い点についてライブで会話しましょう。家に帰ったら、冷蔵庫と食料庫の写真を撮って、夕食のメニューを考えましょう（そして、ステップバイステップのレシピについてフォローアップの質問をしてください）。夕食後は、写真を撮り、問題集に丸を付け、二人でヒントを共有してもらい、お子様の算数の問題を手伝ってください。

今後 2 週間かけて、ChatGPT の音声と画像を Plus ユーザーと Enterprise ユーザーに展開していきます。音声は iOS と Android (設定でオプトイン) で利用可能になり、画像はすべてのプラットフォームで利用できるようになります。

ChatGPT と話のやり取りができます
音声を使用してアシスタントとやり取りできるようになりました。外出先でも話しかけたり、家族の就寝前の話をリクエストしたり、夕食のテーブルでの議論を解決したりできます。

新しい音声機能は、新しいテキスト読み上げモデルを活用しており、テキストと数秒のサンプル音声だけから人間のような音声を生成できます。プロの声優と協力してそれぞれの声を作成しました。また、オープンソースの音声認識システムである Whisper を使用して、話された言葉をテキストに変換します。

画像についてのチャット
ChatGPT に 1 つ以上の画像を表示できるようになりました。冷蔵庫の中身を調べて食事の計画を立てたり、仕事関連のデータの複雑なグラフを分析したりできます。画像の特定の部分に焦点を当てるには、モバイルアプリの描画ツールを使用できます。

画像理解は、マルチモーダル GPT-3.5 および GPT-4 によって強化されています。これらのモデルは、言語推論スキルを、写真、スクリーンショット、テキストと画像の両方を含むドキュメントなど、幅広い画像に適用します。

わずか数秒間の実際の音声からリアルな合成音声を作成できる新しい音声テクノロジーは、創造的でアクセシビリティを重視した多くのアプリケーションへの扉を開きます。ただし、これらの機能には、悪意のある攻撃者が公人になりすましたり、詐欺を働いたりする可能性など、新たなリスクも生じます。

このため、私たちはこのテクノロジーを特定のユースケース、つまり音声チャットを強化するために使用しています。ボイスチャットは、私たちが直接仕事をした声優たちと作成されました。私たちは他の企業とも同様の方法で協力しています。たとえば、Spotify はこのテクノロジーの力を音声翻訳機能の試験運用に利用しています。

視覚を便利かつ安全に
他の ChatGPT 機能と同様、ビジョンは日常生活を支援することを目的としています。このアプローチは、用途と制限を理解するために、目の見えない人や弱視の人のための無料モバイルアプリである Be My Eyes との取り組みから直接情報を得ています。

また、ChatGPT は常に正確であるとは限らず、これらのシステムは個人のプライバシーを尊重する必要があるため、ChatGPT が分析して人々について直接発言する能力を大幅に制限する技術的手段も講じました。

実際の使用状況とフィードバックは、ツールの有用性を維持しながら、これらの安全策をさらに改善するのに役立ちます。

モデルの制限に関する透明性
ユーザーは、研究などの分野など、特殊なトピックについて ChatGPT に依存する場合があります。私たちはモデルの制限について透明性を持っており、適切な検証なしにリスクの高いユースケースを回避します。さらに、このモデルは英語のテキストの転写には優れていますが、他の言語、特にローマ字以外の言語ではパフォーマンスが低下します。英語以外のユーザーには、この目的で ChatGPT を使用しないことをお勧めします。

これらができるようになるのは、当面は有料の契約者だけのようですが、今後の生成AIの方向性を示す非常に重要な変化だと思います。時間のあるヒトはぜひOpenAIのサイトへ行って体験してみてください。