GPT-4ビジョンの新たな競争相手、LLaVAとの出会い

オープンエイの画像認識技術GPT-4は最近、技術界を席巻した。しかし、塵も積もれば山となるで、新たな候補が参入してきた：LLaVA（大型言語視覚アシスタント）である。オープンソースで完全に無料で使用できるLLaVAは、画像認識技術の限界を再定義しようとしている。

LLaVAとは？

LLaVAは、ウィスコンシン大学マディソン校、マイクロソフト・リサーチ、コロンビア大学の専門家によって作られた最先端のツールである。簡単に言えば、ビジュアル（写真のような）と言語（テキストのような）の両方を理解するように設計された技術の一部である。人間と同じように写真についてチャットできるChatGPTを想像してみてほしい。

LLaVAはなぜ特別なのか？

LLaVAは単なる画像認識ツールではない。視覚の “エンコーダー”（これはシステムの目と考えてほしい）とビキューナ（言語を理解するための脳）と呼ばれるものが融合している。このコンボにより、LLaVAは、GPT-4 Visionがそうであるように、画像についておしゃべりし、複雑な視覚情報を理解するスーパースターになる。