OpenAIがハリウッドにムービー生成AI「Sora」を売り込んでいると報道される

大規模言語モデルのGPTや画像生成AIモデルのDALL-Eを開発するOpenAIが、テキストからムービーを生成するAIの「Sora」を2024年2月に発表しました。そんなSoraについて、OpenAIはハリウッドの映画スタジオやメディア幹部、タレントエージェンシーと会合をして、Soraを映画制作に使うよう売り込んでいるとBloombergが報じています。続きを読む……
紹介OpenAIがハリウッドにムービー生成AI「Sora」を売り込んでいると報道されるの続きを読む

Googleがたった1枚の写真と音声から「身ぶり手ぶりを交えて話すリアルな動画」を生成するAI「VLOGGER」を発表

Googleの研究チームが、写真1枚と音声を入力することで「音声に合わせて身ぶり手ぶりを交えて話すリアルな動画」を生成できるAIフレームワーク「VLOGGER」を発表しました。続きを読む……
紹介Googleがたった1枚の写真と音声から「身ぶり手ぶりを交えて話すリアルな動画」を生成するAI「VLOGGER」を発表の続きを読む

写真やイラストをリアルに歌わせたりしゃべらせたりできるAIシステム「EMO」が登場

中国のテクノロジー企業・Alibabaのインテリジェント・コンピューティング研究所のチームが、写真や画像をアニメ化してリアルに話したり歌を歌ったりしているように動く映像を生成できるAIシステム「Emote Portrait Alive(EMO)」を発表しました。続きを読む……
紹介写真やイラストをリアルに歌わせたりしゃべらせたりできるAIシステム「EMO」が登場の続きを読む

音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場

音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。続きを読む……
紹介音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場の続きを読む

Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿

Djangoの作者の1人であるエンジニアのサイモン・ウィルソン氏がGemini 1.5 Proを実際に使ってみた感想をブログに投稿しています。続きを読む……
紹介Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿の続きを読む

「Google Chrome 122」安定版リリース、ストレージのバケットごとに永続化を選択する設定やメインスレッドのイベントの原因をトラッキングすることが可能に

ウェブブラウザ「Google Chrome」の最新安定版であるバージョン122.0.6261.58がリリースされました。Storage Bucket APIにおいてバケットごとに永続化を選択できるようになったり、Clipboard APIでHTMLを読み取る際にサニタイズしない選択が可能になったりするなどAPIが更新されたほか、開発者ツールにおいてスタイルの再計算など一定のイベントについて原因とな…
紹介「Google Chrome 122」安定版リリース、ストレージのバケットごとに永続化を選択する設定やメインスレッドのイベントの原因をトラッキングすることが可能にの続きを読む

テキストから物理法則をシミュレートしながら動画を生成するAI「Sora」をOpenAIが発表

大規模言語モデルのGPTシリーズや画像生成AIの安全性のDALL-Eを開発するOpenAIが、テキストから最長1分間の動画を生成できるAI「Sora」を発表しました。Soraは「複数のキャラクター、特定の種類のモーション、被写体と背景の正確な詳細を含む複雑なシーン」を「物理世界にどのように存在するのかを理解」した上で動画を生成できるとのことです。続きを読む……
紹介テキストから物理法則をシミュレートしながら動画を生成するAI「Sora」をOpenAIが発表の続きを読む

Googleが超高品質な動画生成AI「Lumiere」を発表、フレーム同士のつながりが自然で「テキストや画像から動画生成」「写真の一部を動画化」「動画の一部分を指定して加工」などなど機能てんこもり

Googleの研究チームが動画生成AI「Lumiere」を2024年1月24日(水)に発表しました。Lumiereではフレーム同士が自然につながった違和感の少ない動画を生成可能で、テキストや画像を入力して動画を生成できるほか、動画の一部分を指定して別の動画に置き換えたり、写真の一部分だけを動かしたりといった操作も可能です。続きを読む……
紹介Googleが超高品質な動画生成AI「Lumiere」を発表、フレーム同士のつながりが自然で「テキストや画像から動画生成」「写真の一部を動画化」「動画の一部分を指定して加工」などなど機能てんこもりの続きを読む

「Google Chrome 121」安定版リリース、生成AIを使った支援機能が登場&AndroidデバイスでWebGPUが標準で有効化される

ウェブブラウザ「Google Chrome」の最新安定版であるバージョン121がリリースされました。「タブの自動整理」「独自のテーマ生成」「文章作成支援」という生成AIを使用した機能が3つ追加されたほか、AndroidデバイスにおいてWebGPUが標準で有効化されるなどのアップデートが行われています。続きを読む……
紹介「Google Chrome 121」安定版リリース、生成AIを使った支援機能が登場&AndroidデバイスでWebGPUが標準で有効化されるの続きを読む

投獄されているパキスタンの元首相がAIによる音声クローンで獄中から選挙活動を展開

パキスタンのイムラン・カーン元首相は、自ら書いた原稿を外部の協力者にAIで音声化してもらうことで獄中からオンラインでの選挙活動を展開することに成功しました。同時にパキスタンの規制当局はX、Facebook、Instagram、YouTubeなどSNSへのアクセスを遮断して選挙活動を妨害しているとみられています。続きを読む……
紹介投獄されているパキスタンの元首相がAIによる音声クローンで獄中から選挙活動を展開の続きを読む

MP3圧縮で劣化しまくった音質を再現してくれるプラグイン「MAIM」

音声データを圧縮する技術はさまざまあり、特にMP3フォーマットは非可逆圧縮のコーデックとしては最も普及しているものの1つです。MP3による圧縮は圧縮率を高くしたり回数を重ねたりすると音質が大きく劣化してしまうのですが、その圧縮による音質劣化を再現するプラグイン「MAIM」が登場しました。続きを読む……
紹介MP3圧縮で劣化しまくった音質を再現してくれるプラグイン「MAIM」の続きを読む

簡単なテキストから写実的な動画を生成する拡散モデル「W.A.L.T」が登場

スタンフォード大学やGoogleの研究チームが、テキストから写実的な動画を生成する拡散モデルである「W.A.L.T」を発表しました。実際に「W.A.L.T」を使用して生成した動画も多数公開されています。続きを読む……
紹介簡単なテキストから写実的な動画を生成する拡散モデル「W.A.L.T」が登場の続きを読む

文字・音楽・画像を同時に処理する「マルチモーダルAI」の性能がよく分かるGoogleの「Gemini」ハウツー動画11種を解説

2023年12月6日、Googleが文字・音楽・画像を同時に処理するマルチモーダルAI「Gemini」をリリースしました。リリースに合わせてGeminiの使い方解説動画がアップロードされていたので確認してみました。続きを読む……
紹介文字・音楽・画像を同時に処理する「マルチモーダルAI」の性能がよく分かるGoogleの「Gemini」ハウツー動画11種を解説の続きを読む

文字・音声・画像を同時に処理して人間以上に自然なやりとりができるGPT-4を超える性能のマルチモーダルAI「Gemini」がリリースされる

現地時間で2023年12月6日、Google DeepMindがマルチモーダルAI「Gemini」をリリースしました。文字・音声・画像を同時に処理することが可能で、最上位モデルではGPT-4を超える性能を達成しているほか、同時に公開されたハンズオンムービーで極めて自然な受け答えをしている様子を確認できます。続きを読む……
紹介文字・音声・画像を同時に処理して人間以上に自然なやりとりができるGPT-4を超える性能のマルチモーダルAI「Gemini」がリリースされるの続きを読む