OPEN
09:00〜18:00
CLOSED
SAT/SUN/HOL


MAIL

Deep Seek ショックってなんですか?

とりあえず、Forbes(日本語版)の記事からさぐってみよう

https://forbesjapan.com/articles/detail/76754?module=toppage_new

アメリカ様による関連技術の輸出規制下にもかかわらず比較的無名の企業がいかにして高度なAI製品を生み出すことができたのかが「ショック」という言葉に込められている。

「DeepSeek R1」モデルは、ユーザー投票で世界第4位の人気AIモデルというから、まだ第一位ではないらしいが、評価は既存のものを超える可能性において最高位にあるらしいので、「ショック」なのだと思う。以下記事からの引用。


清華大学の情報科学助教授、許華哲(シュイ・ホアヂェ)はWeChatを通じて「DeepSeekのイノベーションの一部は「Mixture of Experts(MoE)」(専門家の組み合わせ)と呼ばれる技術から生まれたようだ」と述べている。これは多数の小規模AIモデルを同時に学習させ、ユーザーへの応答時に選択されたモデルの出力を組み合わせる手法である


ちんぷんかんぷんながら、分散処理と、計算処理のタイミング調整の効率化が技術の鍵って感じがします。なので少しググってみました。

[note]の記事がわかりやすかった。でも、余裕のない設計はあとが苦しいよ。

世の中ので頭のいいひとがnoteに何がすごいのかまとめてくれています。

https://note.com/unco3/n/nd1dde5cea736


DeepSeekは、ハードウェアの制約を最適化によって克服し、MoEを活用した部分的学習で学習コストを劇的に低下させ、さらに強化学習によって推論能力を高める——という2つの大きなコスト削減イノベーションを軸に進化を遂げています。


キーワードとして「大規模分散学習」「スマートな最適化」「MoE(Mixture of Experts)モデルを用いた選択的学習」と言っています。

半分も理解できないのですが、MoEというモデルに、何か人間社会で起こるミステイクを生み出す余地がないか、考えちゃいます。議論ばっかで結論が出ない会議って世の中にたくさんありますが、そういうことをやった結果、能力の低い計算機でも立派なことができた、っていう。

膨大な計算リソースを持っているアメリカ様がその無駄に気づいていないはずがないので、たくさんの人が研究しているのだと思いますが、中国が一歩先を行ったという理解でよいのでしょうか。敵に塩を送る的な雰囲気もありますが、これってトランプ、習近平も話してるんですかね?

いずれにせよ、日本もスーパーコンピューターの開発で、分散制御の技術は立派なものをもっているんじゃないかなぁ・・・・と予想するので、頑張ってほしいです。

新着情報

TOP PAGE