論文插圖也能自動生成了,用到了擴散模型,

網(wǎng)絡 分享 時間: 收藏本文

論文插圖也能自動生成了,用到了擴散模型,

如果論文中的圖表不用繪制,對于研究者來說是不是一種便利呢?有人在這方面進行了探索,利用文本描述生成論文圖表,結果還挺有模有樣的呢!

生成式 AI 已經(jīng)風靡了人工智能社區(qū),無論是個人還是企業(yè),都開始熱衷于創(chuàng)建相關的模態(tài)轉換應用,比如文生圖、文生視頻、文生音樂等等。

最近呢,來自 、 等科研機構的幾位研究者嘗試基于文本描述生成論文中的圖表。為此,他們提出了一種 的新方法,相關論文還被 ICLR 2023 收錄為了 Tiny 。

生成論文的網(wǎng)站_自動生成論文的網(wǎng)站_論文自動生成器app

論文地址:

也許有人會問了,生成論文中的圖表有什么難的呢?這樣做對于科研又有哪些幫助呢?

科研圖表生成有助于以簡潔易懂的方式傳播研究結果,而自動生成圖表可以為研究者帶來很多優(yōu)勢,比如節(jié)省時間和精力,不用花大力氣從頭開始設計圖表。此外設計出具有視覺吸引力且易理解的圖表能使更多的人訪問論文。

然而生成圖表也面臨一些挑戰(zhàn),它需要表示框、箭頭、文本等離散組件之間的復雜關系。與生成自然圖像不同,論文圖表中的概念可能有不同的表示形式,需要細粒度的理解,例如生成一個神經(jīng)網(wǎng)絡圖會涉及到高方差的不適定問題。

因此,本文研究者在一個論文圖表對數(shù)據(jù)集上訓練了一個生成式模型,捕獲圖表組件與論文中對應文本之間的關系。這就需要處理不同長度和高技術性文本描述、不同圖表樣式、圖像長寬比以及文本渲染字體、大小和方向問題。

在具體實現(xiàn)過程中,研究者受到了最近文本到圖像成果的啟發(fā),利用擴散模型來生成圖表,提出了一種從文本描述生成科研圖表的潛在擴散模型 ——。

這個擴散模型有哪些獨到之處呢?我們接著往下看細節(jié)。

模型與方法

研究者從頭開始訓練了一個潛在擴散模型。

首先學習一個圖像自動編碼器,用來將圖像映射為壓縮的潛在表示。圖像編碼器使用 KL 損失和 OCR 感知損失。調(diào)節(jié)所用的文本編碼器在該擴散模型的訓練中端到端進行學習。下表 3 為圖像自動編碼器架構的詳細參數(shù)。

然后,該擴散模型直接在潛在空間中進行交互,執(zhí)行數(shù)據(jù)損壞的前向調(diào)度,同時學習利用時間和文本條件去噪 U-Net 來恢復該過程。

自動生成論文的網(wǎng)站_生成論文的網(wǎng)站_論文自動生成器app

至于數(shù)據(jù)集,研究者使用了 ,它由論文中的圖表文本對組成,包含了 81,194 個訓練樣本和 21,259 個驗證樣本。下圖 1 為 測試集中使用文本描述生成的圖表示例。

自動生成論文的網(wǎng)站_生成論文的網(wǎng)站_論文自動生成器app

模型細節(jié)

首先是圖像編碼器。第一階段,圖像自動編碼器學習一個從像素空間到壓縮潛在表示的映射,使擴散模型訓練更快。圖像編碼器還需要學習將潛在圖像映射回像素空間,同時不丟失圖表重要細節(jié)(如文本渲染質量)。

為此,研究者定義了一個具有瓶頸的卷積編解碼器,在因子 f=8 時對圖像進行下采樣。編碼器經(jīng)過訓練可以最小化具有高斯分布的 KL 損失、VGG 感知損失和 OCR 感知損失。

其次是文本編碼器。研究者發(fā)現(xiàn)通用文本編碼器不太適合生成圖表任務。因此他們定義了一個在擴散過程中從頭開始訓練的 Bert ,其中使用大小為 512 的嵌入通道,這也是調(diào)節(jié) U-Net 的跨注意力層的嵌入大小。研究者還探索了不同設置下(8、32 和 128)的 層數(shù)量的變化。

最后是潛在擴散模型。下表 2 展示了 U-Net 的網(wǎng)絡架構。研究者在感知上等效的圖像潛在表示中執(zhí)行擴散過程,其中該圖像的輸入大小被壓縮到了 ,使擴散模型更快。他們定義了 1,000 個擴散步驟和線性噪聲調(diào)度。

生成論文的網(wǎng)站_自動生成論文的網(wǎng)站_論文自動生成器app

訓練細節(jié)

為了訓練圖像自動編碼器,研究者使用了一個 Adam 優(yōu)化器,它的有效批大小為 4 個樣本、學習率為 4.5e?6,期間使用了 4 個 12GB 的英偉達 V100 顯卡。為了實現(xiàn)訓練穩(wěn)定性,他們在 50k 次迭代中 模型,而不使用判別器。

對于訓練潛在擴散模型,研究者也使用 Adam 優(yōu)化器,它的有效批大小為 32,學習率為 1e?4。在 數(shù)據(jù)集上訓練該模型時,他們用到了 8 塊 80GB 的英偉達 A100 顯卡。

實驗結果

在生成過程中,研究者采用了具有 200 步的 DDIM 采樣器,并且為每個模型生成了 12,000 個樣本來計算 FID, IS, KID 以及 OCR-SIM1。穩(wěn)重使用無分類器指導(CFG)來測試超調(diào)節(jié)。

下表 1 展示了不同文本編碼器的結果。可見,大型文本編碼器產(chǎn)生了最好的定性結果,并且可以通過增加 CFG 的規(guī)模來改進條件生成。雖然定性樣本沒有足夠的質量來解決問題,但 已經(jīng)掌握了文本和圖像之間的關系。

自動生成論文的網(wǎng)站_論文自動生成器app_生成論文的網(wǎng)站

下圖 2 展示了調(diào)整無分類器指導(CFG)參數(shù)時生成的額外 樣本。研究者觀察到增加 CFG 的規(guī)模(這在定量上也得到了體現(xiàn))可以帶來圖像質量的改善。

自動生成論文的網(wǎng)站_生成論文的網(wǎng)站_論文自動生成器app

下圖 3 展示了 的更多生成示例。要注意樣本之間長度的變化,以及文本描述的技術水平,這會密切影響到模型正確生成可理解圖像的難度。

論文自動生成器app_自動生成論文的網(wǎng)站_生成論文的網(wǎng)站

不過研究者也承認,盡管現(xiàn)在這些生成的圖表不能為論文作者提供實際幫助,但仍不失為一個有前景的探索方向。

相關專題 科普
周易 易經(jīng) 代理招生 二手車 網(wǎng)絡營銷 旅游攻略 非物質文化遺產(chǎn) 查字典 精雕圖 戲曲下載 抖音代運營 易學網(wǎng) 互聯(lián)網(wǎng)資訊 成語 詩詞 工商注冊 抖音帶貨 云南旅游網(wǎng) 網(wǎng)絡游戲 代理記賬 短視頻運營 在線題庫 國學網(wǎng) 抖音運營 雕龍客 雕塑 奇石 散文 常用文書 河北生活網(wǎng) 好書推薦 游戲攻略 心理測試 石家莊人才網(wǎng) 考研真題 漢語知識 心理咨詢 手游安卓版下載 興趣愛好 網(wǎng)絡知識 十大品牌排行榜 商標交易 單機游戲下載 短視頻代運營 寶寶起名 范文網(wǎng) 電商設計 免費發(fā)布信息 服裝服飾 律師咨詢 搜救犬 Chat GPT中文版 經(jīng)典范文 優(yōu)質范文 工作總結 二手車估價 實用范文 石家莊點痣 養(yǎng)花 名酒回收 石家莊代理記賬 女士發(fā)型 搜搜作文 鋼琴入門指法教程 詞典 讀后感 玄機派 企業(yè)服務 法律咨詢 chatGPT國內(nèi)版 chatGPT官網(wǎng) 勵志名言 文玩 語料庫 游戲推薦 男士發(fā)型 高考作文 PS修圖 兒童文學 工作計劃 舟舟培訓 IT教程 手機游戲推薦排行榜 暖通,電地暖, 女性健康 苗木供應 ps素材庫 短視頻培訓 優(yōu)秀個人博客 包裝網(wǎng) 創(chuàng)業(yè)賺錢 養(yǎng)生 民間借貸律師 綠色軟件 安卓手機游戲 手機軟件下載 手機游戲下載 單機游戲大全 石家莊論壇 網(wǎng)賺 職業(yè)培訓 資格考試 成語大全 英語培訓 藝術培訓 少兒培訓 苗木網(wǎng) 雕塑網(wǎng) 好玩的手機游戲推薦 漢語詞典 中國機械網(wǎng) 美文欣賞 紅樓夢 道德經(jīng) 標準件 電地暖 鮮花 書包網(wǎng) 英語培訓機構 電商運營
主站蜘蛛池模板: 亚洲精品免费在线视频| 欧美黄色一级视频| 日产精品卡一卡2卡三卡乱码工厂 日产精品卡二卡三卡四卡乱码视频 | 337p粉嫩胞高清视频在线| 特黄特色大片免费播放| 女人把腿给男人桶视频app| 午夜久久久久久久| 一级毛片aa高清免费观看| 久久99久久99精品免观看不卡| 国产私拍福利精品视频推出| 极品肌肉军警h文| 国产真实乱子伦精品| 亚洲乱码中文字幕综合| 免费足恋视频网站女王| 日韩黄色片网站| 国产国产人免费人成免费视频 | 污污成人一区二区三区四区 | 波多野结衣办公室在线观看| 在线观看91精品国产不卡免费| 亚洲精品www久久久久久| 911香蕉视频| 欧美XXXX做受欧美1314| 国产成人一区二区三区免费视频| 久久精品中文字幕大胸| 药店打针1_标清| 欧美精品亚洲一区二区在线播放| 国产精品高清视亚洲一区二区| 四虎影视在线影院4hutv| 九九这里只有精品视频| 麻豆工作室传媒| 日本xxx片免费高清在线| 北条麻妃vs黑人解禁| 99在线视频网站| 欧美另类杂交a| 国产在线无码精品无码| 中国老熟妇自拍HD发布| 狠狠综合久久综合网站| 国产精品成人观看视频国产奇米| 久热中文字幕在线精品免费| 在线视频你懂的国产福利| 日韩夜夜高潮夜夜爽无码|