論文插圖也能自動生成了,用到了擴散模型,

網絡 分享 時間: 收藏本文

論文插圖也能自動生成了,用到了擴散模型,

如果論文中的圖表不用繪制,對于研究者來說是不是一種便利呢?有人在這方面進行了探索,利用文本描述生成論文圖表,結果還挺有模有樣的呢!

生成式 AI 已經風靡了人工智能社區,無論是個人還是企業,都開始熱衷于創建相關的模態轉換應用,比如文生圖、文生視頻、文生音樂等等。

最近呢,來自 、 等科研機構的幾位研究者嘗試基于文本描述生成論文中的圖表。為此,他們提出了一種 的新方法,相關論文還被 ICLR 2023 收錄為了 Tiny 。

生成論文的網站_自動生成論文的網站_論文自動生成器app

論文地址:

也許有人會問了,生成論文中的圖表有什么難的呢?這樣做對于科研又有哪些幫助呢?

科研圖表生成有助于以簡潔易懂的方式傳播研究結果,而自動生成圖表可以為研究者帶來很多優勢,比如節省時間和精力,不用花大力氣從頭開始設計圖表。此外設計出具有視覺吸引力且易理解的圖表能使更多的人訪問論文。

然而生成圖表也面臨一些挑戰,它需要表示框、箭頭、文本等離散組件之間的復雜關系。與生成自然圖像不同,論文圖表中的概念可能有不同的表示形式,需要細粒度的理解,例如生成一個神經網絡圖會涉及到高方差的不適定問題。

因此,本文研究者在一個論文圖表對數據集上訓練了一個生成式模型,捕獲圖表組件與論文中對應文本之間的關系。這就需要處理不同長度和高技術性文本描述、不同圖表樣式、圖像長寬比以及文本渲染字體、大小和方向問題。

在具體實現過程中,研究者受到了最近文本到圖像成果的啟發,利用擴散模型來生成圖表,提出了一種從文本描述生成科研圖表的潛在擴散模型 ——。

這個擴散模型有哪些獨到之處呢?我們接著往下看細節。

模型與方法

研究者從頭開始訓練了一個潛在擴散模型。

首先學習一個圖像自動編碼器,用來將圖像映射為壓縮的潛在表示。圖像編碼器使用 KL 損失和 OCR 感知損失。調節所用的文本編碼器在該擴散模型的訓練中端到端進行學習。下表 3 為圖像自動編碼器架構的詳細參數。

然后,該擴散模型直接在潛在空間中進行交互,執行數據損壞的前向調度,同時學習利用時間和文本條件去噪 U-Net 來恢復該過程。

自動生成論文的網站_生成論文的網站_論文自動生成器app

至于數據集,研究者使用了 ,它由論文中的圖表文本對組成,包含了 81,194 個訓練樣本和 21,259 個驗證樣本。下圖 1 為 測試集中使用文本描述生成的圖表示例。

自動生成論文的網站_生成論文的網站_論文自動生成器app

模型細節

首先是圖像編碼器。第一階段,圖像自動編碼器學習一個從像素空間到壓縮潛在表示的映射,使擴散模型訓練更快。圖像編碼器還需要學習將潛在圖像映射回像素空間,同時不丟失圖表重要細節(如文本渲染質量)。

為此,研究者定義了一個具有瓶頸的卷積編解碼器,在因子 f=8 時對圖像進行下采樣。編碼器經過訓練可以最小化具有高斯分布的 KL 損失、VGG 感知損失和 OCR 感知損失。

其次是文本編碼器。研究者發現通用文本編碼器不太適合生成圖表任務。因此他們定義了一個在擴散過程中從頭開始訓練的 Bert ,其中使用大小為 512 的嵌入通道,這也是調節 U-Net 的跨注意力層的嵌入大小。研究者還探索了不同設置下(8、32 和 128)的 層數量的變化。

最后是潛在擴散模型。下表 2 展示了 U-Net 的網絡架構。研究者在感知上等效的圖像潛在表示中執行擴散過程,其中該圖像的輸入大小被壓縮到了 ,使擴散模型更快。他們定義了 1,000 個擴散步驟和線性噪聲調度。

生成論文的網站_自動生成論文的網站_論文自動生成器app

訓練細節

為了訓練圖像自動編碼器,研究者使用了一個 Adam 優化器,它的有效批大小為 4 個樣本、學習率為 4.5e?6,期間使用了 4 個 12GB 的英偉達 V100 顯卡。為了實現訓練穩定性,他們在 50k 次迭代中 模型,而不使用判別器。

對于訓練潛在擴散模型,研究者也使用 Adam 優化器,它的有效批大小為 32,學習率為 1e?4。在 數據集上訓練該模型時,他們用到了 8 塊 80GB 的英偉達 A100 顯卡。

實驗結果

在生成過程中,研究者采用了具有 200 步的 DDIM 采樣器,并且為每個模型生成了 12,000 個樣本來計算 FID, IS, KID 以及 OCR-SIM1。穩重使用無分類器指導(CFG)來測試超調節。

下表 1 展示了不同文本編碼器的結果。可見,大型文本編碼器產生了最好的定性結果,并且可以通過增加 CFG 的規模來改進條件生成。雖然定性樣本沒有足夠的質量來解決問題,但 已經掌握了文本和圖像之間的關系。

自動生成論文的網站_論文自動生成器app_生成論文的網站

下圖 2 展示了調整無分類器指導(CFG)參數時生成的額外 樣本。研究者觀察到增加 CFG 的規模(這在定量上也得到了體現)可以帶來圖像質量的改善。

自動生成論文的網站_生成論文的網站_論文自動生成器app

下圖 3 展示了 的更多生成示例。要注意樣本之間長度的變化,以及文本描述的技術水平,這會密切影響到模型正確生成可理解圖像的難度。

論文自動生成器app_自動生成論文的網站_生成論文的網站

不過研究者也承認,盡管現在這些生成的圖表不能為論文作者提供實際幫助,但仍不失為一個有前景的探索方向。

相關專題 科普
信息流廣告 網絡推廣 周易 易經 代理招生 二手車 網絡營銷 招生代理 旅游攻略 非物質文化遺產 查字典 精雕圖 戲曲下載 抖音代運營 易學網 互聯網資訊 成語 成語故事 詩詞 工商注冊 注冊公司 抖音帶貨 云南旅游網 網絡游戲 代理記賬 短視頻運營 在線題庫 國學網 知識產權 抖音運營 雕龍客 雕塑 奇石 散文 自學教程 常用文書 河北生活網 好書推薦 游戲攻略 心理測試 石家莊人才網 考研真題 漢語知識 心理咨詢 手游安卓版下載 興趣愛好 網絡知識 十大品牌排行榜 商標交易 單機游戲下載 短視頻代運營 寶寶起名 范文網 電商設計 免費發布信息 服裝服飾 律師咨詢 搜救犬 Chat GPT中文版 經典范文 優質范文 工作總結 二手車估價 實用范文 愛采購代運營 古詩詞 衡水人才網 石家莊點痣 養花 名酒回收 石家莊代理記賬 女士發型 搜搜作文 石家莊人才網 銅雕 詞典 圍棋 chatGPT 讀后感 玄機派 企業服務 法律咨詢 chatGPT國內版 chatGPT官網 勵志名言 河北代理記賬公司 文玩 朋友圈文案 語料庫 游戲推薦 男士發型 高考作文 PS修圖 兒童文學 買車咨詢 工作計劃 禮品廠 舟舟培訓 IT教程 手機游戲推薦排行榜 暖通,電采暖, 女性健康 苗木供應 ps素材庫 短視頻培訓 優秀個人博客 包裝網 創業賺錢 養生 民間借貸律師 綠色軟件 安卓手機游戲 手機軟件下載 手機游戲下載 單機游戲大全 免費軟件下載 網賺 手游下載 游戲盒子 職業培訓 資格考試 成語大全 英語培訓 藝術培訓 少兒培訓 苗木網 雕塑網 好玩的手機游戲推薦 漢語詞典 中國機械網 美文欣賞 紅樓夢 道德經 網站轉讓 鮮花 社區團購 石家莊論壇 書包網 電地暖 在線新華字典 雅思培訓
主站蜘蛛池模板: jizz免费观看| 品色堂永久免费| 亚洲人成网站999久久久综合| 99久久综合给久久精品| 白白国产永久免费视频| 娇小体积女大战两黑鬼| 全免费a级毛片免费看不卡| 一级做a爱片久久蜜桃| 精品国产欧美精品v| 少妇粉嫩小泬喷水视频| 免费一级特黄特色大片在线| japanese老熟妇乱子伦视频| 爱情岛永久地址www成人| 国内精自品线一区91| 亚洲女人影院想要爱| 男女一进一出呻吟的动态图| 桃花视频性视频| 国产午夜av秒播在线观看| 久久久久亚洲av无码专区喷水 | 黑人巨茎美女高潮视频| 日韩精品专区在线影院重磅| 国产在热线精品视频| 久久99精品久久久久婷婷| 精品无码久久久久久国产| 奇米影视中文字幕| 亚洲欧美国产精品专区久久| 视频二区调教中字知名国产| 日韩精品欧美国产精品亚| 国产亚洲精品精品精品| 两个人看的WWW在线观看| 狠狠综合久久综合网站| 国产精品美女一区二区| 好叼操这里只有精品| 任你操在线观看| 1000部啪啪未满十八勿入| 日韩在线电影网| 喝丰满女医生奶水电影| AV无码久久久久不卡蜜桃| 欧美丰满大乳高跟鞋| 国产人澡人澡澡澡人碰视频| 一本丁香综合久久久久不卡网站|