AI趨勢周報第185期:GitHub優化程式碼掃描功能,自動揪出潛在安全漏洞


GitHub用先前開發的程式碼掃描工具CodeQL作為貼標器,用來標註10萬多個開放程式碼庫中的程式碼(安全風險),來訓練AI模型,來揪出使用者程式碼中潛在的安全漏洞。


圖片來源: 

GitHub


重點新聞(0225~0303)


  GitHub     安全漏洞     程式碼掃描  


GitHub優化程式碼掃描功能,自動揪出潛在安全漏洞


GitHub以先前開發的程式碼掃描工具CodeQL為基礎,利用機器學習來強化這個規則式工具,讓它也能揪出較難察覺的潛在安全漏洞。他們先用已訓練的ML模型,來辨識部分程式碼的安全風險,先確認效果。結果顯示,監督式學習效果較好,GitHub接著用CodeQL當作規則,來判斷數百萬的程式碼片段是否安全,等於輕鬆標註10萬多個開放庫中的程式碼。這些資料,也用來開發模型,作為訓練資料集。


GitHub也設計一套方法,來測試模型是否能偵測新漏洞,而非只限於現有的CodeQL規則。他們用之前產生的標籤來訓練模型,再用CodeQL最近偵測的新漏洞來測試模型,測驗召回率為80%。特別的是,GitHub所用的檢測方法,並不是把程式碼視為文本,以NLP方法來辨識,而是用CodeQL規則來辨識特徵,比如存取路徑、API名稱、封閉函式主體等。



Meta AI     推薦系統     TorchRec  


Meta開源用來訓練參數破兆的超大推薦系統函式庫


與NLP和電腦視覺相比,推薦系統相關的開源資源一直是比較少的。Meta旗下AI研究院最近就釋出一款推薦系統專用的領域函式庫,內含常見的稀疏性和平行化基本程式碼,開發者可用來打造大型推薦系統,也能用這個函式庫來訓練模型,特別是擁有跨多GPU的大型嵌入式表格。


TorchRec的架構專為大規模推薦AI而生,更用來驅動Meta內部複雜的推薦模型。比如,Meta用它來訓練一套1.25兆參數的模型,今年1月上線,目前還正訓練一套3兆參數的模型,準備在近期上線。


  防災      屏東縣     行動數據資料庫  


屏東縣政府打造智慧防災系統,分秒就能掌握災情應對


屏東縣政府近日揭露智慧水管理成果,借助大數據分析和AI打造一系列防水災應用系統,將以前需要數天、數小時以上的反應時間,縮短為數分鐘、數秒鐘。


比如,他們有套系統能根據地層下陷區域的淹水深度,來提供快速退水的策略,像是抽水機布設調度和水門操作等。另一個則是全時的預警系統,每小時自動提供未來1至3小時的河道水位早期預警,來保留黃金疏散避難時間。到今年為止,這個預警水系已涵蓋10條共15個鄉鎮。另外也整合34處內水感測器和聊天機器人、智慧定位技術,來打造行動數據資料庫,讓執勤人員快速掌握鄰近地點的水情、災情和建物資訊。




  通用翻譯     LASER     FLORES  


Meta發起通用翻譯專案,要用AI打破語言翻譯障礙


機器翻譯系統在這幾年快速進步,但模型仍需從大量的文本中學習,因此資源稀少的語言,仍然是機器翻譯的一大挑戰。為解決這個問題,Meta做了兩件事,一件是發起No Language Left Behind專案,也就是一套新AI模型,專門針對文字翻譯,能從少量樣本中學習,進行高品質翻譯。適用語言可達上百種,從阿斯圖里亞斯語、盧干達語再到烏爾都語都包括在內。另一件則是通用口譯專案,要即時將源語翻譯為目的語。這個專案,對沒有正規書寫系統的語言非常有幫助。


為自動打造低資源語言資料集,Meta先是開發一套開源工具包LASER,涵蓋125種語言。LASER將多種語言句子整合為單一的多語言表徵。接著,團隊用一個大規模多語言搜尋器,來定位表徵相似的語句,或是不同語言中,意思相似的句子。為克服資料稀缺性,團隊也開發了師生模型,讓LASER可跨多種語言大規模運作。這種訓練方法,也讓LASER能專注從少量樣本學習資源稀缺的語言。


團隊也用LASER來處理語音翻譯,讓使用者可從源語語音和目的語文字間抽取翻譯。Meta也用其他方法來優化模型訓練,提高大模型的訓練效率,同時,這種大量多語言的模型,還需要獨特的基準測試來評估模型表現,因此,團隊也採用涵蓋101種語言的FLORES-101資料集,來評估大量多種語言的翻譯效能。目前,他們一邊改善模型,也一邊擴展FLORES的語言種類。


測試專家告訴你如何好好使用示波器

示波器主要由電源系統、同步系統、水平偏向系統、垂直偏向系統、延遲掃描系統、顯示系統和標準訊號源等部封包成。




隨時健康喝好水,高品質飲水機,優質安全有把關

飲水機的問題主要有三個方面,一是水沸騰溫度不足,絕大多數的飲水機最高溫度是95度,再沸騰溫度是90度,泡茶殺菌的溫度不夠





無毒橡膠墊片哪裡買的到?

橡膠傳入英國後,人們發現這種物料能很有效地擦去鉛筆留下的痕跡,於是發明了橡皮擦。橡膠英文名rubber是由1770年時英國普利斯特里因發現此物質能擦去(rub off)鉛筆筆跡。按照製成方式的不同,橡膠可以分為合成橡膠和天然橡膠兩種。




買不起高檔茶葉,精緻包裝茶葉罐,也能撐場面!

紫砂茶葉罐是多孔性材料製成,透氣性非常好,因為罐子多微小氣孔,用來存放茶葉,不僅能保鮮鮮,還能消除茶葉中的異雜味。 但也是因為多孔,所以紫砂茶葉罐容易吸收茶葉的香味。






  DeepMind    核融合       發電  


DeepMind成功用AI控制環磁機,推進核融合發電研究


Deepmind成功用深度強化學習和模擬環境學習架構,來控制瑞士洛桑的可變配置環磁機(TCV)控制器,順利控制核融合電漿。DeepMind不只能用系統保持電漿穩定,也能精確雕塑成各種形狀,意味著強化學習可用來控制過熱物質,讓科學家更理解核融合反應爐。


進一步來說,在地球上進行核融合很難,一般使用環磁機裝置,在甜甜圈形狀的真空外圍包覆電磁線圈,來把比太陽核心更熱的氫電漿約束在真空中。但這樣的氫電漿很不穩定,控制系統得協調環磁機中的電磁線圈,必須每秒數千次調整線圈電壓。


而Deepmind的深度強化系統能自動控制線圈,將電漿穩定約束在環磁機中。他們先在模擬環境中控制TCV,再在真正的TCV上驗證。在模擬器中,Deepmind以單個神經網路,一次控制所有線圈,自動學習可達到最佳電漿配置的電壓,同時建立一系列電漿形狀,來試驗能量生產的可用性。除了實際驗證都成功外,他們也發現,深度強化學習能實現TCV過去做不到的事,像是在穩定容器內同時維持兩個水滴形狀的電漿;研究員只改變要求,演算法就能自動找到適合的控制方式。



  雲象     淋巴瘤     奇美醫院  


雲象揭露淋巴瘤偵測AI成果,超高準確度接近最佳演算法效果


專攻數位病理AI的雲象科技與奇美醫院共同打造T細胞淋巴瘤偵測AI,可準確框出淋巴瘤細胞核、計算面積,AUC值達到0.966(完美演算法為1.0)。進一步來說,T細胞淋巴瘤是少見的疾病,其中又有兩類難以分別,一是單形性上皮腸T細胞淋巴瘤,另一是腸道T細胞淋巴瘤,非常仰賴經驗豐富的病理科醫師,根據細胞核大小變異度、形態分布和免疫表現型來判斷。


為解決問題,奇美醫院醫學中心病理部部長兼解剖病理科主任莊世松聯手雲象,用數千顆細胞核的標註資料來訓練模型,來偵測淋巴瘤細胞核、描繪輪廓,並進一步計算每個細胞核的面積、長短軸比例,再根據這些資訊來判斷是哪一種淋巴瘤,預測水準可高達AUC 0.966。這項研究成果,最近也刊於國際知名醫療期刊《Cancers》。


  Google     碳排放     4Ms  


碳排量最多減少1000倍!Google新ML碳排量預測法能找出更省碳的運算配置


機器學習已成為企業標配,但它產生的碳排量,也開始成為焦點。Google在IEEE Computer發表一篇機器學習碳足跡論文,可透過準確的資料來評估機器學習實際碳排量,並提出4Ms原則,最多能降低使用能源的100倍,減少碳排放量1,000倍。Google也用這些方法,將機器學習所占的總能源使用量壓低在15%以下。


4Ms原則分別指模型(Model)、機器(Machine)、機械化(Mechanization)和地圖最佳化(Map Optimization)。Google指出,用高效機器學習模型架構,如稀疏模型,不僅能提高機器學習品質,還能夠降低3倍到10倍運算量。而機器是指,採用機器學習專用處理器與系統,能將效能提高至2倍到5倍。


機械化的配置,讓資料中心效率比企業本地端配置要高上許多,使用雲端運算可減少能源使用,碳排放量減少1.4倍到2倍。地圖最佳化則是雲端可讓用戶選擇使用能源最乾淨的位置,進而將總碳足跡減少5倍到10倍。Google自己也落實4Ms原則,在4年內總共減少747倍碳足跡。



圖片來源/GitHub、屏東縣政府、Meta、DeepMind、Google


  AI近期新聞 


1. 美著作權局判定AI不具有繪圖著作權


2. 新竹縣7處將啟用影像辨識科技執法


3. Google Docs內建AI自動產生文件摘要


資料來源:iThome整理,2022年3月

https://www.ithome.com.tw/news/149661

一般貨櫃標準尺寸?

金誠貨櫃尺寸種類分別為,20呎櫃、20呎高櫃、40呎櫃、40呎高櫃、20呎冷凍櫃、400呎冷凍櫃。


找工作! 想知道堆高機駕駛日薪是多少嗎? 哪裡有職缺?幫你快速媒合

堆高機,又稱叉架起貨機或叉式起重車,香港稱為鏟車,中國大陸稱為叉車,台灣國語稱為堆高機,台語俗稱豬哥(ti-ko),是指工廠、倉儲等地方對成件托盤貨物進行裝卸、堆垛和短距離運輸作業的各種輪式搬運車輛。國際標準化組織ISO/TC110稱為工業車輛。堆高機的發展於1920年代,今天在生產和倉儲運營過程中它已成為不可或缺的設備。






攻戰消費者第一視覺,包裝設計很重要!

包裝設計是指對包裝的形狀、大小、構造及包裝材料等方面進行創造或選擇並以適當方式吸引消費者的注意力,進而增加購買率,以及對使用者友善之特性。




CCD外觀檢查包裝機

品質優益穩定,效率高成本低,並已獲得國內外大廠承認使用,品質合乎EIA國際標準, 此外也針對客戶端的需要代客Tape and Reel封裝服務。





Orignal From: AI趨勢周報第185期:GitHub優化程式碼掃描功能,自動揪出潛在安全漏洞

留言