中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

什么是最小可行性數(shù)據(jù)產(chǎn)品(MVP)?如何用它做機(jī)器學(xué)習(xí)?

2018-07-10    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
本文作者是一名數(shù)據(jù)科學(xué)家,現(xiàn)在離開了Pivotal公司加入了idealo公司,正在幫助其搭建數(shù)據(jù)科學(xué)團(tuán)隊(duì)以及把機(jī)器學(xué)習(xí)整合到公司的產(chǎn)品中。

在執(zhí)行計(jì)劃的過(guò)程中,他發(fā)現(xiàn),作為一名優(yōu)秀的數(shù)據(jù)科學(xué)團(tuán)隊(duì)的領(lǐng)導(dǎo)人,必須定義機(jī)器學(xué)習(xí)產(chǎn)品路線圖。

結(jié)合自身經(jīng)歷,本文作者帶大家探究一個(gè)好的最小可行性產(chǎn)品(MVP)究竟是什么,以及機(jī)器學(xué)習(xí)產(chǎn)品一個(gè)好的MVP的不同維度究竟有哪些。

什么是MVP?

在Pivotal Labs工作期間,我接觸到了Eric Ries推廣的精益創(chuàng)業(yè)思想。精益創(chuàng)業(yè)其實(shí)是當(dāng)今最一流的產(chǎn)品開發(fā)方法論。其核心思想是,通過(guò)不斷的收集客戶的反饋來(lái)開發(fā)產(chǎn)品或服務(wù),從而可以降低產(chǎn)品/服務(wù)失敗的風(fēng)險(xiǎn)(開發(fā)-衡量-學(xué)習(xí))。

 

 

開發(fā)-衡量-學(xué)習(xí)概念中的一個(gè)不可分割的部分就是MVP,它本質(zhì)上就是“在一個(gè)新產(chǎn)品的版本開發(fā)中,它讓團(tuán)隊(duì)以最小的代價(jià)收集客戶盡可能多的使用后的認(rèn)知”。一個(gè)眾所周知的例子就是,驗(yàn)證交通工具是否會(huì)成功(如下圖所示)。

 

 

我們從最小的代價(jià)開始測(cè)試這個(gè)想法。在這個(gè)案例中,我們只需要兩個(gè)車輪和一塊板子。然后我們將這個(gè)產(chǎn)品推向市場(chǎng),并獲取反饋,增加產(chǎn)品的復(fù)雜性來(lái)不斷改進(jìn)我們的產(chǎn)品。

在這個(gè)案例中,我們以一輛集成了用戶的反饋的汽車告終。一個(gè)大眾熟悉的例子是Airbnb(愛彼迎,旅行房屋租賃社區(qū))。2007年Brian Chesky 和Joe Gebbia想創(chuàng)業(yè),但是無(wú)力承擔(dān)舊金山的房租。

與此同時(shí),有一個(gè)設(shè)計(jì)展會(huì)正要在這個(gè)城市舉辦,他們決定將他們的公寓出租給那些沒(méi)有在附近找到酒店的展會(huì)與會(huì)者。他們?yōu)楣⑴恼,并將照片上傳到一個(gè)簡(jiǎn)單的網(wǎng)站上(見下圖),很快在展會(huì)期間就有三個(gè)付費(fèi)客人。這個(gè)小測(cè)試帶給他們寶貴的領(lǐng)悟:人們?cè)敢飧跺X留在別人的家中而不是去酒店,并且不只是附近的大學(xué)畢業(yè)生才會(huì)注冊(cè)這個(gè)網(wǎng)站。之后他們便創(chuàng)建了Airbnb,接下來(lái)的事大家都知道了。

 

 

與這種方法相反的另一種做法是,將一輛車從車輪逐一構(gòu)建直到底盤,并且在此期間從未推向市場(chǎng)。但是,這種做法代價(jià)很高。在結(jié)束一天工作后,我們可能會(huì)推出一個(gè)客戶并不需要的產(chǎn)品。

讓我們以Juicero(智能榨汁機(jī)初創(chuàng)公司)為例。他們從投資者手中募集了1.2億美元,用于創(chuàng)造一款精心設(shè)計(jì)的榨汁機(jī),經(jīng)過(guò)一段時(shí)間的開發(fā)后以非常高的價(jià)格進(jìn)行發(fā)售(最初的原價(jià)為699美元,隨后降至399美元)。

除了榨汁機(jī),你還可以購(gòu)買裝滿原生水果和蔬菜的果蔬包,每包售價(jià)為5-7美元?赡苡行┤艘呀(jīng)聽說(shuō)過(guò)這個(gè)公司,但這家公司目前已經(jīng)倒閉了,因?yàn)樗](méi)有意識(shí)到其實(shí)客戶并不真正需要一款價(jià)格高昂的榨汁機(jī)來(lái)將果蔬包榨汁。

他們并不真正了解他們的客戶。一個(gè)簡(jiǎn)單的用戶研究就能讓他們意識(shí)到,客戶并不需要昂貴的機(jī)器來(lái)擠榨果蔬包,只需要兩手?jǐn)D壓就足夠了。

 

 

MVP的概念如何與機(jī)器學(xué)習(xí)產(chǎn)品進(jìn)行關(guān)聯(lián)?

MVP概念也可以被應(yīng)用于機(jī)器學(xué)習(xí),因?yàn)樽罱K,機(jī)器學(xué)習(xí)也是整個(gè)產(chǎn)品的一部分或者就是最終產(chǎn)品本身?紤]到這一點(diǎn),我認(rèn)為有三個(gè)重要的維度。

1.最小可行模型

 

 

機(jī)器學(xué)習(xí)產(chǎn)品的一個(gè)重要方面就是建模訓(xùn)練過(guò)程本身。假設(shè)我們有一個(gè)分類問(wèn)題,我們希望將一些數(shù)據(jù)分類到預(yù)定義的類別中,例如熱狗vs.非熱狗分類。

 

 

解決這個(gè)分類問(wèn)題的一種可能的方法是采用一個(gè)包含一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。接下來(lái)我們將訓(xùn)練和評(píng)估此模型。然后根據(jù)結(jié)果,我們可能希望持續(xù)改進(jìn)我們的模型。我們接下來(lái)將增加另一個(gè)隱藏層,然后再進(jìn)行相同的模型訓(xùn)練過(guò)程。

然后再根據(jù)結(jié)果,可能會(huì)增加越來(lái)越多的隱藏層。這種方法非常直接,實(shí)際上是解決熱狗與非熱狗分類問(wèn)題的最佳解決方案,因?yàn)椴恍枰卣鞴こ?我們基本上可以將原始圖片作為輸入數(shù)據(jù))。但是對(duì)于大多數(shù)的分類問(wèn)題,除非它們不是那些像在計(jì)算機(jī)視覺或自然語(yǔ)言處理中遇到的專業(yè)問(wèn)題,否則這不是解決這類問(wèn)題的最佳方法。

深度學(xué)習(xí)的最主要缺點(diǎn)在于其缺乏可解釋性。通過(guò)采用的網(wǎng)絡(luò)種類來(lái)解釋此神經(jīng)網(wǎng)絡(luò)的結(jié)果通常很難。并且你會(huì)花費(fèi)大量的時(shí)間用在神經(jīng)網(wǎng)絡(luò)的調(diào)參上,但對(duì)模型性能的提升卻影響甚微。

從簡(jiǎn)單開始,建立基線。對(duì)于大多數(shù)分類問(wèn)題,從邏輯回歸這類線性模型入手會(huì)比較可行。盡管在許多實(shí)際應(yīng)用中,線性假設(shè)是不切實(shí)際的,但是,邏輯回歸做得相對(duì)好并可以提供基準(zhǔn),亦稱為基準(zhǔn)模型。它的主要優(yōu)點(diǎn)也是可解釋性,并且可以直接得到條件概率,這在很多情況下十分方便。

為了改進(jìn)模型并放寬線性假設(shè)的條件,可以使用基于樹的模型。主要有兩大類這樣的模型,Bagging和Boosting模型。實(shí)際上,它們都使用的是決策樹,只是采用不同的方式訓(xùn)練模型。最后,如果所有的方法都已用,你還想不斷改進(jìn)你的模型,那么我們就可以利用深度學(xué)習(xí)技術(shù)。

2.最小可行性平臺(tái)

 

 

我在Pivotal Labs工作期間,參與了許多項(xiàng)目來(lái)幫助財(cái)富500強(qiáng)企業(yè)開始他們的數(shù)據(jù)旅程。很多項(xiàng)目的共同點(diǎn)是開始對(duì)基礎(chǔ)架構(gòu)進(jìn)行巨額投資。他們花費(fèi)大量資金采購(gòu)大數(shù)據(jù)平臺(tái),即所謂的“數(shù)據(jù)湖”。

但在購(gòu)買之后,他們甚至都不考慮潛在的用例,便將數(shù)據(jù)加載到他們的數(shù)據(jù)湖中。然后,他們聽說(shuō)了一個(gè)名為Apache Spark的東西,并將其添加到基礎(chǔ)設(shè)施層。

現(xiàn)在,由于人工智能已經(jīng)成為流行的風(fēng)潮,他們也開始購(gòu)買GPU,并在其上添加如TensorFlow那樣的深度學(xué)習(xí)框架。在一個(gè)地方擁有所有(酷)工具聽起來(lái)很棒吧?然而,最大的問(wèn)題是,將所有數(shù)據(jù)放入數(shù)據(jù)湖之后,發(fā)現(xiàn)數(shù)據(jù)與用例并不匹配。要么他們沒(méi)有收集到正確的數(shù)據(jù),要么不存在支持潛在用例的數(shù)據(jù)。

更可行的方法不是考慮硬件或者軟件,而更多的是解決問(wèn)題。通過(guò)這種方法,可以盡早了解需要哪些數(shù)據(jù)來(lái)解決問(wèn)題,并且還能避免各種數(shù)據(jù)錯(cuò)誤。除此之外,迄今為止我所看到過(guò)的很多機(jī)器學(xué)習(xí)問(wèn)題,實(shí)際上都可以在本地機(jī)器上解決。他們并不需要對(duì)基礎(chǔ)設(shè)施進(jìn)行巨額投資。

而且,如果數(shù)據(jù)量真的很大,他們可以使用AWS或Google Cloud等云服務(wù)提供商的服務(wù),便可以非常輕松地啟動(dòng)一個(gè)Spark群集。如果他們有一個(gè)深度學(xué)習(xí)問(wèn)題,也會(huì)有很多的選擇。不但可以選擇已經(jīng)提到的云服務(wù)提供商,也可以選擇如FloydHub那樣提供的平臺(tái)級(jí)服務(wù)(PaaS),在云上訓(xùn)練和部署深度學(xué)習(xí)模型。

3.最小可行(數(shù)據(jù))產(chǎn)品

最后,我想談?wù)摰囊稽c(diǎn)是數(shù)據(jù)產(chǎn)品本身。本質(zhì)上,數(shù)據(jù)產(chǎn)品有很多例子,比如聊天機(jī)器人、垃圾郵件檢測(cè)器等等——這個(gè)清單很長(zhǎng)(更多的機(jī)器學(xué)習(xí)產(chǎn)品,請(qǐng)查看Neal Lathia的精彩文章)。但是在這里,鑒于當(dāng)前我在電子商務(wù)領(lǐng)域工作,我將專注于推薦服務(wù)。

 

 

采用簡(jiǎn)單的相似性算法以及使用矩陣分解技術(shù)是一種建立推薦服務(wù)的方法。 最后,我們還可以嘗試使用深度學(xué)習(xí)方法等更加復(fù)雜的模型(例如,深層次的語(yǔ)義模型)。但是,我不建議采用這種方式。推薦是多種形式的。例如,你的朋友給出的建議是推薦,或者前100名最喜歡的產(chǎn)品也是推薦。并非我們所使用的每個(gè)復(fù)雜算法都會(huì)成功,但它必須經(jīng)過(guò)測(cè)試。事實(shí)上,不要害怕在沒(méi)有機(jī)器學(xué)習(xí)的情況下建立推薦服務(wù)。

 

 

因此,正確的方法是像熱門產(chǎn)品那樣首先建立A/B測(cè)試框架和評(píng)估指標(biāo)(例如,跳出率或點(diǎn)擊率),再采用簡(jiǎn)單的方法開始。在測(cè)試之后,確定用戶傾向于點(diǎn)擊這些推薦的項(xiàng)目(有時(shí)他們必須先養(yǎng)成習(xí)慣,特別是如果它是新產(chǎn)品功能的話),最終用戶也可能會(huì)購(gòu)買那些推薦的項(xiàng)目,我們可以嘗試使用諸如協(xié)作過(guò)濾技術(shù)更為復(fù)雜的方法。舉個(gè)例子,我們可以基于購(gòu)買過(guò)此商品的用戶會(huì)對(duì)這類商品感興趣,或者查看此商品的用戶也對(duì)這類商品感興趣來(lái)創(chuàng)建一個(gè)推薦。“用戶對(duì)這個(gè)項(xiàng)目……也對(duì)這些項(xiàng)目感興趣”這類選項(xiàng)可以是無(wú)窮盡的。

總結(jié)

在這篇文章中,我講述了關(guān)于MVP對(duì)機(jī)器學(xué)習(xí)產(chǎn)品的意義的理解。實(shí)質(zhì)上,就是從小處開始不斷迭代。此外,為了更清楚地解釋我對(duì)機(jī)器學(xué)習(xí)產(chǎn)品的MVP代表的意思,我討論了三個(gè)主要維度,我認(rèn)為這對(duì)于優(yōu)秀的MVP數(shù)據(jù)產(chǎn)品至關(guān)重要:

•  最小可行性模型,

•  最小可行性平臺(tái),

•  最小可行(數(shù)據(jù))產(chǎn)品。

標(biāo)簽: Google 大數(shù)據(jù) 大數(shù)據(jù)平臺(tái) 電子商務(wù) 推廣 網(wǎng)絡(luò) 云服務(wù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:Hadoop、storm和Spark的區(qū)別、比較

下一篇:外媒:人類業(yè)余時(shí)間將越來(lái)越多 AI將消滅資本主義