ninazino

You're viewing

ninazino's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

ninazino

...hadoop? Оно того стоит -- с ним разбираться и под него строиться?

Flat | Top-Level Comments Only

From:

verevkin.livejournal.com

Знаком, хотя лично не работал. В кратце - это open-source реализация гугловских алгоритмов MapAndReduce и BidTable. Сверху написаны технологии HBase, Lucene, Hype, Pig и т.д. По отзывам довольно громоздкая система, применимая только в случае обработки больших файлов с большой скоростью и выявления в них паттернов. Обычно ее используют компании, занимающие поисками в интернете и каталогизацией и обработкой найденного.

Для простой Non-SQL базы данных я бы использовал Cassandra или ЖЖ-шный open-source Memcached.

From:

ninazino.livejournal.com

Это не для БД предлагается, а для cloud computing. Я пока в этом совсем не разобралась.

From:

verevkin.livejournal.com

Cloud computing - понятие очень широкое. Что тебе конкретно нужно делать?

Для большинства вещей Cassandra более перепективная и легкая технология. Посмотри у них на странице, какие компани используют ее для своего cloud.

From:

ninazino.livejournal.com

Спасибо. Посмотрю. Нам надо попытаться использовать существующие технологии для балансировки и распределения довольно многочисленных работ по распознаванию речи. Так сказать, оптимизировать этот процесс в туче (или как это по-русски будет?).

From:

verevkin.livejournal.com

В облаке :)Hadoop по ссылке ниже - это HBase.

Выбор технологии будет зависеть от объема данных для каждой задачи (например, если нужно хранить большие документы, то лучше MongoDb/CouchDB, а если маленькие key/value, то Cassandra), от языка программирования (вы же не хотите все переписывать), от того, что вам нужно делать быстро (Cassandra быстрее работает для writes, Hadoop/Hbase для reads), от того, нужна ли вам статистическая обработка (Hadoop и Cassandra могут работать с Lucene) и еще кучи параметров. В интеренете много статей по этому поводу. Но тренд сейчас в сторону Cassandra/MongoDb и подобное, а не Hadoop.

From:

verevkin.livejournal.com

http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

From:

ivan-ghandhi.livejournal.com

Да, нормально. Главное, отделить мух от котлет. Котлеты - это мапредьюс и бигтейбл; мухи - это мучительные api и проблемы инсталляции. Их надо демонстративно игнорировать.

Кстати, если есть выбор, то советую монго. Мапредьюс тоже делает, а внутри вместо неонки джаваскрипт. Обожаю!

Edited Date: 2011-04-26 02:34 am (UTC)

From:

ninazino.livejournal.com

А как это монго искать? Прям так "mongo"? Кагбэ это предлагается для cloud computing -- оно для этого подходит?

From:

ivan-ghandhi.livejournal.com

mongoDB. Оно рулез.

From:

jbaruch.livejournal.com

ну, рулез то оно рулез, но с hadoop сравнение странное. Потому как hadoop это distributed filesystem, а mongodb - document-oriented database. В огороде бузина, а в Киеве дядька. Хотя да, Map-reduce присутствует и там и там.

From:

ninazino.livejournal.com

Вот-вот, уже теплее. Но, кажется, не только distributed filesystem, но и distributed computing -- нет?

From:

procho8954840.livejournal.com

Редко встретишь такой материал.. спасибо

(http://kino-expert.livejournal.com/data/rss/)

(http://mrslesarb.livejournal.com/data/rss/)

(http://netvoekino.livejournal.com/data/rss/)

(http://mrslayer.livejournal.com/data/rss/)

(http://heartless-notes.livejournal.com/data/rss/)

(http://jordanomureno.livejournal.com/data/rss/)

(http://skajizachem.livejournal.com/data/rss/)

(http://bulletformy.livejournal.com/data/rss/)

(http://milliongolosov.livejournal.com/data/rss/)

(http://feelmyeyes.livejournal.com/data/rss/)

From:

jbaruch.livejournal.com

Это general-purpose distributed filesystem. Нынче очень модно на него чего-нить сверху нацепить, hbase какой-нить, а потом удивляться "ой, так это-ж Cassandra получилась!"
Стоит ли оно того и нужно ли под него строиться очень зависит от конкретной задачи. Огород пропалывать, например, неудобно.

From:

ninazino.livejournal.com

Задача -- распределять большое количество jobs между компутерами в оптимизированном виде. Конкретнее -- работ по распознаванию речи. Вот приходит много запросов, а их надо быстро и грамотно разбросать по серверам, желательно при этом -- минимизируя необходимость перезагрузки языковых моделей.

From:

debedb.livejournal.com

define a "job".

Flat | Top-Level Comments Only

Profile

ninazino

March 2026

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Page Summary

Style Credit

Style: Over The Hills for Bannering by branchandroot
Resources: OpenClipart

Expand Cut Tags

No cut tags

Page generated Mar. 16th, 2026 06:19 pm

А кто-нить знаком с таким понятием, как

А кто-нить знаком с таким понятием, как

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

cool:)

no subject

no subject

no subject

Profile

March 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags